Table of Contents
Welcome to GenoGlobe.com!
Welcome to Haeyoung JEONG's official website, GenoGlobe.com! My secondary domain (GenoGlobe.kr) will be forwarded to this website.
I am a molecular biologist and genome scientist working for Korea Research Institute of Bioscience and Biotechnology. GenoGlobe means Genome + Globe, which implies my desire to learn from genomes and lives on earth (or other planets, such as Mars?). You can read more about my professional research profile from ORCiD or Google Scholar.
Please visit my blog if you want to send me a message through contact form (only shown from PC browsers) or use this form directly: Send Feedback
엄격한 기준으로 구분하였을 때 학술 논문이 아닌 것으로서 외부 매체에 기고했던 글 목록은 여기를 참고하십시오. 주로 미생물 유전체를 다루는 생명정보학과 관련하여 제가 작성한 글은 별도의 위키 사이트에 있습니다. 블로그에는 업무 및 취미와 관련한 잡다한 글이 있습니다. 블로그에는 저에게 이메일을 보낼 수 있는 양식이 있으니 참고하십시오. 단, PC 버전의 웹브라우저에서만 보이는 것 같습니다. 또는 다음을 클릭하세요: Send Feedback
이곳은 원래 저의 취미와 관련한 글을 체계적으로 작성하기 위해 만든 DokuWiki 기반의 웹사이트였다가 2023년 9월 7일 GenoGlobe.com의 공식 웹사이트 역할을 겸하게 되면서 다소 복합적인 성격을 갖게 되었습니다. 위키 기반이지만 첫 페이지는 블로그 형식(아래의 '새 소식')이라서 더욱 그렇습니다. '새 소식'은 자료를 모아서 분석하고 오래 생각하여 쓰는 글이 아닙니다. 저에게 이곳은 트위터나 페이스북과 같은 것으로, 예전에 사용하던 Google+를 대신하여 가벼운 생각을 기록하는 곳에 해당합니다. ChatGPT에게 키워드를 제시하고 자동으로 쓴 글도 포함되어 있으며, 이러한 글은 마지막 부분에 자동 작성된 것임을 밝혀 놓았습니다.
새 소식
The Illusion of Measuring AI-Ready Data
AI 데이터는 과연 숫자로 세어지는가
Structural Problems in Surveying Research Data Holdings of Public Research Institutions
Date: 2026-02-13
공공연구기관을 대상으로 연구데이터 보유 현황을 조사하려는 움직임이 보인다. 취지는 분명하다. 국가 차원에서 AI 전략을 수립하려면, 활용 가능한 데이터가 얼마나 있는지 파악해야 한다는 논리다.
그러나 여기에는 결정적인 문제가 있다.
AI-ready 데이터가 무엇인지 합의하지 않은 상태에서 그 양을 묻는 것은, 통계가 아니라 착시를 생산하는 일이다.
1. "많다"는 것이 왜 위험한가
연구기관은 이미 방대한 데이터를 보유하고 있다.
- 수십~수백 테라바이트의 시퀀싱 데이터
- 수만 건의 임상 기록
- 수천 건의 실험 결과 파일
이 숫자는 보고서에 적기에는 좋다. 그러나 AI 관점에서 보면 이 숫자는 거의 의미가 없다.
AI는 파일의 수를 학습하지 않는다.
정합된(feature-ready) 데이터를 학습한다.
reference genome이 혼재되어 있고, 단위가 통일되지 않았으며, 메타데이터가 서술형 텍스트로 흩어져 있다면, 그 데이터는 AI-ready가 아니다. 단지 저장된 파일일 뿐이다.
그럼에도 “우리는 이미 방대한 데이터를 보유하고 있다”는 서사는 정책적 자기위안을 만들어낸다. 이것이 가장 위험하다.
2. AI-ready 데이터의 정의 없이 시작되는 조사
조사를 시작하면 곧바로 질문이 나온다.
- 표준화란 무엇인가?
- 메타데이터 완비란 무엇인가?
- 어느 수준부터 AI-ready로 볼 것인가?
이 정의가 선행되지 않으면, 각 기관은 각자의 기준으로 보고서를 작성한다. 결과는 비교 불가능한 숫자들의 나열이다.
어떤 기관은 “표준 포맷을 사용한다”는 이유로 AI-ready라고 보고할 것이고,
어떤 기관은 “추가 정제 필요”라며 보수적으로 보고할 것이다.
정의가 없으면, 수치는 정책이 아니라 정치가 된다.
3. 행정력 소모의 본질
이러한 조사는 상당한 행정력을 요구한다.
- 내부 데이터 재분류
- 형식적 표준 문서 작성
- 메타데이터 정리
- 자체 점검 보고서 작성
그러나 이것이 실제 데이터 품질을 높이는가?
대부분은 “설명 문서”가 늘어날 뿐, 데이터 자체는 변하지 않는다.
AI-ready는 문서 작성으로 달성되지 않는다.
정제 파이프라인 구축과 정합성 개선이라는 기술 작업을 통해 달성된다.
조사가 기술적 개선으로 이어지지 않는다면, 그것은 행정적 순환에 불과하다.
4. 보유량 중심 사고의 구조적 오류
보유량을 묻는 질문은 이렇게 전제한다.
데이터가 많으면 AI도 잘 될 것이다.
그러나 현실은 다르다.
- 데이터 통합 비용은 기하급수적으로 증가한다.
- 법적 활용 가능 여부가 불명확하면 학습에 사용할 수 없다.
- 메타데이터가 부실하면 재현성이 확보되지 않는다.
- 데이터가 이질적이면 모델 편향이 발생한다.
결국 “많다”는 것은 오히려 정제 비용이 많이 든다는 뜻일 수도 있다.
양은 전략의 지표가 아니다.
정합성과 활용 가능성이 전략의 지표다.
5. 조사의 순서가 뒤바뀌었다
논리적 순서는 이렇다.
- AI-ready의 기술적 정의 수립
- 최소 기준선 설정
- 측정 가능한 지표 설계
- 그 기준에 따른 현황 조사
그러나 지금은 4번이 먼저 나오는 분위기다.
이 순서가 뒤바뀌면, 정의는 조사 결과에 맞춰 사후적으로 조정된다. 그 순간 정책은 기준을 만드는 것이 아니라 숫자를 정당화하는 작업이 된다.
6. 더 근본적인 질문
우리는 무엇을 알고 싶은가?
- 저장 용량인가?
- 연구 실적 증빙인가?
- 아니면 실제로 AI 모델을 학습시킬 수 있는 준비 상태인가?
이 질문이 분명하지 않으면, 조사 자체가 목적이 된다.
Conclusion
공공연구기관의 데이터 보유 현황을 파악하는 일 자체를 부정할 수는 없다. 그러나 AI-ready라는 개념이 명확히 정의되지 않은 상태에서 그 양을 묻는 것은 전략이 아니라 형식이다.
데이터의 양을 세는 것은 쉽다.
데이터의 준비도를 정의하는 것은 어렵다.
그러나 국가 AI 전략에 필요한 것은 쉬운 일이 아니라 어려운 일이다.
AI-ready 데이터는 숫자로 존재하는 것이 아니라, 정합성·표준화·법적 활용 가능성이라는 조건 위에서 존재한다. 그 조건을 정의하지 않은 채 시작되는 전수 조사는, 실질적 준비도를 높이기보다 행정적 착시를 키울 가능성이 크다.
지금 필요한 것은 데이터의 규모를 증명하는 보고서가 아니라,
AI가 실제로 사용할 수 있는 데이터의 조건을 합의하는 일이다.
저자 및 이용 안내
이 문서는 정해영의 아이디어와 지시에 따라 AI 도구(ChatGPT)의 도움을 받아 작성되었습니다.
본 문서는 Creative Commons CC0 1.0 Universal Public Domain Dedication에 따라
누구나 자유롭게 복제, 수정, 배포, 활용할 수 있으며, 출처 표시도 필요하지 않습니다.
다만, 내용의 정확성은 보장되지 않았으며, 정해영은 본 문서의 내용에 대해 어떠한 법적 책임도 지지 않습니다.
Authorship and Usage Notice
This document was written with the assistance of an AI tool (ChatGPT), based on the ideas and direction provided by Haeyoung Jeong.
It is released under the Creative Commons CC0 1.0 Universal Public Domain Dedication.
Anyone may freely copy, modify, distribute, and use the content, with no requirement for attribution.
However, the accuracy of the content is not guaranteed, and Haeyoung Jeong assumes no legal responsibility for its use.
Why Does Code Regress?
코드를 고치다 보면, 우리는 왜 과거로 돌아갈까
코드를 고치다 보면 이상한 경험을 하게 된다. 분명히 예전에 해결했던 문제가, 어느 날 다시 고개를 든다. 어제까지 잘 동작하던 기능이 오늘은 다시 망가져 있다. 마치 코드가 시간을 거슬러 올라간 것처럼 느껴질 때가 있다.
이 현상은 우연이 아니다. 그리고 대부분의 개발자는 한 번쯤 이른바 회귀(regression) 를 경험한다.
코드는 텍스트가 아니라 ‘상태의 합’이다
코드는 단순한 소스 파일의 나열이 아니다. 그것은 수많은 가정, 전제, 상태가 얽혀 있는 구조물이다.
- 이 함수는 이런 값이 들어온다는 가정
- 이 플래그는 여기서만 바뀐다는 믿음
- 이 호출은 항상 이 순서로 이루어진다는 암묵적 전제
우리는 보통 눈앞에 보이는 문제 하나를 고친다. 하지만 그 문제를 둘러싼 *상태의 균형*까지 함께 조정하지는 못한다.
그 결과, 하나를 고치면 다른 곳에서 과거의 버그가 다시 살아난다.
“이제 안 쓰는 코드”는 생각보다 잘 죽지 않는다
개발을 하다 보면 이런 말을 자주 한다.
“이 경로는 이제 안 타요.”
“이 옵션은 더 이상 안 씁니다.”
“이건 deprecated 상태예요.”
하지만 실제로 완전히 죽은 코드는 드물다. 특히 다음과 같은 코드들은 매우 위험하다.
- 디버그를 위해 남겨둔 분기
- 실험하다가 주석 처리한 로직
- “혹시 몰라서” 유지한 예외 처리
새 기능이 추가되는 순간, 이 유령 같은 코드들이 다시 호출되며 과거를 재현한다.
사람의 기억은 Git 로그보다 짧다
어느 순간 우리는 이런 질문을 하게 된다.
“이걸 왜 이렇게 짰더라?”
이유는 단순하다. 사람의 기억은 설계 의도를 오래 보존하지 못하기 때문이다.
- 당시 왜 이런 구조를 선택했는지
- 어떤 대안을 포기했는지
- 어떤 버그를 피하기 위한 우회였는지
이런 맥락은 코드에 온전히 남아 있지 않다. 그래서 우리는 같은 실수를, 더 세련된 형태로 반복한다.
회귀는 실력의 문제가 아니라 규모의 문제다
버그가 되살아났을 때 우리는 종종 자신을 탓한다.
“내가 실수했나?”
“설계를 잘못한 걸까?”
하지만 대부분의 회귀는 시스템이 커졌다는 신호에 가깝다.
- 기능은 늘었고
- 실행 경로는 많아졌으며
- 상호작용은 예측하기 어려워졌다
이 상태에서 과거의 안정성을 그대로 유지하는 것은 개인의 실력이 아니라 구조와 도구의 문제다.
그래서 우리는 기록하고, 분리하고, 되돌릴 수 있어야 한다
회귀를 완전히 없앨 수는 없다. 하지만 되돌아가는 비용은 줄일 수 있다.
- 무엇을 고쳤는지가 아니라 왜 고쳤는지를 남기는 커밋 메시지
- “이건 여기까지만 책임진다”는 명확한 경계
- 언제든 이전 상태로 돌아갈 수 있는 구조
이것들은 단순한 개발 습관이 아니다. 시간과 싸우는 방법에 가깝다.
맺으며
코드를 고치다 과거로 돌아가는 경험은 실패의 증거가 아니다.
그것은 우리가 살아 있는 시스템을 다루고 있다는 증거이며, 더 나은 구조로 나아가라는 신호이기도 하다.
회귀는 피해야 할 적이 아니라, 시스템이 성장하고 있다는 흔적일지도 모른다.
그리고 다음에 같은 문제가 다시 나타났을 때, 우리는 이렇게 말할 수 있을 것이다.
“아, 이건 예전에 한 번 왔던 길이네.”
그때의 우리는 이미 조금 더 나아가 있을 것이다.
저자 및 이용 안내
이 문서는 정해영의 아이디어와 지시에 따라 AI 도구(ChatGPT)의 도움을 받아 작성되었습니다. 본 문서는 Creative Commons CC0 1.0 Universal Public Domain Dedication에 따라 누구나 자유롭게 복제, 수정, 배포, 활용할 수 있으며, 출처 표시도 필요하지 않습니다. 다만, 내용의 정확성은 보장되지 않았으며, 정해영은 본 문서의 내용에 대해 어떠한 법적 책임도 지지 않습니다.
Authorship and Usage Notice
This document was written with the assistance of an AI tool (ChatGPT), based on the ideas and direction provided by Haeyoung Jeong. It is released under the Creative Commons CC0 1.0 Universal Public Domain Dedication. Anyone may freely copy, modify, distribute, and use the content, with no requirement for attribution. However, the accuracy of the content is not guaranteed, and Haeyoung Jeong assumes no legal responsibility for its use.
모든 곳이 베네수엘라는 아니다
홍기빈의 두 번째 의견 - 모든 곳이 베네수엘라는 아니다 경향신문 2026년 1월 5일
‘K자 경제’ 위기 빠진 미국, 양극화 심각하다는데…한국 경제는?
Recording AI-Assisted Thinking Still Matters
AI와의 대화를 (정리하여) 기록하는 행위는 여전히 의미가 있는가
AI와의 대화를 통해 얻은 기술적 지식과 판단을 개인 블로그에 기록하는 것이 어떤 의미를 가지는지에 대해 스스로 질문하게 된다. 누구나 AI를 사용하면 같은 정보를 얻을 수 있는 시대에, 이러한 기록 행위는 과연 어떤 가치를 가지는가?
이 질문에 대해 긍정적인 측면과 부정적인 측면을 나누어 정리해 본다.
이러한 고민을 하게 된 오늘의 기록은 바로 다음의 글이다.
저해상도 로고 이미지를 두 단계에 걸쳐 SVG로 전환해 보자
긍정적 의미
1. 정보가 아니라 맥락을 기록한다
AI는 언제든 동일한 정보를 제공할 수 있다. 그러나 기록에는 다음과 같은 요소가 포함된다.
- 왜 이 문제를 풀고 있었는지
- 어떤 시도는 왜 버려졌는지
- 어느 지점에서 판단이 바뀌었는지
- 도구를 신뢰하지 않게 된 이유는 무엇이었는지
이러한 맥락의 연쇄는 질문을 던진 사람만이 남길 수 있다. AI는 설명할 수는 있어도, 이 사고의 흐름을 대신 생성하지는 못한다.
2. 결과가 아니라 사고 과정을 재현 가능하게 만든다
지금은 결과 자체보다 판단 과정이 더 중요해진 시대다.
- 결과: SVG 로고 파일
- 과정:
- 저해상도 래스터 이미지라는 제약
- 베지어 트레이싱의 구조적 한계 인식
- 폴리곤 벡터화 후 인간이 곡선을 복원하는 전략 선택
이 기록은 도구 사용법이 아니라, 문제를 해석하고 해결하는 사고의 구조를 남긴다.
3. 블로그는 AI 시대의 작업 일지가 된다
이제 블로그는 단순한 지식 저장소가 아니다.
- 어떤 질문을 던졌는가
- 어느 설명에서 의심이 생겼는가
- 언제 자동화를 포기했는가
이러한 기록은 검색으로는 도달할 수 없는 콘텐츠가 된다. 블로그는 결과가 아니라 사고의 흔적을 남기는 공간으로 역할이 바뀌고 있다.
4. 누구나 알 수 있는 정보와, 누구나 하지 않는 질문은 다르다
정보 접근이 평준화되면 차이는 질문에서 발생한다.
- 베지어 트레이싱은 알리아싱 이미지에 취약하지 않은가?
- 폴리곤 벡터화는 곡선을 의도적으로 사용하지 않은 선택 아닌가?
- 자동화가 오히려 품질을 해치는 지점은 어디인가?
이 질문 자체가 이미 기록할 가치가 있는 판단의 산물이다.
부정적 측면
1. 정보 제공형 블로그로서의 가치는 줄어든다
단순한 기능 설명이나 사용법 정리는 AI, 공식 문서, 영상 콘텐츠로 빠르게 대체된다. 이 점에서 “굳이 내가 써야 할 이유”에 대한 회의는 충분히 타당하다.
2. 기록이 자기만족으로 끝날 위험
AI와의 대화는 밀도가 높고 즉각적인 반응을 제공한다. 이를 그대로 옮기면 독자에게는 맥락 없는 독백처럼 보일 수 있다.
기록에는 편집과 재구성이 필요하다.
3. 나의 통찰과 AI의 설명 경계가 흐려질 수 있다
독자 입장에서는 어디까지가 개인의 판단이고, 어디부터가 AI의 설명인지 구분하기 어려울 수 있다. 대화를 그대로 옮기는 방식은 기록의 힘을 약화시킬 수 있다.
기록이 의미를 가지기 위한 조건
- 배운 내용보다 판단이 이루어진 지점을 기록할 것
- 실패와 우회를 숨기지 않을 것
- AI를 출처가 아니라 사고를 촉발한 대화 상대로 명시할 것
정리
누구나 AI를 통해 정보를 얻을 수 있는 시대가 되었지만, 사고가 형성되는 과정을 기록한 글은 오히려 더 희귀해지고 있다.
이 기록은 기술을 배운 기록이 아니라, 기술을 맹신하지 않게 된 순간들을 남기는 행위다.
저자 및 이용 안내
이 문서는 정해영의 아이디어와 지시에 따라 AI 도구(ChatGPT)의 도움을 받아 작성되었습니다. 본 문서는 Creative Commons CC0 1.0 Universal Public Domain Dedication에 따라 누구나 자유롭게 복제, 수정, 배포, 활용할 수 있으며, 출처 표시도 필요하지 않습니다. 다만, 내용의 정확성은 보장되지 않았으며, 정해영은 본 문서의 내용에 대해 어떠한 법적 책임도 지지 않습니다.
Authorship and Usage Notice
This document was written with the assistance of an AI tool (ChatGPT), based on the ideas and direction provided by Haeyoung Jeong. It is released under the Creative Commons CC0 1.0 Universal Public Domain Dedication. Anyone may freely copy, modify, distribute, and use the content, with no requirement for attribution. However, the accuracy of the content is not guaranteed, and Haeyoung Jeong assumes no legal responsibility for its use.
블로그 보관함
- 2026:
- 2025:
- 2024:
- 2023:
- 2022:
- 2021:
1 Post(s) for February 2026
| The Illusion of Measuring AI-Ready Data | 2026/02/13 09:16 | Haeyoung Jeong |
