This is an old revision of the document!
Table of Contents
The Illusion of Measuring AI-Ready Data"
Structural Problems in Surveying Research Data Holdings of Public Research Institutions
Date: 2026-02-13
공공연구기관을 대상으로 연구데이터 보유 현황을 조사하려는 움직임이 보인다. 취지는 분명하다. 국가 차원에서 AI 전략을 수립하려면, 활용 가능한 데이터가 얼마나 있는지 파악해야 한다는 논리다.
그러나 여기에는 결정적인 문제가 있다.
AI-ready 데이터가 무엇인지 합의하지 않은 상태에서 그 양을 묻는 것은, 통계가 아니라 착시를 생산하는 일이다.
1. "많다"는 것이 왜 위험한가
연구기관은 이미 방대한 데이터를 보유하고 있다.
- 수십~수백 테라바이트의 시퀀싱 데이터\
- 수만 건의 임상 기록\
- 수천 건의 실험 결과 파일
이 숫자는 보고서에 적기에는 좋다. 그러나 AI 관점에서 보면 이 숫자는 거의 의미가 없다.
AI는 파일의 수를 학습하지 않는다.
정합된(feature-ready) 데이터를 학습한다.
reference genome이 혼재되어 있고, 단위가 통일되지 않았으며, 메타데이터가 서술형 텍스트로 흩어져 있다면, 그 데이터는 AI-ready가 아니다. 단지 저장된 파일일 뿐이다.
그럼에도 “우리는 이미 방대한 데이터를 보유하고 있다”는 서사는 정책적 자기위안을 만들어낸다. 이것이 가장 위험하다.
2. AI-ready 데이터의 정의 없이 시작되는 조사
조사를 시작하면 곧바로 질문이 나온다.
- 표준화란 무엇인가?\
- 메타데이터 완비란 무엇인가?\
- 어느 수준부터 AI-ready로 볼 것인가?
이 정의가 선행되지 않으면, 각 기관은 각자의 기준으로 보고서를 작성한다. 결과는 비교 불가능한 숫자들의 나열이다.
어떤 기관은 “표준 포맷을 사용한다”는 이유로 AI-ready라고 보고할 것이고,
어떤 기관은 “추가 정제 필요”라며 보수적으로 보고할 것이다.
정의가 없으면, 수치는 정책이 아니라 정치가 된다.
3. 행정력 소모의 본질
이러한 조사는 상당한 행정력을 요구한다.
- 내부 데이터 재분류\
- 형식적 표준 문서 작성\
- 메타데이터 정리\
- 자체 점검 보고서 작성
그러나 이것이 실제 데이터 품질을 높이는가?
대부분은 “설명 문서”가 늘어날 뿐, 데이터 자체는 변하지 않는다.
AI-ready는 문서 작성으로 달성되지 않는다.
정제 파이프라인 구축과 정합성 개선이라는 기술 작업을 통해 달성된다.
조사가 기술적 개선으로 이어지지 않는다면, 그것은 행정적 순환에 불과하다.
4. 보유량 중심 사고의 구조적 오류
보유량을 묻는 질문은 이렇게 전제한다.
데이터가 많으면 AI도 잘 될 것이다.
그러나 현실은 다르다.
- 데이터 통합 비용은 기하급수적으로 증가한다.\
- 법적 활용 가능 여부가 불명확하면 학습에 사용할 수 없다.\
- 메타데이터가 부실하면 재현성이 확보되지 않는다.\
- 데이터가 이질적이면 모델 편향이 발생한다.
결국 “많다”는 것은 오히려 정제 비용이 많이 든다는 뜻일 수도 있다.
양은 전략의 지표가 아니다.
정합성과 활용 가능성이 전략의 지표다.
5. 조사의 순서가 뒤바뀌었다
논리적 순서는 이렇다.
- AI-ready의 기술적 정의 수립\
- 최소 기준선 설정\
- 측정 가능한 지표 설계\
- 그 기준에 따른 현황 조사
그러나 지금은 4번이 먼저 나오는 분위기다.
이 순서가 뒤바뀌면, 정의는 조사 결과에 맞춰 사후적으로 조정된다. 그 순간 정책은 기준을 만드는 것이 아니라 숫자를 정당화하는 작업이 된다.
6. 더 근본적인 질문
우리는 무엇을 알고 싶은가?
- 저장 용량인가?\
- 연구 실적 증빙인가?\
- 아니면 실제로 AI 모델을 학습시킬 수 있는 준비 상태인가?
이 질문이 분명하지 않으면, 조사 자체가 목적이 된다.
Conclusion
공공연구기관의 데이터 보유 현황을 파악하는 일 자체를 부정할 수는 없다. 그러나 AI-ready라는 개념이 명확히 정의되지 않은 상태에서 그 양을 묻는 것은 전략이 아니라 형식이다.
데이터의 양을 세는 것은 쉽다.
데이터의 준비도를 정의하는 것은 어렵다.
그러나 국가 AI 전략에 필요한 것은 쉬운 일이 아니라 어려운 일이다.
AI-ready 데이터는 숫자로 존재하는 것이 아니라, 정합성·표준화·법적 활용 가능성이라는 조건 위에서 존재한다. 그 조건을 정의하지 않은 채 시작되는 전수 조사는, 실질적 준비도를 높이기보다 행정적 착시를 키울 가능성이 크다.
지금 필요한 것은 데이터의 규모를 증명하는 보고서가 아니라,
AI가 실제로 사용할 수 있는 데이터의 조건을 합의하는 일이다.
저자 및 이용 안내
이 문서는 정해영의 아이디어와 지시에 따라 AI 도구(ChatGPT)의 도움을 받아 작성되었습니다.
본 문서는 Creative Commons CC0 1.0 Universal Public Domain Dedication에 따라
누구나 자유롭게 복제, 수정, 배포, 활용할 수 있으며, 출처 표시도 필요하지 않습니다.
다만, 내용의 정확성은 보장되지 않았으며, 정해영은 본 문서의 내용에 대해 어떠한 법적 책임도 지지 않습니다.
Authorship and Usage Notice
This document was written with the assistance of an AI tool (ChatGPT), based on the ideas and direction provided by Haeyoung Jeong.
It is released under the Creative Commons CC0 1.0 Universal Public Domain Dedication.
Anyone may freely copy, modify, distribute, and use the content, with no requirement for attribution.
However, the accuracy of the content is not guaranteed, and Haeyoung Jeong assumes no legal responsibility for its use.
