User Tools

Site Tools


blog:the_illusion_of_measuring_ai-ready_data

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
blog:the_illusion_of_measuring_ai-ready_data [2026/02/13 09:16] – created hyjeongblog:the_illusion_of_measuring_ai-ready_data [2026/02/13 11:05] (current) hyjeong
Line 1: Line 1:
 <!DOCTYPE markdown> <!DOCTYPE markdown>
-# The Illusion of Measuring AI-Ready Data"+# The Illusion of Measuring AI-Ready Data
  
 +## AI 데이터는 과연 숫자로 세어지는가
 + 
 ## Structural Problems in Surveying Research Data Holdings of Public Research Institutions ## Structural Problems in Surveying Research Data Holdings of Public Research Institutions
  
Line 23: Line 25:
 연구기관은 이미 방대한 데이터를 보유하고 있다. 연구기관은 이미 방대한 데이터를 보유하고 있다.
  
--   수십\~수백 테라바이트의 시퀀싱 데이터\ +-   수십\~수백 테라바이트의 시퀀싱 데이터 
--   수만 건의 임상 기록\+-   수만 건의 임상 기록
 -   수천 건의 실험 결과 파일 -   수천 건의 실험 결과 파일
  
Line 46: Line 48:
 조사를 시작하면 곧바로 질문이 나온다. 조사를 시작하면 곧바로 질문이 나온다.
  
--   표준화란 무엇인가?\ +-   표준화란 무엇인가? 
--   메타데이터 완비란 무엇인가?\+-   메타데이터 완비란 무엇인가?
 -   어느 수준부터 AI-ready로 볼 것인가? -   어느 수준부터 AI-ready로 볼 것인가?
  
Line 64: Line 66:
 이러한 조사는 상당한 행정력을 요구한다. 이러한 조사는 상당한 행정력을 요구한다.
  
--   내부 데이터 재분류\ +-   내부 데이터 재분류 
--   형식적 표준 문서 작성\ +-   형식적 표준 문서 작성 
--   메타데이터 정리\+-   메타데이터 정리
 -   자체 점검 보고서 작성 -   자체 점검 보고서 작성
  
Line 87: Line 89:
 그러나 현실은 다르다. 그러나 현실은 다르다.
  
--   데이터 통합 비용은 기하급수적으로 증가한다.\ +-   데이터 통합 비용은 기하급수적으로 증가한다. 
--   법적 활용 가능 여부가 불명확하면 학습에 사용할 수 없다.\ +-   법적 활용 가능 여부가 불명확하면 학습에 사용할 수 없다. 
--   메타데이터가 부실하면 재현성이 확보되지 않는다.\+-   메타데이터가 부실하면 재현성이 확보되지 않는다.
 -   데이터가 이질적이면 모델 편향이 발생한다. -   데이터가 이질적이면 모델 편향이 발생한다.
  
Line 103: Line 105:
 논리적 순서는 이렇다. 논리적 순서는 이렇다.
  
-1.  AI-ready의 기술적 정의 수립\ +1.  AI-ready의 기술적 정의 수립 
-2.  최소 기준선 설정\ +2.  최소 기준선 설정 
-3.  측정 가능한 지표 설계\+3.  측정 가능한 지표 설계
 4.  그 기준에 따른 현황 조사 4.  그 기준에 따른 현황 조사
  
 그러나 지금은 4번이 먼저 나오는 분위기다.\ 그러나 지금은 4번이 먼저 나오는 분위기다.\
 이 순서가 뒤바뀌면, 정의는 조사 결과에 맞춰 사후적으로 조정된다. 그 순간 이 순서가 뒤바뀌면, 정의는 조사 결과에 맞춰 사후적으로 조정된다. 그 순간
-정책은 기준을 만드는 것이 아니라 숫자를 정당화하는 작업이 된다.+정책은 기준을 만드는 것이 아니라 
 + 숫자를 정당화하는 작업이 된다.
  
 ------------------------------------------------------------------------ ------------------------------------------------------------------------
Line 118: Line 121:
 우리는 무엇을 알고 싶은가? 우리는 무엇을 알고 싶은가?
  
--   저장 용량인가?\ +-   저장 용량인가? 
--   연구 실적 증빙인가?\+-   연구 실적 증빙인가?
 -   아니면 실제로 AI 모델을 학습시킬 수 있는 준비 상태인가? -   아니면 실제로 AI 모델을 학습시킬 수 있는 준비 상태인가?
  
Line 145: Line 148:
 AI가 실제로 사용할 수 있는 데이터의 조건을 합의하는 일이다. AI가 실제로 사용할 수 있는 데이터의 조건을 합의하는 일이다.
  
 +---
 +
 +## 저자 및 이용 안내
 +
 +이 문서는 **정해영**의 아이디어와 지시에 따라 AI 도구(ChatGPT)의 도움을 받아 작성되었습니다.  
 +본 문서는 Creative Commons **[CC0 1.0 Universal Public Domain Dedication](https://creativecommons.org/publicdomain/zero/1.0/)**에 따라  
 +누구나 자유롭게 복제, 수정, 배포, 활용할 수 있으며, 출처 표시도 필요하지 않습니다.  
 +
 +다만, 내용의 정확성은 보장되지 않았으며, 정해영은 본 문서의 내용에 대해 어떠한 법적 책임도 지지 않습니다.
 +
 +---
 +
 +## Authorship and Usage Notice
 +
 +This document was written with the assistance of an AI tool (ChatGPT), based on the ideas and direction provided by **Haeyoung Jeong**.  
 +It is released under the Creative Commons **[CC0 1.0 Universal Public Domain Dedication](https://creativecommons.org/publicdomain/zero/1.0/)**.  
 +
 +Anyone may freely copy, modify, distribute, and use the content, with no requirement for attribution.  
 +However, the accuracy of the content is not guaranteed, and Haeyoung Jeong assumes no legal responsibility for its use.
  
  
blog/the_illusion_of_measuring_ai-ready_data.1770941784.txt.gz · Last modified: by hyjeong