User Tools

Site Tools


blog:the_illusion_of_measuring_ai-ready_data

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
blog:the_illusion_of_measuring_ai-ready_data [2026/02/13 09:18] hyjeongblog:the_illusion_of_measuring_ai-ready_data [2026/02/13 11:05] (current) hyjeong
Line 1: Line 1:
 <!DOCTYPE markdown> <!DOCTYPE markdown>
-# The Illusion of Measuring AI-Ready Data"+# The Illusion of Measuring AI-Ready Data
  
-## AI 데이터는 숫자로 세어지는가 +## AI 데이터는 과연 숫자로 세어지는가 
 + 
 ## Structural Problems in Surveying Research Data Holdings of Public Research Institutions ## Structural Problems in Surveying Research Data Holdings of Public Research Institutions
  
Line 24: Line 25:
 연구기관은 이미 방대한 데이터를 보유하고 있다. 연구기관은 이미 방대한 데이터를 보유하고 있다.
  
--   수십\~수백 테라바이트의 시퀀싱 데이터\ +-   수십\~수백 테라바이트의 시퀀싱 데이터 
--   수만 건의 임상 기록\+-   수만 건의 임상 기록
 -   수천 건의 실험 결과 파일 -   수천 건의 실험 결과 파일
  
Line 47: Line 48:
 조사를 시작하면 곧바로 질문이 나온다. 조사를 시작하면 곧바로 질문이 나온다.
  
--   표준화란 무엇인가?\ +-   표준화란 무엇인가? 
--   메타데이터 완비란 무엇인가?\+-   메타데이터 완비란 무엇인가?
 -   어느 수준부터 AI-ready로 볼 것인가? -   어느 수준부터 AI-ready로 볼 것인가?
  
Line 65: Line 66:
 이러한 조사는 상당한 행정력을 요구한다. 이러한 조사는 상당한 행정력을 요구한다.
  
--   내부 데이터 재분류\ +-   내부 데이터 재분류 
--   형식적 표준 문서 작성\ +-   형식적 표준 문서 작성 
--   메타데이터 정리\+-   메타데이터 정리
 -   자체 점검 보고서 작성 -   자체 점검 보고서 작성
  
Line 88: Line 89:
 그러나 현실은 다르다. 그러나 현실은 다르다.
  
--   데이터 통합 비용은 기하급수적으로 증가한다.\ +-   데이터 통합 비용은 기하급수적으로 증가한다. 
--   법적 활용 가능 여부가 불명확하면 학습에 사용할 수 없다.\ +-   법적 활용 가능 여부가 불명확하면 학습에 사용할 수 없다. 
--   메타데이터가 부실하면 재현성이 확보되지 않는다.\+-   메타데이터가 부실하면 재현성이 확보되지 않는다.
 -   데이터가 이질적이면 모델 편향이 발생한다. -   데이터가 이질적이면 모델 편향이 발생한다.
  
Line 104: Line 105:
 논리적 순서는 이렇다. 논리적 순서는 이렇다.
  
-1.  AI-ready의 기술적 정의 수립\ +1.  AI-ready의 기술적 정의 수립 
-2.  최소 기준선 설정\ +2.  최소 기준선 설정 
-3.  측정 가능한 지표 설계\+3.  측정 가능한 지표 설계
 4.  그 기준에 따른 현황 조사 4.  그 기준에 따른 현황 조사
  
Line 120: Line 121:
 우리는 무엇을 알고 싶은가? 우리는 무엇을 알고 싶은가?
  
--   저장 용량인가?\ +-   저장 용량인가? 
--   연구 실적 증빙인가?\+-   연구 실적 증빙인가?
 -   아니면 실제로 AI 모델을 학습시킬 수 있는 준비 상태인가? -   아니면 실제로 AI 모델을 학습시킬 수 있는 준비 상태인가?
  
blog/the_illusion_of_measuring_ai-ready_data.1770941910.txt.gz · Last modified: by hyjeong