User Tools

Site Tools


blog:the_illusion_of_measuring_ai-ready_data

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
blog:the_illusion_of_measuring_ai-ready_data [2026/02/13 09:17] – [Conclusion] hyjeongblog:the_illusion_of_measuring_ai-ready_data [2026/02/13 11:05] (current) hyjeong
Line 1: Line 1:
 <!DOCTYPE markdown> <!DOCTYPE markdown>
-# The Illusion of Measuring AI-Ready Data"+# The Illusion of Measuring AI-Ready Data
  
 +## AI 데이터는 과연 숫자로 세어지는가
 + 
 ## Structural Problems in Surveying Research Data Holdings of Public Research Institutions ## Structural Problems in Surveying Research Data Holdings of Public Research Institutions
  
Line 23: Line 25:
 연구기관은 이미 방대한 데이터를 보유하고 있다. 연구기관은 이미 방대한 데이터를 보유하고 있다.
  
--   수십\~수백 테라바이트의 시퀀싱 데이터\ +-   수십\~수백 테라바이트의 시퀀싱 데이터 
--   수만 건의 임상 기록\+-   수만 건의 임상 기록
 -   수천 건의 실험 결과 파일 -   수천 건의 실험 결과 파일
  
Line 46: Line 48:
 조사를 시작하면 곧바로 질문이 나온다. 조사를 시작하면 곧바로 질문이 나온다.
  
--   표준화란 무엇인가?\ +-   표준화란 무엇인가? 
--   메타데이터 완비란 무엇인가?\+-   메타데이터 완비란 무엇인가?
 -   어느 수준부터 AI-ready로 볼 것인가? -   어느 수준부터 AI-ready로 볼 것인가?
  
Line 64: Line 66:
 이러한 조사는 상당한 행정력을 요구한다. 이러한 조사는 상당한 행정력을 요구한다.
  
--   내부 데이터 재분류\ +-   내부 데이터 재분류 
--   형식적 표준 문서 작성\ +-   형식적 표준 문서 작성 
--   메타데이터 정리\+-   메타데이터 정리
 -   자체 점검 보고서 작성 -   자체 점검 보고서 작성
  
Line 87: Line 89:
 그러나 현실은 다르다. 그러나 현실은 다르다.
  
--   데이터 통합 비용은 기하급수적으로 증가한다.\ +-   데이터 통합 비용은 기하급수적으로 증가한다. 
--   법적 활용 가능 여부가 불명확하면 학습에 사용할 수 없다.\ +-   법적 활용 가능 여부가 불명확하면 학습에 사용할 수 없다. 
--   메타데이터가 부실하면 재현성이 확보되지 않는다.\+-   메타데이터가 부실하면 재현성이 확보되지 않는다.
 -   데이터가 이질적이면 모델 편향이 발생한다. -   데이터가 이질적이면 모델 편향이 발생한다.
  
Line 103: Line 105:
 논리적 순서는 이렇다. 논리적 순서는 이렇다.
  
-1.  AI-ready의 기술적 정의 수립\ +1.  AI-ready의 기술적 정의 수립 
-2.  최소 기준선 설정\ +2.  최소 기준선 설정 
-3.  측정 가능한 지표 설계\+3.  측정 가능한 지표 설계
 4.  그 기준에 따른 현황 조사 4.  그 기준에 따른 현황 조사
  
Line 119: Line 121:
 우리는 무엇을 알고 싶은가? 우리는 무엇을 알고 싶은가?
  
--   저장 용량인가?\ +-   저장 용량인가? 
--   연구 실적 증빙인가?\+-   연구 실적 증빙인가?
 -   아니면 실제로 AI 모델을 학습시킬 수 있는 준비 상태인가? -   아니면 실제로 AI 모델을 학습시킬 수 있는 준비 상태인가?
  
Line 146: Line 148:
 AI가 실제로 사용할 수 있는 데이터의 조건을 합의하는 일이다. AI가 실제로 사용할 수 있는 데이터의 조건을 합의하는 일이다.
  
-===== 저자 및 이용 안내 ===== +--- 
-이 문서는 **정해영**의 아이디어와 지시에 따라 AI 도구(ChatGPT)의 도움을 받아 작성되었습니다. 본 문서는 Creative Commons **[[https://creativecommons.org/publicdomain/zero/1.0/|CC0 1.0 Universal Public Domain Dedication]]**에 따라  + 
 +## 저자 및 이용 안내 
 + 
 +이 문서는 **정해영**의 아이디어와 지시에 따라 AI 도구(ChatGPT)의 도움을 받아 작성되었습니다.   
 +본 문서는 Creative Commons **[CC0 1.0 Universal Public Domain Dedication](https://creativecommons.org/publicdomain/zero/1.0/)**에 따라  
 누구나 자유롭게 복제, 수정, 배포, 활용할 수 있으며, 출처 표시도 필요하지 않습니다.   누구나 자유롭게 복제, 수정, 배포, 활용할 수 있으며, 출처 표시도 필요하지 않습니다.  
-다만, 내용의 정확성은 보장되지 않았으며, 정해영은 본 문서의 내용에 대해 어떠한 법적 책임도 지지 않습니다.  
  
-** Authorship and Usage Notice **+다만, 내용의 정확성은 보장되지 않았으며, 정해영은 본 문서의 내용에 대해 어떠한 법적 책임도 지지 않습니다. 
 + 
 +--- 
 + 
 +## Authorship and Usage Notice 
 + 
 +This document was written with the assistance of an AI tool (ChatGPT), based on the ideas and direction provided by **Haeyoung Jeong**.   
 +It is released under the Creative Commons **[CC0 1.0 Universal Public Domain Dedication](https://creativecommons.org/publicdomain/zero/1.0/)**.  
  
-This document was written with the assistance of an AI tool (ChatGPT), based on the ideas and direction provided by **Haeyoung Jeong**. It is released under the Creative Commons **[[https://creativecommons.org/publicdomain/zero/1.0/|CC0 1.0 Universal Public Domain Dedication]]**.   
 Anyone may freely copy, modify, distribute, and use the content, with no requirement for attribution.   Anyone may freely copy, modify, distribute, and use the content, with no requirement for attribution.  
 However, the accuracy of the content is not guaranteed, and Haeyoung Jeong assumes no legal responsibility for its use. However, the accuracy of the content is not guaranteed, and Haeyoung Jeong assumes no legal responsibility for its use.
- 
  
  
blog/the_illusion_of_measuring_ai-ready_data.1770941836.txt.gz · Last modified: by hyjeong