User Tools

Site Tools


start

Welcome to GenoGlobe.com!

Welcome to Haeyoung JEONG's official website, GenoGlobe.com! My secondary domain (GenoGlobe.kr) will be forwarded to this website.

I am a molecular biologist and genome scientist working for Korea Research Institute of Bioscience and Biotechnology. GenoGlobe means Genome + Globe, which implies my desire to learn from genomes and lives on earth (or other planets, such as Mars?). You can read more about my professional research profile from ORCiD or Google Scholar.

Please visit my blog if you want to send me a message through contact form (only shown from PC browsers) or use this form directly: Send Feedback

엄격한 기준으로 구분하였을 때 학술 논문이 아닌 것으로서 외부 매체에 기고했던 글 목록은 여기를 참고하십시오. 주로 미생물 유전체를 다루는 생명정보학과 관련하여 제가 작성한 글은 별도의 위키 사이트에 있습니다. 블로그에는 업무 및 취미와 관련한 잡다한 글이 있습니다. 블로그에는 저에게 이메일을 보낼 수 있는 양식이 있으니 참고하십시오. 단, PC 버전의 웹브라우저에서만 보이는 것 같습니다. 또는 다음을 클릭하세요: Send Feedback

이곳은 원래 저의 취미와 관련한 글을 체계적으로 작성하기 위해 만든 DokuWiki 기반의 웹사이트였다가 2023년 9월 7일 GenoGlobe.com의 공식 웹사이트 역할을 겸하게 되면서 다소 복합적인 성격을 갖게 되었습니다. 위키 기반이지만 첫 페이지는 블로그 형식(아래의 '새 소식')이라서 더욱 그렇습니다. '새 소식'은 자료를 모아서 분석하고 오래 생각하여 쓰는 글을 위한 곳이 아닙니다. 저에게 이 웹사이트는 트위터나 페이스북과 같은 것으로, 예전에 사용하던 Google+를 대신하여 가벼운 생각을 기록하는 곳에 해당합니다.


새 소식

Foundation Models: The New Bedrock of Artificial Intelligence (파운데이션 모델: 인공지능의 새로운 기반)

최근 파워포인트를 열어 보면 ‘코파일럿’이라는 AI가 따라다니는 것을 볼 수 있습니다. GitHub Copilot에서 코드를 자동 완성하거나, 미드저니(Midjourney)에서 “우주 속의 고양이” 그림을 그리는 것도 이제 낯설지 않죠. 이 모든 서비스의 핵심에 있는 기술이 바로 파운데이션 모델(Foundation Model) 입니다.

이 문서에서는 파운데이션 모델이 무엇인지, 어떤 모델들이 존재하는지, 그리고 일상 속에서 우리가 이미 어떻게 활용하고 있는지를 설명합니다.

파운데이션 모델이란?

파운데이션 모델은 대규모 텍스트, 이미지, 코드, 음성 등의 데이터를 기반으로 범용적인 인공지능 능력을 학습한 모델입니다. 하나의 작업이 아닌 여러 작업에 재사용 가능하도록 설계된 것이 핵심입니다.

예를 들어, 단순히 고양이 사진만 분류하는 모델이 아니라, 글을 쓰고, 코드를 생성하고, 이미지를 설명할 수 있는 모델을 말합니다. 이 개념은 2021년 스탠퍼드 대학 보고서에서 본격적으로 소개되었고, 이후 AI 개발의 중심이 되었습니다.

LLM: 언어 중심 파운데이션 모델

가장 잘 알려진 파운데이션 모델은 대형 언어 모델(LLM, Large Language Model) 입니다. 대표적인 예는 다음과 같습니다:

  • GPT-4 (ChatGPT) - OpenAI
  • LLaMA - Meta (페이스북 모회사)
  • DeepSeek - 중국의 신흥 LLM
  • Lexi - LG AI연구원이 개발한 국산 파운데이션 모델

이 모델들은 방대한 양의 텍스트 데이터를 바탕으로 학습되었으며, 대화, 작문, 번역, 코드 생성 등 다양한 작업을 수행할 수 있습니다.

멀티모달 모델: 텍스트 너머로

기존의 LLM은 텍스트만 처리했지만, 최근에는 멀티모달(Multimodal) 모델이 주목받고 있습니다. 멀티모달 모델은 텍스트뿐 아니라 이미지, 음성, 영상 등 다양한 형태의 데이터를 동시에 이해하고 생성할 수 있습니다.

대표적인 멀티모달 모델:

  • GPT-4o - 텍스트, 이미지, 음성까지 통합 (OpenAI)
  • Gemini - 구글의 멀티모달 AI
  • Claude Opus - Anthropic의 고성능 모델
  • Lexi - LG AI연구원의 한국어 멀티모달 모델

이들은 예를 들어 “이 사진에서 무슨 일이 벌어지고 있지?”라는 질문에 답하거나, 이미지를 기반으로 텍스트 설명을 생성할 수 있습니다.

우리가 매일 만나는 파운데이션 모델

파운데이션 모델은 더 이상 기술 데모가 아닙니다. 우리는 이미 일상 속에서 다음과 같은 형태로 사용 중입니다:

  • ChatGPT - 대화, 글쓰기, 요약, 번역
  • GitHub Copilot - 코드 작성, 자동 완성
  • Midjourney / DALL·E - 텍스트 기반 이미지 생성
  • PowerPoint Copilot - 발표자료 자동 구성, 슬라이드 설명문 생성

이러한 도구들은 모두 파운데이션 모델을 기반으로 작동하며, 일반 사용자에게도 AI의 힘을 실시간으로 제공합니다.

도메인 특화 모델과의 비교

도메인 특화 모델(domain-specific model)은 특정 분야—예: 의료, 법률, 생물정보학 등—에 특화된 모델입니다. 범용성은 낮지만, 그 분야에 대해서는 높은 정확도와 신뢰성을 가집니다.

요즘은 파운데이션 모델을 기반으로, 도메인 데이터를 덧붙여 특정 분야에 맞게 미세조정(fine-tuning) 하는 방식이 일반적입니다. 예: GPT-4 + 의료 데이터 = 전문 의료 AI

장단점 요약

장점
  • 다양한 작업에 재사용 가능 (작문, 번역, 코드 등)
  • 적응력이 높음 (prompt나 소량 학습만으로도 전이 가능)
  • 텍스트, 이미지 등 멀티모달 처리 가능
단점
  • 학습에 엄청난 계산 자원과 비용 소모
  • 내부 작동 방식이 불투명함 (블랙박스 문제)
  • 학습 데이터에 포함된 편향이나 오류가 그대로 반영될 수 있음

결론

파운데이션 모델은 인공지능의 ‘만능 엔진’이자 현대 AI 기술의 기반입니다. GPT, LLaMA, DeepSeek, 그리고 국산 Lexi까지 다양한 모델들이 각축을 벌이고 있으며, Copilot이나 Midjourney 같은 서비스로 이미 우리의 삶 속 깊이 들어와 있습니다.

앞으로는 이 범용성 높은 모델과 도메인 특화 지식을 결합한 하이브리드 AI가 더욱 중요한 역할을 하게 될 것입니다. 우리가 지금 사용하는 도구는, 그 시작에 불과합니다.


이 문서는 ChatGPT가 자동 생성한 뒤 DokuWiki 양식으로 포매팅한 것입니다. 누구나 자유롭게 복제, 수정, 배포, 활용하실 수 있으며, 출처 표시 없이도 사용 가능합니다. 다만, 내용의 정확성은 검증되지 않았으며, 정해영은 본 문서의 내용에 대해 어떠한 법적 책임도 지지 않습니다.

This document was automatically generated by ChatGPT and formatted in DokuWiki style. It has been placed in the public domain and may be copied, modified, distributed, and used for any purpose, without attribution. However, the accuracy of the content is not guaranteed, and Haeyoung Jeong assumes no legal responsibility for this document.

→ 라이선스 | License: Creative Commons CC0 1.0 Universal (Public Domain Dedication)

2025/07/30 08:42 · hyjeong

신조어 BioXeta

(Defining BioXeta)

차세대 바이오 데이터 통합 플랫폼의 이름으로 사용할 가능성이 있는 BioXeta(바이오제타)라는 신조어를 만들었다. Xeta는 X(cross)와 meta의 합성어이다. 이를 설명하는 문서(PDF)와 ScoreDetect를 이용한 타임스탬프 인증서를 여기에 업로드한다. 이 행위는 인증서 발급 시점인 2025년 7월 18일 현재 구글에서 검색되지 않는 BioXeta라는 단어를 새로 만들어 의미를 부여하였음을 증명하는 것이다.

A newly coined term, BioXeta, has been created as a potential name for a next-generation integrated bio-data platform. “Xeta” is a compound of X (cross) and meta. Attached here are a document (PDF) explaining the term and a timestamp certificate issued via ScoreDetect. This act serves as evidence that the word BioXeta, which was not searchable on Google as of July 18, 2025, was newly invented and given meaning at the time of the certificate’s issuance.

인증서에서 주의해서 볼 것은 날짜, SHA-256 해시, 블록체인 트랜잭션 URL이다. 보다 상세한 설명은 내 공식 블로그의 글인 BioXeta라는 신조어를 만들었음을 선언한 문서의 해시값을 퍼블릭 블록체인에 등록하다에 기록하였다.

Key elements to verify in the certificate include the date, the SHA-256 hash, and the blockchain transaction URL. A more detailed explanation is available in my official blog post titled "Registering the Hash of a Document Declaring the Coinage of 'BioXeta' on a Public Blockchain" (Korean).

2025/07/18 08:33 · hyjeong

'소버린 AI' 논란

한겨레 2025년 6월 30일.

'소버린' 논란

비판론 - 성능이 검증된 글로벌 거대언어모델을 활용해 인공지는 에이전트를 개발하는 것이 더 효과적?

2025/07/16 02:42 · hyjeong

돈 받고 기사 쓰는 언론사

10년 전의 기사. 정부 부처와 언론사 간에 언론홍보계약서를 작성하기도 하는구나…

돈 받고 기사 쓴 언론사들, 빙산의 일각입니다

2025/07/02 09:32 · hyjeong

"바이오는 안보자산"…기술주권 확보 서둘러야

원문: 서울경제 2025년 6월 24일

https://www.sedaily.com/NewsView/2GU76QACXF

“한국 바이오 사업개발(BD) 담당자는 발표를 잘 하지만 기밀유지계약(CDA)을 맺고 실사를 시작하면 데이터가 빈약해 실망스럽다”며 “중국 피치는 투박하지만 CDA를 맺고 보는 데이터가 탄탄하다”

2025/06/25 05:47 · hyjeong

블로그 보관함

start.txt · Last modified: by hyjeong