생성형 AI 살펴보기

2 more properties
목차
Excutive Summary - 1980년 딥 러닝(Deep Learning) 개념이 처음 나온 후 AI 기술은 점진적인 성장을 보이다가 2012년 알렉스(Alex)의 CNN(Convolution Neural Network), 2014년 이안 굿펠로우(Ian Goodfellow)의 GAN(Generative Adversarial Network), 그리고 2020년 OpenAI의 GPT-3의 등장으로 식별·예측 기술을 넘어선 생성형 AI기술이 부상함 - AI기술은 자동화와 효율성 향상을 장점으로, 금융, IT, 물류, 에너지, 의료 등 다양한 산업에 적용이 가능하며 이를 통해 전(全) 산업분야의 생산성이 증가하고 변화를 초래할 것으로 예상함 - 정부는 2027년 AI 전문기업 1,000개 달성 등 ‘전국민 AI 일상화’를 목표로 2023년 기준, 약 7,129억원의 예산 투입할 계획 - 생성형 AI를 구성하는 기업들은 역할별로 크게 Apps, Models, Infrastructure로 구분할 수 있으며 이 중 Apps, End-to-End Apps(모델 포함) 부분에 스타트업이 집중하고 있음 - Apps의 경우 ‘시장(도메인)’, ‘데이터셋’, ‘편의성(fine tuning 척도)’에 따라 경쟁력과 차별성이 달라짐 - 생성형 AI 스타트업이 선순환(Flywheel)을 그리기 위해 가장 중요한 요소는 ‘양질의 데이터셋’으로 스케일업이 가능한 시장을 선점하여 양질의 데이터셋을 모아 지속적으로 성장할 수 있도록 해야 함 - 미래에는 기술적 측면에서 ‘이머전트’의 등장과 함께 더 인간과 유사한 발전된 기술이 등장할 것으로 예상되며 생태계 측면에서 ‘생성형 AI’를 기반으로 한 새로운 생태계가 형성될 것으로 예상됨 - 새로운 생태계 형성을 위해 Foundation Model을 보유한 대기업과 스타트업간 전략적 투자 및 제휴 또한 증가하고 있음 - 생성형 AI 관련한 투자는 2021년 15억 달러에서 2022년 26억 달러의 규모지속적으로 증가하고 있으며 현 시점에서는 Text, Image 관련한 투자가 다수임 - 생성형 AI의 주요 스타트업으로는 OpenAI, Hugging Gace, Jasper, stability.ai 등이 있으며, 국내 사례로는 뤼튼테크놀로지스, 스켈터랩스, 포자랩스 등이 있음 - 생성형 AI는 새롭게 부상하고 있는 분야인만큼 윤리, 보안, 저작권 등의 문제가 제기되고 있으며 이러한 문제점을 해결하기 위해 AI 관계 기업 및 정부는 ‘AI 윤리 체계’를 수립하는 등 개선점을 찾고 있음 - 결과적으로, 생성형 AI 또한 투자사 입장에서는 Business 측면이 핵심이기에 무엇보다도 어떠한 시장을 타겟으로 하고 있으며 확장가능성이 얼마나 되는지, 해당 사업을 실현하기 위한 기술력 여부, 경쟁력 및 차별성을 가질 수 있는 양질의 데이터 보유 여부 등 ‘사업가능성’ 과 ‘수익성’을 주요 point로 고려해야 함

Part 1. Tech Side - 기술로 바라보는 생성형 AI

1-1. 생성형 AI의 정의

생성형 AI(Generative Artificial Intelligence)는 텍스트, 이미지, 음악, 비디오와 같은 콘텐츠를 생성할 수 있는 인공지능 기술 중 하나로, 알고리즘을 사용하여 패턴을 학습하고 해당 학습을 기반으로 새로운 결과물을 출력(생성)함
기존 AI는 데이터와 패턴을 학습하여 어떠한 대상을 이해·식별하고(머신러닝, Machine Learning), 예측(딥러닝, Deep Learning)하는 기술로 설명하였다면, 딥러닝에서 더 발전한 생성형 AI는 예측을 통한 새로운 결과물을 ‘생성’하는 것이 가능함
[그림 1] 처음에는 이러한 이미지(데이터)를 보여주며 ‘이 중 고양이를 찾아보자’라는 패턴을 학습(aka, 머신러닝)시켰다면, 생성형 AI는 ‘고양이의 특징을 학습해서 고양이를 찾을 수 있다면 그 특징을 활용해 고양이를 그려보자’라는 명령어의 수행이 가능함

1-2. 생성형 AI 기술의 이해

생성형 AI 기술은 기본적으로 올바른 결과물을 추출할 수 있을 정도의 #정확한 데이터의 입력#지속적인 학습을 통한 #모델을 기본 원리로 작동함[그림 2]
2020년 OpenAI의 GPT-3 모델의 등장 이후로 생성형 AI가 기술자, 대중에게서 언급되기 시작하였으며 이 전에도 존재하던 GPT(Open AI), BERT(Google), ELMo(AI2), MT-DNN(Microsoft) 모델에비해 “마치 사람과 대화하는 것 같다”고 느낄 수 있을 정도의 대화능력과 정확도를 보여줌
GPT-3 모델은 기존 모델들보다 500배의 파라미터(Parameter, 변수)를 학습했으며, 그 결과 높은 정확도의 결과값(Output)이 가능함[그림 3], [그림 4]
따라서, 학습할 수 있는 ‘양질의’ 거대한 양의 데이터와 그 데이터를 바르게 학습한 모델이 필수적임
이렇게 데이터를 학습한 모델을 Foundation Model이라고 부르며 Text 분야에서 대표적인 모델의 예시로는 GPT, BERT, T5, BLOOM, RoBERTa 등이 있음(이런 언어모델들을 통칭하는 것이 LLM, Large Language Model임)
Foundation Model 중 Image 분야에서 대표적인 모델의 예시로는 Dalle-2, Midjourney, Stable Diffusion 등이 있음(시각적인 모델을 통칭하는 것이 확산 모델, Diffusion model임)
Dalle-2, Midjourney, Stable Diffusion은 GAN(Generative Adversarial Network, 생성모델기술, ’생성자’와 ‘판별자’를 만들어 상호간 경쟁을 통해 그림의 정확도를 높이는 모델)과 Text를 혼합하여 만든 모델로, Multi Modal(문장 입력 시 그림 생성)로 분류
[그림 2] 생성형 AI 모델의 개발 과정
[그림 3] 학습한 Parameter의 수, GPT-2 모델은 1.5B(150억개), GPT-3 모델은 175B(1750억개) 파라미터를 학습함
[그림 4] 파라미터수에 따른 모델 그래프(GPT-3 포함)

Part 2. Market Side

2-1. ‘정부’의 AI 지원 정책

22년 9월에 발표된 ‘대한민국 디지털 전략’에서 2023년부터 6대 혁신기술 분야에 대한 연구개발 집중 투자를 발표(6대 혁신기술: (1)인공지능, (2)인공지능 반도체, (3)5·6세대 이동통신, (4)양자, (5)확장가상세계, (6)사이버보안)
정부는 차세대 인공지능 원천기술 개발에 2026년까지 5년간 3천18억원, AI반도체 핵심기술 개발에 2026년까지 1조200억원을 투입하여 초거대 AI모델, 신경망처리장치(NPU) 등 세계 최고수준 인공지능 기반을 구축하려함
2023년부터는 ‘인공지능 10대 핵심 사업’을 추진하며 약 7,129억원의 예산 투입 예정(2023.1월, 제2차 국가데이터정책위원회)
2027년 기업의 AI 도입률 50% 달성매출액 50억원 또는 투자유치 20억 이상의 AI 전문기업 1,000개 달성을 목표로 함

2-2. 생성형 AI ‘스타트업’ 비즈니스 모델

2-2-1. 생성형 AI ‘Value Chain’

생성형 AI를 구성하는 요소들은 크게 ① Apps, ② Models, ③ Infrastructure로 나눌 수 있음
1.
Apps: 자체 모델이나 3rd-party API에 의존하여 운영하는 유저가 사용하는 Product(ex, Chat GPT, Github Copilot, Midjourney)
2.
Models: AI product의 핵심, API를 제공하거나 open-source(호스팅 솔루션 구독 필요)를 제공함(ex, GPT-3, Stable Diffusion, Hugging Face)
3.
Infrastructure: Cloud Platfors, 하드웨어 등 생성형 AI 모델을 위한 인프라(AWS, Azure, Nvidia GPU)
Infrastructure, Foundation Models는 자본 집약적인 대기업의 영역, 스타트업은 Apps, Model Hubs에 집중하고 있음
Model을 포함한 버티컬한 비즈니스 모델(End-to-End Apps)의 경우 데이터 배타성 측면에서 스타트업만의 경쟁력을 가질 수 있음
App은 ‘특정 도메인에서의 경쟁력’, ‘주력 데이터셋’, ‘추가적 편의성(find tuning)’이 필요함
add. Value Chain에 모델을 경량화하고 데이터셋 라벨링을 도와주는 기업도 존재(셀렉트스타, 테스트웍스, 크라우드웍스 등)
[그림 5] 생성형 AI valuechain 구조
[그림 6] 출처: Mckinsey, Exploring opportunities in the generative AI value chain, 2023.04

2-2-2. 생성형 AI 스타트업의 Flywheel과 핵심 3요소

생성형 AI 스타트업은 지속적인 ‘학습-생성’을 통한 Flywheel(선순환)구조를 만들기 위해 다음 3가지 요소가 중요함[그림 7]
1.
양질의 데이터셋(Exclusive quality data): 순도가 높고, 양질의 라벨링이 가능하며, 잠재적 경쟁자가 획득하기 어려운 데이터일수록 경쟁력이 높음(사용자의 좋아요, 선택 피드백 또한 좋은 데이터)[그림 8]
2.
큰 목표 시장(Big market domain): 목표하는 시장이 스케일업이 가능하며 범용성이 있어야함[그림 9]
3.
선점(Preoccupancy): 시장 선점을 통해 피드백 데이터를 확보하고 flywheel 작동 가능
(참고) 생성형 AI 구독 모델 예시
[그림 7] AI 스타트업의 3요소
[그림 8] 양질의 Data로 그려지는 Flywheel

2-3. ‘미래’ 생성형 AI 생태계 흐름

2-3-1. 새로운 기능을 창출하는 AI: 이머전트(emergent)

AI가 예상 외 능력을 갖게 되는 것을 이머전트라고 하며, 그 과정에 대해 명확히 밝혀진 바가 없음
거대한 파라미터에서의 데이터 학습, Multitask learning, few shot training(meta-learning: To learn the learning process)을 통해 발전한 AI는 이전에 학습하지 않은 것을 대답하기 시작함
예시: GPT-3에서 학습하지 않은 외국어 번역이 가능, 스캐터랩의 이루다 모델(2.3b)에서는 사전 학습이 없었던 삼행시 발화 가능

2-3-2. ‘웹 브라우저→모바일→생성형 AI’ 새로운 생태계 형성

1993년 웹 브라우저의 출시 후 웹 브라우저를 기반으로 인터넷 생태계가 형성되며 다양한 서비스와 기능들이 출시됨. 이후 오프라인 서비스가 인터넷으로 적용되고 인터넷 기반 스타트업이 생겨남
웹과 비슷하게 2007년 모바일 서비스가 등장하며 모바일을 기반으로 앱 마켓이 부상하고 모바일 기반 스타트업이 생겨남
인터넷과 모바일 생태계의 성장에 생성형 AI를 빗대어보면, ①API를 통해 3rd party 어플리케이션의 생성형 AI 적용(Askup-카카오톡, 똑똑이-스캐터랩, [그림 10]), ②Plug-in을 통해 ChatGPT 대화 도중 3rd party 어플리케이션 사용[그림 11](Expedia-여행, Opentable-식당, FiscalNote-법률, Kayak-렌탈, Shop-온라인 제품 검색) 의 형태로 생태계가 형성될 수 있음
[그림 10] 카카오톡 채널 기반 챗봇 ‘AskUp’ 검색 기능 시연 화면(업스테이지 제공)

2-3-3. 대기업(Foundation Model 보유)-스타트업 협력 증가

Microsoft와 OpenAI의 전략적 투자를 기반으로 생태계를 구축하는 것처럼, 국내 빅테크 기업(네이버, 카카오)들 또한 자사의 파운데이션 모델을 중심으로 생태계를 구축하기 위해 스타트업들과의 협업이 증가하고 있음
OpenAI는 자체 스타트업 펀드를 출시하여 초기 단계의 스타트업에 투자함. 투자처는 OpenAI 서비스 선제적 접근 권리 부여, Azure credit 제공, MS와 OpenAI 파트너십의 LP지원 특혜를 받을 수 있으며 2022년 12월 Descript(영상편집), Harvey AI(법률 자문), Mem(메모장), Speak(영어학습)이 투자를 유치함
네이버CIC 엑셀러레이터 D2 스타트업팩토리(D2SF)를 통해 초기 투자를 집행하며 투자를 통해 기술 스타트업과 네이버 사업을 연계함
카카오벤처스와 인베스트먼트를 통해 AI 스타트업에 투자를 집행. 카카오의 언어모델(KoGPT)과 이미지 생성 모델(Karlo)이 아직 초기단계여서 투자 기업들이 카카오의 AI 모델을 활용한 사례는 없음

Part 3. AI Investing Trends

3-1. 생성형 AI 투자 ‘현황’

2021년 글로벌 생성형 AI 투자 규모는 약 15억 달러(1조 8천억원), 투자 건수는 105건이었으며 2022년 26억 달러, 110건 투자를 기록하며 투자가 지속적으로 증가하고 있음[그림 12]
2021년~2022년에 투자가 이루어진 주요 분야를 살펴보면 Text분야가 약 8억 5천만 달러, 48건, Visual Media분야가 8억 2천만 달러, 58건, 그 뒤를 이어서 Generative interfaces(5억 8천만 달러, 20건), Speech & audio(2억 1천만 달러, 26건), Code(1억 4천만 달러, 20건) 분야에서 투자를 유치한 것으로 나타남[그림 13]
[그림 12] 생성형 AI 투자 규모 및 건수 추이
[그림 13] 2021-2022년도, 생성형 AI 분야별 투자 규모 및 건수
[그림 13] Funding Round별 생성형 AI 투자 규모 추이
(참고) 생성형 AI 서비스 맵

3-2. 주요 스타트업 투자 ‘사례’

2022년 기준, 총 6개 회사가 유니콘(10억 달러 이상의 가치)으로 등극하였으며, 가장 최근에 투자받은 곳은 Jasper와 Stability AI임(22년도 4분기에 1억달러(1,300억) 이상 투자를 유치하여 MegaRound 달성)[그림 14]
국내 생성형 AI 기업의 경우 Text분야에서 많은 투자를 유치함[그림 15]
긴 문장을 만들어주는 서비스
아티피셜소사이어티: 교육용 텍스트, 영어 교육용 지문, 질문지 생성 등
뤼튼테크놀로지스: 비즈니스 텍스트, 기업의 광고문구, 채용공고, 블로그 포스팅 등
챗봇 서비스
올거나이즈: 기업 임직원 등이 업무에 활용할 수 있는 챗봇 개발, 자체 개발한 NLP(자연어처리) AI 기술로 질문 이해력 높임
스켈터랩스: 기업이 고객 응대 등에 사용하는 챗봇 제공, 정보 제공과 함께 공감 능력을 강화한 것이 특징
그 외 자체 개발한 생성 AI 모델을 활용하여 음원 생성 서비스를 제공하는 포자랩스, 가상인간 관련(딥브레인AI, 네오사피엔스, 클레온), 딥러닝 AI 학습을 위한 합성데이터를 만드는 씨엔에이아이(바이오 메디컬 분야), 나니아랩스(2D, 3D데이터 분야) 등이 투자를 유치함
글로벌 사례의 경우 천만 달러이상(100억원 이상) 매출을 기록한 생성형 AI 기업이 높은 기업가치를 평가받은 경향이 있으며[그림 16], 국내 생성 AI 기업은 20억원 이상 매출을 기록한 기업들이 높은 기업가치로 인정받음 → 투자에 있어서 수익화 달성 여부를 중요하게 봄
[그림 14] 글로벌 생성형 AI 스타트업 투자 사례
[그림 15] 국내 생성형 AI 스타트업 투자 사례(2023.02월)
[그림 16] 글로벌 생성 AI 기업의 매출액 및 기업가치 비교
[표 1] 생성형 AI 스타트업 투자 사례: 시리즈, 누적금액 등 세부 정보

Part 4. 생성형 AI 스타트업

기업사례_생성형 AI

Part 5. 기타

5-1. 생성형 AI 기술 Risk

생성형 AI 관련하여 윤리, 보안, 저작권 등의 문제가 제기되고 있음
그 중 대표적인 문제는 표절과 저작권에 관한 것으로 원본 데이터를 공개된 자료를 활용하는 방식의 해결방안이 요구됨
값을 입력하는 과정에서 AI는 학습을 하기 때문에 보안 또한 중요한 이슈이며 보안 문제를 해결하기 위해 우선적으로 사용자는 기밀 정보를 입력하지 않도록 하며 서비스 제공자는 개인정보가 포함된 특정 테이블 접근을 제한하도록 코딩할 수 있음
생성형 AI에서 발생할 수 있는 윤리적 문제를 해결하기 위해 국내 빅테크사, 금융사, 게임사 등 AI 관련 스타트업을 중심으로 ‘AI 윤리 체계’를 수립하고 있으며 윤리 체계에 더불어 ‘기술의 포용성’, ‘아동 및 청소년 보호’, ‘프라이버시 보호’ 원칙을 추가하여 관리하도록 함

5-2. 생성형 AI 스타트업 투자 시 Key Point!

어떤 파운데이션 모델을 활용하든, 직접 딥러닝 기술을 개발하든 결과적으로 사업가능성과 수익성이 중요함
따라서 아래 3가지 포인트를 중심으로 살펴봐야 함
시장 타겟팅
프롬포트, 파인튜닝 기술력
양질의 데이터

5-3. Q&A

Q1. 생성형 AI와 일반 AI 기업의 차이는 무엇인가요?

Q2. 국내에 GAN을 사용한 AI 기업이 있나요?

Q3. Text는 LLM(대규모 언어모델) 기반이라고 하던데, 이미지나 영상은 어떤 모델 기반인가요?

5-4. 생성형 AI가 더 궁금하신 분들에게

참고 자료

AI 생태계 스타트업이 말하다_스타트업얼라이언스_20220425.pdf
1081.9KB
Exploring opportunities in the generative AI value chain_McKinsey Digital_202304.pdf
565.6KB
Artificial Intelligence Index Report 2023_Stanford University.pdf
24724.9KB
ChatGPT를 넘어 생성형 AI 시대로_양지훈 윤상혁_202303.pdf
1189.9KB
The economic potential of generative AI_McKinsey_202306.pdf
7123.6KB
초거대 인공지능 등장으로 인한 인공지능 시스템 개발 패러다임 변화 및 향후 전망_한국전자통신연구원_202301.pdf
7152.3KB
초거대 인공지능 언어모델 동향 분석_한국전자통신연구원_202112.pdf
4017.7KB
초거대언어모델의 부상과 주요 이슈_소프트웨어정책연구소_202302.pdf
1357.2KB
Everything Everywhere All at Once AI가 불러온 신산업혁명_미래에셋증권_20230331.pdf
14783.3KB
How AI works for you_삼성증권_202303.pdf
2252.2KB

추가 내용

GPT-3 데이터 근원
GPT-3 기술 소개
GPT-3에는 RLHF(인간 피드백 기반 강화학습)이 사용됨
GPT-3 vc. GPT-4, 파라미터의 차이
Zero-Shot, One-Shot, Few-Shot Learning
LLM(대규모 언어 모델)별 기능 척도
Microsoft 서비스의 생성형 AI 적용 예시