목차
Excutive Summary
- 1980년 딥 러닝(Deep Learning) 개념이 처음 나온 후 AI 기술은 점진적인 성장을 보이다가 2012년 알렉스(Alex)의 CNN(Convolution Neural Network), 2014년 이안 굿펠로우(Ian Goodfellow)의 GAN(Generative Adversarial Network), 그리고 2020년 OpenAI의 GPT-3의 등장으로 식별·예측 기술을 넘어선 생성형 AI기술이 부상함
- AI기술은 자동화와 효율성 향상을 장점으로, 금융, IT, 물류, 에너지, 의료 등 다양한 산업에 적용이 가능하며 이를 통해 전(全) 산업분야의 생산성이 증가하고 변화를 초래할 것으로 예상함
- 정부는 2027년 AI 전문기업 1,000개 달성 등 ‘전국민 AI 일상화’를 목표로 2023년 기준, 약 7,129억원의 예산 투입할 계획
- 생성형 AI를 구성하는 기업들은 역할별로 크게 Apps, Models, Infrastructure로 구분할 수 있으며 이 중 Apps, End-to-End Apps(모델 포함) 부분에 스타트업이 집중하고 있음
- Apps의 경우 ‘시장(도메인)’, ‘데이터셋’, ‘편의성(fine tuning 척도)’에 따라 경쟁력과 차별성이 달라짐
- 생성형 AI 스타트업이 선순환(Flywheel)을 그리기 위해 가장 중요한 요소는 ‘양질의 데이터셋’으로 스케일업이 가능한 시장을 선점하여 양질의 데이터셋을 모아 지속적으로 성장할 수 있도록 해야 함
- 미래에는 기술적 측면에서 ‘이머전트’의 등장과 함께 더 인간과 유사한 발전된 기술이 등장할 것으로 예상되며 생태계 측면에서 ‘생성형 AI’를 기반으로 한 새로운 생태계가 형성될 것으로 예상됨
- 새로운 생태계 형성을 위해 Foundation Model을 보유한 대기업과 스타트업간 전략적 투자 및 제휴 또한 증가하고 있음
- 생성형 AI 관련한 투자는 2021년 15억 달러에서 2022년 26억 달러의 규모로 지속적으로 증가하고 있으며 현 시점에서는 Text, Image 관련한 투자가 다수임
- 생성형 AI의 주요 스타트업으로는 OpenAI, Hugging Gace, Jasper, stability.ai 등이 있으며, 국내 사례로는 뤼튼테크놀로지스, 스켈터랩스, 포자랩스 등이 있음
- 생성형 AI는 새롭게 부상하고 있는 분야인만큼 윤리, 보안, 저작권 등의 문제가 제기되고 있으며 이러한 문제점을 해결하기 위해 AI 관계 기업 및 정부는 ‘AI 윤리 체계’를 수립하는 등 개선점을 찾고 있음
- 결과적으로, 생성형 AI 또한 투자사 입장에서는 Business 측면이 핵심이기에 무엇보다도 어떠한 시장을 타겟으로 하고 있으며 확장가능성이 얼마나 되는지, 해당 사업을 실현하기 위한 기술력 여부, 경쟁력 및 차별성을 가질 수 있는 양질의 데이터 보유 여부 등 ‘사업가능성’ 과 ‘수익성’을 주요 point로 고려해야 함
Part 1. Tech Side - 기술로 바라보는 생성형 AI
1-1. 생성형 AI의 정의
•
생성형 AI(Generative Artificial Intelligence)는 텍스트, 이미지, 음악, 비디오와 같은 콘텐츠를 생성할 수 있는 인공지능 기술 중 하나로, 알고리즘을 사용하여 패턴을 학습하고 해당 학습을 기반으로 새로운 결과물을 출력(생성)함
•
기존 AI는 데이터와 패턴을 학습하여 어떠한 대상을 이해·식별하고(머신러닝, Machine Learning), 예측(딥러닝, Deep Learning)하는 기술로 설명하였다면, 딥러닝에서 더 발전한 생성형 AI는 예측을 통한 새로운 결과물을 ‘생성’하는 것이 가능함
[그림 1] 처음에는 이러한 이미지(데이터)를 보여주며 ‘이 중 고양이를 찾아보자’라는 패턴을 학습(aka, 머신러닝)시켰다면, 생성형 AI는 ‘고양이의 특징을 학습해서 고양이를 찾을 수 있다면 그 특징을 활용해 고양이를 그려보자’라는 명령어의 수행이 가능함
1-2. 생성형 AI 기술의 이해
•
•
따라서, 학습할 수 있는 ‘양질의’ 거대한 양의 데이터와 그 데이터를 바르게 학습한 모델이 필수적임
◦
이렇게 데이터를 학습한 모델을 Foundation Model이라고 부르며 Text 분야에서 대표적인 모델의 예시로는 GPT, BERT, T5, BLOOM, RoBERTa 등이 있음(이런 언어모델들을 통칭하는 것이 LLM, Large Language Model임)
◦
Foundation Model 중 Image 분야에서 대표적인 모델의 예시로는 Dalle-2, Midjourney, Stable Diffusion 등이 있음(시각적인 모델을 통칭하는 것이 확산 모델, Diffusion model임)
▪
Dalle-2, Midjourney, Stable Diffusion은 GAN(Generative Adversarial Network, 생성모델기술, ’생성자’와 ‘판별자’를 만들어 상호간 경쟁을 통해 그림의 정확도를 높이는 모델)과 Text를 혼합하여 만든 모델로, Multi Modal(문장 입력 시 그림 생성)로 분류됨
[그림 2] 생성형 AI 모델의 개발 과정
[그림 3] 학습한 Parameter의 수, GPT-2 모델은 1.5B(150억개), GPT-3 모델은 175B(1750억개) 파라미터를 학습함
[그림 4] 파라미터수에 따른 모델 그래프(GPT-3 포함)
Part 2. Market Side
2-1. ‘정부’의 AI 지원 정책
•
22년 9월에 발표된 ‘대한민국 디지털 전략’에서 2023년부터 6대 혁신기술 분야에 대한 연구개발 집중 투자를 발표(6대 혁신기술: (1)인공지능, (2)인공지능 반도체, (3)5·6세대 이동통신, (4)양자, (5)확장가상세계, (6)사이버보안)
•
정부는 차세대 인공지능 원천기술 개발에 2026년까지 5년간 3천18억원, AI반도체 핵심기술 개발에 2026년까지 1조200억원을 투입하여 초거대 AI모델, 신경망처리장치(NPU) 등 세계 최고수준 인공지능 기반을 구축하려함
•
2023년부터는 ‘인공지능 10대 핵심 사업’을 추진하며 약 7,129억원의 예산 투입 예정(2023.1월, 제2차 국가데이터정책위원회)
2027년 기업의 AI 도입률 50% 달성 및 매출액 50억원 또는 투자유치 20억 이상의 AI 전문기업 1,000개 달성을 목표로 함
2-2. 생성형 AI ‘스타트업’ 비즈니스 모델
2-2-1. 생성형 AI ‘Value Chain’
•
생성형 AI를 구성하는 요소들은 크게 ① Apps, ② Models, ③ Infrastructure로 나눌 수 있음
1.
Apps: 자체 모델이나 3rd-party API에 의존하여 운영하는 유저가 사용하는 Product(ex, Chat GPT, Github Copilot, Midjourney)
2.
Models: AI product의 핵심, API를 제공하거나 open-source(호스팅 솔루션 구독 필요)를 제공함(ex, GPT-3, Stable Diffusion, Hugging Face)
3.
Infrastructure: Cloud Platfors, 하드웨어 등 생성형 AI 모델을 위한 인프라(AWS, Azure, Nvidia GPU)
•
Infrastructure, Foundation Models는 자본 집약적인 대기업의 영역, 스타트업은 Apps, Model Hubs에 집중하고 있음
•
Model을 포함한 버티컬한 비즈니스 모델(End-to-End Apps)의 경우 데이터 배타성 측면에서 스타트업만의 경쟁력을 가질 수 있음
•
App은 ‘특정 도메인에서의 경쟁력’, ‘주력 데이터셋’, ‘추가적 편의성(find tuning)’이 필요함
•
add. Value Chain에 모델을 경량화하고 데이터셋 라벨링을 도와주는 기업도 존재(셀렉트스타, 테스트웍스, 크라우드웍스 등)
[그림 5] 생성형 AI valuechain 구조
[그림 6] 출처: Mckinsey, Exploring opportunities in the generative AI value chain, 2023.04
2-2-2. 생성형 AI 스타트업의 Flywheel과 핵심 3요소
•
1.
양질의 데이터셋(Exclusive quality data): 순도가 높고, 양질의 라벨링이 가능하며, 잠재적 경쟁자가 획득하기 어려운 데이터일수록 경쟁력이 높음(사용자의 좋아요, 선택 피드백 또한 좋은 데이터)[그림 8]
2.
3.
선점(Preoccupancy): 시장 선점을 통해 피드백 데이터를 확보하고 flywheel 작동 가능
(참고) 생성형 AI 구독 모델 예시
[그림 7] AI 스타트업의 3요소
[그림 8] 양질의 Data로 그려지는 Flywheel
[그림 9] 생성형 aI의 산업별·기능별 영향력(출처: Mckinsey & Company, The economic potential of generative AI: The next productivity frontier, 2023.6월 report)
2-3. ‘미래’ 생성형 AI 생태계 흐름
2-3-1. 새로운 기능을 창출하는 AI: 이머전트(emergent)
•
AI가 예상 외 능력을 갖게 되는 것을 이머전트라고 하며, 그 과정에 대해 명확히 밝혀진 바가 없음
•
거대한 파라미터에서의 데이터 학습, Multitask learning, few shot training(meta-learning: To learn the learning process)을 통해 발전한 AI는 이전에 학습하지 않은 것을 대답하기 시작함
•
예시: GPT-3에서 학습하지 않은 외국어 번역이 가능, 스캐터랩의 이루다 모델(2.3b)에서는 사전 학습이 없었던 삼행시 발화 가능
2-3-2. ‘웹 브라우저→모바일→생성형 AI’ 새로운 생태계 형성
•
1993년 웹 브라우저의 출시 후 웹 브라우저를 기반으로 인터넷 생태계가 형성되며 다양한 서비스와 기능들이 출시됨. 이후 오프라인 서비스가 인터넷으로 적용되고 인터넷 기반 스타트업이 생겨남
◦
웹과 비슷하게 2007년 모바일 서비스가 등장하며 모바일을 기반으로 앱 마켓이 부상하고 모바일 기반 스타트업이 생겨남
[그림 10] 카카오톡 채널 기반 챗봇 ‘AskUp’ 검색 기능 시연 화면(업스테이지 제공)
2-3-3. 대기업(Foundation Model 보유)-스타트업 협력 증가
•
Microsoft와 OpenAI의 전략적 투자를 기반으로 생태계를 구축하는 것처럼, 국내 빅테크 기업(네이버, 카카오)들 또한 자사의 파운데이션 모델을 중심으로 생태계를 구축하기 위해 스타트업들과의 협업이 증가하고 있음
◦
OpenAI는 자체 스타트업 펀드를 출시하여 초기 단계의 스타트업에 투자함. 투자처는 OpenAI 서비스 선제적 접근 권리 부여, Azure credit 제공, MS와 OpenAI 파트너십의 LP지원 특혜를 받을 수 있으며 2022년 12월 Descript(영상편집), Harvey AI(법률 자문), Mem(메모장), Speak(영어학습)이 투자를 유치함
◦
네이버는 CIC 엑셀러레이터 D2 스타트업팩토리(D2SF)를 통해 초기 투자를 집행하며 투자를 통해 기술 스타트업과 네이버 사업을 연계함
◦
카카오는 벤처스와 인베스트먼트를 통해 AI 스타트업에 투자를 집행. 카카오의 언어모델(KoGPT)과 이미지 생성 모델(Karlo)이 아직 초기단계여서 투자 기업들이 카카오의 AI 모델을 활용한 사례는 없음
Part 3. AI Investing Trends
3-1. 생성형 AI 투자 ‘현황’
•
2021년 글로벌 생성형 AI 투자 규모는 약 15억 달러(1조 8천억원), 투자 건수는 105건이었으며 2022년 26억 달러, 110건 투자를 기록하며 투자가 지속적으로 증가하고 있음[그림 12]
•
2021년~2022년에 투자가 이루어진 주요 분야를 살펴보면 Text분야가 약 8억 5천만 달러, 48건, Visual Media분야가 8억 2천만 달러, 58건, 그 뒤를 이어서 Generative interfaces(5억 8천만 달러, 20건), Speech & audio(2억 1천만 달러, 26건), Code(1억 4천만 달러, 20건) 분야에서 투자를 유치한 것으로 나타남[그림 13]
[그림 12] 생성형 AI 투자 규모 및 건수 추이
[그림 13] 2021-2022년도, 생성형 AI 분야별 투자 규모 및 건수
[그림 13] Funding Round별 생성형 AI 투자 규모 추이
(참고) 생성형 AI 서비스 맵
3-2. 주요 스타트업 투자 ‘사례’
•
2022년 기준, 총 6개 회사가 유니콘(10억 달러 이상의 가치)으로 등극하였으며, 가장 최근에 투자받은 곳은 Jasper와 Stability AI임(22년도 4분기에 1억달러(1,300억) 이상 투자를 유치하여 MegaRound 달성)[그림 14]
•
◦
긴 문장을 만들어주는 서비스
▪
아티피셜소사이어티: 교육용 텍스트, 영어 교육용 지문, 질문지 생성 등
▪
뤼튼테크놀로지스: 비즈니스 텍스트, 기업의 광고문구, 채용공고, 블로그 포스팅 등
◦
챗봇 서비스
▪
올거나이즈: 기업 임직원 등이 업무에 활용할 수 있는 챗봇 개발, 자체 개발한 NLP(자연어처리) AI 기술로 질문 이해력 높임
▪
스켈터랩스: 기업이 고객 응대 등에 사용하는 챗봇 제공, 정보 제공과 함께 공감 능력을 강화한 것이 특징
◦
그 외 자체 개발한 생성 AI 모델을 활용하여 음원 생성 서비스를 제공하는 포자랩스, 가상인간 관련(딥브레인AI, 네오사피엔스, 클레온), 딥러닝 AI 학습을 위한 합성데이터를 만드는 씨엔에이아이(바이오 메디컬 분야), 나니아랩스(2D, 3D데이터 분야) 등이 투자를 유치함
•
글로벌 사례의 경우 천만 달러이상(100억원 이상) 매출을 기록한 생성형 AI 기업이 높은 기업가치를 평가받은 경향이 있으며[그림 16], 국내 생성 AI 기업은 20억원 이상 매출을 기록한 기업들이 높은 기업가치로 인정받음 → 투자에 있어서 수익화 달성 여부를 중요하게 봄
[그림 14] 글로벌 생성형 AI 스타트업 투자 사례
[그림 15] 국내 생성형 AI 스타트업 투자 사례(2023.02월)
[그림 16] 글로벌 생성 AI 기업의 매출액 및 기업가치 비교
[표 1] 생성형 AI 스타트업 투자 사례: 시리즈, 누적금액 등 세부 정보
Part 4. 생성형 AI 스타트업
Part 5. 기타
5-1. 생성형 AI 기술 Risk
•
생성형 AI 관련하여 윤리, 보안, 저작권 등의 문제가 제기되고 있음
•
그 중 대표적인 문제는 표절과 저작권에 관한 것으로 원본 데이터를 공개된 자료를 활용하는 방식의 해결방안이 요구됨
•
값을 입력하는 과정에서 AI는 학습을 하기 때문에 보안 또한 중요한 이슈이며 보안 문제를 해결하기 위해 우선적으로 사용자는 기밀 정보를 입력하지 않도록 하며 서비스 제공자는 개인정보가 포함된 특정 테이블 접근을 제한하도록 코딩할 수 있음
•
생성형 AI에서 발생할 수 있는 윤리적 문제를 해결하기 위해 국내 빅테크사, 금융사, 게임사 등 AI 관련 스타트업을 중심으로 ‘AI 윤리 체계’를 수립하고 있으며 윤리 체계에 더불어 ‘기술의 포용성’, ‘아동 및 청소년 보호’, ‘프라이버시 보호’ 원칙을 추가하여 관리하도록 함
5-2. 생성형 AI 스타트업 투자 시 Key Point!
•
어떤 파운데이션 모델을 활용하든, 직접 딥러닝 기술을 개발하든 결과적으로 사업가능성과 수익성이 중요함
•
따라서 아래 3가지 포인트를 중심으로 살펴봐야 함
◦
시장 타겟팅
◦
프롬포트, 파인튜닝 기술력
◦
양질의 데이터
5-3. Q&A
Q1. 생성형 AI와 일반 AI 기업의 차이는 무엇인가요?
Q2. 국내에 GAN을 사용한 AI 기업이 있나요?
Q3. Text는 LLM(대규모 언어모델) 기반이라고 하던데, 이미지나 영상은 어떤 모델 기반인가요?
5-4. 생성형 AI가 더 궁금하신 분들에게
참고 자료
추가 내용
GPT-3 데이터 근원
GPT-3 기술 소개
GPT-3에는 RLHF(인간 피드백 기반 강화학습)이 사용됨
GPT-3 vc. GPT-4, 파라미터의 차이
Zero-Shot, One-Shot, Few-Shot Learning
LLM(대규모 언어 모델)별 기능 척도
Microsoft 서비스의 생성형 AI 적용 예시
밈