AI의 발전과 반도체

2 more properties
1.
반도체 생태계
a.
반도체는 크게 메모리 반도체와 시스템 반도체
i.
메모리 반도체:
1.
저장 기능을 담당
2.
활용: DRAM, NAND 등 표준화된 제품 (commodity)을 중심으로 소품종 대량 생산을하며, 대규모 설비투자가 가능한 자본력, 미세공정 등 H/W 양산 기술을 통한 원가경쟁력, 선행기술 개발 및 시장 선점이 사업 성공의 핵심 사항
3.
player: 자본 리스크가 높아 진입 리스크 또한 높기 때문에 종합반도체 기업(Integrated Device Manufacturer, or IDM) 위주의 사업. 대표적인 기업으로는 한국의 SK하이닉스와 삼성전자, 미국의 마이크론, 그리고 일본의 Kioxia
ii.
시스템 반도체:
1.
계산과 추론 등의 정보처리/연산 기능을 담당
2.
부문별 특화된 다양한 품종 소량 생산 → 팹리스 (팹 없이 설계만 수행하는 회사)와 파운드리 (설계 없이, 팹리스 회사로부터 받은 설계도대로 칩을 위탁 생산만 하는 회사)로 구분
3.
비교적 자본 리스크가 낮고, 벤처캐피탈이 활성화 되어있기 때문에 중소기업 및 스타트업도 참여가 가능하여 참여 업체가 많음. 반면, 파운드리 사업은 메모리 반도체와 같은 대규모의 자본력, 미세 공정 기술 개발 등이 필요
b. 반도체 생산과정별로의 player
1.
IDM: 모든 반도체 생산 공정을 종합적으로 갖춘 기업. 한 회사가 반도체 칩 생산 설비인 팹(fab)을 갖추고 있고, 반도체 설계, 웨이퍼 가공, 패키징, 테스트로 이어지는 반도체를 만들기 위한 일련의 모든 과정을 모두 수행.
a.
player: SK 하이닉스, 삼성전자, 인텔, 마이크론, Kioxia 정도가 IDM으로 분류
2.
IP기업: IP기업은 팹리스처럼 반도체 ‘설계’를 전문으로 하는 회사. 하지만 팹리스와는 수익 모델이 다름.
a.
IP기업은 셀 라이브러리라고 하는 특정 설계 블록을 팹리스나 IDM, 파운드리 등에 제공하고 IP 사용에 따른 라이선스 비용과 로열티를 받음. 그래서 지적 재산권을 뜻하는 IP(Intellectual Property) 용어 사용.
b.
팹리스는 설계 후 외주를 통해 자사 제품을 생산한다면, IP기업은 설계 라이선스를 판매할 뿐 자신의 브랜드로 제품을 생산하지 않음.
c.
player: 영국의 ARM (Acorn RISC Machine)이 있으며, 스마트폰 등을 위한 저전력 모바일용 반도체 기반 기술로 ARM의 IP가 널리 사용
3.
팹리스: 반도체 설계를 전문적으로 하는 기업. 설계를 제외한 웨이퍼 생산, 패키징, 테스트 등은 모두 외주로 진행되며, 외주를 통해 생산이 완료된 칩의 소유권이나 영업권은 팹리스에 있어 자사 브랜드로 판매.
a.
특히, 파운드리에서 제조되고 있는 웨이퍼에 대한 소유권도 팹리스가 소유(보통, 파운드리 내에 제조 중인 웨이퍼의 소유권을 파운드리가 가지고 있다고 잘못 알고 있는 경우가 있음). 팹리스는 대규모 자본이 드는 공장을 갖추지 않고 설계에 주력할 수 있는 사업 모델
b.
반도체를 만드는 생산시설 없이 뛰어난 아이디어와 우수한 칩 설계 기술만을 바탕으로 반도체 칩 개발에 집중합니다. 따라서 다품종 소량 생산 형태로 기술적인 다양성을 갖는 시스템 반도체는 주로 팹리스 회사에서 주도하고 있는 상황
c.
player: 대표적인 팹리스 기업으로는 퀄컴, AMD, NVIDIA
4.
디자인하우스: 팹리스(설계)와 파운드리(생산)의 연결다리 역할을 하는 기업입니다. 팹리스 기업이 설계한 제품을 각 파운드리 생산공정에 적합하도록 최적화된 디자인 서비스를 제공하는 역할
a.
즉, 팹리스 업체가 설계한 반도체 설계도면을 제조용 설계도면으로 다시 디자인하는 것입니다. 팹리스 기업에서 레이아웃 검증과 같은 백앤드 디자인 (Back-end design)을 직접 수행하지 않고 디자인 하우스를 이용
b.
디자인 하우스는 파운드리에서 제공하는 design rule에 맞게 팹리스 회사에서 만든 회로 설계도를 layout으로 변경하는 작업
5.
파운드리: ‘생산’ 전문 기업인 파운드리. 파운드리는 생산 공정을 전담하는 기업으로서, 자체 제품이 아닌 수탁 생산을 주로 하고 있습니다. 즉, 반도체 생산 설비를 갖추고 있지만 직접 칩을 설계하여 자사 제품을 만드는 것이 아니라 고객으로부터 위탁 받은 제품을 대신 생산해 수익을 얻음.
a.
파운드리 기업은 자체적으로 IP를 설계하기도 하며, IP회사들과 제휴를 맺어 고객들이 필요로 할 시 좋은 IP를 제공하기도 합니다. 생산 전문 파운드리의 주 고객은 바로 팹리스, 시스템 반도체 회사
b.
반도체 생산을 위해서는 수~수십 조원대의 막대한 시설 투자비용이 들고 고도의 생산 관리 기술이 필요합니다. 그렇기 때문에, 반도체를 개발하는 모든 회사들이 반도체를 직접 생산하기는 어렵기 때문에, 파운드리 서비스는 시스템 반도체 분야에서 필수.
c.
player: 7nm 이하의 미세공정을 할 수 있는 기업은 전 세계에서 두 개 밖에(삼성전자 파운드리 사업부, 대만의 TSMC). 많은 기업들이 EUV 노광장비를 도입하려 하였으나, 기술적/재정적 어려움을 이기지 못하고 중도 포기 현재는 대만의 TSMC와 한국의 삼성전자만 서로 경쟁하고 있고, 해당 산업의 진입장벽이 상당히 높음. 물론 최근, 인텔이 파운드리 사업에 진출을 선언하였고, 가까운 장래에 2위 파운드리 사업자가 되고자 사업을 전개
6.
OSAT (Outsourced Semiconductor Assembly and Test): 반도체 패키징 및 테스트 수탁기업으로 어셈블리 기업, 패키징 기업. 폭넓은 의미에서 반도체 후공정 업계를 뜻하는데, 반도체 후공정은 크게 패키징, 테스트. 반도체 팹 공정을 통해 만들어진 웨이퍼에 있는 수백 개의 칩을 낱개로 하나하나 잘라내어 기판이나 전자기기에 장착되기 위해 포장하는 작업을 패키징.
a.
팹 공정과 패키징 공정을 마친 반도체는 완벽한 품질과 신뢰성을 위해 철저한 검사를 거침. 고가의 전자 장비의 핵심 부품인 만큼 엄격한 신뢰성이 요구 IDM 이나 파운드리 기업은 테스트 전문 기업에 업무를 위탁함으로써 효율을 높이고 전문성을 증가.
b.
player: 대표적인 기업으로는 대만의 ASE와 미국의 Amkor, 싱가포르의 STATSChipPAC 등
2.
시스템 반도체
a.
AI 반도체의 정의:
i.
AI는 수많은 데이터를 학습하고 이를 통해 추론한 결과를 도출 → 학습 데이터를 단시간에 받아들이고 처리하기 위해서는 특별한 프로세서가 필요한데, 이 프로세서가 ‘AI 반도체’
ii.
AI 반도체는 AI 서비스 구현에 필요한 대규모 연산을 초고속, 초전력으로 실행하는 효율성 측면에서 특화된 비메모리 반도체로, AI의 핵심 두뇌에 해당
b.
기존 반도체와의 차이
i.
AI 반도체가 개발되기 전에는 핵심 두뇌 역할을 CPU(중앙처리장치)와 GPU(그래픽처리장치)가 담당.
ii.
다만, 이 둘은 AI를 처리할 수 있는 성능은 갖췄지만 애초에 AI용으로 개발된 것이 아니다 보니 AI연산 외의 부분에 성능이 낭비되고, 비용이나 전력 소모 등 비효율적인 부분이 발생
iii.
인간의 뇌처럼 수많은 데이터를 처리하려면 높은 전력과 빠른 속도가 필수적. CPU, GPU 대비 범용성은 낮지만, AI 알고리즘에 최적화된 AI 전용 반도체가 등장하게 된 배경. AI의 딥러닝에 특화되었다는 의미에서 흔히 NPU, Neural Processing Unit(신경망 처리장치)라고 부르기도 함.
iv.
참고 사진
c.
AI 반도체 발전방향
a.
첫번째 CPU: 컴퓨터의 입력, 출력, 명령어 처리 등을 모두 다루는 컴퓨터의 두뇌다. 데이터를 순차적으로 직렬 처리하는 CPU는 대규모 병렬 처리 연산을 필요로 하는 AI에 최적화되어 있지 X
b.
두번째 GPU: 3D 게임 같은 고사양의 그래픽 처리를 위해 개발됐으나 데이터를 병렬 처리한다는 특징이 있어 AI 반도체 중 하나. 본래 AI 연산을 위해 만들어진 반도체가 아니기 때문에, GPU의 병렬 처리 특성은 유지하면서 AI만을 위한 전용 반도체가 등장 필요. GPU가 병렬 연산에 최적화되어 있어서, AI의 대규모 학습 데이터 처리에 유용하지만, 이를 토대로 추론의 결과를 뽑아내는 데에는 AI 알고리즘을 고려한 최적화가 필요
c.
세번째 NPU 형태의 FPGA나 ASIC: 학습 및 추론 과정에서의 중간 데이터들을 저장하는 메모리와의 연결 구조도 성능과 에너지 소모에 큰 영향을 미치는데, AI 반도체 NPU는 이를 모두 고려했기에, 고성능과 에너지 고효율이 가능
예시참고
FPGA(Field Programmable Gate Array)는 칩 내부의 하드웨어를 목적에 따라 재프로그래밍이 가능해 유연성이 높은 것이 특징
ASIC(Application Specific Integrated Circuit)은 특정 목적에 맞춰 제작된 주문형 반도체로 고효율. ASIC 형태로는 주로 글로벌 IT 기업에서 개발
NPU의 한계: NPU는 구조상 다른 AI 알고리즘을 습득하기 어렵. AI 알고리즘의 딥러닝 네트워크를 구성하는 신경망을 하드웨어로 구현했기 때문에 다른 알고리즘을 구현할 때 오히려 더 큰 시간과 비용이 소요될 수 있으므로, GPU보다 범용성이 적다는 단점
d.
네번째 뉴로모틱: 사람의 뇌에 존재하는 신경세포와(뉴런)와 연결고리(시냅스) 구조를 모방성능과 효율성은 앞선 반도체보다 뛰어나지만 범용성이 낮고 아직은 개발 중인 차세대 AI 반도체
1.
인간의 뇌신경의 주요 특성 중 하나인 신경 가소성을 모방하기 위해서PCRAM, ReRAM, MRAM, FeRAM과 같은 메모리 소자를 이용하여 개발하려는 연구를 진행
d.
AI 반도체 시장 현황
i.
요약:
1.
전통 반도체 기업인 퀼컴, 인텔, 엔비디아 + SKT, 구글, 아마존, 애플, 테슬라 등 글로벌 빅테크 기업들도 AI 반도체 개발
2.
향후 AI 반도체는 데이터 센터(Data Center) 등 고성능 서버에 활용 가능한 반도체에서 자동차, 스마트폰 등에 탑재되는 디바이스용으로, 학습용에서 추론용으로 시장 비중이 확대될 것으로 전망된다. 초기에는 머신러닝 학습 목적의 ‘학습용’ 수요가 높지만, 장기적으로는 학습 데이터를 기반으로 AI 서비스를 구현하는 ‘추론용’ 수요 증가
3.
오픈AI: AI 반도체 생산 네트워크 구축 추진
a.
오픈AI가 직접 AI 반도체 생산에 나선 배경: AI 확산 속도를 따라가지 못하는 AI 반도체 공급
i.
현재 엔비디아의 AI 반도체는 주문을 해도 1년이 넘어서야 받을 수 있는 상황
ii.
최근 메타의 마크 저커버그 CEO도 올해 말까지 대규모 컴퓨팅 인프라를 구축하기 위해 엔비디아의 GPU H100 35만개가 필요하다고 밝힐 정도로 시장에서 엔비디아가 차지하는 비중은 절대적
iii.
엔비디아에 대한 과도한 의존을 막기 위해 반도체 업계와 빅테크들도 AI 반도체 시장에 잇따라 진출
1.
AMD는 최근 ‘MI300X’를 출시하면서 “성능 면에서 엔비디아의 대표 AI 반도체인 H100을 능가한다”고 밝혔다.
2.
마이크로소프트(MS)는 AI 반도체 ‘마이아 100′을 올해 출시할 예정이며 구글도 대규모 언어모델(LLM) 훈련에 최적화된 AI 반도체 ‘TPU v5e’를 공
3.
아마존웹서비스(AWS)는 2027년까지 일본 데이터센터 설비 투자와 운영에 약 2조2600억엔(약 20조4000억원)을 투자한다고 밝힘.
4.
아마존 역시 자체 AI 반도체 개발 마무리 단계에 접어든 것으로 알려짐.
4.
(참조) AI반도체 업체들의 경쟁 상황
ii.
해외 기업
1.
엔비디아
a.
회사 개요: 팹리스(Fabless), 즉 반도체 산업 밸류체인 중 ‘설계’에 특화된 기업. 대표 제품인 GPU를 포함해 다양한 반도체 제품을 설계하고, TSMC나 삼성전자 등 외부 파운드리에 제품 생산을 위탁하는 방식으로 비즈니스를 전개
b.
최근 동향:
i.
AI GPU시장을 장악한 엔비디아도 대응에 나섰다. 2년 전 대화형 AI 열풍을 일으켰던 챗GPT의 GPT-3.5의 경우 학습과 추론을 위해 1만여 개의 GPU가 필요했다. 영상·음성까지 동시에 생성할 수 있는 모델을 만들기 위해서는 적어도 5만 개 이상의 GPU가 필요하다는 게 업계의 분석
ii.
엔비디아는 최근 기존 주력 제품(H100)보다 2배 빠른 H200을 공개한 데 이어 차세대 AI 칩(B100)을 준비 → GPU 성능을 높이기 위해 동시에 여러 GPU를 연결해 연산 능력을 극대화한 네트워킹 기술도 선보임.
2.
인텔
a.
회사개요:
b.
최근동향: 생성형 인공지능(AI) 모델 학습에 최적화된 AI 칩 가우디3 출시. 이전 제품보다 속도는 최대 4배 빨라졌고 HBM(고대역폭 메모리) 탑재 용량은 1.5배 늘었다”고 말했다. AI 반도체 핵심인 LLM 처리 성능이 향상됐다는 것을 강조
i.
AMD는 엔비디아의 H100에 비해 2.4배 높은 메모리 밀도와 1.6배 이상의 대역폭을 제공. AMD에 따르면 H100의 최대 구매 기업 중 하나인 메타, 마이크로소프트, 오러클 등이 AMD의 칩을 사용하겠다는 구매 의사를 밝힘.
ii.
AI PC 집중: 인텔은 최근 2025년까지 AI PC 1억대 보급을 지원한다는 계획을 공개 → 스마트폰이나 노트북·PC 등 사용자 기기에서 AI를 구현한 '온 디바이스 AI' 확산에 대응하려는 포석
3.
AMD:
a.
회사개요: 미국의 팹리스 반도체업체로 컴퓨터, 노트북, 데이터센터용 중앙처리장치인 CPU(Central Processing Unit), 그래픽 처리장치인 GPU(Graphics Processing Unit), 필드 프로그래머블 게이트 어레이(FPGA: Field Programmable Gate Array), 가속처리장치(APU: Accelerated Processing Unit)를 설계
b.
최근동향; 엔베디아 대항할 MI300X 칩 출시
iii.
국내 기업: GPU, CPU 등 AI용 고성능 시스템반도체를 직접 제작하지는 않지만, 또 다른 주요 축인 메모리반도체 분야에서 강점. AI 반도체용 GPU에 들어가는 고대역폭 메모리(HBM) 반도체 생산 및 기술 개발
1.
삼성: HBM 개발 집중
a.
HBM를 8개까지 탑재하는 패키징 '아이큐브8' 개발을 완료하고 24년도부터 양산에 돌입
b.
최근동향: 올트먼의 방한(24.01.25)이 AI 반도체의 핵심으로 꼽히는 고대역폭메모리(HBM) 확보를 위한 것이라는 분석. SK하이닉스는 현재 세계 AI 반도체의 90%를 공급하는 엔비디아에 HBM을 공급하고 있는 1위 업체다. 그 뒤를 삼성전자가 바짝 추격하는 모양새로, SK하이닉스(50%)와 삼성전자(40%)의 HBM 시장 점유율을 합치면 90%
2.
하이닉스: HBM개발 집중
a.
회사개요: 메모리 반도체를 주력으로 설계·생산하는 종합반도체(IDM) 기업. 아직까지 주된 매출처는 PC, 서버, 모바일 등 기존의 컴퓨팅 시스템에 탑재되는 DRAM이나 NAND 제품.
b.
HBM: 여러 개의 D램을 수직으로 연결해 기존 D램보다 데이터 처리 속도를 혁신적으로 끌어올린 고부가가치·고성능 제품
i.
AI용 GPU에는 HBM이 필수. 엔비디아의 GPU에 삼성과 SK의 HBM이 들어감
ii.
HBM은 1세대(HBM), 2세대(HBM2), 3세대(HBM2E)를 거쳐 4세대(HBM3)까지 개발된 상태며 4세대인 HBM3의 경우 현재 SK하이닉스가 유일하게 양산
c.
최근동향: 24년 상반기 최신 제품인 5세대 HBM3E를 엔비디아에 공급예정. 동영상 생성형 AI 모델의 등장으로 6세대 HBM4도 예상보다 더 이른 시점에 양산에 돌입할 것으로 전망.
i.
통상 HBM의 경우 한 세대가 지날 때마다 성능이 2배 이상 향상
3.
LG: AI반도체를 위한 신경망처리장치(NPU)에 집중
a.
이를 위해, AI 반도체 설계 전문기업인 퓨리오사AI와 차세대 AI 반도체 및 생성형 AI 관련 공동 연구와 사업화를 위한 전략적 파트너십을 체결
b.
퓨리오사AI는 초거대 AI 모델을 안정적으로 구동할 수 있는 최적화된 AI 반도체를 개발하기 위해 LG AI연구원의 평가와 피드백을 설계와 개발, 양산 전 과정에 반영
c.
(참고) 1999년 반도체 사업에서 완전히 철수한 이력있음.
d.
LG전자는 차량용 반도체 개발 프로세스를 구축
3.
클라우드
a.
AI와의 연결의 필연성:
i.
클라우드는 데이터센터 속에 미리 구축되어 있는 대규모 컴퓨팅 자원을 인터넷을 통해 임대한 후, 이를 활용하여 어플리케이션이나 서비스를 개발하는 것으로, 현존하는 대부분의 IT 서비스 뿐만 아니라 인공지능, 자율주행자동차, 사물인터넷 등도 클라우드 위에서 개발되어 구동됨.
ii.
인공지능은 점점 더 초대규모 데이터에 대한 복잡한 대규모 분산 기계 학습이 요구됨. 예를 들어, OpenAI사가 개발한 딥러닝을 이용하는 알고리즘인 GPT-3는 28만개의 CPU 코어와 1만개의 GPU를 동시에 사용. 데이터 학습을 위해 데이터를 분산시켜야 하며 학습된 모델을 결합필요. 이는 클라우드 컴퓨팅 없이는 불가능
iii.
엣지 컴퓨팅(Edge Computing)은 생성된 데이터를 중앙의 대규모 서버로 전송하지 않고 데이터가 생성된 기기 자체에서 처리하거나 데이터가 발생한 곳과 가까운 소규모 서버로 전송해 처리하는 컴퓨팅 방식. 모든 프로세싱을 처리하기 위해서는 클라우드 기반의 서버에 의존하는 것이 아니라 엣지 컴퓨팅을 사용하여 대부분의 처리를 직접 진행하고 꼭 필요한 혹은 대용량의 데이터만 클라우드로 전송
b. 시장동향
i.
마이크로소프트(MS)
a.
매출 파이프라인
ii. 오픈 AI와 협력: 애저 클라우드와 슈퍼컴퓨터를 오픈AI에 제공하고 수익을 배분하는 방식을 채택. 오픈AI와 기술독점권
1.
새로운 Azure AI 슈퍼컴퓨팅 기술 공동 구축
2.
오픈AI가 새로운 AI 기술을 개발하고 인공 지능의 약속을 이행하는데 사용할 Microsoft Azure에서 실행될 수 있는 서비스
3.
대규모 슈퍼컴퓨팅: 마이크로소프트는 전문 슈퍼컴퓨팅 시스템의 개발 및 배포에 대한 투자를 늘려, 오픈AI의 획기적인 독립AI 연구 가속화
4.
새로운 AI 기반 경험: 마이크로소프는 소비자 및 엔터프라이즈 제품 전반에 오픈AI모델을 배포하고, 개발자는 오픈AI 모델에 직접 엑세스하여 최첨단 AI 애플리케이션을 빌드할 수 있도록 지원
5.
MS → 오픈AI 에 투자금액 10조 이상
6.
프로덕트:
a.
검색엔진 빙(Bing)
i.
오픈AI의 신규 대형언어모델(Large Language Model)을 적용, 사용자가 웹에서 얻는 경험을 극대화했다. 웹브라우저 엣지(Edge)에도 AI 기능을 추가
ii.
새로워진 빙은 검색을 위해 특별히 설계된 오픈AI의 새 대형언어모델 프로메테우스(Prometheus)에서 실행되며, 이 모델은 챗GPT와 GPT-3.5 보다 더 정확하고 빠른 성능 제공. 이를 통해 빙은 사용자에게 보다 나은 검색 경험과 완벽한 답변은 물론 채팅, 콘텐츠 생성 기능 등을 제공
b.
클라우드 서비스(애저): 애저 오픈 AI 생성
i.
애저 오픈AI 서비스가 출시됨에 따라 GPT-3.5, 코덱스(Codex), 달리2(DALL·E 2) 와 같은 가장 진보한 AI 모델을 마이크로소프트 클라우드 애저상에서 사용할 수 있게 된다. 여기에는 챗GPT(ChatGPT) 기능
ii.
2023년 3월 32일 GPT - 4 모델 보딩