엔비디아의 H100은 정답이 아니다: AI 비용의 90%를 차지하는 ‘추론(Inference)’의 경제학

“학습(Training)은 끝났다, 이제는 실전이다”

2023년이 거대언어모델(LLM)을 누가 더 똑똑하게 만드느냐의 경쟁이었다면, 2026년 현재는 누가 더 싸고 빠르게 서비스를 돌리느냐의 ‘운영(Operation)’ 경쟁으로 판도가 뒤집혔습니다. 오픈AI의 샘 알트먼이 9,000조 원의 펀딩을 언급했던 이유도, 엔비디아의 주가가 요동치는 이유도 결국은 하나로 귀결됩니다. 바로 감당할 수 없을 만큼 불어나는 ‘추론(Inference) 비용’ 때문입니다.

수천만 원을 호가하는 엔비디아의 H100 GPU는 AI를 학습시키는 데는 탁월하지만, 완성된 AI를 서비스하는 단계에서는 치명적인 비효율을 안고 있습니다. 이번 글에서는 AI 반도체 시장의 무게중심이 ‘학습’에서 ‘추론’으로 이동하는 구조적인 원인과, 그 틈새를 파고드는 차세대 반도체(LPU, NPU)의 기술적 특성을 면밀히 살펴봅니다.

1. 빙산의 일각은 ‘학습’일 뿐이다

일반적으로 대중은 AI를 개발하는 데 천문학적인 돈이 든다고 생각합니다. 맞습니다. GPT-4 수준의 모델을 학습시키려면 수천억 원의 서버 비용이 발생합니다. 하지만 이는 전체 생애주기 비용(TCO)의 10~20%에 불과합니다.

  • Capex (설비 투자): 모델 학습은 한 번(One-off) 완료하면 끝나는 고정 비용 성격이 강합니다. 대학 등록금과 같습니다.
  • Opex (운영 비용): 반면 추론은 전 세계 수억 명의 사용자가 질문을 던질 때마다 실시간으로 연산 자원을 소모합니다. 챗GPT가 매일 답변을 생성할 때마다 전기세와 서버 비용이 청구서에 쌓입니다. 이것이 바로 ‘추론 비용’이며, 서비스가 성공할수록 기하급수적으로 늘어나는 변동 비용입니다.

2. 페라리로 피자 배달을 하지 마라

현재 데이터센터의 표준이 된 엔비디아의 H100은 ‘범용 GPU’입니다. 병렬 연산에 최적화되어 있어 거대한 데이터를 한꺼번에 밀어 넣고 학습시키는 데는 타의 추종을 불허합니다. 하지만 사용자의 질문 하나하나에 순차적으로 대답해야 하는 ‘실시간 추론’ 환경에서는 이야기가 다릅니다.

GPU의 딜레마 (Latency vs Throughput):
GPU는 한 번에 많은 데이터를 처리하는 ‘대역폭(Throughput)’은 좋지만, 반응 속도인 ‘지연 시간(Latency)’을 줄이는 데는 구조적 한계가 있습니다. 간단한 챗봇 응답을 위해 5,000만 원짜리 H100을 가동하는 것은, 마치 피자 한 판을 배달하기 위해 12기통 페라리를 시동 거는 것과 같은 자원 낭비입니다.

3. 속도의 혁명, 그록(Groq)과 LPU

이러한 GPU의 비효율성을 파고든 대표적인 주자가 바로 조나단 로스(Jonathan Ross)가 설립한 스타트업 ‘그록(Groq)’입니다. 그들은 GPU가 아닌 LPU(Language Processing Unit)라는 새로운 개념을 제시했습니다.

LPU는 무엇이 다른가?

핵심은 메모리 구조의 혁신입니다. 엔비디아 GPU는 HBM(고대역폭 메모리)이라는 외부 메모리에서 데이터를 가져오는 데 시간이 걸리지만, Groq의 LPU는 칩 내부에 SRAM을 통합하여 데이터 이동 시간을 극도로 단축했습니다.

결과는 충격적이었습니다. 벤치마크 테스트에서 그록은 초당 500토큰(Token/s) 이상의 생성 속도를 기록했습니다. 이는 챗GPT-4보다 약 10배 이상 빠른 속도입니다. 사용자가 질문을 끝내기도 전에 답변이 완료되는 수준의 ‘실시간 AI’가 가능해진 것입니다.

4. 클라우드를 벗어난 AI: NPU의 시대

서버 비용을 줄이는 가장 확실한 방법은 무엇일까요? 바로 서버를 쓰지 않는 것입니다. 데이터센터가 아닌 사용자의 기기(스마트폰, 노트북)에서 직접 AI를 구동하는 ‘온디바이스(On-Device) AI’가 필수적인 이유입니다.

여기서 주인공은 NPU(Neural Processing Unit)입니다. 애플의 A시리즈, 퀄컴의 스냅드래곤, 인텔의 코어 울트라 프로세서에 탑재된 NPU는 전력 소모를 최소화하면서 AI 연산만 전담합니다. 인터넷 연결 없이도 통번역이 되고, 이미지를 생성할 수 있는 이유는 CPU나 GPU가 아닌 NPU가 백그라운드에서 쉴 새 없이 돌아가고 있기 때문입니다.

5. 결론: ‘성능’에서 ‘효율’로의 패러다임 전환

반도체 전쟁의 1막이 ‘누가 더 똑똑한 칩을 만드느냐(Performance)’였다면, 2막은 ‘누가 더 싸고 효율적인 칩을 만드느냐(Efficiency)’의 싸움입니다. 엔비디아의 독점적 지위는 당분간 유지되겠지만, ‘추론’이라는 거대한 시장이 열리면서 LPU, NPU, 그리고 구글/아마존의 자체 칩(ASIC)들이 빠르게 점유율을 잠식해 들어갈 것입니다.

투자자라면 엔비디아 너머를 봐야 할 시점입니다. AI 서비스의 지속 가능성을 결정짓는 것은 결국 ‘토큰 당 비용(Cost per Token)’을 누가 획기적으로 낮추느냐에 달려 있기 때문입니다.