AI 경쟁의 다음 단계

모델 간 성능 차이가 줄어들면서, AI의 방어력은 컴퓨팅 자원, 인재, 데이터, 그리고 배포에 달려 있습니다.

AI 모델은 2022년 이후로 크게 발전해 왔으며, 2019년 Meta와 Google에서 처음 범용 NLP 모델이 훈련된 이후로도 크게 개선되었습니다. 그러나 모델 성능을 평가하는 일반적인 벤치마크가 이제 평준화되는 추세입니다. 과거에는 최첨단 벤치마크를 경신하는 것이 MMLU에서 27%에서 60%로 향상되는 것을 의미했는데 (Roberta에서 GPT3로), 지금은 GPT4o에서 Gemini Ultra로 88.7%에서 90%로 1.01배 상승하는 것을 의미할 수 있습니다.

일반적인 해석은 모델 성능이 정체되고 있으며, 모델 성능을 좌우하는 스케일링 법칙이 이제 한계에 다다랐다는 것입니다. 하지만 우리의 견해는 조금 다릅니다. 우리가 여기까지 온 방법이 AGI(인공지능 일반)를 달성하는 데 필수적이지는 않겠지만, 그것이 곧 진보의 끝을 의미하지는 않습니다. 모델이 계속해서 발전할 것이라고 믿지만, 순수한 성능 차이는 점차 미미해질 것입니다. 이러한 상황에서 우위를 유지하려면 컴퓨팅 자원, 인재, 데이터, 배포와 같은 AI 경쟁의 기본적인 요소들에서 방어력을 확보하는 능력이 중요해질 것입니다.

Compute: 앱 개발자를 위한 추론 효율성 극대화 경쟁

컴퓨팅 자원은 여전히 중요하며 GPU 부족 현상도 계속될 것입니다. 차세대 기반 모델을 훈련하는 데 많은 리소스가 필요하지만, 실제 활용 사례가 증가함에 따라 훈련보다 추론을 위한 GPU 수요가 더 커질 것입니다. 향후 몇 년 동안 기업들은 앱 개발자를 위해 추론 효율성을 극대화하는 경쟁을 벌일 것입니다.

GPU 부족 논의는 주로 모델 훈련을 위한 GPU에 대한 높은 수요에 집중되어 있습니다. 더 큰 모델이 더 성능이 좋고, 더 큰 모델에는 더 많은 GPU가 필요하기 때문에 이 추세는 사라지지 않을 것입니다. 그러나 이것이 전체 이야기의 전부는 아닙니다.

GPT-5는 Microsoft Azure의 H100 GPU 약 25,000대에서 50,000대에 이르는 GPU에서 훈련되고 있다고 합니다. Azure는 약 150,000대의 H100 GPU를 보유하고 있으며 매일 GPU 수를 추가하고 있습니다. 이 중 최대 3분의 1이 단일 모델 훈련에 사용된다는 점은 주목할 만하지만, 나머지는 무엇을 하고 있을까요? OpenAI와 Anthropic의 실제 작업량이 증가하면서 대규모 추론 수요가 발생하고 있기 때문입니다.

현재 모델들은 매우 뛰어납니다! OpenAI와 Anthropic의 기반 위에서 실제 사용 사례들이 급증하고 있으며, Llama-3와 Mixtral 같은 오픈 모델들은 거의 모든 개발자에게 인공지능을 민주화하고 있습니다. 경쟁이 증가하면서 추론 비용이 낮아지고, AI 앱을 구축하는 것이 점점 저렴해지고 있습니다.

이러한 트렌드는 점점 더 많은 모델 공급자와 개발자들이 GPU 추론 효율성을 최대화하는 데 초점을 맞추고 있음을 시사합니다. 이를 실현하는 방식은 두 가지입니다. 첫째는 소형 모델 제공입니다. 대형 모델들은 점점 더 소형의 추론 최적화 모델과 함께 제공되고 있습니다. GPT4o-mini는 그 예로, 8B 파라미터를 가진 이 모델은 추론 비용이 전체 GPT4o에 비해 40배 저렴합니다. 세밀 조정 기술의 발전으로 인해 다중 모달 품질에서의 트레이드오프는 줄어들고 있으며, 언어 벤치마크에서 GPT4o-mini는 Llama 3 70B와 Claude 2 (137B 파라미터)와 대등한 성능을 보입니다.

두 번째는 직접적인 추론 최적화 증가입니다. 양자화, FlashAttention, Speculative Decoding은 이미 추론 최적화 모델의 주요 기술로 자리 잡았지만, 희소성(sparsity)은 다음 도전 과제입니다. BERT는 Query * Key^T 어텐션 계산에서 10%만이 최종 어텐션 행렬에 의미 있는 기여를 한다는 것을 보여주었습니다. 성능을 저하시키지 않고 올바른 10%를 찾는 것이 과제입니다. Sparsely-Sharded Attention은 어텐션 헤드를 나눠 입력을 분할하여 이 가능성을 보여줍니다. MoE(Mixture of Experts) 모델도 인기 있어지고 있는데, 이는 기본적으로 희소성을 가지고 있기 때문입니다. 입력마다 소수의 “전문가”만이 활성화됩니다.

다음 세대 모델의 추론 및 훈련 요구를 지원하려면 하드웨어 확장이 필요합니다. 여기에는 GPU, 금속 랙, 배관, HVAC, 냉각 시스템, 에너지 관리, 전원 공급, 그리고 데이터 센터를 위한 콘크리트 건설까지 포함됩니다. 시간이 걸리겠지만, 그 사이에는 가용 자원 최적화에 중점을 두게 될 것입니다. 이는 앱 개발자들에게 희소식이 될 것입니다. 나중에 컴퓨팅 제약이 완화되더라도, 이러한 연구는 다양한 품질과 가격대의 모델을 폭넓게 제공할 것입니다.

Talent: 미션 일치가 그 어느 때보다 중요

한때 금전적 보상은 인재를 유인하는 데 충분했습니다. 하지만 자금이 풍부한 연구소들이 경쟁하면서 이제는 미션 일치라는 새로운 요소가 나타나고 있습니다.

인재 밀도는 성과를 창출합니다. 최고의 사람들과 특별한 일을 함께한다는 공명감은 복리 효과를 제공합니다. 한동안, 연구의 중심은 학계에 있었습니다. 이제는 확실히 그렇지 않습니다.

2010년대에 민간 연구소들은 대학 연구 부서에서 많은 인재들을 빼갔습니다. 2013년 ICML, NeurIPS, ICLR에서의 수상자들은 모두 학계 팀이었으나, 2023년에는 수상 팀의 50% 이상이 비학계 연구소에 속해 있으며, 가장 많이 인용된 AI/ML 논문의 70%가 비학계 연구소에서 작성되었습니다.

민간 연구소들에게는 학계에서 연구원을 스카우트하는 것이 비교적 쉬웠습니다. 이들은 비슷한 지적 자유를 제공하면서도 훨씬 높은 보수를 제공했습니다. 하지만 이제 경쟁이 바뀌고 있습니다. Stanford의 저자금 연구소에서 연구원을 데려오는 대신 OpenAI나 DeepMind에서 7자리 보상 패키지를 제공받는 연구원들을 유인해야 합니다. 금전적 보상은 필요하지만 충분하지는 않습니다.

처음에는 Google/DeepMind가 인재의 중심이었지만, 더 큰 자유와 잠재적인 보상, 그리고 적은 관료주의를 원하는 인재들은 OpenAI로 이동하기 시작했습니다. OpenAI는 여전히 인재의 중심으로 여겨지지만, 최근 몇몇 중요한 인재의 이탈은 미션 일치라는 추가적인 동기가 있음을 시사합니다.

이는 특히 훈련 후 단계의 인재에게 해당됩니다. 공동 창립자인 Ilya Sutskever가 OpenAI를 떠난 후 몇 시간 만에, 인간 가치에 모델을 맞추는 Superalignment 팀의 책임자 Jan Leike가 뒤따랐습니다. Jan의 팀원 중 다수와 회사 전반의 인재들이 Anthropic으로 옮겨갔습니다. Musk의 xAI도 더 반항적인 모델을 구축하겠다는 약속으로 OpenAI의 우수한 연구자들을 유인했습니다.

미션 일치와 훈련 후 과정은 사용자들이 모델을 어떻게 느끼는지에 영향을 줍니다. 이 분야의 연구자들은 개인적인 신념과 일치하는 모델을 만드는 곳으로 이동하는 경향이 증가하고 있습니다. 이를 관리하는 것은 기업들에게 도전이 될 것입니다. 여기에 대한 “올바른” 관점은 아직 명확하지 않지만, 이제는 관점을 가지지 않는 것이 선택지가 아닙니다.

Data: 유기적 일치 데이터와 독점적 일치 기술이 훈련의 새로운 영역입니다

유기적 일치 데이터는 모델의 지속적인 개선에 필수적인 요소로, 공개 데이터로 사전 훈련된 모델의 일반화 능력을 향상시킵니다.

어텐션 메커니즘은 2017년 이전에도 존재했습니다. ‘Attention is All You Need’ 논문의 핵심 통찰은 어텐션을 RNN에 붙일 필요가 없다는 것이었습니다. 인코더-디코더 블록만으로도 충분했으며, 이는 병렬 훈련을 가능하게 했고, 더 큰 모델을 요구하게 되었습니다. 더 큰 모델은 훈련에 막대한 양의 데이터를 필요로 했습니다.

대부분의 사전 훈련 데이터는 세 가지 출처에서 나옵니다: 웹 스크래핑, 출판사와의 라이선스 계약, 그리고 합성 데이터입니다. 여기에 네 번째 카테고리가 새롭게 떠오르고 있는데, 바로 유기적 일치 데이터입니다.

사후 훈련 일치(Post-training alignment)는 공공 데이터로는 설명하기 어려운 고유한 작업에서 모델이 더 잘 추론할 수 있도록 돕습니다. 예를 들어 Pratt & Whitney 제트 엔진의 공기 소비 동력학에 관한 복잡한 기술 문서를 이해해야 하는 경우가 그렇습니다. 현재로서는 세밀 조정(fine-tuning)이나 RAG(Retrieval-Augmented Generation) 같은 방법이 해법으로 보이지만, 이들 모두 많은 양의 깨끗한 데이터를 필요로 합니다. 데이터가 한계에 다다르면 추가 개선이 어려워집니다. 여기서 중요한 것이 바로 일치입니다. 모델이 작업에 필요한 정확성으로 점차 다가갈 수 있도록 유체역학 엔지니어들의 피드백을 활용하는 방식입니다. 심지어 완벽하지 않은 응용 프로그램이라도 숙련된 사용자에게 제공함으로써, 기업은 이러한 독점적 데이터를 대량으로 수집할 수 있습니다.

일치 기술도 새로운 데이터를 활용하는 방향으로 발전해 왔습니다. 초기에는 RLHF(강화 학습을 통한 인간 피드백)와 DPO(선호 최적화) 같은 방법이 선호도의 일부를 포착했지만, 간단한 A-B 응답 비교는 모델을 잘못된 방향으로 유도할 수 있습니다. 만약 두 답변이 모두 좋지 않다면 어떻게 될까요? Contextual AI의 Kahneman-Tversky 최적화(KTO)는 단순한 상대적 가치가 아닌 객관적 가치를 포착하려고 시도합니다. APO + CLAIR 기법은 A와 약간 수정된 A'을 비교함으로써 바람직한 응답을 도출하는 데 유용한 특정 변화를 추출하려 합니다.

일치 연구자들의 말에 따르면, 답변을 “평가”하는 것이 더 많은 고품질 소스를 “생성”하는 것보다 항상 쉽습니다. 고가치이지만 데이터가 적은 사용 사례가 확산됨에 따라, 유기적 일치 데이터와 독점적 일치 기술을 통해 차별화된 경쟁 우위를 구축할 기회가 열릴 것입니다. 핵심은 AI 네이티브 앱을 숙련된 사용자에게 제공하여 반복적인 사용을 유도하는 것입니다.

Distribution: 순수한 성능을 넘어

수천 개의 모델이 존재하고 추론 가격이 하락하는 상황에서, 차별화 요소는 이제 배포와 제품으로 이동하고 있습니다.

지난 2년간 모델 품질이 급격히 향상되면서, 성능이 모든 것을 좌우하는 시기였습니다. 더 나은 모델을 갖추면 사용자가 제품을 시도하고 전환할 가능성이 높았습니다. 그러나 이제 품질 차이가 줄어들면서, 앱 개발자들은 일반적인 모델 벤치마크보다는 자신만의 맥락 평가를 더 중요하게 여기고 있습니다.

“어떤 모델이 가장 좋은가?”라는 질문에 객관적으로 참인 답이 없다면, 경쟁은 사용자를 가장 효과적으로 유인하고 유지할 수 있는 제품으로 이동하게 됩니다. 다시 말해, AI 앱들이 서로 경쟁하는 모습은 마치 2010년대에 SaaS 앱들이 서로 경쟁했던 것과 유사해질 것입니다. 모델이 사용자에게 원하는 톤을 제공하고, 다음 작업을 예측하며, 사용자가 더 빠르게 작업을 완료하는 느낌을 줄 수 있는가? 이러한 질문들이 다음 세대 AI 제품 경험을 정의하게 될 것입니다.


훌륭한 기업들은 끊임없이 실행하여 돋보일 것입니다

AI 경쟁은 컴퓨팅 자원, 인재, 데이터, 배포 등 여러 측면에서 진화하고 있습니다. 더 효율적인 추론 시스템을 개발하려는 경쟁은 애플리케이션이 AI를 활용하는 방식을 변화시키며, 신규 개발자들의 진입 장벽을 낮추는 동시에 전문화된 하드웨어에 대한 수요를 증가시킬 것입니다. 동시에, 최고의 인재를 유치하려면 개인의 동기와 AI 발전이라는 더 큰 목표를 일치시키는 것이 점점 더 중요해지고 있으며, 이에 따라 문화와 비전이 보상만큼이나 중요해질 것입니다.

이 새로운 환경에서 고품질 데이터, 특히 유기적 일치 데이터에 대한 접근은 기업이 지속적으로 모델을 세밀 조정할 수 있는 전략적 차별화 요소가 됩니다. 그러나 모델 자체의 차별성이 줄어들면서, 진정한 경쟁력은 배포와 사용자를 사로잡는 제품에 있을 것입니다. 궁극적으로 모든 기업은 플라이휠 효과를 구축하려고 합니다. 더 나은 제품이 더 나은 사용자를 확보하고, 이들이 더 많은 일치 데이터를 생성하며, 이는 더 나은 모델을 만들어 더 나은 제품을 제공하는 선순환을 만들게 됩니다.

순수한 성능은 여전히 중요할 것입니다. 더 나은 성능은 더 많은 데이터를 더 큰 모델에 투입하고, 더 큰 컴퓨팅 스택에서 실행하며, 더 강력한 데이터 센터에서 처리함으로써 달성될 것입니다. 하지만 더 나은 모델이 있다고 해서 자동으로 성공이 보장되지는 않습니다. 모든 요소를 결합하여 차별화된 종합적인 AI 경험을 창출하는 조직이 이 다음 AI 경쟁의 장에서 가장 큰 가치를 창출할 것입니다.