AI 에이전트란 무엇이며 누가 혜택을 보는가

대부분의 레이스에는 상금이 있습니다. 뉴욕시 마라톤 우승자는 10만 달러를 받습니다. 2023년 F1 우승자는 1억 4천만 달러의 상금을 받았습니다.

제가 지금부터 설명할 레이스의 우승자는 수십억 달러를 벌게 될 것입니다. 수백억 달러일 수도 있습니다. 지각변동을 일으킬 것입니다. GDP를 실질적으로 증가시킬 것입니다.

이것이 바로 인공지능 에이전트를 향한 경쟁입니다. 에이전트는 AI 경쟁의 다음 단계이며 모든 주요 기술 회사, 연구소 및 선도적인 AI 스타트업이 집중하고 있는 분야입니다.

저는 수개월 동안 창업자, 투자자, 과학자들과 이야기를 나누며 이 기술이 무엇인지, 그리고 그 주역이 누구인지 이해하려고 노력해왔습니다. 오늘은 그 결과를 공유하고자 합니다. 제가 다뤄보겠습니다:

  • AI 에이전트란 무엇인가요?
  • 주요 플레이어
  • 기술적인 베팅
  • 미래

시작해 보겠습니다.

에이전트 워크플로우란 무엇인가요?

AI 에이전트는 새로운 유형의 워크플로우를 가능하게 하는 일종의 모델 아키텍처입니다.

우리가 시작한 AI는 답을 공식화하여 반환합니다. "우산이 비를 막아주나요?"와 같은 간단한 질문을 하면 GPT-4는 "물론이지, 이 멍청아"라는 답변을 반환합니다. 대규모 언어 모델은 외부 데이터에 의존하지 않고 내부 데이터를 사용하여 질문에 답할 수 있으며 계획 없이 프롬프트에 따라 실행됩니다. 입력과 출력을 연결하는 직관적인 라인입니다. 그리고 새로운 출력을 원할 때마다 프롬프트를 제공해야 합니다.

에이전트 워크플로우는 루프로, 작업의 각 단계마다 사람이 개입할 필요 없이 여러 번 연속으로 실행할 수 있습니다. 언어 모델은 사용자의 프롬프트에 따라 계획을 세우고, 웹 브라우저와 같은 도구를 활용하여 그 계획에 따라 실행하고, 그 답이 맞는지 스스로에게 물어보고, 그 답을 사용자에게 다시 알려주면서 루프를 닫습니다. "앞으로 7일 동안 보스턴의 날씨가 어떤지, 우산을 챙겨야 하나요?"라고 묻는다면 에이전트 워크플로우는 계획을 세우고 웹 브라우징 툴을 사용하여 날씨를 확인한 다음 기존의 지식 기반을 통해 비가 오면 우산이 필요하다는 것을 알 수 있습니다. 그런 다음 대답이 맞는지 확인하고 마지막으로 "보스턴에서는 항상 그렇듯이 비가 올 테니 우산을 챙기세요."라고 말합니다.

에이전트 워크플로우가 강력한 이유는 작업을 수행하는 데 여러 단계가 있기 때문에 각 단계를 최적화하여 성과를 높일 수 있기 때문입니다. 하나의 모델이 계획을 세우고 더 작고 전문화된 모델이 계획에 포함된 각 하위 작업을 수행하는 것이 더 빠르거나 더 저렴할 수도 있고, 워크플로우에 통합할 수 있는 전문 툴을 구축할 수도 있습니다.

하지만 에이전트 워크플로우는 제품이 아니라 하나의 아키텍처입니다. 고객이 구매할 제품에 에이전트를 통합하면 훨씬 더 복잡해집니다.

사용자 문제 해결 > 화려한 데모

스타트업에서 중요한 것은 고객의 문제를 해결하는 것입니다. 에이전트 워크플로우는 기존 모델보다 문제를 더 잘 해결할 때에만 제품으로 유용합니다. 까다로운 점은 현재 AI 에이전트를 지속적으로 더 나은 제품으로 만드는 방법을 아무도 모른다는 것입니다. 요소는 모두 있지만 이를 어떻게 조합할지 아무도 알아내지 못했기 때문입니다.

지금 이 순간은 1980년대 초 개인용 컴퓨터가 등장했을 때 Apple, Hewlett-Packard, IBM이 경쟁하던 시기를 연상시킵니다. 이들은 모두 사용자 인터페이스(마우스 사용, 애플리케이션 표시 필요성 등)에 대해 비슷한 아이디어를 가지고 있었지만 구현의 세부 사항은 철저히 비밀에 부쳐졌습니다. 이 회사들은 기술 구성 요소의 품질과 각 구성 요소가 고객의 문제를 해결하기 위해 어떻게 결합되는지를 놓고 경쟁했습니다.

AI 에이전트를 만드는 회사들도 개별 구성 요소의 품질과 이러한 구성 요소가 어떻게 결합되는지에 대해 경쟁하고 있습니다. 크게 보면 이러한 경쟁의 장은 다섯 가지 구성 요소에 걸쳐 흩어져 있다고 생각하면 됩니다:

  • 데이터 입력: 에이전트는 고유한 데이터셋에 액세스하거나 공개 데이터셋을 더 잘 분석할 수 있어야 합니다(예: 웹 스크래핑). 에이전트가 어디에서 데이터를 가져오나요? 내부 데이터에 액세스하여 더 나은 답변을 제공할 수 있나요?
  • 모델: 지난 1년 동안 "AI"라고 하면 일반적으로 이 구성 요소, 즉 GPT-4와 같은 대규모 언어 모델(LLM)을 의미했습니다. OpenAI와 같은 모델 회사에는 잠시 후에 다룰 다양한 접근 방식이 있습니다.
  • 도구: 이러한 접근 방식은 목수(LLM)에게 새 공구를 주는 것과 같다고 생각하면 됩니다. 제가 기대하는 분야입니다. 2023년에 저는 많은 재무 워크플로우를 대체할 수 있는 코드 인터프리터라는 OpenAI의 도구를 사용했습니다. 코드 인터프리터는 LLM이 스프레드시트를 수정할 수 있는 코딩 환경을 제공합니다.
  • 인터페이스: 이러한 기능을 사용자의 워크플로우에 통합하는 방법을 아는 것은 에이전트가 실제로 무엇을 할 수 있는 것만큼, 아니 그 이상으로 중요합니다. 에이전트가 일반적인 LLM 챗봇 내에 자리 잡고 있나요? 애플리케이션 코드의 일부로 백그라운드에서 작동하고 있나요? AI가 별도의 UI와 앱에 있어야 하나요? 아니면 Salesforce나 Excel과 같은 기존 워크플로우 앱에 통합되어야 할까요?
  • AI Glue: 이것은 제가 만든 용어이지만(다른 용어보다 더 이상하게 들리니 알 수 있습니다), AI 에이전트 회사를 만드는 창업자들과 인터뷰하면서 가장 많이 들었던 말은 "AI 에이전트는 AI 문제가 아니라 엔지니어링 문제"라는 것이었습니다. 앞의 각 구성 요소도 중요하지만, 중요한 것은 이 모든 요소를 어떻게 하나로 묶을 수 있는지를 알아내는 것입니다. 히ㅕㄷ는 일련의 논리적 단계를 프로그래밍하는 전통적인 결정론적 소프트웨어입니다.

이러한 구성 요소의 조합은 무한히 다양합니다. 이전 세대의 소프트웨어 회사와 달리 투자자와 창업자는 제품 위험뿐만 아니라 과학적 위험도 감수하고 있습니다. 2000년대 SaaS 시대에는 클라우드가 작동한다는 것을 알고 있었고, 클라우드에서 소프트웨어를 만드는 방법도 알고 있었습니다. 유일한 문제는 고객에게 도움이 되는 방식으로 클라우드를 사용하는 제품을 만들 수 있느냐는 것이었습니다. 에이전트(도구와 모델 모두)는 제품은 물론이고 이를 작동시키는 과학적인 방법도 완전히 파악하지 못했습니다.

말이 너무 많으니 가능한 한 간단하게 다시 말씀드리겠습니다.

이 기술은 현재 작동하지는 않지만 투자자들은 작동할 수 있다고 믿고 있습니다. 많은 사람들은 에이전트를 대규모로 사용할 수 있는 모델이나 도구에 대한 과학적 발전이 한두 가지 정도만 남았다고 생각합니다.

AI 에이전트 회사는 어떻게 경쟁하나요?

에이전트는 일을 하긴 하지만, 약 10%의 시간에만 작동합니다. 맥락을 설명하자면, Cognition Labs라는 유명한 스타트업은 "오픈 소스 프로젝트에서 발견되는 실제 GitHub 문제"의 14%를 해결할 수 있었습니다. 훌륭하지는 않지만 동종 업체보다는 훨씬 낫습니다.

출처: Cognition Labs

투자자들은 창업자가 일관되게 작동하는 기술과 그 기술을 올바르게 사용하는 제품을 모두 만들 수 있다는 데 베팅하고 있습니다. 앞서의 날씨 예시처럼 ChatGPT로 할 수 있는 GPT-4 또는 기타 LLM을 사용한 낮은 수준의 에이전트 워크플로우가 있지만, AI 에이전트가 기존의 모든 지식 근로자의 노동력을 대체하기에는 아직 미흡합니다. 이는 역으로 SaaS의 문제입니다. 가치는 분명하지만 제품을 제공할 수 있는 능력은 의심스럽습니다. SaaS에서는 그 반대가 사실입니다. 일반적으로 가치가 명확하지 않으며, 기업은 제품 판매 능력으로 경쟁합니다.

이 다섯 가지 구성 요소는 모두 작동을 위한 것임을 명심하세요! 기업이 AI 에이전트를 사용하여 사용자의 문제를 해결할 수 있게 되면, 그 다음에는 서로 경쟁해야 하며, LLM 및 기타 모든 소프트웨어 도구와도 경쟁해야 합니다. 속도, 비용, 안정성이 중요한 요소입니다. AI 에이전트가 기존 솔루션을 완전히 대체하려면 사람의 노동력보다 훨씬 더 저렴해야 하며, 신뢰성은 동등하거나 그 이상이어야 합니다.

여기서 또 다른 질문이 생깁니다: 어떻게 평가할 것인가? 앞서 주장했듯이, AI 제품을 비교하는 평가는 근본적으로 문제가 있습니다. 우리는 제품을 비교하는 데 필요한 엄격함은 말할 것도 없고 인공지능에 대해 논의할 언어도 거의 가지고 있지 않습니다.

우리에게 있는 것은 자본이며, 우리는 자본이 시장에서 어떻게 가치가 창출될 것이라고 생각하는지 이해할 수 있습니다.

돈의 흐름 따라가기

AI 에이전트의 가장 큰 비극 중 하나는 제품이 비밀리에 개발되고 있다는 점입니다. 2015년부터 2020년까지만 해도 AI에 관한 연구 논문을 발표하는 문화가 강했기 때문에 과학적 진전이 공유되었습니다. 하지만 수십억 달러가 걸려 있는 지금은 상황이 바뀌었습니다. 우리는 자금에 의존한 추측에 의존하고 있습니다.

AI 에이전트 회사에는 크게 두 가지 유형이 있습니다:

  1. 모델 우선 스타트업: 이 회사들은 모델 구성 요소가 기술 스택에서 가장 중요한 부분이며 LLM을 개선하면 큰 이득을 얻을 수 있다는 데 베팅하고 있습니다. 이들은 이러한 모델을 구축하는 데 드는 비용을 보조하기 위해 막대한 자본을 조달했습니다. 리더들은 다음과 같습니다:
    • OpenAI(130억 달러 이상 투자): 이미 사용자의 마우스를 대신해 사물을 클릭하고 데이터를 전송하는 등의 작업을 수행할 수 있는 개인 비서를 개발 중인 것으로 알려졌습니다. GPT 스토어를 통해 에이전트 워크플로우에 대한 약간의 조치를 취했지만 아직 완전한 기능을 갖춘 제대로 된 브랜드의 AI 에이전트 제품을 출시하지는 않았습니다. 이 회사는 올 여름이나 초가을에 출시될 것으로 알려진 GPT-5 출시를 준비 중입니다.
    • Anthropic(73억 달러 이상 투자): OpenAI와 동일한 전략을 따르고 있지만 규모는 더 작고 2위를 차지하고 있습니다. 이 회사는 에이전트와 관련된 명확한 제품 발표를 하지 않았지만 에이전트 연구도 진행하고 있다는 소문을 들었습니다.
    • Adept(4억 1,300만 달러 투자): Adept는 새로운 유형의 모델, 즉 사용자 행동에 대해 학습된 모델이 필요하다는 데 베팅하고 있습니다. 이 AI는 사용자가 브라우저와 상호 작용하는 방식을 관찰하여 학습합니다.
    • Imbue(2억 2천만 달러 투자)와 Magic AI(1억 4천 5백만 달러 모금)는 모두 소프트웨어 엔지니어링 AI 에이전트에 중점을 두고 있으며 자체 모델을 훈련하고 있습니다.

이러한 스타트업이 답하고자 하는 근본적인 질문은 어떤 유형의 모델이 적합한지입니다. GPT-5와 같은 초강력 모델일까요? Adept와 같은 사용자 행동 모델인가요? 임뷰나 매직처럼 추론과 코드 우선 모델일까요? 아무도 모릅니다! 그리고 그것이 재미있는 부분입니다.

  1. 워크플로우 애플리케이션: 이 회사들은 기존 모델을 사용하며 다른 구성 요소(예: Glue 및 UI)가 결국 가장 중요해질 것이라는 데 베팅하고 있습니다.

이 회사들을 스펙트럼에 올려놓을 수 있습니다: 왼쪽은 "수직적 업무 자동화", 오른쪽은 "AI 에이전트의 수평적 판매"입니다. 수직적 업무 자동화 애플리케이션은 한 산업 내에서 다양한 업무를 자동화하는 것으로, 하비(8천만 달러 이상 모금)와 같은 법률용 AI 에이전트를 예로 들 수 있습니다. 중간에는 소프트웨어 엔지니어링과 같은 특정 업무에 특화된 AI 에이전트가 있습니다. 코그니션 랩스(2천만 달러 이상 모금)는 여러 산업에 걸쳐 하나의 큰 작업(코드 작성)을 수행하는 데 중점을 둡니다. 맨 오른쪽에는 AI 에이전트를 서비스로 판매하는 회사들이 있습니다. 사용자는 일정 관리, 메모 작성, PDF 요약과 같은 다양한 수평적 작업을 수행할 수 있는 AI 에이전트를 이용하기 위해 비용을 지불합니다. 수십 명의 AI 에이전트를 보유한 도구를 제공하는 Lindy(5천만 달러 모금)가 이러한 회사의 한 예입니다. 이러한 업체는 매우 많으며, 어쩌면 모든 소프트웨어 회사가 AI 에이전트 회사가 될 수도 있습니다.

워크플로우 자동화 회사 중 자체적으로 모델을 학습시킨 회사는 없으며 오픈 소스나 다른 사설 제공업체를 이용합니다. Lindy의 CEO Flo Crivello와 대화를 나누었을 때 린디가 모델을 훈련시키지 않기로 결정한 이유에 대해 이렇게 말했습니다:

"제가 생각하는 모델에 대한 대략적인 모델은 CPU와 같아서 기하급수적으로 좋아지고 있고, 어느 정도 범용적이며(최고의 모델은 모든 면에서 최고인 경향이 있습니다), 훈련하는 데 엄청난 비용이 든다는 것입니다(가정에서 시도하지 마세요). 그리고 상담원의 제품 및 엔지니어링 측면에서는 그 위에 자신만의 기초 모델을 구축하는 것에 대해 걱정할 필요가 없을 만큼 충분한 작업이 있다고 생각합니다. 이제 이러한 정신적 모델이 깨지는 지점은 특정 업무에 맞게 모델을 미세 조정하면 어떤 모델에서도 성능을 크게 향상시킬 수 있다는 점입니다(현재도 그렇게 하고 있습니다). 하지만 이는 기초 모델을 훈련하는 것과는 완전히 다른 문제입니다."

대규모의 비공개 데이터셋에 대한 의존도가 높은 작업일수록 모델 대신 워크플로우 애플리케이션이 지배적일 가능성이 높습니다. 최고의 소프트웨어 회사는 가장 중요한 데이터(고객 ID, 제품 분석 또는 신용카드 번호)의 저장소인 기록 시스템으로 기능하며, 우수한 제품을 제공할 수 있습니다. 하지만 데이터셋이 스프레드시트처럼 작은 경우라면 모델을 우선시하는 회사의 환경으로 옮기기 쉽습니다. 스프레드시트에 문제가 있나요? ChatGPT에 업로드하세요. 모델이 장기적으로 차별화 요소라는 것이 밝혀지면 첫 번째 범주의 제공업체가 워크플로 소프트웨어를 구축하는 것이 그 반대의 경우보다 더 쉬울 수 있습니다.

투자자들이 구성 요소에 어떤 베팅을 하든, 업계 전체에 어둡고 복수심에 찬 신처럼 따라다니는 메타 리스크가 하나 있는데, 바로 확장 법칙입니다.

복리 성장의 문제점

현대의 기적 중 하나는 무어의 법칙으로, 칩의 트랜지스터 수가 약 2년마다 두 배로 증가하여 컴퓨팅 성능과 효율성이 기하급수적으로 증가한다는 사실입니다. 컴퓨터는 거의 60년 동안 더욱 강력해졌습니다.

사람들이 잊고 있는 것은 이러한 칩이 더욱 강력해지면서 데이터 처리 비용도 획기적으로 저렴해졌다는 사실입니다.

대규모 언어 모델에서도 비슷한 현상이 일어나고 있는 것으로 보입니다. 단위당 지능 비용이 현저하게 낮아지고 있습니다. 예를 들어, Anthropic의 Claude 3의 하이쿠 모델은 OpenAI의 GPT-4 터보 비용의 4분의 1 수준인 동시에 사용자 평가 지능 벤치마크에서 GPT-4를 능가합니다. 특정 시점에 이르면 이 모델이 너무 강력하고 지능적이어서 도구, 데이터, UI, Glue가 무의미해질 것입니다. 보충 코드의 수준과 모델의 지능 사이에는 반비례 관계가 있습니다: 코드가 많을수록 모델은 더 멍청해질 수 있고, 코드가 적을수록 모델은 더 똑똑해져야 합니다.

모델을 제외한 다른 모든 구성 요소가 무의미한 시점에 도달하는 시점이 언제인지는 누구나 추측할 수 있습니다. 모델이 커질수록 초인적인 지능에 가까워진다는 스케일링 가설을 믿는다면, 거기에 도달할 수 있는 분명한 경로가 있습니다.

마지막으로 한 가지 주의할 점이 있습니다: 이러한 회사의 데모를 보면 회의적이고 냉소적인 태도를 취하기 쉽습니다. 오류율도 높고, 앞서 말했듯이 실제로 작동하지도 않습니다. 하지만 AI는 개선 곡선을 그리는 산업입니다. GPT-5에 대한 초기 보고에 따르면 "실질적으로 개선"되었으며 AI 에이전트의 사용 사례를 위해 명시적으로 준비되고 있다고 합니다. 작년에 Anthropic은 투자자들에게 GPT-4보다 10배 더 나은 모델을 만들 준비를 하고 있다고 말했습니다. 일정대로라면 이 모델은 올해 안에 완성될 것입니다.

이 예측이 맞다면 소름 끼치게 똑똑하고 소름 끼치게 저렴한 인텔리전스가 넘쳐나게 될 것입니다. 에이전트는 그 다음 단계이며, 생각보다 빨리 등장할 것입니다. 준비하세요.


(출처: Napkin Math)