AI Agent 인프라의 부상

GenAI 애플리케이션의 폭발적인 증가가 분명히 보입니다. 생산성, 개발, 클라우드 인프라 관리, 미디어 소비, 심지어 헬스케어 수익 주기 관리까지 다양한 애플리케이션이 등장하고 있습니다. 이러한 폭발은 지난 24개월 동안 우리의 산업이 구축한 빠르게 개선되는 모델과 기반 플랫폼 인프라 덕분에 가능해졌습니다. 이는 호스팅, 미세 조정, 데이터 로딩, 메모리를 단순화하여 애플리케이션을 쉽게 구축할 수 있게 했습니다. 그 결과, 많은 창립자와 투자자의 시선이 최첨단 기술을 최종 사용자에게 제공할 수 있는 스택의 최상단으로 향하고 있습니다.

하지만 GenAI 개발의 급속한 속도는 몇 가지 가정을 오랫동안 유지할 수 없게 합니다. 애플리케이션은 이제 새로운 방식으로 구축되고 있으며, 이는 기반 인프라에 새로운 요구 사항을 부과할 것입니다. 이러한 개발자들은 절반밖에 완성되지 않은 다리를 질주하고 있습니다. 만약 우리의 산업이 새로운 AI Agent 인프라 구성 요소로 스택의 하단을 지원하지 못하면, 그들의 애플리케이션은 완전한 잠재력을 달성하지 못할 것입니다.

Agent의 부상

한 가지 주요 변화는 AI Agent의 부상입니다. AI Agent는 다단계 작업을 계획하고 실행할 수 있는 자율적인 행위자입니다. 오늘날 AI Agent는 기본 모델에 직접 프롬프트를 보내는 것이 아니라, 최종 사용자가 만나는 일반적인 인터페이스가 되고 있으며, 개발자가 구축하는 핵심 추상화가 되고 있습니다. 이는 새로운 애플리케이션이 얼마나 빠르게 구축될 수 있는지를 더욱 가속화하고 있으며, 플랫폼 계층에서 새로운 기회를 창출하고 있습니다.

2022년 MRKL 프로젝트와 2023년 ReAct, BabyAGI, AutoGPT에서 시작하여, 개발자들은 프롬프트와 응답의 연쇄가 큰 작업을 더 작은 작업으로 분해하고 이를 자율적으로 실행할 수 있다는 것을 발견했습니다. LangChain, LlamaIndex, Semantic Kernel, Griptape 등의 프레임워크는 Agent가 코드를 통해 API와 상호 작용할 수 있음을 보여주었고, Toolformer와 Gorilla와 같은 연구 논문은 기본 모델이 API를 효과적으로 사용할 수 있도록 학습할 수 있음을 보여주었습니다. Microsoft, Stanford, Tencent의 연구는 AI Agent가 혼자서 일할 때보다 함께 일할 때 더 잘 작동한다는 것을 보여주었습니다.

오늘날 Agent라는 단어는 사람마다 다른 의미를 가집니다. 충분한 실무자와 이야기하면 Agent라고 부를 수 있는 여러 개념이 스펙트럼으로 나타납니다. BabyAGI의 창시자인 Yohei Nakajima는 이를 보는 좋은 방법을 가지고 있습니다:

  1. 수제Agent: 좁은 제약 내에서 작동하지만 자율적인 프롬프트와 API 호출의 연쇄.
  2. 특화 Agent: 작업 유형과 도구의 하위 집합 내에서 동적으로 무엇을 할지 결정. 수제 Agent보다는 덜 제약됨.
  3. 일반 Agent: Agent의 AGI - 오늘날의 실용적 현실보다는 아직 지평선에 있음.

가장 진보된 프론티어 모델 (GPT-4o, Gemini 1.5 Pro, Claude 3 Opus 등)의 추론 한계가 더 진보된 Agent (특화 및 일반)를 구축, 배포 및 신뢰하는 능력을 제한하는 주요 제약입니다. Agent는 큰 작업을 더 작은 작업으로 분해하고 출력이 올바른지 확인하기 위해 프론티어 모델을 사용하여 계획, 우선 순위 지정 및 자체 검증을 수행합니다. 따라서 추론 수준이 낮으면 Agent도 제한됩니다. 시간이 지나면서 더 발전된 추론 능력을 가진 새로운 프론티어 모델(GPT-5, Gemini 2 등)이 더 진보된 Agent를 가능하게 할 것입니다.

Agent 적용하기

오늘날 개발자들은 최고의 성능을 발휘하는 Agent가 모두 매우 정교하게 제작된다고 말합니다. 개발자들은 현재 상태에서 이 기술들을 적용하기 위해 창의적으로 접근하여 올바른 제약 하에서 어떤 사용 사례가 오늘날 작동하는지를 파악하고 있습니다. Agent는 그 한계에도 불구하고 확산되고 있습니다. 최종 사용자는 때때로, 예를 들어 Slack에서 응답하는 코딩 Agent와 같이 Agent를 인식할 수 있습니다. 점점 더 Agent는 검색 상자, 스프레드시트 또는 캔버스와 같은 다른 UX 추상화 아래에 숨겨집니다.

2024년에 설립된 스프레드시트 애플리케이션 회사인 Matrices를 생각해 보세요. Matrices는 사용자가 원하는 정보를 추론하여 웹을 검색하고 웹 페이지를 파싱하여 각 데이터를 찾는 방식으로 스스로 완성되는 스프레드시트를 만듭니다. Matrices의 핵심 스프레드시트 UX는 1985년에 출시된 Excel이나 1979년에 출시된 Visicalc와 크게 다르지 않습니다. 하지만 Matrices의 개발자는 각 행, 열 또는 심지어 각 셀에 대해 독립적인 다단계 추론을 수행하는 1,000개 이상의 Agent를 사용할 수 있습니다.

또는 2023년에 설립된 마케팅 자동화 회사인 Gradial을 생각해 보세요. Gradial은 디지털 마케팅 팀이 자산 변형을 생성하고, 콘텐츠 업데이트를 실행하며, 채널 간 페이지를 생성/이전하도록 도와주어 콘텐츠 공급 체인을 자동화할 수 있게 합니다. Gradial은 채팅 인터페이스를 제공하지만, JIRA나 Workfront와 같은 추적 시스템에서 티켓에 응답함으로써 기존 워크플로에서 마케터와 만날 수도 있습니다. 마케터는 고급 작업을 개별 작업으로 분해할 필요가 없습니다. 대신 Gradial Agent가 이를 수행하고 마케터를 대신하여 작업을 완료합니다.

물론, 오늘날의 Agent에는 많은 제한이 있습니다. Agent는 종종 틀릴 수 있으며, 관리가 필요합니다. 너무 많은 Agent를 실행하면 대역폭, 비용, 지연 시간 및 사용자 경험에 영향을 미칩니다. 그리고 개발자들은 여전히 이를 효과적으로 사용하는 방법을 배우고 있습니다. 그러나 독자들은 이러한 제한이 기본 모델 자체에 대한 불만을 반영한다는 것을 알아차릴 수 있습니다. 검증, 투표 및 모델 앙상블과 같은 기술은 최근 GenAI가 보여준 것처럼 AI Agent에게도 동일하게 적용됩니다. 개발자들은 빠른 과학 및 공학 개선에 의존하고 있으며, 미래 상태를 염두에 두고 구축하고 있습니다. 그들은 제가 위에서 언급한 절반만 완성된 다리를 질주하고 있으며, 그 다리가 빠르게 완성될 것이라는 가정하에 있습니다.

인프라로 Agent를 지원하기

이 모든 것은 우리의 산업이 AI Agent와 이를 기반으로 하는 애플리케이션을 지원하는 인프라를 구축해야 할 작업이 있음을 의미합니다.

오늘날, 많은 Agent는 거의 완전히 수직적으로 통합되어 관리된 인프라가 거의 없습니다. 이는 Agent를 위한 자체 관리 클라우드 호스트, 메모리 및 상태를 위한 데이터베이스, 외부 소스로부터 맥락을 수집하는 커넥터, 외부 API를 사용하기 위한 Function Calling, Tool Use, 또는 Tool Calling을 의미합니다. 일부 개발자는 LangChain(특히 그 평가 제품 Langsmith)과 같은 소프트웨어 프레임워크로 여러 가지를 결합합니다. 이 스택은 오늘날 개발자들이 빠르게 반복하고 있으며 제품을 처음부터 끝까지 제어해야 한다고 느끼기 때문에 가장 잘 작동합니다.

The Rise of AI Agent Infrastructure

하지만 사용 사례가 확립되고 디자인 패턴이 개선됨에 따라 앞으로 몇 달 안에 상황은 변할 것입니다. 우리는 여전히 수제 및 특화 Agent의 시대에 확고히 있습니다. 따라서 단기적으로 가장 유용한 인프라 원시 요소는 개발자가 있는 곳에서 만나 그들이 제어하는 수제 Agent 네트워크를 구축할 수 있도록 하는 것입니다. 그 인프라는 또한 미래 지향적일 수 있습니다. 시간이 지남에 따라 추론이 점진적으로 개선되고 프론티어 모델이 더 많은 워크플로를 조종하게 되며, 개발자들은 제품과 데이터, 즉 그들을 차별화하는 것들에 집중하고 싶어할 것입니다. 그들은 기본 플랫폼이 확장성, 성능 및 신뢰성과 함께 "그냥 작동하기"를 원합니다.

The Rise of AI Agent Infrastructure - Emerging

물론, 이와 같은 관점에서 보면 AI Agent 인프라를 제공하는 풍부한 생태계가 이미 형성되기 시작했음을 알 수 있습니다. 다음은 주요 테마 중 일부입니다:

Agent 전용 개발자 도구

Flowplay, Wordware, Rift와 같은 도구는 일반적인 디자인 패턴(투표, 앙상블, 검증, "팀")을 본래 지원하여 더 많은 개발자가 이러한 패턴을 이해하고 이를 사용하여 Agent를 구축할 수 있도록 도와줍니다. 유용하고 의견이 분명한 개발자 도구는 이 강력한 Agent 기술을 기반으로 한 다음 파도의 애플리케이션을 차단하지 않게 하는 가장 중요한 인프라 조각 중 하나가 될 수 있습니다.

서비스로서의 Agent

특정 작업을 위한 수제 Agent는 이제 개발자가 구축하는 대신 선택할 수 있는 인프라로 작동하기 시작했습니다. 이러한 Agent는 UI 자동화(Tinyfish, Reworkd, Firecrawl, Superagent, Induced, Browse.ai), 도구 선택(NPI, Imprompt), 프롬프트 생성 및 엔지니어링과 같은 의견이 분명한 기능을 제공합니다. 일부 최종 고객은 이러한 Agent를 직접 적용할 수 있지만, 개발자들도 API를 통해 이러한 Agent에 접근하여 이를 더 넓은 애플리케이션으로 조립할 것입니다.

브라우저 인프라

웹을 읽고 행동하는 것이 중요한 우선순위입니다. 개발자는 Agent가 API, SaaS 애플리케이션 및 웹과 상호 작용할 수 있도록 하여 Agent를 풍부하게 만듭니다. API 인터페이스는 충분히 간단하지만, 웹사이트 및 SaaS 애플리케이션은 접근, 탐색, 파싱 및 스크래핑이 복잡합니다. 이를 통해 웹 페이지나 웹 앱을 API처럼 사용하여 구조화된 형식으로 정보와 기능에 접근할 수 있습니다. 이는 연결, 프록시 및 캡차 관리를 필요로 합니다. Browserbase, Browserless, Apify, Bright Data, Platform.sh, Cloudflare Browser Rendering은 이 분야의 제품을 보유한 회사의 예입니다.

개인화된 메모리

Agent가 여러 모델에 작업을 분배할 때, 공유 메모리를 제공하고 각 모델이 관련된 역사적 데이터와 맥락에 접근할 수 있도록 하는 것이 중요해집니다. Pinecone, Weaviate, Chroma와 같은 벡터 스토어가 이에 유용합니다. 하지만 의견이 분명한 기능을 가진 새로운 종류의 회사들도 존재하며, LangChain의 LangMem이라는 기능과 인기 있는 오픈 소스 프로젝트 MemGPT도 포함됩니다. 이러한 회사들은 최종 사용자와 그 사용자의 현재 맥락에 맞춰 Agent 메모리를 개인화하는 방법을 보여줍니다.

Agent를 위한 인증

이러한 Agent는 최종 사용자를 대신하여 외부 시스템과 상호 작용할 때 인증 및 권한 부여를 관리합니다. 오늘날 개발자들은 Agent가 최종 사용자를 가장하도록 OAuth 토큰을 사용하고 있으며, 일부 경우에는 사용자가 API 키를 제공하도록 요청하기도 합니다. 하지만 UX와 보안 문제는 심각하며, 모든 웹이 Oauth를 지원하는 것은 아닙니다 (이것이 금융 서비스에서 Plaid가 존재하는 이유입니다). Anon.com, Mindware, Statics.ai는 개발자들이 확장에서 원하게 될 것을 제공하는 세 가지 예입니다: Agent 자체를 위한 관리된 인증 및 권한 부여.

“Agent를 위한 Vercel”

Agent의 호스팅을 분산 시스템으로 매끄럽게 관리, 조정 및 확장합니다. 오늘날 Agent 호스팅(E2b.dev, Ollama, Langserve), 영속성(Inngest, Hatchet.run, Trigger.dev, Temporal.io) 및 오케스트레이션(DSPy, AutoGen, CrewAI, Sema4.ai, LangGraph)을 위한 다양한 기본 요소가 있습니다. 일부 플랫폼

(LangChain 및 Griptape)은 이러한 것들의 다양한 조합에 대해 관리 서비스를 제공합니다. 확장 가능한 관리 호스팅을 영속성과 오케스트레이션과 함께 제공하는 통합 서비스는 개발자가 여러 추상화 수준(애플리케이션 및 Agent)을 생각할 필요가 없으며, 대신 해결하려는 문제에 집중할 수 있게 할 것입니다.

AI Agent 인프라의 미래 구축

AI Agent 인프라의 발전 초기 단계에서는 오늘날 운영 서비스와 상업화되거나 더 넓은 서비스에 통합되지 않은 오픈 소스 도구가 혼재하고 있습니다. 그리고 누가 승자가 될지는 아직 명확하지 않습니다 — 이 분야에서 최종 승자는 오늘날 젊거나 아직 존재하지 않을 수 있습니다. 그러니 작업을 시작합시다.


(출처: Madorina)