RAG가 끝이 아닙니다: 앞으로의 AI + Data

RAG(Retrieval Augmented Generation)와 ICL(in-context learning)은 2020년경부터 AI 분야에서 매우 흥미로운 발전이었습니다. 이러한 기술들은 기업과 앱 개발자들이 고객 데이터를 활용하는 방식에 혁명을 가져올 것으로 약속했습니다. 재학습이나 미세 조정 없이도 강력한 모델을 활용할 수 있게 해주죠. 간단히 프롬프트 중에 모델에 관련 데이터를 "주입"함으로써, 기업들은 즉시 AI를 자체 데이터에 적용할 수 있었습니다. 이는 고객 관점에서 시작하기에 더 빠르고 쉬운 방법입니다. 현재 기업, 앱 개발자, 그리고 스타트업 활동은 RAG 패턴에 집중되어 있습니다.

하지만 우리를 시작하게 만든 것이 우리를 필요한 곳으로 데려다주지는 않을 것입니다.

기술 전문가들은 오랫동안 RAG의 한계를 이해해 왔지만, 많은 기업 및 앱 개발사 CTO들은 RAG를 AI + 데이터 아키텍처의 전부로 받아들였습니다. 이는 이해할 만합니다. RAG는 기업 데이터에 AI를 적용하는 효과적인 경로를 제공하며, 시작하기에 논리적인 지점입니다. 하지만 2025년에는 그 한계가 드러날 것입니다. AI가 고객 데이터에 대해 추론하는 능력은 모델이 원래 학습된 데이터만큼 좋을 뿐입니다. 그리고 여기에 함정이 있습니다. 데이터가 학습 데이터 세트와 유사하지 않다면, 가장 발전된 기성 모델조차도 부족합니다. 기업들이 더 다양하고 빠르게 변화하는 데이터와 씨름하고, 속도와 효율성을 위해 일반성을 희생하는 비용 효율적인 소규모 모델을 추구함에 따라 격차는 더욱 커집니다.

물론 RAG는 여러 중요한 이유로 필수적으로 남을 것입니다. RAG는 내일의 문서를 예측할 수 있는 학습량이 없으므로, 새롭고 빠르게 변화하는 데이터를 처리하는 데 최고의 기술입니다. RAG는 모델 가중치에 모든 지식을 인코딩하려는 시도보다 소스 문서에서 모델 출력의 더 신뢰할 수 있는 근거를 제공합니다. 그리고 아마도 가장 중요한 것은 기업 보안 및 개인 정보 보호 요구 사항이 학습에 사용할 수 있는 데이터에 엄격한 제한을 둔다는 것입니다. 모델은 학습한 내용을 쉽게 잊지 못하기 때문에 (다양한 모델 jailbreak에서 입증됨) RAG는 민감한 기업 데이터를 처리하는 데 더 안전한 선택입니다.

AI의 잠재력을 진정으로 열려면 기업은 RAG를 기반으로 구축하면서 더 넓은 스펙트럼의 접근 방식을 통합해야 합니다. 프리 트레이닝(pre-training)은 광범위한 데이터 세트에 기반을 구축하고, 미드 트레이닝(mid-training)은 기본 모델 개발 중에 특화된 데이터를 도입하며, 포스트 트레이닝(post-training)은 강화 학습과 같은 기술을 적용하고, 파인튜닝(fine-tuning)은 특정 도메인에 맞게 모델을 조정하며, 테스트 타임 컴퓨트(test-time compute)는 더 긴 추론 주기로 추론 능력을 향상시킵니다. 각 접근 방식은 일반화, 특수화, 리소스 요구 사항 및 처리 시간 간에 서로 다른 절충점을 제공합니다.

물론 이러한 접근 방식은 새로운 것이 아닙니다. 트레이닝과 튜닝은 2018년부터 강력한 기술이었습니다. RAG는 더 간단한 시작점을 제공하여 조직이 초기 AI 아키텍처를 구축하는 데 도움이 되었습니다. 이제 이러한 기반이 마련되었으므로, 기업과 앱 개발자는 더욱 정교한 접근 방식을 받아들일 준비가 되었습니다. Unstructured.io와 같은 리더들은 복잡한 기업 문서를 시스템이 이해할 수 있는 고품질 데이터로 변환하여 이를 가능하게 만들고 있습니다.

변화는 이미 시작되었습니다. Mastercard는 금융 데이터 스키마를 이해하기 위해 모델을 파인튜닝하고 있습니다. Glean과 Read AI는 각 고객 조직을 위한 맞춤형 모델을 구축하고 있습니다. 심지어 RAG의 창시자 중 한 명이 공동 설립한 Contextual AI조차도 소위 전문화된 RAG 에이전트로 아키텍처를 확장하고 있습니다. 일부 고객은 테스트 단계를 넘어 학습으로까지 이동하고 있습니다. Ello는 앱을 중심으로 데이터 플라이휠을 만들어 세계적 수준의 아동 음성 인식 모델을 구축했습니다. 그들의 사용자 중 60%가 AI 개선을 위해 데이터 공유에 동의합니다.

창업자들에게 희소식이 있습니다.

첫째, 컴퓨팅 비용이 계속 하락하고 OpenAI의 Reinforcement Fine-Tuning과 같은 도구가 고급 트레이닝 기술을 대중화함에 따라, 정교한 AI 아키텍처가 더 넓은 범위의 실무자들이 접근할 수 있게 되었습니다. Glean, Ello, Read AI와 같은 회사의 성공은 특히 특정 도메인에 집중하고 RAG 아키텍처의 일부로 해당 모델을 배포할 때 다양한 규모의 스타트업이 자체 모델을 효과적으로 트레이닝하고 튜닝할 수 있음을 보여줍니다.

둘째, 테스트 타임 컴퓨트의 발전은 강력한 플라이휠 효과를 창출합니다. 이러한 기술은 더 심층적인 분석이 필요할 때 추론에 더 많은 시간을 투자하여 모델 추론을 향상시킵니다. 이는 특화된 트레이닝 및 도메인 최적화로부터의 수익을 더욱 가치 있게 만듭니다. 향상된 추론은 도메인별 데이터 및 컨텍스트에 대한 더 나은 이해를 의미합니다. 컴퓨팅 비용이 계속 하락함에 따라 이 긍정적인 순환은 프로덕션 배포에 점점 더 실용적이 되어갑니다.

셋째, 오픈 소스 및 (종종) 더 작은 모델로의 전환은 자체적인 강화 순환을 만듭니다. Deepseek와 같은 오픈 소스 모델을 사용하면 고객의 자체 데이터로 트레이닝 및 튜닝하고 자체 도메인 전문 지식을 활용할 수 있습니다. 많은 고객들이 성능 및 비용상의 이유로 프로덕션 환경에 더 작은 ~7B 모델을 배포하는 것을 선택합니다. 이러한 더 작은 모델의 경우, 더 많은 데이터가 자연스럽게 "도메인 외"에 속하게 됩니다. 더 작은 모델은 단순히 더 큰 모델의 광범위한 지식을 유지할 수 없습니다. 이는 파인튜닝 및 특수화로부터의 수익을 증가시켜 도메인별 최적화를 더욱 가치 있게 만듭니다.

이러한 추세의 수렴은 단일 접근 방식이 지배하지 않을 것임을 의미합니다. 대신, 우리는 RAG가 특화된 트레이닝, 정교한 검색 및 테스트 타임 컴퓨트 최적화를 결합한 더 넓은 툴킷의 도구 중 하나가 되는 시대로 진입하고 있습니다. 이러한 접근 방식이 어떻게 함께 작동하는지 깊이 이해하면서 이러한 변화를 가능하게 하고 활용하는 회사가 고객의 데이터에 AI를 가장 잘 적용하여 기업과 앱 개발자가 고객에게 서비스를 제공하고 미래를 더 빠르게 만들도록 도울 것입니다.


(출처: Madrona)