AI가 만들어낸 웹 크롤링 전투

대부분의 사람들은 생성형 AI가 계속해서 더 나아질 것이라고 생각합니다. 지금까지는 그 추세였기 때문이죠. 그리고 실제로 그럴 수도 있습니다. 그러나 일부 사람들이 인지하지 못하는 것은 생성형 AI 모델이 거대한 데이터 세트에 의해 훈련되며, 그 데이터 세트는 OpenAI나 Anthropic과 같은 주요 AI 기업이 소유한 독점 데이터가 아니라는 점입니다. 대신, 그 데이터는 블로그 글을 작성하거나, 비디오를 게시하거나, Reddit 스레드에 댓글을 달거나, 온라인에서 기본적으로 어떤 활동을 한 우리 모두가 만든 공개 데이터로 구성됩니다.

AI 연구자들의 자발적 모임인 Data Provenance Initiative의 새로운 보고서는 이 모든 데이터에 어떤 일이 일어나고 있는지에 대해 조명하고 있습니다. 이 보고서, "Consent in Crisis: The Rapid Decline of the AI Data Commons"는 생성형 AI에 위협을 느끼는 많은 조직이 데이터를 차단하기 위한 조치를 취하고 있음을 언급합니다. IEEE Spectrum은 Data Provenance Initiative의 수석 연구원인 Shayne Longpre와 이 보고서 및 그 AI 기업에 미치는 영향에 대해 이야기를 나눴습니다.


웹사이트가 웹 크롤러를 차단하는 데 사용하는 기술은 새로운 것이 아닙니다. robot exclusion protocol은 1995년에 도입되었습니다. 이 기술이 생성형 AI 시대에 갑자기 왜 그렇게 중요한 역할을 하게 되었는지 설명해 주실 수 있나요?

Shayne Longpre: Robots.txt는 크롤러(웹을 탐색하며 정보를 수집하는 봇)가 웹사이트의 특정 부분을 크롤링할지 여부를 결정하는 기계가 읽을 수 있는 파일입니다. 이 파일은 주로 웹 검색을 안내하기 위해 웹사이트가 사용하던 시대에 사실상 표준이 되었습니다. Bing이나 Google 검색을 생각해보세요. 이들 검색 엔진은 사용자들이 웹을 탐색하는 경험을 향상시키기 위해 정보를 기록하려 했습니다. 이것은 상호 이익이 되는 관계였는데, 웹 검색은 웹사이트에 트래픽을 보내고, 웹사이트는 이를 원했기 때문입니다. 일반적으로 대부분의 웹사이트는 대부분의 크롤러와 잘 협력했습니다.

이것을 이해하기 위해 중요한 주장들을 설명해 보겠습니다. 범용 AI 모델과 그 인상적인 능력은 이를 훈련시키기 위해 사용된 데이터의 규모와 컴퓨팅 능력에 의존합니다. 규모와 데이터는 정말 중요하며, 웹처럼 대규모 공공 데이터를 제공하는 소스는 매우 적습니다. 많은 기초 모델이 웹 크롤링을 통해 얻은 데이터 세트로 훈련되었습니다. 이러한 중요한 데이터 세트는 기본적으로 웹사이트와 그 데이터를 수집, 패키징, 처리하는 데 사용된 크롤링 인프라로 구성되어 있습니다. 저희 연구는 단지 데이터 세트뿐만 아니라 웹사이트의 기본적인 선호 신호에 대해서도 조사하고 있습니다. 이것이 데이터 자체의 공급망입니다.

그러나 지난해에는 광고와 페이월로 수익을 창출하는 웹사이트들이 특히 크롤러를 차단하기 위해 robots.txt를 사용하기 시작했습니다. 예를 들어 뉴스나 아티스트 사이트들처럼요. 이들은 생성형 AI가 자신들의 생계를 위협할 수 있다는 두려움을 갖고 있으며, 그 데이터를 보호하기 위한 조치를 취하고 있는 것입니다.


사이트에서 robots.txt 제한을 설정하는 것은 무단 침입 금지 팻말을 붙이는 것과 같죠? 강제성은 없습니다. 크롤러가 이를 존중할 것이라고 믿어야 합니다.

Longpre: 이 문제의 비극은 robots.txt는 기계가 읽을 수 있지만 법적으로 강제할 수는 없다는 점입니다. 반면 이용 약관은 법적으로 강제할 수 있지만 기계가 읽을 수는 없습니다. 이용 약관에서는 데이터 사용에 대한 선호 사항을 자연어로 명시할 수 있습니다. 예를 들어 "이 데이터를 사용할 수는 있지만 상업적으로는 사용할 수 없습니다"와 같은 내용을 말할 수 있습니다. 그러나 robots.txt에서는 개별적으로 크롤러를 지정하고 그들에게 허용할지 말지 웹사이트의 어느 부분을 설정해야 합니다. 이는 수천 개의 다른 크롤러 중에서 자신이 원하는 사용과 원하지 않는 사용을 구별해야 하므로 웹사이트에 지나치게 많은 부담을 줍니다.


크롤러들이 일반적으로 robots.txt의 제한을 존중하나요?

Longpre: 주요 기업 중 많은 곳이 규칙이나 절차에 대해 명시적으로 언급한 문서를 가지고 있습니다. 예를 들어, Anthropic의 경우, ClaudeBot은 robots.txt를 존중한다고 명시하고 있습니다. 하지만 이러한 기업 중 다수는 최근 robots.txt를 존중하지 않고 웹사이트를 크롤링했다는 비난을 받았습니다. AI 기업들이 말하는 것과 그들이 비난받는 행동 사이에 왜 차이가 있는지는 외부에서 명확하지 않습니다. 그러나 크롤링을 사용하는 사회적 이익 집단들, 예를 들어 소규모 스타트업, 학계, 비영리 단체, 저널리스트들은 대체로 robots.txt를 존중합니다. 이들은 이러한 제한의 의도된 대상이 아니지만, 그럼에도 불구하고 차단되고 있습니다.


보고서에서 웹 크롤링을 통해 생성형 AI 시스템을 훈련시키는 데 자주 사용되는 세 가지 데이터 세트를 살펴봤습니다. 이들 모두 과거에 웹 크롤링으로 만들어졌습니다. 2023년에서 2024년 사이 크롤링된 도메인 중 상당수가 이후로 제한되었다고 밝혔는데, 그 결과에 대해 이야기해 주시겠어요?

Longpre: 저희가 발견한 것은 특정 데이터 세트를 살펴보면, 예를 들어 2019년에 만들어진 C4라는 매우 인기 있는 데이터 세트를 보면, 1년도 안 되는 기간 동안 그 데이터의 약 5%가 기초 웹사이트의 선호 신호를 존중한다면 취소되었다는 것입니다. 5%는 많아 보이지 않을 수도 있지만, 이 데이터 부분이 주로 가장 고품질이며, 잘 관리되고, 최신 데이터에 해당한다는 점을 감안하면 그 비중은 상당합니다. 저희가 이 C4 데이터 세트에서 상위 2,000개 웹사이트를 살펴보았을 때, 이들 상위 2,000개 사이트는 주로 뉴스, 대형 학술 사이트, 소셜 미디어, 잘 관리된 고품질 웹사이트들로 구성되어 있었는데, 이 상위 2,000개 중 25%의 데이터가 이후로 취소되었습니다. 이것은 robots.txt를 존중하는 모델의 훈련 데이터 분포가 고품질 뉴스, 학술 웹사이트, 포럼, 소셜 미디어에서 점점 더 조직 웹사이트, 개인 웹사이트, 전자상거래 사이트, 블로그로 이동하고 있음을 의미합니다.


미래의 ChatGPT나 Perplexity가 복잡한 질문에 답할 때 개인 블로그나 쇼핑 사이트에서 정보를 가져온다면 문제가 될 것 같네요.

Longpre: 맞습니다. 이것이 모델에 어떤 영향을 미칠지 측정하기는 어렵지만, 저희는 robots.txt를 존중하는 모델의 성능과 이미 이 데이터를 확보하여 훈련하는 모델 간에 성능 격차가 발생할 것이라고 예상하고 있습니다.


하지만 이전의 데이터 세트는 여전히 남아 있잖아요. AI 회사들은 이전의 데이터 세트를 사용할 수 없나요? 그것의 단점은 무엇인가요?

Longpre: 음, 데이터의 지속적인 신선도는 매우 중요합니다. 또한 robots.txt가 소급적으로 적용될 수 있는지도 불확실합니다. 퍼블리셔들은 소급 적용이 가능하다고 주장할 가능성이 있습니다. 따라서 이것은 소송에 대한 회사의 태도에 따라 다르며, 특히 미국에서 데이터의 공정 사용을 둘러싼 진행 중인 소송에서 어떤 방향으로 갈지에 대한 추세에 따라서도 달라질 수 있습니다. 대표적인 예가 The New York Times가 OpenAI와 Microsoft를 상대로 제기한 소송이지만, 이제는 다양한 변형들이 존재합니다. 그 결과가 어떻게 될지는 매우 불확실합니다.


보고서 제목이 "Consent in Crisis"입니다. 왜 이를 위기라고 생각하시나요?

Longpre: 저는 이것이 데이터 창작자들에게는 위기라고 생각합니다. 왜냐하면 기존의 프로토콜로는 그들이 원하는 바를 표현하기가 어렵기 때문입니다. 그리고 AI와 관련 없는 개발자들, 예를 들어 비상업적인 개발자들, 학계 연구자들도 이 데이터를 접근하는 것이 점점 더 어려워지고 있습니다. 그리고 이러한 거대 산업들이 충돌하면서 이러한 문제는 점점 더 큰 문제가 되고 있습니다. 생성형 AI와 뉴스 제작자, 기타 여러 산업 간의 충돌로 인해 인프라가 이러한 다양한 사용 사례를 동시에 수용하도록 설계되지 않았다는 사실이 지금 문제가 되고 있다고 생각합니다.


이 상황이 계속된다면 AI 기업들이 할 수 있는 일은 무엇일까요? 데이터가 더 많이 제한된다면, 그들이 대규모 모델을 계속 훈련할 수 있는 방법은 무엇일까요?

Longpre: 대기업들은 데이터를 직접 라이선스를 받을 것입니다. 만약 많은 데이터가 폐쇄되거나 수집하기 어려워진다면, 이는 대기업들에게 나쁜 결과는 아닐 수도 있습니다. 이는 진입 장벽이 더 높아지기 때문입니다. 대기업들은 데이터 수집 파이프라인과 YouTube, GitHub, Reddit과 같은 사용자 생성 데이터 소스에 지속적으로 접근할 수 있도록 투자를 늘릴 것입니다. 이러한 사이트에 독점적으로 접근할 수 있는 권한을 획득하는 것은 지능적인 시장 전략일 수 있지만, 독점 금지법 관점에서는 문제가 될 수 있습니다. 저는 이러한 독점 데이터 취득 관계에 대해 특히 우려하고 있습니다.


대체 데이터가 이 격차를 메울 수 있다고 보시나요?

Longpre: 대기업들은 이미 대규모로 대체 데이터를 사용하고 있습니다. 대체 데이터에는 두려움과 기회가 모두 존재합니다. 한편으로는, 모델 붕괴에 대한 가능성이 제기된 일련의 연구가 있었는데, 이는 더 많은 생성형 봇들이 웹에 풀리면서 웹에 더 자주 나타날 수 있는 저품질 대체 데이터로 인해 모델의 성능이 저하되는 현상을 의미합니다. 하지만 대규모 모델들이 크게 타격을 입을 가능성은 낮다고 봅니다. 이 모델들은 품질 필터를 가지고 있어 저품질이거나 반복적인 데이터는 걸러내기 때문입니다. 그리고 대체 데이터의 기회는 매우 고품질로 실험실 환경에서 생성되어 저개발된 도메인을 타겟으로 할 때 발생합니다.


우리가 현재 데이터의 정점에 도달했다는 생각에 대해 동의하시나요? 아니면 그것이 과장된 우려라고 생각하시나요?

Longpre: 아직 많은 활용되지 않은 데이터가 존재합니다. 흥미롭게도, 그 데이터 중 많은 부분이 PDF에 숨겨져 있어서 OCR(광학 문자 인식) 작업이 필요합니다. 많은 데이터가 정부, 독점 채널, 비정형 형식, 또는 PDF와 같은 추출하기 어려운 형식으로 잠겨 있습니다. 이 데이터를 추출하는 방법을 알아내기 위해 더 많은 투자가 이루어질 것이라고 생각합니다. 하지만 쉽게 접근할 수 있는 데이터의 경우, 많은 회사들이 한계에 부딪히기 시작했고 대체 데이터로 눈을 돌리고 있습니다.


앞으로 몇 년 동안 더 많은 웹사이트가 robots.txt 제한을 설정할 것이라고 예상하시나요?

Longpre: robots.txt와 이용 약관 모두에서 제한이 증가할 것으로 예상합니다. 저희 연구 결과에서도 이러한 추세는 매우 분명하지만, 이는 법률, 기업 자체의 정책 변화, 소송 결과, 작가 길드와 같은 커뮤니티 압력과 같은 외부 요인에 의해 영향을 받을 수 있습니다. 또한 데이터의 상품화가 증가함에 따라 이 영역에서 더 많은 전쟁터가 형성될 것이라고 예상합니다.


웹사이트가 크롤링에 대한 선호를 더 쉽게 표현할 수 있도록 업계 내에서 표준화가 이루어지는 것을 보고 싶다고 말씀하셨습니다. 이에 대해 어떤 바람이 있으신가요?

Longpre: Data Provenance Initiative에서는 새로운 표준이 등장하고 채택되어 창작자들이 데이터 사용에 대한 선호를 더 세분화된 방식으로 표현할 수 있게 되기를 희망합니다. 이는 창작자들에게 큰 부담을 덜어줄 것입니다. 이것은 분명히 서로에게 이익이 되는 일이라고 생각합니다. 하지만 누가 이러한 표준을 만들고 시행할 책임이 있는지는 명확하지 않습니다. 만약 AI 기업들이 스스로 이를 결론짓고 실행한다면 놀라운 일이 될 것입니다. 하지만 표준의 설계자는 거의 필연적으로 자신들의 사용에 대한 편견을 가질 것이며, 특히 그것이 기업일 경우 더욱 그러할 것입니다.

또한 모든 경우에 선호 사항이 존중되어야 하는 것은 아니라고 생각합니다. 예를 들어, 저는 학계나 저널리스트들이 이미 공개되어 있고 누구나 방문할 수 있는 웹사이트에서 기계로 데이터를 접근하는 것을 반드시 막아야 한다고 생각하지 않습니다. 모든 데이터가 동일하게 만들어지는 것은 아니며, 모든 사용이 동일하게 이루어지는 것도 아닙니다.


(출처: IEEE Spectrum)