AI는 모든 면에서 인간보다 정보 요약이 열등하다고 정부 실험에서 밝혀져

인공지능이 문서를 요약하는 데 있어 모든 면에서 인간보다 열등하며, 오히려 사람들에게 추가적인 업무를 발생시킬 수 있다는 사실이 한 정부 실험에서 밝혀졌습니다.

Amazon은 올해 초 호주의 기업 규제 기관인 Securities and Investments Commission(ASIC)을 위해 인공지능 기술을 테스트했습니다. 이 실험은 한 상임위원회에 제출된 문서들을 요약하는 작업에 대해 진행되었으며, 실험 결과는 AI 도입을 논의하는 상원의 특별위원회에서 공개되었습니다.

이 테스트는 몇 가지 생성형 AI 모델을 테스트한 후, 그중 하나를 선택하여 의회 감사 및 컨설팅 회사에 대한 조사의 제출 문서 5개를 요약하도록 했습니다. 가장 유망한 모델로는 Meta의 오픈소스 모델인 Llama2-70B가 선정되었으며, 이 모델은 ASIC에 언급된 부분, 규제 관련 추천 사항, 페이지 참조 및 문맥을 포함하여 요약하도록 지시되었습니다.

ASIC의 다양한 직급의 직원 10명에게도 유사한 지시 사항이 주어져 동일한 문서 요약 작업이 부여되었습니다. 이후 리뷰어 그룹은 인간과 AI가 생성한 요약문을 맹목적으로 평가했습니다. 이들은 요약문의 일관성, 길이, ASIC 참조, 규제 관련 참조, 추천 사항 식별 여부를 평가했으며, 실험에 AI가 포함되어 있다는 사실은 인지하지 못한 상태였습니다.

리뷰어들은 모든 평가 기준과 모든 제출 문서에서 인간의 요약문이 AI를 압도적으로 앞섰다고 판단했으며, 인간 요약문은 81%의 점수를 기록한 반면 AI는 47%를 기록했습니다.

특히 인간 요약문은 긴 문서에서 ASIC 문서를 참조하는 부분을 식별하는 데 있어 매우 뛰어났습니다. 보고서에서는 이 작업이 AI에게 "악명 높게 어려운 작업"이라고 언급하고 있지만, 인간은 전반적으로 기술을 능가하는 성과를 냈습니다.

리뷰어들은 AI 요약문이 강조점, 뉘앙스, 문맥을 종종 놓치거나 부정확한 정보를 포함했으며, 관련 없는 정보에 집중하거나 불필요한 사항을 도입하는 경우가 많았다고 보고했습니다. 다섯 명의 리뷰어 중 세 명은 자신이 평가한 요약문이 AI가 작성한 것이라고 추측했습니다.

리뷰어들은 또한 AI 요약문이 비생산적일 수 있으며, 원본 제출 문서를 다시 확인하고 사실 확인을 해야 하기 때문에 오히려 추가적인 업무를 발생시킬 수 있다고 언급했습니다. 원본 문서가 메시지를 더 잘 전달하고 요약이 더 간결하다는 것이 이들의 공통된 피드백이었습니다.

보고서에서는 이 연구의 몇 가지 한계점과 맥락을 언급했습니다. 사용된 모델은 이미 더 향상된 기능을 가진 후속 모델로 대체되었으며, Amazon은 프롬프트와 입력을 개선하여 모델 성능을 높였다고 설명했습니다. 이는 앞으로 이 작업을 더 잘 수행할 수 있는 가능성을 시사하지만, 이번 실험에서는 인간의 정보 분석 능력이 여전히 AI를 능가한다는 결론을 내렸습니다.

보고서는 "이 결과는 생성형 AI가 인간의 작업을 대체하는 것이 아니라, 보조 도구로 활용되어야 한다는 관점을 지지한다"고 결론지었습니다.

Greens 소속의 David Shoebridge 상원의원은 ASIC에 질문한 결과 이 보고서가 공개되었으며, 인간이 이 작업에서 AI보다 뛰어나다는 사실은 "놀랍지 않다"고 말했습니다. 또한 그는 AI가 제출 문서를 검토하는 데 사용될 경우 대중의 반응에 대한 의문을 제기했습니다.

Shoebridge 상원의원은 "물론 AI가 제출 문서를 평가하는 데 전혀 사용되지 말아야 한다는 뜻은 아닙니다. 그러나 AI가 사용된다면 그것은 투명하게 이루어져야 하며, 인간 평가를 보조하는 역할을 해야지 독립적으로 사용되어서는 안 됩니다"라고 말했습니다.

그는 이어 "정부 기관이 AI 사용을 위한 신중한 실험을 수행하는 것은 긍정적이지만, 상원 위원회에서 요청할 필요 없이 이를 능동적이고 일상적으로 공개하는 것이 더 바람직합니다"라고 덧붙였습니다.


(출처: Crikey)