번역글

"AI 헛소리" 테스트

트위터에서는 '.ai' 도메인 이름을 가지고 피치덱에 LLM, Gen AI 또는 GPU를 넣으면 누군가 계약서를 들고 문을 두드린다는 농담이 유행하고 있습니다.

이러한 유행어 때문에 어떤 AI가 헛소리인지 아닌지 알기 어렵기 때문에 3단계 헛소리 탐지기로 여러분을 도와드리겠습니다.

하지만 먼저, 제가 이런 이야기를 할 자격이 있을까요?

AI로 구축하는 창업자의 이야기

저는 제품 피드백 플랫폼인 Cycle의 창립자입니다. 저희는 Slack, Intercom, Gong 등 다양한 소스로부터의 모든 고객 피드백을 중앙 집중화할 수 있도록 지원합니다. 이 모든 것을 하나의 깔끔한 협업 공간으로 통합하여 고객 인사이트를 추출하고 각 릴리즈에서 피드백 루프를 닫을 수 있습니다.

저희는 지난 5년 동안 Cycle을 개발해 왔습니다. 처음 3.5년 동안은 AI 기능이 하나도 없었습니다. 그러던 중 1.5년 전 ChatGPT가 출시되었고, 이는 저희의 판도를 완전히 바꿔놓았습니다. 사이클은 이미 AI 없이도 작동했습니다. 하지만 제품 담당자들은 매주 수작업으로 피드백을 처리하는 데 몇 시간을 소비하고 있었습니다. 그래서 저희는 AI에 올인하고 전체 UX를 재검토하여 모든 피드백 처리 작업을 자동화했습니다.

이것이 바로 피드백 오토파일입니다. 관리자가 필요 없는 피드백 관리죠.

어려운 상황에 처했을 때 AI가 우리를 구해줬습니다. 새로운 AI 패러다임은 모든 비즈니스에 위협이자 기회이기 때문에 우리는 이를 기회로 보기로 결정했습니다.

다윈의 종의 기원에 따르면, 살아남는 것은 가장 강한 종도, 가장 똑똑한 종도 아닌 변화에 가장 잘 적응하는 종입니다.

다행히도 저희는 매우 빠르게 적응할 수 있었습니다. 오늘은 저희가 어떻게 적응했는지 자세히 말씀드리고 여러분도 적응하는 데 도움이 될 수 있는 몇 가지 팁을 알려드리고자 합니다.

헛소리 AI vs 헛소리가 아닌 AI

그렇다면 헛소리 인공지능과 그렇지 않은 인공지능을 어떻게 구분할 수 있을까요? 제가 '헛소리 AI 테스트'라고 부르는 3단계 프레임워크를 활용하면 됩니다. 기본적으로 세 가지 질문에 답해야 합니다:

AI는 잊어버리세요. AI 없이 어떻게 작동하는가?
AI를 사용하면 제품의 핵심 기능이 어떻게 10배 이상 향상되거나 빨라지는가?
여러 개의 프롬프트 템플릿과 채팅GPT 탭이 열려 있는 상태에서 AI 작업을 완료하는 것이 얼마나 어려울까요?

자세히 알아보세요! 👇

질문 1: AI는 잊어버리세요. AI 없이 어떻게 작동하나요?

"나머지 제품에 대해 말해 주세요"

가장 먼저 해야 할 일은 대화를 전환하는 것입니다. 멋진 AI 아이디어가 있는 것도 좋지만 실제 고객 경험에서 시작하고 그 뒤에 실제 소프트웨어가 있어야 합니다.

기술에 대해 말하지 말고 고객을 위해 해결한 문제에 대해 이야기하세요. 고객에 대한 분명하지 않은 인사이트는 무엇인가요? 귀사의 제품이 권장하는 워크플로는 무엇인가요?

스티브 잡스가 잘 말했죠: "고객 경험에서 시작해서 기술로 돌아가야 합니다."

그런 다음 놀라운 소프트웨어를 구축해야 합니다. 엄청난 양의 작업입니다.

AI 기능에 대해 설명하기 전에 궁금한 점이 있습니다:

제품의 사전은 무엇인가요? 사람들이 제품을 사용하기 전에 이해해야 하는 최소한의 신조어 세트는 무엇인가요? 높다면... 🚩
객체 모델은 무엇인가요? API는 얼마나 간단한가요? 설득력 있는 답변이 없다면... 🚩
제품은 얼마나 빠른가요? 프로젝트 관리 도구를 구축하는 경우 리니어만큼 빠른가요? 그렇지 않다면... 🚩

뛰어난 제품을 만드는 기본은 절대 변하지 않습니다. 지름길은 없습니다.

질문 2: AI가 어떻게 제품의 핵심 기능을 10배 이상 향상시키거나 더 빠르게 만들 수 있나요?

'AI'가 제품의 핵심을 10배 이상 개선하거나 더 빠르게 만들지 못한다면, 그것은 아마도 엉터리 AI일 것입니다. 부수적인 사용 사례가 아닙니다. 제품의 핵심. 2배가 아니라 10x.

사용자가 제품에서 가장 많은 시간을 보내는 작업이 무엇인지 생각해 보세요. 각 작업에 대해 작업당 소요 시간에 해당 작업이 수행되는 빈도를 곱하세요. 이렇게 하면 헛소리가 아닌 AI 기회가 어디에 있는지 알 수 있습니다.

GitHub Copilot를 생각해 보세요. 엔지니어 업무의 핵심은 코드 작성입니다. GitHub Copilot을 사용하면 엔지니어는 탭을 눌러 문장을 완성할 수 있습니다. 물론 한 문장을 완성하는 데 많은 시간이 걸리지는 않지만 하루에 50번씩 할 수도 있으므로 결국에는 10배 더 빨라집니다.

반대로, 콘텐츠를 작성하는 것이 아닌 제품의 기능으로 사용자 주도형 콘텐츠 생성을 하는 것은 제품에 LLM을 사용하는 것만큼이나 형편없는 일입니다.

그래서... 우리가 Cycle에서 출시한 첫 번째 AI 기능이 무엇일까요?

네... 콘텐츠 생성을 위한 기본 프롬프트 🙈입니다.

누구나 위대함을 향해 나아가는 과정에서 때때로 약간의 어려움을 겪을 필요가 있습니다.

질문 3: 여러 개의 프롬프트 템플릿과 ChatGPT 탭이 열려 있는 상태에서 AI 작업을 완료하는 것이 얼마나 어려운가요?

마지막으로 ChatGPT로 AI 작업을 완료하는 것이 얼마나 어려울까요? 쉽다면 OpenAI 위에 얇게 얹혀진 레이어에 불과하며, 아마도 OpenAI의 다음 릴리즈에 파괴될 것입니다.

OpenAI에 의해 죽어가는 스타트업이 되고 싶지 않으신가요?

AI가 헛소리인지 아닌지 알아보는 좋은 테스트: OpenAI의 발표를 보면서 흥분되나요, 아니면 두렵나요? (힌트: 흥분해야 합니다)

그렇다면 OpenAI에 의해 죽지 않으려면 어떻게 해야 할까요? AI 쿼리가 기본적인 텍스트 기반 답변이 아니라 제품 내에서 수행되는 작업으로 이어지도록 해야 합니다. AI가 수행하는 작업이 많을수록 좋습니다.

Google 스프레드시트를 예로 들어 특정 열에서 음수를 빨간색으로 표시하고 싶다고 가정해 보겠습니다:

이전에는 6가지 동작을 클릭해야 했습니다. 앞으로는 입력만 하면 됩니다: "B 열에 음수를 빨간색으로 해주세요."라고 입력하면 됩니다.

이 기능은 사용자가 원하는 작업은 알고 있지만 복잡한 소프트웨어에서 이를 수행하는 방법을 모를 때 특히 유용합니다. 이는 핵심 제품 경험을 직접적으로 향상시키며 ChatGPT로는 불가능합니다.

다음 단계의 AI는 동일한 작업을 수행하지만 Autopilot으로 수행합니다. 제품에서 수행해야 하는 모든 작업 중 어떤 작업을 완전히 제거할 수 있는지 자문해 볼 필요가 있습니다. 엔드투엔드 자동화를 통해 이러한 작업을 제거해 보세요.

좋은 예로 Intercom의 Fin을 들 수 있습니다. Fin은 인공지능을 사용하여 지원 콘텐츠를 기반으로 대화형 답변을 통해 고객 문제를 자동으로 해결하는 인공지능 챗봇입니다:

생각해 보세요: Fin은 전체 워크플로우를 자동화했는데, 이것이 바로 Autopilot이 하는 일입니다.

AI의 미래: Copilot이 아닌 Autopilot

헛소리가 아닌 AI는 워크플로우의 큰 부분을 대체하는 경향이 있습니다. 이것이 바로 Autopilot의 정확한 목표입니다. 네, Autopilot입니다: AI가 스스로 작업을 수행하고 인사이트를 생성하는 것입니다.

하지만 Autopilot은 구축하기 어렵습니다. 기술적 관점이 아니라 UX 관점에서 보면 어렵습니다. 따라서 Cycle에서 최고의 피드백 Autopilot을 구축하는 여정에서 어렵게 얻은 몇 가지 UX 교훈을 살펴볼까요?

작동하는 헛소리 없는 Autopilot을 구축하는 Cycle의 여정

적합한 AI 기회 포착

먼저, 저희는 피드백 처리를 가장 활용도가 높은 사용 사례로 파악했습니다. 피드백 처리는 사용자가 제품에서 가장 많은 시간을 보내는 작업이며, 제품 내에서 수행되는 일련의 작업이기 때문에 ChatGPT로 처리하기가 매우 어렵습니다. 요컨대, 저희는 "Bullshit AI" 테스트를 통과했습니다:

피드백 Autopilot의 작업 정의하기

피드백 Autopilot의 역할은 다음과 같습니다:

피드백이 들어옵니다.
피드백을 읽습니다.
피드백을 요약합니다.
관련 고객 견적을 찾습니다.
고객 의견을 분류합니다.
적절한 기능이나 문제에 연결합니다.
기존 기능/문제를 찾을 수 없는 경우에는 새로 만듭니다.
피드백을 처리된 것으로 표시합니다.

Fin과 마찬가지로 엔드투엔드 자동화를 통해 워크플로우의 큰 덩어리를 없앴습니다 👀.

릴리스별로 UX 엣지 만들기

저희는 1.5년 전에 첫 번째 인사이트 추출 기능을 출시했습니다:

그 후 자동 인사이트 분류 기능을 추가했습니다:

그 후 워크스페이스별 사용자 지정 컨텍스트를 통해 AI 결과를 획기적으로 개선했습니다:

그런 다음 모든 팀의 유형에 맞게 조정할 수 있도록 사용자 지정 인사이트 유형에 대한 지원을 추가했습니다:

그런 다음 AI가 일반적이고 관련 없는 기능을 생성하는 문제에 직면하여 더 나은 컨텍스트에 따라 스스로 개선되는 프롬프트라는 해결책을 찾았습니다.

저희는 팀이 워크스페이스에서 만든 5개의 최신 기능에 따라 AI가 생성한 기능이 기능 카테고리별로 팀의 네이밍 스타일과 일치하도록 했습니다.

사람들이 기능, 개선 사항 또는 버그 제목을 작성할 때와 같은 방식으로 문제 제목을 작성하지 않는다는 인사이트를 얻었습니다: Cycle의 AI는 이 점을 고려하여 각 카테고리의 스타일에 따라 적합한 제목을 생성했습니다:

그 후, 저희는 AI를 좀 더 겸손하게 만들었습니다. 두 개체가 얼마나 가까운지를 의미론적으로 결정하는 매칭 점수를 기반으로 각 고객 견적을 가장 가까운 기능에 연결했습니다.

문제는 AI가 특히 대규모 작업 공간에서 기능을 너무 자주 일치시키는 경향이 있다는 것이었습니다. 그래서 마치 10년 전의 추측처럼 느껴졌습니다.

또한 세 가지 특징이 주어진 견적에 똑같이 잘 일치하는 경우, Cycle은 일치 점수가 다른 두 개보다 약간 높더라도 첫 번째 특징을 임의로 선택했습니다. 이러한 과신은 신뢰를 구축하지 못했습니다.

그래서 우리는 매칭 로직을 변경하여 명백하게 일치하는 항목이 없는 경우 더 이상 임의로 첫 번째 기능을 선택하지 않도록 했습니다. 대신 사용자가 일련의 추천 기능 중에서 선택하거나 처음부터 새로운 기능을 만들 수 있도록 했습니다:

이어서 AI 분류에 다국어 지원을 추가했습니다. 일부 고객 견적은 프랑스어 또는 중국어로 되어 있지만 기능은 영어로 되어 있는 경우 문제가 발생하곤 했습니다. 그래서 기능 일치 로직을 업그레이드했습니다.

이제 Cycle의 AI는 견적이 생성될 때마다 세 번의 연속적인 시맨틱 검색을 거칩니다. 이렇게 하면 일치하는 항목이 있을 경우 반드시 찾을 수 있습니다:

드디어 Autopilot으로 모든 것을 자동화할 준비가 되었다고 느꼈습니다:

하지만 처음에는 제대로 작동하지 않았습니다: AI가 너무 많은 정크를 생성하고 사용자들이 이를 끄고 있었기 때문에 해결책을 찾아야 했습니다. 이 솔루션은 "AI 생성, 사용자 검증"이라고 불립니다.

신뢰를 구축하기 위한 세 가지 원칙으로 요약됩니다:

Autopilot에서 생성된 것에는 'AI-generated' 태그가 있어야 합니다.
사용자가 한 번의 클릭으로 AI 생성 항목을 (대량으로) 확인하거나 폐기할 수 있어야 합니다.
모든 데이터를 보시겠습니까? 사용자가 생성한 데이터만 보시겠습니까? AI가 생성하고 사용자가 확인한 데이터만 보시겠습니까? 등, AI 태그를 기준으로 모든 보기를 쉽게 필터링할 수 있어야 합니다.

그것만으로는 충분하지 않다는 듯이, 우리는 Cycle의 실시간 특성을 다루어야 했습니다. AI가 보고 있는 대상에 대해 언제 작업을 수행하고 있는지 사람들에게 알릴 수 있는 방법이 필요했습니다. 이를 위해 저희는 AI가 언제 작업을 수행하는지 실시간으로 알려주는 작은 토스터를 디자인했습니다:

요컨대, 저희는 UX 우위를 확보하기 위해 끊임없이 AI를 반복해 왔습니다. 물론 기술적인 우위도 있지만, 이는 제품의 나머지 부분입니다. AI와 관련해서는 모든 팀이 동일한 모델을 사용하고 있기 때문에 차별화와 방어력을 구축하는 방법은 최고의 사용자 경험을 설계하는 것입니다.

업계 최고의 피드백 자동 조종 기능을 구축하기 위해서는 이렇게 많은 반복이 필요했습니다. 그리고 그 노력은 성과를 거두기 시작했습니다:

하지만 이제 시작에 불과합니다. 앞으로도 계속해서 (헛소리가 아닌) Autopilot을 구축하는 새로운 방법을 정의하고 설계할 것이기 때문에 앞으로의 행보에 대해 낙관적으로 생각합니다 🤗.

(출처: Cycle)

"AI 헛소리" 테스트

AI로 구축하는 창업자의 이야기