크라우드웍스 “정답을 말하는 LLM 구축, 이것에 달렸다”

“LLM은 도깨비방망이가 아닙니다. 서비스나 시스템 구축에 필요한 필수 데이터가 무엇인지  파악하고 해당 데이터를 확보하는 것이 우선돼야 합니다.”

인공지능 테크 기업 크라우드웍스 (대표 김우승)는 지난 17 일 서울 여의도 콘래드 호텔에서 ‘2024 크라우드웍스 AI 컨퍼런스’를 개최했다. 금융, 통신, 국방, 공공기관 등 조직 내에서 AI 비즈니스를 리딩 하는 전문가들이 모여 성공적인 LLM 도입을 위한 전략과 인사이트를 공유했다.

이날 개회를 맡은 김우승 크라우드웍스 대표는 “고객들이 진정으로 원하는 AI 기반 시스템이나 서비스는 성능 좋은 AI 모델이라는 필요조건에, ‘고객의 데이터’라는 충분조건이 충족될 때 비로소 완성된다”라며 데이터의 중요성을 강조하며 문을 열었다.

컨퍼런스의 주제는 다양한 산업 군의 기업들이 거대언어모델 (LLM)을 어떻게 하면 성공적으로 도입할 수 있는지에 대한 것으로, 세션은 크게 크라우드웍스가 준비한 LLM  도입 관련 인사이트 부문과 크라우드웍스와 협업한 금융권 AI 기업 (KB 국민카드, 우리은행)의 실제 케이스 소개로 구성되었다.

 ◆ LLM 은 모든 문제를 해결하는 도깨비방망이가 아니다…올바른 접근 방식이 필요

박영진 크라우드웍스 AI사업본부 AI전략실장은 ‘기업 맞춤형 LLM 도입 전략: 구축사례 및 고려 사항’이라는 주제로 세션을 맡았다. 그는 “LLM 기술은 AI 기술과 함께 돌풍을 이끌며 마치 한번 휘두르면 모든 문제를 해결할 수 있는 도깨비방망이처럼 여겨지고 있다”라고 이야기를 시작했다. “하지만 이와 같은 인식이 오히려 LLM을 바르게 이해하는 데 어려움을 주고 있는 실정”이라며 설명을 이어 나갔다.

“우리가 LLM에서 기대하는 것은 대답이 아닌 정답이고, 정답을 기대한다는 것은 오답이 나오지 않기를 바란다는 것”이라고 그는 덧붙여 설명했다. 그리고 정답을 맞히는 것과 오답을 걸러내는 것은 바로 양질의 데이터가 구축되어 있는지에 달렸다고 말했다.

박 실장은 크라우드웍스에서 진행한 실제 프로젝트 사례를 기반으로 성공적인 LLM 서비스 구축을 위한 조건으로, 실제 LLM 서비스를 사용하는 사람이 누구인지, 어떤 목적으로 사용하는지 기대 효과를 명확하게 설정해야 한다는 것과 그에 따른 필수 데이터에 대한 이해가 선행되어야 한다는 점을 들었다. 특히 데이터 측면에서 “아무리 많은 데이터가 있어도 필수 데이터가 없는, 방대만 양의 데이터뿐이라면 활용 가치가 없는 파일 묶음일 뿐”이라며 “서비스 구축에 필요한 필수 데이터가 무엇인지 먼저 파악하고 해당 데이터를 확보하는 것이 우선”이라고 강조했다.

또한 LLM이 정답을 잘 답변하기 위해서는 정확하고 관련성 높은 파일을 LLM에 제공해야 하며, 정답을 잘 답변하는 RAG를 위해서는 원천 데이터에 대한 문서의 의미적, 정성적 분석이 중요하다고 강조했다. 의미 있는 텍스트, 메타 데이터, 주제 태깅 등을 통해서 모델이 잘 발화할 수 있도록 청크를 추출해야 정답을 잘 답변할 수 있기 때문이다.

◆ AI 챗봇 서비스 품질, 사용자 기대 충족하려면? LLM 평가 필요

대량의 언어 데이터를 기반으로 작동하는 LLM은 유해한 정보, 민감한 정보 유출 등의 문제가 계속되고 있고, 기업의 손실도 비례해서 커지고 있다. 이에 따라 LLM을 올바르고 철저한 방법으로 평가하고 보완하기 위한 LLM 평가 방법을 간과할 수 없다.

‘LLM 서비스 신뢰성 검증 평가’라는 주제로 발표한 크라우드웍스 NLP팀 이진우 팀장은 “자원한계로 인해 엔지니어링 중심의 자동평가 방식 레드티밍이 일반적으로 적용되고 있지만 이러한 방법론이 과연 안전한지에 대해서 생각해볼 문제”라며 “머신 인프라를 활용한 자동평가 방식과 휴먼 인프라를 활용한 수동평가 방식이 결합된 ‘하이브리드 레드 티밍 (Hybrid Red Teaming)’을 추천한다”라고 말했다.

◆ 머신과 인간의 시너지 창출한 하이브리드 레드티밍 (Hybrid Red Teaming)

이진우 팀장은 하이브리드 레드티밍 방법의 신뢰성을 확인하기 위해 크라우드웍스가 머신과 휴먼 인프라 기반의 레드티밍의 특징을 분석한 결과와 인사이트를 설명했다. ‘머신’, 즉 공격을 위해 LLM을 중점적으로 활용하는 방법과 ‘휴먼, 즉 사람이 직접 적대적 프롬프트를 만들어 테스트하는 방법으로 의료, 금융 서비스 부문에서 각자 실험한 결과 머신은 휴먼 레드티밍 대비 취약한 수치를 보였다. 이 팀장은 “신뢰성 평가에 있어 결국 레드티밍 과정 내 인간이 개입해 교정 응답을 구축해 나가는 과정이 가장 효율적”이라고 덧붙였다.

즉, 머신과 휴먼 인프라 기반 레드티밍의 장점이 결합해 최적화를 이뤄야 한다는 것. 이렇게 된다면 머신의 오판단 비율도 향후에는 5% 미만 수준으로 기대할 수 있고, 이에 따라 인건비도 줄일 수 있게 되어 효율적인 운영이 가능하다. 또한, 머신이 판단하기 어려운 케이스도 인간이 개입해 처리할 수 있기에 효율적인 대처가 가능하다.

이 팀장은 이러한 하이브리드 레드티밍의 역할이 중요하기에 결국 휴먼 레드팀의 역량이 매우 중요하다고 강조했다. “프롬프트를 작성하고, 고도화할 수 있는 능력과 도메인 별 위험성을 감지할 수 있는 능력, 질의 응답 평가 능력 그리고 교정 응답 생성 능력이 얼마나 뛰어난지에 따라 서비스의 품질이 결정될 것”이라고 말하며, “크라우드웍스는 산업별, 도메인별 레드팀 전문 에이전트 투입 역량을 갖추고 있기 때문에 더욱 효율적인 서비스 구축이 가능하다”고 강조했다.

 

%d bloggers like this: