플리토, 국립국어원 병렬 말뭉치 사업 3년 연속 수주

언어 데이터 및 전문번역 서비스 기업 플리토(대표 이정수)가 사단법인 국제한국어교육학회와 함께 국립국어원의 한국어-외국어 병렬 말뭉치 구축 사업에 3년 연속 참여한다고 25일 밝혔다.

올해 참여기업 선정을 위해 프로젝트 수행을 위한 기술성 전반과 기업 건전성을 종합적으로 평가했으며, 총 사업 규모는 47억 원으로 플리토는 올 연말까지 약 24억 원 규모의 병렬 말뭉치 데이터를 구축할 계획이다.

플리토의 3년 연속 사업 수주 배경에는 기존 사업의 성공적인 수행 성과 뿐 아니라, 언어 데이터 구축 전문성, 고품질 말뭉치 구축에 필요한 언어 전문가와 전문 번역가를 보유한 통합 번역 플랫폼 등이 있다. 플리토는 데이터 사업 본격화 이전부터 글로벌 유저들이 활동하는 언어 플랫폼을 운영해 왔고, 플랫폼 내 보상형 서비스인 ‘아케이드’를 통해 저작권 문제없는 최신의 언어 데이터를 제공해 올 수 있었다.

특히 대규모 언어 모델(LLM)과 인공지능 챗봇이 업계 최대의 이슈로 부상한 올해 초에는 ‘아케이드’를 통한 대화형 데이터 수집량이 하루 50만 건을 돌파하는 등 데이터 수요가 급속도로 증가했다. 수집된 데이터는 주제, 지역, 화자의 나이 및 성별, 대화 유형 등 다양한 메타데이터 정보를 삽입하여 생성형 AI 학습에 사용될 수 있도록 정제하였다.

이번 사업은 베트남어, 인도네시아어, 태국어, 인도 힌디어, 캄보디아 크메르어, 필리핀 타갈로그어, 러시아어, 우즈베크어 등 총 8개 언어의 병렬 말뭉치 구축을 목표로 한다. 해당 언어들은 한국어와 한국 문화 콘텐츠에 대한 관심이 높고 경제 성장 잠재력 또한 큰 국가들의 언어로 아직 상대적으로 데이터 수가 부족하기 때문에, 이번 사업에서의 말뭉치 구축을 통해 인공지능 성능 향상뿐 아니라 국가 상호 간 관계 증진 및 언어문화 교류 활성화도 기대할 수 있다.

국립국어원의 이번 사업을 통해 플리토가 구축하는 데이터는 정부 기관, 산업계, 연구소 및 교육기관 등에 이르기까지 다양한 분야에서 활용될 예정이다. 오픈AI의 챗GPT, 구글 바드 등 초거대 AI 기술이 빠르게 대중화되는 가운데, 언어 전문가들의 참여와 검수를 거친 고품질 말뭉치 데이터는 정부 주도의 한국형 챗GPT 성능 향상 및 특화 인공지능을 위한 파인튜닝(fine-tuning)에도 크게 기여할 것으로 예상된다.

플리토 이정수 대표는 “고품질 데이터 구축 전문성과 플랫폼 운영의 안정성을 인정받아 올해도 국립국어원 사업 참여기업에 선정돼 매우 기쁘다”며, “우리 정부가 중점적으로 육성하는 언어 인공지능 분야에서 한국이 경쟁력을 확보하고 주도권을 가져갈 수 있도록, 인공지능 성능 향상과 직결되는 다양한 유형의 고품질 언어 데이터를 구축 및 제공하는 데 앞으로도 최선을 다하겠다”고 밝혔다.

 


  • 관련 기사 더 보기
%d bloggers like this: