데이터메이커, 인공지능 공부시키는 데이터 라벨링 “모델 중심에서 데이터 중심으로”

 

인공지능은 4차 산업혁명의 핵심 키워드로 꼽힌다. 그 중에서도 데이터 라벨링(Data Labeling)은 AI를 상용화하는데 반드시 필요한 과정으로 분류된다.

AI의 알고리즘을 고도화하기 위해서는 다양한 데이터를 주입해야 한다. 하지만 AI 자체가 사람이 사용하는 문서나 사진 등의 데이터를 스스로 식별할 수 없다는 문제를 안고 있다. 때문에 AI가 학습할 수 있는 형태로 데이터를 가공해야 하는데 이러한 작업을 데이터 라벨링이라고 부른다.

우리나라는 IT 강국 답게 차별화된 기술력을 갖춘 데이터 라벨링 솔루션이 다수 개발된 상태다. 그 중에서도 AI 학습용 데이터 라벨링 솔루션 개발 기업 ‘데이터메이커(datamaker)’는 효율성을 강점으로 뚜렷한 성장세를 보이고 있다.

 

데이터메이커는 KAIST(한국과학기술원) 창업 석사 및 전산학 석사 출신인 이에녹 대표 주도 아래 학습용 데이터 가공 및 학습 파이프라인 플랫폼을 선보이며 두각을 나타내고 있다.

그렇다면 데이터메이커의 시작은 어떻게 됐을까. 이에녹 대표에 따르면 카이스트 전산학 석사 과정을 밟으면서 AI를 활용한 주차사업을 꿈꾼 것이 창업의 모태가 되었다고. 특히 이에녹 대표의 꿈은 우리나라가 아닌 아프리카 가나에서 시작됐다.

아프리카 가나에서 보낸 청소년기 ··· 데이터 라벨링 사업의 밑거름

아프리카 가나에서 진행한 컴퓨터 교육사업

“어렸을 적 가나에 거주한 적이 있었는데 이때의 경험이 지금의 사업의 기반이 되었습니다. 부모님이 아프리카 가나 선교사로 활동하신 적이 있어 저도 아프리카 가나에서 청소년기를 보냈습니다. 부모님께서는 가나에서 컴퓨터 교육 사업을 20년 동안 진행하셨었는데 이러한 경험과 인프라를 지켜보며 가나에서 데이터 라벨링 사업을 시작할 수 있게 되었습니다.”

 

데이터메이커는 제품 개발, 빅데이터 분석, 사회 현안 해결 등에 필요한 AI 학습 데이터셋 구축 사업을 수행하는 기업이다.  주요 가공 서비스로 컴퓨터 비전과 자연어 처리, 음성 인식 등이 있다.

사업 초기에는 AI 개발사에 국한되었으나 이제는 특정기술, 산업에 무관하게 다양한 분야의 기업들에서 문의가 오고 있어 LG화학, LG전자, LG생활건강, 포스코ICT, SKT 등 국내 굴지의 대기업 그리고 대전광역시청 등 여러 기관들과 협력하고 있다. 이 대표는 이렇게 대부분의 분야에서 인공지능 개발에 신경 쓰는 것은 최근 디지털 뉴딜 정책 지원이 시작되면서 기업들이 그동안 축적한 데이터를 비즈니스에 도입해서 더 큰 부가가치를 창출하려는 시도가 쉬워졌기 때문이라고 풀이한다.

프로젝트 협의중인 이에녹 대표와 팀원

데이터 관리부터 고객관리까지 ··· 데이터메이커의 경쟁력

데이터메이커는 데이터를 정해진 시간 안에 철저한 보안을 통해 고객사에게 전달하는 것이 가장 큰 장점이다. 이에 본격적인 가공을 시작하기 전에 파일럿 프로젝트를 진행해 고객사의 납품 품질 기준에 대한 협의를 먼저 해둔다.
이 대표는 데이터메이커가 만드는 데이터는 이중전수 검수 시스템으로 모두 내부 전담 고정인력들이 투입되어 다른 크라우드 소싱 방식에 의한 데이터 생성보다 마감 기일을 잘 지킬 수 있다고 자신한다. 이를 위해 유통되는 데이터에 워터마크 등 소프트웨어 보안장치를 마련했다.

데이터메이커 데이터 라벨링 플랫폼은 현존하는 모든 유형의 데이터 라벨링이 가능하다.
보편적인 데이터 형태인 이미지, 오디오, 텍스트 뿐만 아니라 3D LiDAR Point Cloud, 센서 데이터 등에 이르기까지 다양한 유형의 데이터 라벨링을 선보이고 있는 것이다.

여기에 국내 최저 수준의 가격과 최고 품질의 데이터를 제시하며 이슈를 모으고 있다. 데이터메이커는 자동화 기술과 해외 인력 활용으로 국내 최저 수준의 가격을 구현하는데 앞장서고 있다. 이에녹 대표에 따르면 데이터메이커가 과학기술정보통신부 산하 데이터 라벨러 양성을 위한 교육 사업의 수행기관으로서 숙련된 라벨링 인력을 보유하고 있다.

데이터메이커는 고객사 자체적으로 데이터 라벨링을 운영하고 라벨링을 진행할수록 전처리 기능이 향상되는 자동 학습이 가능한 툴을 제공한다. 코딩 지식이 없어도 몇 번의 클릭만으로 웹상에서 모델 선택부터 학습 상세까지 설정이 가능하다. 고객사 자체 개발 AI 모델 아키텍처 및 GPU 서버를 지원하고 데이터 라벨링 전처리 엔진 활용이 가능해 자동 검증 솔루션을 활성화할 수 있다는 것이 강점이다.

데이터메이터의 포부

데이터 진흥주간 행사에 참가한 이에녹 대표

데이터메이커는 지난해 말 과기부가 개최한 ‘데이터 진흥주간’ 행사 개막식에서 이에녹 대표가 청년 데이터 기업 대표로 참여하며 브랜드 가치를 알렸다.

또한 데이터메이커는 서원대학교 산학협력단이 주관운영하는 ‘창업도약패키지 지원사업’에 최근 참가하며 획기적인 성과를 거뒀다. 특히 여러 경쟁사와 경쟁하며 많은 비즈니스적 관문을 넘어야 하는 상황에 놓여 있을 때 핵심 인력의 인건비, 온라인 마케팅비, 행사 참여비 등을 지원 받으며 회사를 한 단계 더 성장 시키는 발판을 마련했다.

인공지능 성능을 고도화하기 위해 그동안 업계 내에서 알고리즘 또는 학습 코드를 개선하고자 하는 모델 중심(Model-Centric) 방식을 많이 채택해 왔지만 데이터 중심(Data-Centric) 방식이 훨씬 더 큰 영향을 미치고 있다. 이로써 학습 코드를 고정하고 학습 데이터셋을 개선하는 것이 더욱 영향력 있다는 것을 반증 하게 됐다.

이에녹 대표는 “스탠포드 대학교 앤드류 응(Andrew Ng) 교수의 ‘모델 중심에서 데이터 중심으로의 인공지능(From Model-Centric to Data-Centric AI)’ 강의에서 언급한 프로젝트의 예시를 들어보면 모델 중심의 방식으로는 아무리 개선을 진행해도 인공지능 성능은 0.04% 이상 개선이 이뤄지지 않았습니다. 반면 데이터 중심 방식으로 데이터를 개선했을 때는 최대 16% 이상 향상됐음을 확인할 수 있었습니다. 이처럼 AI 개발 및 성능을 위해 AI 알고리즘 개발도 중요하지만 그 이상으로 고품질의 데이터 구축하는 것이 중요합니다.”라며 “데이터메이커는 향후 새롭게 형성되고 있는 신규 프로그래밍 시장인 데이터셋 IDE, MLOps 시장을 선점하는 기업이 될 것”이라고 포부를 밝혔다.

%d bloggers like this: