빅데이터 솔루션 기업 모비젠은 기존의 빅데이터 데이터베이스인 아이리스 DB(IRIS DB)에 오픈소스 프레임웍인 스파크(Spark)와의 통합을 완료했다고 밝혔다.
이번 통합을 통해 아이리스 DB는 스파크에서 제공하는 SQL을 통합하여 지원함으로써 기존의 장점인 실시간 SQL 성능과 함께 스파크를 통한 장기간의 SQL 및 배치성/대화형 SQL의 성능까지 최상으로 보장할 수 있게 되었다. 대규모 빅테이블에 대한 조인(JOIN) 연산을 포함한 모든 SQL 분석 작업이 가능해져 기존의 단일 DBMS에 기반한 레거시(Legacy) 시스템을 대규모 분산 병렬화하는 작업에 아이리스 DB를 활용할 수 있다는 것이 특징이다.
하둡을 기반으로 구축된 빅데이터 에코 시스템은 저비용으로 분산 시스템 구축이 가능해 용량 확대의 측면에서는 장점이 있지만 반응 속도가 매우 느리기 때문에 장기간에 걸친 배치 분석에는 용이하지만 분 단위 미만의 짧은 반응 속도를 필요로 하는 작업에는 적합하지 않다는 지적을 받는다. 이를 보완하기 위해 하둡의 에코 시스템을 그대로 유지하면서 성능을 향상시키려는 다양한 시도 중에서 최근 두각을 나타내고 있는 오픈소스 프레임웍이 스파크이며, 이에 SQL이 적용되어 SQL온하둡(SQL on Hadoop)에 가속도가 붙고 있는 상황이다.
모비젠 김형근 연구소장은 “스파크는 메모리 기반으로 생성되는 RDD(Resilient Distributed Datasets)이라는 독특한 데이터 구조를 활용해 높은 성능의 분석을 가능하게 해준다”며 “개발자의 입장에서 기존의 하둡 사용과 비슷한 수준으로 개발하되 성능은 거의 10배 이상 빠른 결과를 기대할 수 있을 것”이라고 강조했다.
한편, 모비젠은 스파크 이외에도 하둡 기반 오픈소스와의 호환성을 지속적으로 강화해 다양한 형태의 빅데이터 시스템을 구축할 예정이다. 특히 국내에서 개발된 타조 SQL엔진과의 통합도 공식적으로 발표할 예정에 있으며 이는 순수 토종 기술로 빅데이터 플랫폼 전체를 구성할 수 있게 된다는 점에서 큰 의미가 있다.
You must be logged in to post a comment.