데이터 분석의 목적은 무엇일까?
데이터 분석의 목적은 크게 두 가지로 갈립니다. 하나는 이미 축적된 데이터에서 특정한 패턴을 찾아내기 위한 것이고, 다른 하나는 세워 놓은 가설이 맞았는지 틀렸는지 검정하는 것입니다. 전자는 통계적 분석 기법이나 데이터마이닝 기법, 머신러닝이나 딥러닝 기법을 적용합니다. 후자는 퍼포먼스 마케터가 일상적으로 하는 데이터 분석입니다. 데이터 분석은 기본적으로 “패턴”을 찾아내는 것은 맞습니다. 하지만 퍼포먼스 마케팅에서의 데이터 분석은 보다 목적 지향적이어야 하고, 전략적일 필요가 있습니다.
가트너 분석 성숙도 모델에 따르면 데이터 분석은 아래와 4가지 유형으로 나눌 수 있습니다. 어떤 현상이 발생했는지 살펴보는 것은 난이도도 낮고 가치도 낮은 일이지만, 원인을 분석하여 기대효과를 설정하고, To-Do를 생각해내는 방향으로 나아갈 수록 난이도도 높아지고 그에 의한 가치도 높아지는 것을 알 수 있습니다.
- 설명적 분석: 무엇이 발생하였는가?
- 진단적 분석: 그러한 현상의 발생 원인은 무엇인가?
- 예측적 분석: 무엇이 일어날 것인가?
- 처방적 분석: 어떻게 그러한 일이 일어나도록 만들 것인가?
Plan-Do-See의 프레임워크로 설명하여도 비슷합니다. 현상을 관찰하여 개선점을 도출하고, 액션 수행 후 그에 대한 피드백을 진행합니다.
- Plan: 퍼포먼스 마케터는 브랜드/서비스의 성과 개선을 위해 현재의 문제점을 정리하고, 이것을 해결 하기 위해 액션 플랜을 설계 합니다.
- Do: 이후 매체 운영이나 UI/UX 개선을 통해 액션을 수행합니다.
- See: 마지막으로 이러한 액션들이 원하는 문제를 해결했는지, 해결하지 못했다면 무엇 때문인지 관찰합니다.
가트너의 모델을 활용하든, 전통적인 Plan-Do-See 모델을 활용하든, 결국 현상으로부터 문제를 도출하고 무엇을 할 것인지 결정한다는 점에서 공통점이 있습니다. 퍼포먼스 마케팅에서의 데이터 분석은 이러한 목적을 분명히 해야 합니다. “가설을 검정한다”는 목적을 분명히 하는 것이 퍼포먼스 마케팅에서 “전략적인 데이터 분석”을 하는 시발점입니다.
이 때, 데이터를 분석하기 위한 여러 기법들을 도입하는 것보다, 데이터를 지표 중심으로 머릿속에 집어 넣는다고 생각하고 시작하는 것이 좋습니다.
일반적인 데이터 분석 기법을 적용하기 어려운 이유
앞서 언급했던 것 처럼 기본적으로 데이터 분석은 “패턴”을 찾아내는 것이기 때문에 전통적으로 통계적 기법이 많이 적용되었습니다. 예를 들어보면, 20대 여성과 30대 여성의 화장품 구매 객단가가 각각 35,000원, 45,000원 이라고 할 때, 이 두 집단의 객단가 차이가 통계적으로 유의미한지를 살펴보고자 한다면, t-test를 수행합니다. 마케팅 액션을 전혀 하지 않을 때, 자사몰에서 구매가 일어나는 빈도가 어떤 패턴으로 구성되는지 살펴보려면 쁘아송 분포를 적용할 수도 있습니다.
최근에는 머신러닝, 딥러닝을 활용한 예측 분석이 대세로 자리 잡았습니다. 머신러닝과 딥러닝은 “Many Input”을 기반으로 합니다. 적게는 수천개에서 많게는 수억개의 데이터가 input data로 주어져야 하고, 이러한 input data에 대해 다양한 알고리즘을 적용하여 데이터를 가장 잘 표현하는 패턴을 찾습니다. 그리고 이러한 패턴을 활용하여 미래에 어떤 결과가 나타날지를 “예측”하는 것이 궁극적인 목적입니다.
이러한 방법들은 굉장히 매력적으로 보이지만, 퍼포먼스 마케팅 데이터에 적용하기에는 퍼포먼스 마케팅 데이터가 가지고 있는 구조적인 한계에 직면하게 됩니다. 퍼포먼스 마케팅 데이터는 기본적으로 시계열의 속성을 가지고 있는데, 시계열 데이터는 머신러닝과 딥러닝을 적용하기가 어려운 데이터 형태입니다. 다음으로 데이터에 영향을 주는 외부 변수가 너무 많습니다. 예를 들면 경쟁사와의 광고 구좌 경쟁 정도, 정책적인 광고비의 증액, 감액 등이 있습니다. 이렇게 데이터 내에 녹아 있지 않은 외부 변수가 많은 경우 머신러닝과 딥러닝을 적용하기 어렵습니다.
다시 말하면, 퍼포먼스 마케팅을 통해 수집된 데이터는 “모델링”을 하기에 적합하지 않은 데이터이며, “모델링”보다는 “스토리텔링”을 기반으로 한 분석이 필요합니다. 구체적으로는 일별 광고비 정도는 머릿속에 넣고 있어야 하며, 액션 히스토리 또한 일별로 머릿속에 들어 있어야 합니다. 각 액션 히스토리에 엮어서 일자별로 CPM, CPC, CPA, CTR, CVR, ROAS 등 주요 지표의 변화를 세세하게 알고 있어야 합니다. 그리고 각 지표를 구성하는 노출수, 클릭수, 비용, 구매전환수, 매출액 등 절대값 지표도 머릿속에 전부 있어야 합니다.
과거의 데이터를 활용하여 “문제 해결을 위한 가설을 설정”하는 방법
통계분석이나 머신러닝, 딥러닝 기법은 퍼포먼스 마케팅을 통해 수집된 데이터 분석에 사용하기에 한계가 많기 때문에, 퍼포먼스 마케터에게 필요한 데이터 분석 기법은 데이터를 통해 “문제 해결을 위한 가설을 설정하는 것”으로 귀결 됩니다. “가설 검정”의 시각으로 데이터를 다루는 것은, 내부 데이터를 다룰 때에도 마찬가지 입니다.
- 광고 데이터 분석 광고 매체에서 제공하는 데이터를 통합하여 CTR, CVR, ROAS 등 주요 지표를 분석함. 광고 데이터를 통해 “전환의사가 뚜렷한 유저가 유입되어 전환까지 연결되는지”에 대한 가설을 검정하는 것을 목표로 함.
- 고객 데이터 분석 고객 정보, 구매 정보 등을 합쳐서 객단가, 재구매율, 첫구매 시점 등 성장에 유의미한 지표를 분석함. 고객 데이터 또한 “프로모션을 통해 유입된 유저들이 LTV 측면에서 의미가 있는가?”와 같은 가설을 검정하기 위해 활용되어야 함
- 마케팅 퍼널 분석 광고 데이터와 고객 데이터 분석을 기반으로 자사 서비스의 퍼널이 제대로 기능하고 있는지 분석함. 퍼널에서의 가설을 검정할 때는 내부 데이터 뿐 아니라 외부 데이터 까지 통합적으로 고려할 수 있어야 함
퍼포먼스 마케팅 데이터 분석
분석의 기본 축, Flow와 Snapshot
데이터 분석의 개요를 파악 했다면, 퍼포먼스 마케팅에서의 데이터 분석에 필요한 부분을 알아야 합니다. 앞서 말씀 드렸던 것 처럼 퍼포먼스 마케팅에서의 데이터 분석은 데이터 자체를 머릿속에 꾸준히 “때려넣는 것”이 전제가 되어야 하며, 기본적으로 모든 흐름이 머릿속에 있어야 깊은 수준의 분석이 가능합니다. 이를 위해 Flow와 Snapshot을 빠르게 파악할 수 있도록 잘 만들어진 데이터 대시보드가 필요하며, 이러한 대시보드는 마케팅 액션과 관련된 커뮤니케이션의 축이 될 수 있습니다.
Flow란
Flow는 위에서 말씀드렸던 데이터를 “시계열”로 보는 것을 말합니다. 퍼포먼스 마케팅은 시간의 흐름에 따라 가설 설정, 액션, 피드백을 수행하기 때문에 이것을 시간의 흐름에 따라 관리하는 것이 매우 중요합니다. 하지만 Flow만으로 데이터를 관측하면, 성과가 떨어졌을 때 특별히 어떤 개선 사항을 도출해야 할지 어려움을 겪을 수 있습니다. 때문에 시간의 흐름에 따른 분석에 더해 하나의 시점에 대한 분석이 동시에 이루어져야 합니다.
Snapshot 이란
Snapshot은 하나의 시점을 정하고, 그 시점의 데이터를 구성하고 있는 요소를 쪼개는 것입니다. 8월1일의 CVR이 1.2%라고 하면, 1.2% 만들어 내게 된 원인을 당일 데이터를 통해 살펴보는 것입니다. 페이스북 매체에서의 성과 하락이 원인일 수도 있고, 브랜드 검색에서의 성과 하락이 원인일 수도 있습니다. Flow로는 성과가 좋아지거나 나빠지는 흐름을 파악하고, Snapshot으로 그렇게 좋아졌거나 나빠진 것에 대한 원인을 찾는다고 정리하면 좋을 것 같습니다.
광고 데이터 간 상관관계 이해하기
퍼포먼스 광고 데이터는 CTR, CVR, CPC, CPA, ROAS와 같은 계산된 지표와 노출, 클릭, 매출, 비용과 같은 절대값으로 주어지는 데이터가 있습니다. 특정한 지표가 상승하거나 하락할 때, 그 원인이 어디에 있는지 유추해 내는 것이 중요합니다. 원인을 유추하기 위해서는 해당 지표 자체에 집중하는 것보다, 지표와 지표, 지표와 절대값간의 연관관계를 기반으로 추론하는 것이 필요합니다.
위 그림은 각 지표간의 관계와 지표에 영향을 미치는 요소를 단순화 하여 표현한 것입니다. 지표는 CTR, CVR 외에도 CPM, CPA, ROAS 등의 지표들이 있고 각 지표끼리의 연산을 통해서 새로운 지표를 만들거나 새로운 관계를 추론해볼 수도 있으니 따로 정리를 해보는 것이 좋습니다.
위와 같이 관계도를 정리하면, 아래와 같이 성과에 대해서 분석할 수 있게 됩니다.
상황: 전환률(CVR)이 3%에서 1.5%로 저하 되었을 때, 어떻게 해결할 것인가?
- 해결1: 전환수를 유지되었는데 클릭수가 증가했다면, 최근에 라이브한 광고의 CTR이 좋아졌을 수 있다. 낮은 단가의 유입이 의미가 있다면 유지하되, 광고에서의 메시지가 과장되었기 때문에 유입된 유저가 전환까지 이어지지 않고 이탈하고 있다면, 광고를 OFF 하는 것도 고려할 수 있다.
- 해결2: 클릭수가 유지되고 전환수가 줄어 들었다면, 구매할 만한 사람들이 모두 구매한 것일 수 있다. 광고의 빈도수 혹은 GA에서 재방문자의 비율을 확인해볼 수 있으며, 모수확보를 위해 신규유입 캠페인을 별도로 편성할 수 있다.
- 해결3: 전반적인 노출수, 클릭수, 전환수가 동시에 줄면서 전환률이 낮아졌을 수도 있다. 이럴 경우 광고단이 아닌 메타 환경에서의 변화가 영향을 주었을 수 있다. 이 때에는 USP 및 크리에이티브를 재정돈 하는 것이 방법이 될 수 있다.
전환률이 줄어들었을 때, 전환률 지표에만 집중하다 보면 실질적인 해결책을 도출하지 못할 수도 있습니다. 항상 지표에 영향을 미치는 여러 요소들을 종합적으로 생각해야 하며, 이러한 요소들 이전에 광고 환경에 영향을 미치는 “메타 환경”이 있음을 인지해야 합니다.
가설 검정에 힘을 더해주는 다양한 데이터 분석 툴
구글 애널리틱스는 대중적으로 사용하고 있는 툴이므로, 사용법에 대해서는 굳이 언급하지 않으려고 합니다. 다만 구글 애널리틱스와 같은 웹로그 분석툴의 목적은 “고객 행동 분석”이 아닐까 합니다. 그리고 이러한 고객 행동 분석은 커머스 보다는 커머스 외 “앱 서비스”에서 더 강력한 힘을 발휘하는 것 같습니다. 커머스에서 고객의 행동은 제품의 기능, 스펙, 구성에 더 많은 영향을 받으며, 어떤 메시지를 어떤 방식으로 보여줄지에 더 큰 영향을 받습니다. 하지만 앱을 기반으로 한 게임, 마켓, 플랫폼 등의 서비스는 고객 행동 데이터 분석이 중요 합니다. 고객을 유입 시킨 후 내부에서의 기능개선을 통해 서비스의 사용성이 좋아져야 LTV 관점에서 고객을 오랜 기간 유지시킬 수 있기 때문입니다.
세부적인 측정을 위한 GTM
GTM을 활용하면 GA에서 보다 더 많은 정보를 살펴볼 수 있습니다. GTM을 스크립트 삽입도구로 생각하여, 여러 솔루션을 쉽게 설치하는 정도로 많이 사용하고 있으나, GTM은 기본적으로 “Javascript Injection tool”이기 때문에 굉장히 다양한 기능을 수행해볼 수 있습니다. 다만 GTM은 개발 지식이 없다면 다소 접근하기 어렵습니다. 당장 도입해볼 수 있는 추가 측정 기준은 아래와 같습니다.
- 이벤트 삽입을 통한 추가 측정 기준
Scroll Depth 측정: 원하는 페이지에서 유저들이 스크롤을 얼마나 아래 까지 내렸는지 측정.
버튼 클릭 이벤트 측정: 원하는 페이지에서, “장바구니 담기”, “구독하기”, 혹은 “이메일 보내기”와 같은 버튼을 얼마나 많이 클릭하는지 측정
네이버 검색 위치 측정: 네이버의 블로그, 카페, 지식인 등 다양한 검색결과 위치들 중 어떤 위치에서 우리 홈페이지 까지 넘어왔는지 측정
- ClientID와 UserID 활용을 통한 데이터 트래킹 개인화(https://brunch.co.kr/@edte1020/24): GA 꿀팁 – (1)매체 데이터와 유저 데이터의 결합 아티클 참고.
이렇게 측정 기준을 설정해 놓으면 세부적으로 데이터를 쪼개볼 수 있을 뿐 아니라 커스터마이징 작업을 통해 광고매체에서 최적화 기준으로 사용할 수도 있습니다. 예를 들어 “브랜드 소개 페이지에서 스크롤을 80%까지 내린 사람을 대상으로 페이스북 리타겟팅”을 진행할 수 있게 됩니다.
비주얼 애널리틱스
GA와 GTM을 활용하여 이벤트 설정을 하더라도 페이지 내에서 사람들의 시선이 어디에 머무는지, 버튼으로 만들어 놓지 않은 다른 텍스트들에 얼마나 반응하는지, 한번 스크롤할 때 얼마나 밑까지 내려가는지, 실제로 웹 안에서 인터랙션이 어떻게 일어나는지 등 더 구체적인 행동에 대해 알 수 없다는 단점이 있습니다. 이것을 해결하기 위해 비주얼 애널리틱스 툴을 사용할 수 있으며 아래와 같은 두 가지 대표적인 툴이 있습니다.
1. 뷰저블: https://www.beusable.net/ko/
2. Hotjar: https://www.hotjar.com/
텍스트마이닝 기법을 활용한 트렌드 분석 가미하기
타겟 커뮤니티, 뉴스 등을 선정하여 텍스트마이닝을 하는 방법이 있습니다. 개인적으로 텍스트마이닝 기법 중 가장 도움이 많이 되는 것이 LDA 알고리즘이라고 생각합니다. “10만개의 뉴스 아티클을 10개의 주제로 분류하자”. “일자별로 10개의 주제가 각각 얼마나 많이 나왔는지 시계열 그래프를 그려보자”와 같은 실용적인 분석이 가능합니다.
LDA 주제 분류 시각화 예제
아래 예시는 청와대 청원 게시글을 크롤링하여 3개의 주제로 분류한 LDA 예제 입니다. 각 주제를 구성하는데 영향을 가장 많이 미치는 단어들을 영향력에 따라 오른쪽의 바 그래프 형태로 살펴볼 수 있습니다.
위 대시보드를 아래 html 파일로 직접 조작해 볼 수 있도록 업로드 해두었으니 다운 받으신 후 자유롭게 살펴봐주세요. (크롤링 및 분석은 python으로 진행 하였습니다.)
LDA 트렌드 시계열 분석 예제
위와 같이 대량의 문서를 주제별로 분류하게 되면, 일자별로 해당 트렌드가 얼마나 나타나고 없어졌는지 파악해 볼 수 있습니다. 이에 대한 예시는 아래와 같습니다. 2020년 1월 1일 부터 2020년 4월 27일 까지의 매일경제 뉴스기사를 크롤링 하고, 5개의 주제로 분류한 뒤 일자별로 각 주제가 어떤 빈도로 출현하였는지 시각화 한 자료 입니다.
좌측의 Tabular 데이터는 5개의 토픽을 구성하는 주요 단어들을 나타내며, 우측의 그래프는 일자별로 각 토픽에 해당하는 아티클의 수량 변화를 나타내는 그래프 입니다. 데이터 전처리를 더 세밀하게 진행하면, 우리가 의식하지 못하는 타겟 커뮤니티, 뉴스, 기타 데이터 소스에서의 트렌드 변화를 파악할 수 있습니다.
의사결정에 필요한 수준의 정보를 얻고 가설을 검정할 수 있는가?
최근 마케팅에서도 데이터 분석에 대한 니즈가 올라가면서, 수집된 데이터에 대한 분석을 통해 필승법과도 같은 패턴을 발견하고자 하는 노력들이 발견됩니다. 하지만 퍼포먼스 마케터에게 데이터 분석이란 가설 검정의 수단이 되어야 합니다. 가설이 없는 데이터 분석은 공허할 수 밖에 없습니다. 이 때 가설을 세우고 확인하는데 필요한 데이터가 항상 100% 완벽할 필요는 없다고 생각합니다. 합리적인 수준에서 합리적인 판단을 내릴 수 있는 정도의 데이터면 충분합니다.
위에서 언급한 데이터를 다루는 모든 방법론은 현상을 관찰하고 가설을 합리적으로 세울 수 있는지, 그리고 그 가설을 바탕으로 한 액션을 제대로 도출할 수 있을지에 대한 것입니다. 각자가 마케터로서 데이터 분석을 바라보는 관점은 다르겠지만, 기술이나 방법론 자체에 매몰되지 않고 데이터를 활용해서 내가 일하고 있는 브랜드, 산업군의 그림을 그려나간다는 방향성을 꾸준히 체크해 나갔으면 합니다.
원문 : https://brunch.co.kr/@edte1020/59
◈ 해당 글의 저작권은 필자에게 있으며, 무단 전재 및 재배포를 금지합니다 ◈