본문 바로가기

Data Analytics

[책] 데이터는 알고 있다 데이터가 만드는 세상 BIG DATA

데이터가 만드는 세상  BIG DATA

저자 : 빅토르 마이어 쇤버거 / 케네스 쿠키어 지음

출판사 : 21세기 북스



2003년 Oren Etzioni 는 동생 결혼식 참석을 위해 일찌감치 몇달 전에 온라인으로 항공권을 구입했다. 일찍 예약할 수록 더 싸다고 알고 있었기 때문이다. 비행기에 탑승한 후 그는 궁금증을 참을 수 없었고

옆에 앉은 남자에게 얼마에 항공권을 얼마에 샀는지 물었고 더 싼 가격에 자신보다 훨씬 늦은 시기에 산 것을 발견했다. 화가 치밀어 계속해서 다른승객들에게도 가격을 물었고 모두가 자신이 산 가격보다 더 낮은 가격에 산 것을 발견했다. 

 

 그는 온라인상의 항공권 가격이 저렴한지 여부를 알 수 있는 방법을 찾아보기로 했고 주어진 노선의 모든 항공권 가격을 분석하고 출발일까지 남은 날짜에 따라 팔린 가격을 확인하였다. 


41일간 여행 웹사이트에서 긁어낸, 1만2천여개의 가격 샘플을 이용해 예측 모델을 만들었고 시뮬레이션을 해보니 여행자는 상당한 돈을 절약할 수 있었다.  그는 이 검색 프로젝트에 '햄릿' 이라는 '살 것이냐 말 것이냐 그것이 문제로다' 에 딱 맞는 이름을 붙여준었다. 이 작은 프로젝트는 벤처 캐피털의 자금 지원을 받았고 Farecast 라는 신생기업으로 변신하여 소비자들에게 그동안 한 번도 가져보지 못한 정보를 손에 쥐고 거래를 할 수 있게 해 주었다. 투명성을 고수하기 위해 Farecast 는 자신이 내놓는 예측의 신뢰도까지 수치화하여 이용자들에게 제공했다. 


이 예측 모델이 제대로 작동하려면 많은 양의 데이터가 필요했다. 성능을 향상시키기 위해 업계에서 이용하는 항공권 예약 데이터베이스 중에 하나를 손에 넣었다.  그러자 예측 시스템은 1년 내내 미국 민간항공의 거의 모든 노선의 전 항공편, 전 좌석 정보에 기초해 예측을 내놓을 수 있게 됐다. 이제 Farecast 는 거의 2,000억개의 항공편-가격 기록을 처리해 예측을 할 수 있게 되었다. 


그는 2008년에 더 멀리 내다 보았다. 제품차별성이 거의 없으면서도 가격차가 크게 벌어지고 데이터가 쌓여 있는 재화라면 어떤 것이든 이 예측시스템을 적용할 수 있겠다고 생각했다. 하지만 이 계획을 부화시키기도 전에 눈치 빠른 Microsoft 가 찾아와 Farecast 를 1억1천만달러에 사갔다. 


지금까지는 책의 내용중 일부분을 정리해 본 것이다. 


개인적으로 너무 와 닿는 이야기였다.

이전에 근무하던 곳에서 동일한 생각을 반대쪽 입장에서 생각을 했었다. 

항공사가 좀 더 많은 수익을 창출하기 위해서는 명료하게 두 가지 방법이 있다. 


1. 항공권을 이전 보다 그리고 다른 항공사보다 많이 파는 것이고

2. 동일한 항공권 [ 노선/날짜/요일/시간대/구매시기/클래스/좌석배치/유효기간/변경조건/취소조건 등등 ] 을 

    가능한 비싸게 파는 것이다 .


이것은 다른 목적을 지녔지만, 사실은 반대 목적이다, 방법론은 비슷하다. 


항공사들은 복잡한 가격정책을 구사한다. 수많은 조건들이 다양하게 걸려있고 그것이 가격에 영향을 미친다. 

하지만 결론적으로는 얼마냐 이다. 즉 가격이다. 


우리나라의 경우 대부분 외국 예약시스템을 도입해 사용한다. 

도입하는 제품군에는 가격을 결정해주는 시스템이 들어 있다. 이전에 쌓인 통계정보를 활용해 한 Flight 내에도 수많은 구분을 두어 최대의 Profit 을 만들수 있는 것이 무엇인지 Recommendation 하고 이를 반영할 수 있는 것이다 . 기본은 단순하다. 얼마나 많은 좌석을 얼마나 더 높은 가격에 팔 수 있느냐는 것이다. 

가격을 너무 올리면 좌석이 팔리는 수가 줄어 들 것이고 너무 싸게 팔면 좌석은 많이 팔리나 수지타산이 맞지 않는다. 이것을 조정하는 일이 지극히 중요하고 impact 가 큼에도 실제 얼마나 이에 대한 지각이 있고 내부적으로 전담팀이 있는지는 모르겠으나 내가 알기론 이러한 일을 담당하는 부서나 사람이 있다는 이야기는 들어본 적이 없는 듯하다. 


여기에는 수많은 factor 들이 영향을 미친다. 여기서 Oren Etzioni 와 같이 

1. 문제해결에 대한 의지 와 고민이 있어야 하고

2. 관련되어 있는 데이터가 무엇인지 정의하고

3. 관련 데이터를 수집하여

4. 분석하고

5. 시뮬레이션 하면서 검증하고

6. 반복하여 예측의 신뢰도를 올리는 것이다.


물론 세세하게 하자면 좀 더 단계가 세밀하게 나누어질 것이다 .

하지만 출발점은 언제나 같다. 


비즈니스를 고민하는 사람 .....   

문제를 해결하고자 고민하는 사람 .....사실 출발점은 여기다. 


데이터를 분석하고자 할 때 정형화된데이터는 그 자체로 충분한 의미가 있다. 

이것에서 답을 얻으려고 고민하고 접근하는 것만 으로도 답이 충분히 나오는 경우가 많다. 

하지만 설상가상 이런 경우도 많이 보지 못했다. 


여튼 더욱더 치열한 경쟁속에서 한발 더 뛰거나 날겠다면 경쟁력을 가지겠다면

더 많은 데이터가 필요하다. 외부 데이터가 필요하고 그러다 보면 여러가지 모양의 비정형 데이터를 마주치게 된다. 그리고 수집하다 보면 어느새 용량이 폭발적으로 증가할 수도 있다. 

그렇게 생각한다. 우리가 하고자 하는 것은 데이터로부터 가치를 찾자는 것이다. 

초점이 데이터의 사이즈에 있지 않다. 분석하고자 하는 대상이 빅데이터면 그에 맞는 기술을 적용하여 결국은 우리가 발견하고자 하는 바를 발견해 가는 것이 데이터 전문가 라고 생각한다. 


항공데이터와 관련하여는 해당 업계에 종사하면서 

데이터를 주로 보면서 했던 고민들을 나중에 한번 정리해 보아야 하겠다. 


몇가지 재미있는 분석이 있을 것 같은데 실제 돌려보면서 결과를 보고 싶은데 resource 가 많이 필요할 듯 . . . 하다