본문 바로가기

Data Analytics

Data Mining

 데이타 마이닝은  대규모 데이타 베이스에 숨겨진 지식, 예기치 않았던 패턴, 새로운 규칙들을 발견한다. 지식탐사 (Knowledge Discovery in Database) 라고 부르는 복잡한 과정에서 매우 중요한 단계로 간주되고 있으며, 운영데이타 로부터 추출된 데이타를 중앙으로 집중하여 저장하는 데이타 웨어하우스와 함께 기업의 정보를 완전히 새로운 방식으로 의사결정 지원 및 분석으로 인해 도출된 데이타로 수많은 기회를 제공한다.

Syllogic 사는 (저자 Pieter Adriaans  근무) 는 KLM 항공사에 CAPTAINS 를 구축하였으며 이는 데이타마이닝 응용을 상업적으로 응용하여 수행한 것이다. CAPTAINS 는 기획자가 조종사의 적정 인원을 유지하도록 하는 전략적인 실제 운용 모델로 사용되는 복잡한 응용의 하나이다.

KDD : 데이타 선정, 정제, 보강, 코딩, 데이타마이닝, 여러가지 패턴 인식 기법과 보고서 작성
         Data Selection, Cleansing, Enrichment, Coding, Mining, Reporting
          - 데이타 정제 ( 중복 레코드, 문자열 오류, 누락 정보 cleansing  / Garbage in Garbage out. )
                              도메인 일관성, 중복 제거, 모호성 제거
         데이타로부터 암시적이며 이전에 알려지지 않은 잠재적으로 유용한 지식을 추출하는 것 
           
데이타에 대한 감각이 있어야 하며 데이타를 접하는 과정에서 시행착오를 거치며 점차 직감적으로 수많은 데이타 중 어떤 것이 중요한 구별요소인지에 대해 파악하게 된다. 

활용 :  은행의 고객정보관리 , 조종사들의 조종석 선호 예측, 고객별 탑승 이용 목적에 따른 마케팅 기법
          연령별 탑승시간대 탑승 클래스 및 예약 선주기(예약일자와 탑승일자간의 관계)
          취소가 번번한 고객, 일년을 기준으로 탑승하는 고객의 탑승목적에 따른 시즌별 요일별 시간대별 움직임
          고객들마다 예약시 무엇을 중요하게 보는가 즉 가치판단의 기준 ( 무엇을 더 중요시 여기는가, 선호도 ) 
          선호 좌석 (Aisle or Window), 잠재고객에게 있어 없는 계획을 만들어서라도 움직이게 만드는 혜택
          고객별로 유효한 마케팅 매체를 동원, 마케팅 방법별로 대상고객의 범위를 좁힐 수 있음.

 저축이 13,000 달러보다 많고 나이가 22세에서 31세 사이로 시간 T 에 유머잡지를 구독한 고객은 5년 후에는 자동차 잡지를 구독할 가능성이 매우 높다. 

데이타마트 - 규모가 작고 지역(특정 Subject)에 국한된 데이타웨어하우스

데이타 웨어하우스의 고유 기능은 적절한 의사결정을 하는데 필요한 정보를 제공하는데 있다. 
데이타 웨어하우스를 설계하기 위해서는 데이타 설계에 대한 특수한 지식을 요구하는데 그 이유는 데이타 모델이 고속 접근을 요구하는 사용자가  필요로하는 데이타로 구성되기 때문이며 웨어하우스를 위한 데이타 설계는 운영 데이타베이스와는 완전히 다르기 때문이다. 데이타 웨어하우스에 대한 통합된 데이타 모델이 완성된 후에는 별도의 데이타 관리환경을 설계하여야 한ㄷ. 운영 데이타를 지원하는 데이타베이스의 수가 여러개인 경우는 이 정보를 데이타 웨어하우스로 이동 복제하여야 한다. 그리고 사용자는 이러한 환경을 통제할 수 있어야 한다.

MetaData Management ( 메타데이타의 관리 )
- 데이타가 저장된 위치
- 데이타의 종류
- 데이타 타입과 형식
- 다른 데이타베이스에 있는 데이타와의 관련성
- 데이타의 출처 및 데이타의 소유자

- 코딩절차 -
1. 주소를 구역으로 
2. 생일을 나이로
3. 수입은 나이와 비슷한 수치로 ( x/1000000 ) - 분석 용이
4. 자동차에 대한 유무는 1 과 0 으로 변환 ( 패턴인식 알고리즘 적용 용이 위해) Flattening
5. 구독일은 2008 년부터 시작하는 월 번호로 (시작월로부터 몇개월째)

각 항목들이 고객의 의사결정 및 우리의 예측결과를 형성하는 데 있어 상대적 중요성을 계산할 수 있어야 함.

Association Rule 연관규칙
ex. 빨간 스포츠카와 작은 개를 가진 90% 의 주부들이 Channel No.5 를 사용한다. 


KDD 지식의 유형
 1. Shallow knowledge 표층 지식
 2. Multi-dimensional knowledge 다차원 지식
     OLAP : OnLine Ananytical Processing 도구를 사용하여 분석할 수 있는 정보
 3. Hidden Knowledge 은닉 지식
     패턴 인식이나 기계-학습 알고리즘을 사용하여 상대적으로 쉽게 발견할 수 있는 정보
     SQL 로 같은 결과를 얻으려면 수개월을 소모해야 한다.
 4. Deep Knowledge 심층 지식
     이것은 어느 곳을 탐색해야 하는 가에 대한 단서를 가지고 있는 경우에만 그 위치를 찾을 수 있는 정보이다.
     탐색알고리즘은 이러한 지식을 얻지 못하며 이는 암호화된 정보가 저장된 경우와 비슷하다.
     암호키를 가지지 못하면 암호화된 메시지를 해독하는 것은 거의 불가능하며 이는 학습에 한계가 존재한다.

데이타 마이닝 작업의 출발점은 무엇을 알고자 하며 이 지식을 가지고 무엇을 하려고 하는 가와 같은 구체적인 행동에 관련된 세세한 정보 요구사항을 공식화 하는 것이다.