목차
Data Mining 이란?
광산에서 금을 채굴하듯이 수많은 데이터들 사이에서 숨겨져 있는 데이터간의 관계나 패턴을 찾아 이를 모형화 하여 업무에 적용할 수 있는 의미 있는 정보로 변환하는 것을 데이터 마이닝이라고 합니다.
기존에 사용하던 통계는 기존 모집단에서 표본을 샘플링하여 가설에 대한 검증/추론이 목적이였다면, 데이터 마이닝은 숨겨진 패턴이나 새로운 상관관계, 추세를 발견하는것이 다른점 입니다.
데이터 마이닝
수행 절차
데이터 마이닝의 방법론중 하나인 KDD(Knowledge Discovery in Database) 수행단계는 다음과 같습니다.
Selection
데이터 셋을 선택하는 단계로 비즈니스를 이해하고, 프로젝트의 목표를 설정합니다. 이를통해 데이터를 선택하고 데이터 셋을 생성합니다.
Preprocessing
데이터를 전처리하는 단계입니다. 잡음(Noise), 이상치(Outlier), 결측치(Missing Value)를 식별하여 이를 정체하는 과정을 거칩니다.
Transformation
데이터를 변환하는 단계입니다. 변수를 생성하고 선택 및 차원 축소를 하여 데이터의 의미를 찾습니다.
Data Mining
데이터 마이닝을 통해 데이터의 숨은 패턴 및 의미를 찾습니다.
Interpretation / Evaluation
마이닝 결과를 해석하고 평가합니다. 처음 분석의 목적과 일치하는지 도출하여 최종적으로 결과를 평가합니다.
정형 데이터 마이닝
데이터 마이닝에는 정형 데이터 마이닝과 비정형 데이터 마이닝 두 가지가 있습니다.
정형 데이터 마이닝은 정형화된 데이터로부터 데이터를 분석하고 의미를 도출하는 방법입니다. 대표적인 분석으로 [[Apriori]], [[K-means]]가 있습니다. 정형 데이터는 RDBMS등을 활용하여 수집하여 기업 내부 시스템의 위험을 예측하거나 대응합니다.
비정형 데이터 마이닝
비정형 데이터 마이닝은 구조와 형태가 정의되지 않은 음성, 영상, 문서등의 데이터로부터 의미 있는 결과를 도출하는 방법입니다. 주로 웹 크롤링이나 Splunk, Flum등 오픈 소스를 사용하여 자료를 수집합니다. 분석 방법으로 오피니언 마이닝, 텍스트 마이닝, 프로세스 마이닝이 있습니다. 사례로 오피니언 마이닝등을 통해 여론의 방향을 추척할 수 있습니다.
오피니언 마이닝
오피니언 마이닝은 텍스트에 나타난 감성, 뉘앙스, 글쓴이의 감정을 판별하여 의미있는 정보로 변환하고 이를 의사결정에 활용하는 마이닝 기법 입니다. 블로그나 포탈 게시판등 대규모 웹 문서에서 자연어 처리(NLP)를 사용하여 의견을 분류하고 숨겨진 고객의 감성을 찾는 방법입니다.
먼저 특징을 추출하여 의미있는 요소를 찾고 의견을 분류 합니다. 결과를 도출하여 사용자에게 요약 및 전달합니다.
텍스트 마이닝
텍스트 형태로 이루어진 비정형 데이터들을 자연어 처리 방식을 이용하여 정보를 추출하는 기법입니다. 문장의 형태소 분석, 단어의 특성을 추출합니다. 텍스트 마이닝의 기법으로는 Classification(분류), Web Mining, Topic Tracking 등이 있습니다.