머신러닝 in Python

텍스트 분석이란?

초롱스쿨 2019. 8. 13. 22:04

 

텍스트 분석

: 머신러닝, 언어 이해, 통계 등 등을 활용해 모델을 수립하고, 정보를 추출해 비즈니스 인텔리전스나 예측 분석 등의 분석 작업을 주로 수행. 즉, 비정형 데이터인 텍스트를 분석하는 것

- 텍스트 분류, 감성 분석, 텍스트 요약, 텍스트 군집화와 유사도 측정이 있다.

 

 

텍스트 분석 수행 프로세스 과정

 

  1. 모든 문서에 대해, 각 문서를 문장으로 쪼갠다 - 1차원

  2. 각 문서의 모든 문장을 단어 단위로 쪼갠다. - 2차원

  3. 각 단어들에 대한 전처리를 실시한다

    • 불용어 제거 (a, the, that, this)
    • 단어의 원형(3인칭, 복수형, 시제 제거) 또는 어근(stemming) 으로 변환
  4. 피터 벡터화/추출 
    • 가공퇸 텍스트에서 피처 추출하고 여기서 벡터값 할당
  5. ML 모델 수립 및 학습/에측/평가 
    • 피처 벡터화된 데이터 세트에 ML 모델을 적용해 학습/예측 및 평가를 수행