텍스트 분석

: 머신러닝, 언어 이해, 통계 등 등을 활용해 모델을 수립하고, 정보를 추출해 비즈니스 인텔리전스나 예측 분석 등의 분석 작업을 주로 수행. 즉, 비정형 데이터인 텍스트를 분석하는 것

- 텍스트 분류, 감성 분석, 텍스트 요약, 텍스트 군집화와 유사도 측정이 있다.

 

 

텍스트 분석 수행 프로세스 과정

 

  1. 모든 문서에 대해, 각 문서를 문장으로 쪼갠다 - 1차원

  2. 각 문서의 모든 문장을 단어 단위로 쪼갠다. - 2차원

  3. 각 단어들에 대한 전처리를 실시한다

    • 불용어 제거 (a, the, that, this)
    • 단어의 원형(3인칭, 복수형, 시제 제거) 또는 어근(stemming) 으로 변환
  4. 피터 벡터화/추출 
    • 가공퇸 텍스트에서 피처 추출하고 여기서 벡터값 할당
  5. ML 모델 수립 및 학습/에측/평가 
    • 피처 벡터화된 데이터 세트에 ML 모델을 적용해 학습/예측 및 평가를 수행

 

 

 

'머신러닝 in Python' 카테고리의 다른 글

텍스트 분석_텍스트 전처리 2  (0) 2019.08.14
텍스트 분석_텍스트 전처리1  (0) 2019.08.13
[R] 네이버 크롤링  (0) 2019.08.12
[R]다음 영화 평점 크롤링  (0) 2019.08.12
판다스(Pandas) 시각화  (0) 2019.08.08

+ Recent posts