머신러닝 in Python
텍스트 분석이란?
초롱스쿨
2019. 8. 13. 22:04
텍스트 분석
: 머신러닝, 언어 이해, 통계 등 등을 활용해 모델을 수립하고, 정보를 추출해 비즈니스 인텔리전스나 예측 분석 등의 분석 작업을 주로 수행. 즉, 비정형 데이터인 텍스트를 분석하는 것
- 텍스트 분류, 감성 분석, 텍스트 요약, 텍스트 군집화와 유사도 측정이 있다.
텍스트 분석 수행 프로세스 과정
-
모든 문서에 대해, 각 문서를 문장으로 쪼갠다 - 1차원
-
각 문서의 모든 문장을 단어 단위로 쪼갠다. - 2차원
-
각 단어들에 대한 전처리를 실시한다
- 불용어 제거 (a, the, that, this)
- 단어의 원형(3인칭, 복수형, 시제 제거) 또는 어근(stemming) 으로 변환
- 피터 벡터화/추출
- 가공퇸 텍스트에서 피처 추출하고 여기서 벡터값 할당
- ML 모델 수립 및 학습/에측/평가
- 피처 벡터화된 데이터 세트에 ML 모델을 적용해 학습/예측 및 평가를 수행