텍스트 분석
: 머신러닝, 언어 이해, 통계 등 등을 활용해 모델을 수립하고, 정보를 추출해 비즈니스 인텔리전스나 예측 분석 등의 분석 작업을 주로 수행. 즉, 비정형 데이터인 텍스트를 분석하는 것
- 텍스트 분류, 감성 분석, 텍스트 요약, 텍스트 군집화와 유사도 측정이 있다.
텍스트 분석 수행 프로세스 과정
-
모든 문서에 대해, 각 문서를 문장으로 쪼갠다 - 1차원
-
각 문서의 모든 문장을 단어 단위로 쪼갠다. - 2차원
-
각 단어들에 대한 전처리를 실시한다
- 불용어 제거 (a, the, that, this)
- 단어의 원형(3인칭, 복수형, 시제 제거) 또는 어근(stemming) 으로 변환
- 피터 벡터화/추출
- 가공퇸 텍스트에서 피처 추출하고 여기서 벡터값 할당
- ML 모델 수립 및 학습/에측/평가
- 피처 벡터화된 데이터 세트에 ML 모델을 적용해 학습/예측 및 평가를 수행
'머신러닝 in Python' 카테고리의 다른 글
텍스트 분석_텍스트 전처리 2 (0) | 2019.08.14 |
---|---|
텍스트 분석_텍스트 전처리1 (0) | 2019.08.13 |
[R] 네이버 크롤링 (0) | 2019.08.12 |
[R]다음 영화 평점 크롤링 (0) | 2019.08.12 |
판다스(Pandas) 시각화 (0) | 2019.08.08 |