[Python]k-nearest neighbor

분류분석

목적 : 반응변수(또는 종속변수)가 알려진 다변량 자료를 이용하여 모형을 구축하고, 이를 통해 새로운 자료에 대한 예측 및 분류를 수행 하기 위함
반응 변수 형태에 따른 분류 분석 주 목적
- 반응 변수가 범주형인 경우 : 새로운 자료에 대한 분류
- 반응 변수가 연속형인 경우 : 값을 예측
많이 사용 되는 분류분석 모형
- 로지스틱회귀(logistic regression)
- SVM(Support Vector Maachine)
- 신경망 모형(artificial neural network)
- 의사결정나무(decision tree)
- 앙상블(ensemble)
- 규칙기반(rule-based) 분류
- 사례기반(case-based) 분류
- 인접이웃(nearest-neighbor) 분류
- 베이즈(bayesian) 분류모형
- 유전자 알고리즘(generic algorithm) 등

k-최근접 이웃

- 새로운 데이터 포인터를 예측할 때 알고리즘이 훈련 데이터에서 가장 가까운 데이터 포인트(최근접 이웃)을 찾는 방식

사이킷런에서 제공하는 KNeighborsClassifier 를 이용하여 분석해봅시다.

import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.neighbors import KNeighborsClassifier

#  모든 feature 사용
X = iris_dataset.data
y = iris_dataset.target

# train_test_split를 이용하여 train과 test 분류 작업
# test : 30%, train: 70%
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.3, random_state = 42)

# 모델 객체 생성 - 이웃 수 = 3
clf = KNeighborsClassifier(n_neighbors=3) 
clf.fit(X_train, y_train)

# 예측
predict_label = clf.predict(X_test)

# 정확도
print('train set accuracy : {:.2f}'.format(clf.score(X_train, y_train)))
print('test set accuracy : {:.2f}'.format(clf.score(X_test, y_test)))

저작자표시 비영리 (새창열림)

'Code > 머신러닝 in Python' 카테고리의 다른 글

[Python] DecisionTree (0)	2019.08.27
[Python] k-nearest neighbor 예제 (0)	2019.08.26
텍스트 분석_BOW (0)	2019.08.14
텍스트 분석_텍스트 전처리 2 (0)	2019.08.14
텍스트 분석_텍스트 전처리1 (0)	2019.08.13

초롱스쿨

[Python]k-nearest neighbor

분류분석

k-최근접 이웃

'Code > 머신러닝 in Python' 카테고리의 다른 글

검색

태그

알림

링크

카운터

티스토리툴바

[Python]k-nearest neighbor

분류분석

k-최근접 이웃

'Code > 머신러닝 in Python' 카테고리의 다른 글

카피라이트

푸터바

검색

태그

알림

링크

카운터

티스토리툴바