[R 머신러닝] "K-최근접 이웃" #1. 개념

[R 머신러닝] "K-최근접 이웃" #1. 개념

목차는 아래와 같습니다.

1. 개념

2. 알고리즘

3. R 함수 설명

4. R 코딩 예제

K최근접 이웃은 분류나 회귀에서 사용되는 머신러닝 방법입니다. 분류가 더 이해하기 쉽기 때문에 먼저 분류에 사용되는 경우부터 설명드리겠습니다.

분류는 데이터가 어떤 종류인지를 결정하는 것입니다. 예를들면 A라는 과일이 오렌지인지 사과인지를 분류하는 것입니다. k최근접이웃은 이름에서 알 수 있듯, 가장 가까이 있는 이웃의 데이터 종류가 분류 기준이 됩니다. A라는 과일이 오렌지와 가까이 있으면 오렌지가되고 사과와 가까이 있으면 사과가 됩니다.

가까이 있다는 것이 무엇일까요? 가깝고 멀고에서는 어떤 변수가 기준이 됩니다. 무게 일수도 있고 부피일 수도 있고 색일 수도 있습니다. 기준은 우리가 정해야 합니다.

k는 무엇일까요? k는 판단 기준이 되는 '가까이 있는 것'

의 개수입니다. k가 1이라면, 가장 가까운 하나만 가지고 결정합니다. A의 가장 가까운 곳에 오렌지가 있으면 오렌지입니다. k가 3이라고 해봅시다. A의 가장 가까운 곳에 있는 3개의 과일은 오렌지 하나, 사과 둘입니다. 이때는 A를 사과로 분류합니다.

이번에는 K최근접 이웃이 회귀로 사용되는 경우입니다. 분류를 통해 개념이 잡혔으니 간단히만 설명해도 이해가 될 것입니다. A의 값을 결정할 때, 가까운 곳에 있는 k개 값들의 평균값을 부여합니다.

다음시간에는 이 개념을 수학적으로 이해해봅시다.

저작자표시 (새창열림)

R 머신러닝&크롤링&텍스트마이닝

[R 머신러닝] "K-최근접 이웃" #1. 개념

댓글

티스토리툴바