티스토리 뷰
상대적으로 봐도, [[25, 150]] 데이터는 도미와 가깝다. 그러나 예측결과는 0, 빙어이다.
왜 이렇게 되는 걸까?
[[25, 150]] 데이터 이웃 5개(디폴트)를 보도록 한다.
그린 동그라미가 데이터의 이웃이고 빙어가 3 도미가 2로 해당 [[25, 150]] 데이터가 빙어로 예측되도록 한다.
그뿐만 아니라 각 데이터 이웃의 거리를 측정해보니 92, 130, 138, 140, 140으로 데이터가 비슷한 것을 볼 수 있다.
자세히보면 [[25, 150]] 데이터는 빙어와의 거리가 확연히 멀지만 도미와의 거리는 가까운데도 저렇게 표시되는데..
왜그럴까?
pyplot xlim메서드로 무게의 데이터 측정 비교기준(스케일)을 길이에 맞췄다.
이렇게 보니 무게와의 거리로 대부분 도미/빙어를 판단하게 된 것이다!
이렇듯 데이터를 표현하는 기준이 다르게 되면 알고리즘이 올바르게 예측이 불가능하니, 특성값을 일정한 기준으로 맞춰야 하는데 이 작업을 데이터 전처리라고 한다.
데이터 전처리에서 널리 사용하는 방법 중 하나는 표준점수(원 점수의 상대적 서열 점수)이다.
표준점수 = (계산할 값 - 평균값) / 분산,
어떤 데이터를 전처리 하게되면 모두 전처리해야 알맞게 전처리 된 것이다!
훈/테 결과도 1, 이전에 빙어였던 데이터도 도미로, 그리고 예측 데이터의 이웃이 모두 도미인 것을 확인했다.
그리고 y, x축의 스케일도 표준점수로 바뀐 것을 확인할 수 있다.
'머신러닝' 카테고리의 다른 글
6. 특성 공학과 규제 ( 회귀 ) (0) | 2022.04.17 |
---|---|
5. 선형 회귀 (0) | 2022.04.17 |
4. k - 최근접 이웃 회귀 (0) | 2022.04.16 |
2. 훈련 세트/ 테스트 세트 (0) | 2022.04.14 |
1. 최근접 이웃 분류 알고리즘 (0) | 2022.04.13 |
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- https://velog.io/@juno7803/React%EA%B0%80-%ED%83%9C%EC%96%B4%EB%82%9C-%EB%B0%B0%EA%B2%BD
- ㄴ
- Co
- https://react.vlpt.us/
- https://wikidocs.net/68
- https://jwprogramming.tistory.com/52
- https://subicura.com/2017/01/19/docker-guide-for-beginners-1.html
- https://react.vlpt.us/basic/11-render-array.html
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
글 보관함