티스토리 뷰

머신러닝

3. 데이터 전처리

0307kjb 2022. 4. 16. 17:27

 

상대적으로 봐도, [[25, 150]] 데이터는 도미와 가깝다. 그러나 예측결과는 0, 빙어이다.

왜 이렇게 되는 걸까?

 

[[25, 150]] 데이터 이웃 5개(디폴트)를 보도록 한다.

그린 동그라미가 데이터의 이웃이고 빙어가 3 도미가 2로 해당 [[25, 150]] 데이터가 빙어로 예측되도록 한다.

그뿐만 아니라 각 데이터 이웃의 거리를 측정해보니 92, 130, 138, 140, 140으로 데이터가 비슷한 것을 볼 수 있다.

자세히보면 [[25, 150]] 데이터는 빙어와의 거리가 확연히 멀지만 도미와의 거리는 가까운데도 저렇게 표시되는데..

 

왜그럴까?

pyplot xlim메서드로 무게의 데이터 측정 비교기준(스케일)을 길이에 맞췄다.

이렇게 보니 무게와의 거리로 대부분 도미/빙어를 판단하게 된 것이다!

이렇듯 데이터를 표현하는 기준이 다르게 되면 알고리즘이 올바르게 예측이 불가능하니, 특성값을 일정한 기준으로 맞춰야 하는데 이 작업을 데이터 전처리라고 한다.

 

데이터 전처리에서 널리 사용하는 방법 중 하나는 표준점수(원 점수의 상대적 서열 점수)이다.

표준점수 = (계산할 값 - 평균값) / 분산,

 

어떤 데이터를 전처리 하게되면 모두 전처리해야 알맞게 전처리 된 것이다!

훈/테 결과도 1, 이전에 빙어였던 데이터도 도미로, 그리고 예측 데이터의 이웃이 모두 도미인 것을 확인했다.

그리고 y, x축의 스케일도 표준점수로 바뀐 것을 확인할 수 있다.

'머신러닝' 카테고리의 다른 글

6. 특성 공학과 규제 ( 회귀 )  (0) 2022.04.17
5. 선형 회귀  (0) 2022.04.17
4. k - 최근접 이웃 회귀  (0) 2022.04.16
2. 훈련 세트/ 테스트 세트  (0) 2022.04.14
1. 최근접 이웃 분류 알고리즘  (0) 2022.04.13
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함