3. 데이터 전처리

티스토리 뷰

머신러닝

0307kjb 2022. 4. 16. 17:27

상대적으로 봐도, [[25, 150]] 데이터는 도미와 가깝다. 그러나 예측결과는 0, 빙어이다.

왜 이렇게 되는 걸까?

[[25, 150]] 데이터 이웃 5개(디폴트)를 보도록 한다.

그린 동그라미가 데이터의 이웃이고 빙어가 3 도미가 2로 해당 [[25, 150]] 데이터가 빙어로 예측되도록 한다.

그뿐만 아니라 각 데이터 이웃의 거리를 측정해보니 92, 130, 138, 140, 140으로 데이터가 비슷한 것을 볼 수 있다.

자세히보면 [[25, 150]] 데이터는 빙어와의 거리가 확연히 멀지만 도미와의 거리는 가까운데도 저렇게 표시되는데..

왜그럴까?

pyplot xlim메서드로 무게의 데이터 측정 비교기준(스케일)을 길이에 맞췄다.

이렇게 보니 무게와의 거리로 대부분 도미/빙어를 판단하게 된 것이다!

이렇듯 데이터를 표현하는 기준이 다르게 되면 알고리즘이 올바르게 예측이 불가능하니, 특성값을 일정한 기준으로 맞춰야 하는데 이 작업을 데이터 전처리라고 한다.

데이터 전처리에서 널리 사용하는 방법 중 하나는 표준점수(원 점수의 상대적 서열 점수)이다.

표준점수 = (계산할 값 - 평균값) / 분산,

어떤 데이터를 전처리 하게되면 모두 전처리해야 알맞게 전처리 된 것이다!

훈/테 결과도 1, 이전에 빙어였던 데이터도 도미로, 그리고 예측 데이터의 이웃이 모두 도미인 것을 확인했다.

그리고 y, x축의 스케일도 표준점수로 바뀐 것을 확인할 수 있다.

공지사항

최근에 올라온 글

최근에 달린 댓글

링크

글 보관함