티스토리 뷰

머신러닝

7. 로지스틱 회귀

0307kjb 2022. 4. 18. 20:19

 

타깃 데이터에서 3개 이상의 클래스가 포함된 문제를 다중 분류라고 한다.

kn.classes_를 통해 정렬된 클래스 타깃 값을 볼 수 있다.

 

3개의 최근접 이웃만 사용하기 때문에 확률이 1, 0.6666, 0.3333, 0 밖에 나오지 않아 확률이라고 말하기 애매하다.

 

로지스틱 회귀는이름은 회귀지만 분류 모델이다. 이 알고리즘은 선형 회귀와 동일하게 선형방정식을 학습한다.

z = a x weight + b x length + c x Diagonal + d x height + e x width + f

여기에서 a, b, c, d, e는 가중치 혹은 계수이다. 특성은 늘어났지만, 다중회귀를 위한 선형방정식과 같다.

z는 어떤 값도 가능하지만, 확률이 되려면 0~1 사이 값이 되어야 하는데 이를 해결할 함수가 시그모이드(로지스틱 함수)를 사용하면 가능하다.

 

시그모이드 식과 그래프는 다음과 같다.

 

 

1번째 열이 음성 클래스(0), 2번째 열이 양성 클래스(1)이다. 높은 확률과 타깃의 값이 일치 하는 것을 볼 수 있다. 

 

 

 

앞에서 이진 분류를 위해 로지스틱 회귀 모델을 훈련시켰다. 다중분류도 크게 다르지 않은데 max_iter 매개변수에서 반복 횟수를 지정하며 기본값은 100이다.

또한 규제를 제어하는 매개변수는 C인데 기본값은 1이다. alpha와 달리 작으면 작을수록 규제가 커진다.

 

 

다중 분류는 소프트맥스 함수를 사용하는데, 여러 개의 선형 방적식의 출력값을 0~1로 압축하고 전체 합이 1이 되도록 만든다.

 

 

로지스틱 회귀를 이용해 다중 분류를 하여 확률을 예측하는 모델을 훈련했다!

'머신러닝' 카테고리의 다른 글

9. 결정 트리  (0) 2022.04.23
8. 확률적 경사 하강법  (0) 2022.04.20
6. 특성 공학과 규제 ( 회귀 )  (0) 2022.04.17
5. 선형 회귀  (0) 2022.04.17
4. k - 최근접 이웃 회귀  (0) 2022.04.16
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함