StudyAndDevelopment

이전의 데이터를 가지고 새로운 데이터를 추가하면서 모델을 매일 훈련한다면 어떨까. 초기에는 괜찮겠지만 점차 데이터가 많아지고 많아지면 용량 오버가 일어날 수 있다. 그렇다고 이전 데이터를 버린다고 생각해보면 중요한 데이터를 잃어버릴 수 있다. 그래서 훈련한 모델을 버리지 않고 새로운 데이터에 대해서만 조금씩 훈련하는 방법을 고안했는데 이를 점진적 학습 또는 온라인 학습이라고 하며 이런 점진적 학습 알고리즘의 대표격이 확률적 경사 하강법 알고리즘이다. 확률적 경사 하강법 확률적 경사 하강법에서 확률적이라는 말은 무작위,랜덤하게의 기술적 표현이다. 확률적 경사 하강법에서 경사라는 말은 기울기를 나타내며 하강법은 내려가는 방법이다. 하지만 내려갈 때 너무 경사를 크게 잡고 가면 오히려 내려가기는 커녕 내려갈 ..

머신러닝 2022. 4. 20. 22:12

React Component

React Component 모든 컴포넌트는 여러 종류의 “생명주기 메서드”를 가지며, 이 메서드를 오버라이딩하여 특정 시점에 코드가 실행되도록 설정할 수 있다. 마운트 아래 메서드들은 컴포넌트의 인스턴스가 생성되어 DOM 상에 삽입될 때에 순서대로 호출된다. [**`constructor()`**](https://ko.reactjs.org/docs/react-component.html#constructor) [`static getDerivedStateFromProps()`](https://ko.reactjs.org/docs/react-component.html#static-getderivedstatefromprops) [**`render()`**](https://ko.reactjs.org/docs/rea..

JS 2022. 4. 20. 09:17

React 생활 코딩 1편.

npm run build : 실제 배포를 하는 명령어. 이유는 create-app 모드의 경우 리액트의 사용하는 도구들이 무거워 파일이 가볍지 않다. index.html의 공백을 모두 삭제하여 용량을 줄이며 src에 있던 데이터나 에러 메시지도 삭제한다. npx serve -s build : 컴파일/배포. props 컴포넌트를 만드는 클래스 선언하는데 유사 자바스크립트이다. 여러 따옴표나 문자열에 신경쓰는 일반 자바스크립트와 다르게 태그로만 이루어져 있다. 이것을 JSX라고 한다. 이는 create-react app이 JSX를 js 코드로 변환해준다. 컴포넌트의 이름에만 집중하여 복잡도를 획기적으로 낮춘다. JSX임. js아니다! props는 html에서의 어트리뷰트라고 생각하면 편하며 우리가 원하는 값..

JS 2022. 4. 19. 22:07

7. 로지스틱 회귀

타깃 데이터에서 3개 이상의 클래스가 포함된 문제를 다중 분류라고 한다. kn.classes_를 통해 정렬된 클래스 타깃 값을 볼 수 있다. 3개의 최근접 이웃만 사용하기 때문에 확률이 1, 0.6666, 0.3333, 0 밖에 나오지 않아 확률이라고 말하기 애매하다. 로지스틱 회귀는이름은 회귀지만 분류 모델이다. 이 알고리즘은 선형 회귀와 동일하게 선형방정식을 학습한다. z = a x weight + b x length + c x Diagonal + d x height + e x width + f 여기에서 a, b, c, d, e는 가중치 혹은 계수이다. 특성은 늘어났지만, 다중회귀를 위한 선형방정식과 같다. z는 어떤 값도 가능하지만, 확률이 되려면 0~1 사이 값이 되어야 하는데 이를 해결할 함수가..

머신러닝 2022. 4. 18. 20:19

6. 특성 공학과 규제 ( 회귀 )

다항 회귀로 모델을 훈련시켰지만 과소적합 문제가 일어나는 경우가 있다. 다중 회귀 : 여러 개의 특성을 사용한 선형 회귀. 선형 회귀는 특성이 많을수록 좋은 효과를 내기에 여러 개의 특성을 사용한 다중 회귀가 유용하다. 1개의 특성을 사용한 선형 회귀 모델은 직선이나 곡선(다항 회귀)이며, 2개 이상의 특성을 사용한 선형 회귀 모델은 3차원 공간, 평면(타깃 = a x 특성1 + b x 특성2 + ... + 절편)이 된다. 중요한 점은 선형 회귀가 복잡하거나 단순하다고 성능이 무조건 낮은 것이 아니다. 특성이 많은 고차원에선 선형 회귀가 매우 복잡한 모델을 표현할 수 있다. 기존의 특성을 가지고 연산을 통해 새로운 특성을 뽑는 작업을 특성 공학이라고 한다. 특성 공학은 데이터가 많기 때문에 복사 붙여넣기..

머신러닝 2022. 4. 17. 15:47

5. 선형 회귀

문제, 기존 훈련보다 훨씬 큰 값을 예측하면 어떻게 될까..? 생선 50의 길이는 약 1500의 무게 값이 나간다고 한다. 여기서 50의 길이 데이터를 예측하면 무게는 어떻게 될까? [1033 ???] 그런데 조금 이상하다!? 길이를 50, 100을 넣든 항상 1033이고 길이가 커져도 변함 없는 무게를 나타내는 것을 볼 수 있다. 좌하단에서 우상단 그래프에 크게 어긋나니 모델을 수정 할 필요가 있다. ==> 선형회귀는 비교적 간단하고 성능이 뛰어나며 특성이 하나인 경우 어떤 직선을 학습하는 알고리즘이다. 전 보다 큰 무게 예측 값을 볼 수 있다. 그리고 선형 회귀에서 가중치와 절편을 구할 수 있으므로 최적의 직선도 구할 수 있다. coef_, intercept_를 머신러닝 알고리즘이 찾은 값이라는 의미..

머신러닝 2022. 4. 17. 10:58

4. k - 최근접 이웃 회귀

지도학습은 분류와 회귀로 나뉘는데 분류는 여러 클래스 중 하나의 결과로 결정하는 것인데, 회귀는 하나의 결과로 결정하는 것이 아닌 어떠한 값을 예측하는 것이다. 간단하게 최근접 이웃 분류 알고리즘에서 예측값의 이웃이 rect 2개 circle 1개라면 사각형으로 예측하는 것이고, 최근접 이웃 회귀 알고리즘에서 예측값의 이웃이 100 80 60 이라면 평균값을 통해 80으로 결과를 나타낸다. 데이터가 길이에 따른 무게가 올라가는 것을 볼 수 있으니 길이에 따른 무게를 회귀할 수 있다고 예상 가능하다. 길이를 입력으로, 무게를 타깃으로 잡고 훈련/테스트 세트를 나눈다. 여기서 중요한 것이 knr.score에서 나온 점수, 0.99... 이것이 의미하는 것이 결정계수(R^2)이다. 회귀에서는 예측 하는 값이나..

머신러닝 2022. 4. 16. 18:45

3. 데이터 전처리

상대적으로 봐도, [[25, 150]] 데이터는 도미와 가깝다. 그러나 예측결과는 0, 빙어이다. 왜 이렇게 되는 걸까? [[25, 150]] 데이터 이웃 5개(디폴트)를 보도록 한다. 그린 동그라미가 데이터의 이웃이고 빙어가 3 도미가 2로 해당 [[25, 150]] 데이터가 빙어로 예측되도록 한다. 그뿐만 아니라 각 데이터 이웃의 거리를 측정해보니 92, 130, 138, 140, 140으로 데이터가 비슷한 것을 볼 수 있다. 자세히보면 [[25, 150]] 데이터는 빙어와의 거리가 확연히 멀지만 도미와의 거리는 가까운데도 저렇게 표시되는데.. 왜그럴까? pyplot xlim메서드로 무게의 데이터 측정 비교기준(스케일)을 길이에 맞췄다. 이렇게 보니 무게와의 거리로 대부분 도미/빙어를 판단하게 된 것..

머신러닝 2022. 4. 16. 17:27

이전 1 ··· 3 4 5 6 7 8 9 ··· 16 다음

이전 다음

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2024/05 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

글 보관함

티스토리툴바