ML(4)
-
그리드 서치로 하이퍼파라미터 튜닝
로지스틱 회귀의 C값이나 의사 결정 트리의 깊이 값과 같이 별도로 최적화하는 알고리즘의 파라미터를 하이퍼파라미터라고 합니다. 머신러닝 기초 부분에서는 이 값을 정해진 값으로 땡치는 경향이 있지만, 제대로 된 방법으로 하이퍼파라미터를 최적화 할 수 있습니다. 하이퍼파라미터를 최적화 하는 방법은 여러가지가 있지만 가장 간편한 것은 그리드 서치로서, 리스트로 지정된 여러 하이퍼파라미터 값 중 최적의 조합을 찾는 방법입니다. 우선 오늘의 데이터인 위스콘신 유방암 데이터를 준비하겠습니다. 이 데이터는 첫번째 속성이 1이면 양성, 0이면 음성을 나타냅니다.import pandas as pdimport numpy as np#위스콘신 유방암 데이터 불러오기df = pd.read_csv('https://archive.i..
2024.08.12 -
데이터 차원 축소를 위한 PCA, LDA, K-PCA
차원 축소란 데이터프레임의 여러 변수들 중에 가장 설명력이 높은 것을 찾는 과정을 뜻합니다. 데이터 압축은 머신 러닝에서 중요한 과제인데, 막대한 양의 데이터를 저장하고 분석하는 데 자원을 아껴 줄 것이기 때문입니다.와인의 성분(특성)와 와인의 종류(정답)를 가지고 있는 와인 데이터셋에 비유하여 설명하겠습니다. PCA(Principal Component Analysis / 주성분분석)와인의 종류를 모르는 상태에서 데이터의 분산을 최대화하는 와인의 성분을 찾는 것입니다.데이터의 전체 분산을 최대화하는 새로운 축을 찾습니다.공분산 행렬을 계산한 후, 이 행렬의 방향을 나타내는 고유벡터(eigenvector)와 방향에 대한 크기를 나타내는 고유값(eigenvalue) 구합니다.가장 큰 고유값에 해당하는 고유벡..
2024.08.07 -
모델 복잡도 제한을 위한 L1 / L2 규제
머신러닝에서 가중치(Weights)는 모델의 학습 가능한 파라미터로, 입력 데이터가 출력에 얼마나 영향을 미치는지를 결정합니다. 가중치는 모델이 데이터를 통해 학습하는 과정에서 조정되며, 최적의 예측을 하기 위해 수정됩니다. 선형 회귀 모델을 예시로 들겠습니다. 선형 회귀 모델에서는 다음과 같은 그래프를 볼 수 있습니다. y = w1x1 + w2x2 + ⋯ + wnxn + b 여기서:x1,x2,…,xn는 입력 데이터의 특징(Features)입니다.w1,w2,…,wn는 각 특징에 대응하는 가중치입니다.b는 편향(Bias)입니다.y는 예측된 출력 값입니다.모델에 포함된 학습 가능한 파라미터의 개수, 레이어와 노드의 개수, 모델이 학습할 수 있는 함수의 형태, 결정 트리의 깊이, 가중치에 의한 ..
2024.08.03 -
이진분류 모델들에 대한 간단한 정리
사이킷런 패키지에서 머신러닝을 수행하는 모델을 몇가지 정리해 보았습니다.부정확한 내용이 많습니다.데이터는 R에서도 많이 사용하는 아이리스를 사용했습니다.퍼셉트론직선의 기울기를 달리하면서 제일 덜 잘못 나누는 선을 구합니다. 뉴런의 출력 결과가 모아니면 도 식(계단처럼 생긴 함수)이기 때문에 막 찍찍 긋는 경향이 있습니다. 우리 할머니보다 6살 어린 오래된 알고리즘입니다.로지스틱 회귀퍼셉트론에서 활성화함수만 시그모이드 함수로 바뀐 것이 로지스틱 회귀입니다. 시그모이드 함수는 계단보다는 좀 더 부드럽게 생긴 로그함수의 일종입니다. 뉴런에서 모 아니면 도라고 결정을 하고 선을 찍찍 긋기 전에 이렇게 긋는게 맞을 확률이 얼마나 될지 한번 더 생각을 하기 때문에 좀 더 잘 분류됩니다. 퍼셉트론이 생각이란 걸 ..
2024.08.01