바뀜

3,375 바이트 추가됨 , 2023년 2월 5일 (일) 10:37

→‎기초 사용법

1번째 줄: 1번째 줄:

== 개요 ==

사이킷런. 파이썬 머신러닝 라이브러리의 기준 격인 라이브러리.

+

기계학습을 구현하는데 필요한 대부분의 기능을 담고 있다.

== 사용 ==

16번째 줄: 18번째 줄:

|데이터를 다룰 때 사용할 도구.

|pip install pandas

−

|-

−

|

−

|

−

|

|}

+

=== 기초 사용법 ===

+

일반적으로 판단근거를 data, 판단결과를 label이라 구분하여 사용한다. 혹은 함수의 형태를 본따 x, y로.

{| class="wikitable"

!의도

28번째 줄: 29번째 줄:

|훈련데이터와 테스트데이터 분리

|귀찮은 일을 모듈이 해준다.

+

{| class="wikitable"

+

|+자주 사용하는 옵션

+

!의도

+

!설명

+

|-

+

|stratify=df['해당열']

+

|범주별 비율을 비슷하게 맞춰 데이터를 분리한다.

+

(원 데이터에서 하나의 범주만 너무 많거나 적은 경우 사용하여 비율을 지킨다.)

+

|}

|<syntaxhighlight lang="python">

from sklearn.model_selection import train_test_split

−

~~train_data~~, ~~test_data~~, ~~train_label~~, ~~test_label~~ = train_test_split(data, label)

+

train_x, test_x, train_y, test_y = train_test_split(data, label, test_size=0.2, train_size=0.8, ,random_state=1)

−

~~</syntaxhighlight>~~

+

</syntaxhighlight>random_state는 random함수의 seed값을 고정하여 매번 같은 데이터를 얻게 하기 위함.(test용, 교육용에서 채점 등에 사용. 모델이 랜덤한 효과로 좋아지지 않도록.)

−

|-

−

~~|정답률 예측~~

−

|

−

~~|<syntaxhighlight lang="python">~~

−

~~right~~ =0~~; total~~ =0

−

~~for idx~~, ~~answer in enumerate(label): # 레이블의 인덱스를 얻는다.~~

−

~~p = pre[idx] # 인덱스값에 해당하는 예측값.~~

−

~~if p = answer: right += 1 # 정답과 일치한다면 right에 하나 추가.~~

−

~~total +~~= 1

−

~~print("정답률 : ", right/total~~)

−

</syntaxhighlight>~~간단하게 모듈을 사용할 수도 있다~~.~~<syntaxhighlight lang="python">~~

−

~~from sklearn import metrics # 추가로 가져온다~~.

−

~~score~~ = ~~metrics~~.~~accuracy_score~~(~~label~~, ~~pre) # 레이블과 예측값을~~ 넣는다.

+

일반적으로 이 대신 test_size=0.2 를 사용한다.(20%가 test 데이터로)(전체 값이 1이 아닌지, train_size와 같이 넣는다.)

−

~~print('정답률 : ', score~~)

−

~~</syntaxhighlight>~~

|-

|학습한 매개변수 저장하기

66번째 줄: 62번째 줄:

|}

+

= 결측치 처리 =

+

{| class="wikitable"

+

!방법

+

!설명

+

|-

+

|DataFrame을 사용하는 경우

+

|[[결측치 다루기:pandas]] 문서를 참고하자.

+

|}

+

= 모델 검증 =

+

{| class="wikitable"

+

!방법

+

!설명

+

|-

+

|평균 에러정도 검증

+

|<syntaxhighlight lang="python">

+

from sklearn.metrics import mean_absolute_error

+

data = df..... # 예상에 쓰일 df.

+

y = data.판단할열 # 실제 결과

+

# 근거데이터 만들기.

+

features = ['열1', '열2', ...] # 판단할 자료가 될 열을 지정한다.

+

x = data[features] # 판단근거를 준비한다.

+

predict = machine.predict(data) # 결과 예상하기.

+

mean_absolute_error(y, predict) # 예상결과와 실제값을 비교하여 평균 에러를 반환한다.

+

</syntaxhighlight>둘 사이의 차이를 구하는 함수로, 순서는 달라져도 상관 없다.

+

|-

+

|정답률 검증

+

|<syntaxhighlight lang="python">

+

right =0; total =0

+

for idx, answer in enumerate(label): # 레이블의 인덱스를 얻는다.

+

p = pre[idx] # 인덱스값에 해당하는 예측값.

+

if p = answer: right += 1 # 정답과 일치한다면 right에 하나 추가.

+

total += 1

+

print("정답률 : ", right/total)

+

</syntaxhighlight>간단하게 모듈을 사용할 수도 있다.<syntaxhighlight lang="python">

+

from sklearn.metrics import accuracy_score # 추가로 가져온다.

+

score = accuracy_score(label, pre) # 레이블과 예측값을 넣는다.

+

print('정답률 : ', score)

+

</syntaxhighlight>

+

|}

== SVM 알고리즘 ==

−

사용할 수 있는 SVM 알고리즘은 다음과 같다.

+

사용할 수 있는 SVM 알고리즘은 다음과 같다. 객체를 만들 때 알고리즘 이름만 바꾸어주면 된다.

{| class="wikitable"

!알고리즘

113번째 줄: 151번째 줄:

</syntaxhighlight>

|-

−

|학습

+

|학습객체 지정 및 학습

|일반적으로 machine이라는 이름보다,

138번째 줄: 176번째 줄:

</syntaxhighlight>

|}

−

[[분류:머신러닝 ~~프레임워크~~]]

+

== 크로스 밸리데이션 ==

+

{| class="wikitable"

+

!절차

+

!설명

+

!방법

+

|-

+

|크로스밸리데이션 하기

+

|검증한다.

+

결과는 나누는 데이터 갯수만큼 배열(numpy.ndarray)로 나온다.

+

|<syntaxhighlight lang="python">

+

from sklearn import svm, model_selection # svm에 대한 벨리데리션을 실행해본다.

+

clf = svm.SVC()

+

scores = model_selection.cross_val_score(clf, data, label, cv=5) # 5개의 데이터로 나누어 진행.

+

</syntaxhighlight>

+

|}

+

== 매개변수 찾기. 그리드 서치 ==

+

각각의 학습방법에 대해 매개변수를 조절해야 할 필요가 있다. 관련된 변수의 최적값을 자동으로 찾아주는 기능. 정답률을 개선시켜준다.

+

단지, 시간이 더 오래걸린다.

+

{| class="wikitable"

+

!절차

+

!설명

+

!방법

+

|-

+

|모델 부르기 및 그리드서치 매개변수 설정

+

|매개변수의 후보들을 등록한다.

+

|<syntaxhighlight lang="python">

+

from sklearn import svm # svm에 대해 실행.

+

from sklearn.grid_search import GridSearchCV

+

params = [

+

{"C":[1,10,100,1000], "kernel":['linear']},

+

{"C":[1,10,100,1000], "kernel":['rbf'], "gamma":[0.001, 0.0001]}

+

]

+

</syntaxhighlight>

+

|-

+

|그리드서치 수행

+

|n_jobs는 병렬계산할 프로세스 지정. -1은 자동으로 진행한다는 의미.

+

|<syntaxhighlight lang="python">

+

clf = GridSearchCV(svm.SVC(), params, n_jobs=-1) # 그리드서치 관련내용이 담긴 객체를 생성.

+

clf.fit(train_data, train_label) # 이 객체를 학습시킨다.

+

</syntaxhighlight>

+

|}

+

[[분류:머신러닝 라이브러리]]

+

[[분류:Scikit-learn]]

Sam

사무관, 인터페이스 관리자, 관리자, 교사

편집

1,415

번

바뀜

Scikit-learn (편집)

2023년 2월 5일 (일) 10:37 판

둘러보기 메뉴

검색