바뀜

2,344 바이트 추가됨 ,  2023년 2월 5일 (일) 10:37
1번째 줄: 1번째 줄:  
== 개요 ==
 
== 개요 ==
 
사이킷런. 파이썬 머신러닝 라이브러리의 기준 격인 라이브러리.
 
사이킷런. 파이썬 머신러닝 라이브러리의 기준 격인 라이브러리.
 +
 +
기계학습을 구현하는데 필요한 대부분의 기능을 담고 있다.
    
== 사용 ==
 
== 사용 ==
16번째 줄: 18번째 줄:  
|데이터를 다룰 때 사용할 도구.
 
|데이터를 다룰 때 사용할 도구.
 
|pip install pandas
 
|pip install pandas
|-
  −
|
  −
|
  −
|
   
|}
 
|}
    
=== 기초 사용법 ===
 
=== 기초 사용법 ===
 +
일반적으로 판단근거를 data, 판단결과를 label이라 구분하여 사용한다. 혹은 함수의 형태를 본따 x, y로.
 
{| class="wikitable"
 
{| class="wikitable"
 
!의도
 
!의도
30번째 줄: 29번째 줄:  
|훈련데이터와 테스트데이터 분리
 
|훈련데이터와 테스트데이터 분리
 
|귀찮은 일을 모듈이 해준다.
 
|귀찮은 일을 모듈이 해준다.
 +
{| class="wikitable"
 +
|+자주 사용하는 옵션
 +
!의도
 +
!설명
 +
|-
 +
|stratify=df['해당열']
 +
|범주별 비율을 비슷하게 맞춰 데이터를 분리한다.
 +
(원 데이터에서 하나의 범주만 너무 많거나 적은 경우 사용하여 비율을 지킨다.)
 +
|}
 
|<syntaxhighlight lang="python">
 
|<syntaxhighlight lang="python">
 
from sklearn.model_selection import train_test_split
 
from sklearn.model_selection import train_test_split
   −
train_data, test_data, train_label, test_label = train_test_split(data, label)
+
train_x, test_x, train_y, test_y = train_test_split(data, label, test_size=0.2, train_size=0.8, ,random_state=1)
</syntaxhighlight>
+
</syntaxhighlight>random_state는 random함수의 seed값을 고정하여 매번 같은 데이터를 얻게 하기 위함.(test용, 교육용에서 채점 등에 사용. 모델이 랜덤한 효과로 좋아지지 않도록.)
|-
  −
|정답률 예측
  −
|
  −
|<syntaxhighlight lang="python">
  −
right =0; total =0
  −
for idx, answer in enumerate(label):  # 레이블의 인덱스를 얻는다.
  −
    p = pre[idx]  # 인덱스값에 해당하는 예측값.
  −
    if p = answer: right += 1  # 정답과 일치한다면 right에 하나 추가.
  −
    total += 1
  −
print("정답률 : ", right/total)
  −
</syntaxhighlight>간단하게 모듈을 사용할 수도 있다.<syntaxhighlight lang="python">
  −
from sklearn import metrics  # 추가로 가져온다.
     −
score = metrics.accuracy_score(label, pre)  # 레이블과 예측값을 넣는다.
+
일반적으로 이 대신 test_size=0.2 를 사용한다.(20%가 test 데이터로)(전체 값이 1이 아닌지, train_size와 같이 넣는다.)
print('정답률 : ', score)
  −
</syntaxhighlight>
   
|-
 
|-
 
|학습한 매개변수 저장하기
 
|학습한 매개변수 저장하기
68번째 줄: 62번째 줄:  
|}
 
|}
    +
= 결측치 처리 =
 +
{| class="wikitable"
 +
!방법
 +
!설명
 +
|-
 +
|DataFrame을 사용하는 경우
 +
|[[결측치 다루기:pandas]] 문서를 참고하자.
 +
|}
 +
= 모델 검증 =
 +
{| class="wikitable"
 +
!방법
 +
!설명
 +
|-
 +
|평균 에러정도 검증
 +
|<syntaxhighlight lang="python">
 +
from sklearn.metrics import mean_absolute_error
 +
 +
data = df.....  # 예상에 쓰일 df.
 +
y = data.판단할열  # 실제 결과
 +
# 근거데이터 만들기.
 +
features = ['열1', '열2', ...]  # 판단할 자료가 될 열을 지정한다.
 +
x = data[features]  # 판단근거를 준비한다.
 +
 +
predict = machine.predict(data)  # 결과 예상하기.
 +
mean_absolute_error(y, predict)  # 예상결과와 실제값을 비교하여 평균 에러를 반환한다.
 +
</syntaxhighlight>둘 사이의 차이를 구하는 함수로, 순서는 달라져도 상관 없다.
 +
|-
 +
|정답률 검증
 +
|<syntaxhighlight lang="python">
 +
right =0; total =0
 +
for idx, answer in enumerate(label):  # 레이블의 인덱스를 얻는다.
 +
    p = pre[idx]  # 인덱스값에 해당하는 예측값.
 +
    if p = answer: right += 1  # 정답과 일치한다면 right에 하나 추가.
 +
    total += 1
 +
print("정답률 : ", right/total)
 +
</syntaxhighlight>간단하게 모듈을 사용할 수도 있다.<syntaxhighlight lang="python">
 +
from sklearn.metrics import accuracy_score  # 추가로 가져온다.
 +
 +
score = accuracy_score(label, pre)  # 레이블과 예측값을 넣는다.
 +
print('정답률 : ', score)
 +
</syntaxhighlight>
 +
|}
 
== SVM 알고리즘 ==
 
== SVM 알고리즘 ==
 
사용할 수 있는 SVM 알고리즘은 다음과 같다. 객체를 만들 때 알고리즘 이름만 바꾸어주면 된다.
 
사용할 수 있는 SVM 알고리즘은 다음과 같다. 객체를 만들 때 알고리즘 이름만 바꾸어주면 된다.
115번째 줄: 151번째 줄:  
</syntaxhighlight>
 
</syntaxhighlight>
 
|-
 
|-
|학습
+
|학습객체 지정 및 학습
 
|일반적으로 machine이라는 이름보다,
 
|일반적으로 machine이라는 이름보다,
   141번째 줄: 177번째 줄:  
|}
 
|}
   −
== 랜덤 포레스트 ==
+
== 크로스 밸리데이션 ==
 
{| class="wikitable"
 
{| class="wikitable"
 
!절차
 
!절차
147번째 줄: 183번째 줄:  
!방법
 
!방법
 
|-
 
|-
|패키지 불러오기 및 데이터 정리
+
|크로스밸리데이션 하기
|
+
|검증한다.
 +
 
 +
결과는 나누는 데이터 갯수만큼 배열(numpy.ndarray)로 나온다.
 
|<syntaxhighlight lang="python">
 
|<syntaxhighlight lang="python">
from sklearn.enssemble import RandomForestClassifier
+
from sklearn import svm, model_selection  # svm에 대한 벨리데리션을 실행해본다.
 +
 
 +
clf = svm.SVC()
 +
scores = model_selection.cross_val_score(clf, data, label, cv=5)  # 5개의 데이터로 나누어 진행.
 +
</syntaxhighlight>
 +
|}
   −
data = [
+
== 매개변수 찾기. 그리드 서치 ==
    [1,2,4],
+
각각의 학습방법에 대해 매개변수를 조절해야 할 필요가 있다. 관련된 변수의 최적값을 자동으로 찾아주는 기능. 정답률을 개선시켜준다.
    [1,5,3],
+
 
    [1,5,2]
+
단지, 시간이 더 오래걸린다.
    ]
+
{| class="wikitable"
   
+
!절차
# 데이터와 레이블 정리
+
!설명
data = []
+
!방법
label = []
  −
for row in data:
  −
    data.append(row[0], row[1])  # 판단의 기초가 되는 데이터리스트를 만든다.
  −
    label.append(row[2])  # 판단의 결과를 모은다.
  −
</syntaxhighlight>데이터프레임을 활용하는 경우.(열 이름을 사용해 분리하는 게 가장 간단하고 직관적이다.)
   
|-
 
|-
|학습
+
|모델 부르기 및 그리드서치 매개변수 설정
|일반적으로 machine이라는 이름보다,
+
|매개변수의 후보들을 등록한다.
 +
|<syntaxhighlight lang="python">
 +
from sklearn import svm  # svm에 대해 실행.
 +
from sklearn.grid_search import GridSearchCV
   −
classifier의 약자인 clf를 주로 쓴다.
+
params = [
 +
    {"C":[1,10,100,1000], "kernel":['linear']},
 +
    {"C":[1,10,100,1000], "kernel":['rbf'], "gamma":[0.001, 0.0001]}
 +
]
 +
</syntaxhighlight>
 +
|-
 +
|그리드서치 수행
 +
|n_jobs는 병렬계산할 프로세스 지정. -1은 자동으로 진행한다는 의미.
 
|<syntaxhighlight lang="python">
 
|<syntaxhighlight lang="python">
machine = RandomForestClassifier()  # 객체 지정
+
clf = GridSearchCV(svm.SVC(), params, n_jobs=-1)  # 그리드서치 관련내용이 담긴 객체를 생성.
machine.fit(data, label)  # 데이터와 레이블 지정
+
clf.fit(train_data, train_label)  # 이 객체를 학습시킨다.
 
</syntaxhighlight>
 
</syntaxhighlight>
 
|}
 
|}
이후 사용법은 위와 같다.
+
[[분류:머신러닝 라이브러리]]
[[분류:머신러닝 프레임워크]]
+
[[분류:Scikit-learn]]