기계는 거짓말하지 않는다

Machine Learning의 간단한 용어와 이해 본문

AI

Machine Learning의 간단한 용어와 이해

KillinTime 2021. 8. 2. 13:12

특성(feature): 모델이 학습하는 데이터의 특성 값(하나의 데이터는 1개 이상의 특성을 가짐)

레이블(label): 모델이 예측한 정답 값

 

Y = w × X + b

Y = Label (정답, tag, target이라고도 부름)

X = Feature (변수가 됨)

w, b를 머신러닝 모델이 구해줌

머신러닝 훈련 시 전체 데이터의 70~80%를 훈련, 20~30%를 평가할 때 사용

 

Feature Engineering: 사람이 여러 개의 Feature가 있을 때 어느 것이 최종 아웃풋에 영향을 미칠지 아닐지 고려해

가면서 변수를 조정하고 빼고 하는 것. 영향이 없는 것은 제외. 모델 학습의 혼란을 줄임

 

Feature Extraction: 기계가 특징을 뽑아냄. 사람이 Feature를 건드리지 않음.

딥러닝에서 자체적으로 모델이 해줌. 사람의 손이 덜 가고 도메인 이해가 Machine Learning에 비해서는 덜 필요함

 

Overfitting(과적합): 그래프가 주어진 데이터에 너무 최적화되기 위해서 이상하게 꺾이는 경우.

훈련 데이터에는 100%에 가까운 정확도를 보이지만 훈련되지 않은 다른 데이터는 정확도가 낮음.

 

데이터가 적은 경우에 Overfitting이 많이 일어남.

충분하지 않을 경우 Data Augmentation 작업을 할 수 있음.

이미지 같은 경우에 많이 사용하며 Horizontal Flip(좌우), Vertical Flip(위아래), Affine, Rotation 등을 사용할 수 있다.

피팅이 덜 일어나는 알고리즘 선택, Regularization이라는 규제화 값 추가, Dropout 추가도 가능

 

기본 순서

문제 정의 - 데이터 셋 준비 - 모델 설정 - 모델 훈련 / 평가 - 모델 활용

Comments