본문 바로가기

빅데이터 분석기사

[인프런] 2과목 머신러닝 프로세스

빅분기 시험은 분류/회귀 문제가 나옴

 

탐색적 데이터 분석을 통해 결측지, 이상치 알 수 있음

데이터 전처리, 피처 엔지니어링을 묶을수도 있지만 분리해놨음

모델에서 탐색적 데이터 분석, 데이터 전처리, 피처 엔지니어링 과정으로 돌아갈 수 있음

 

 

 

데이터가 총 3개, 훈련용, 학습용, 예측해야 하는 데이터 = 테스트용

x는 독립변수, y는 종속변수, x는 대문자 사용(X)

빅분기에서 시각화를 지원하지 않아 약간 제한적 탐색적 데이터 분석 진행

 

이상치만 잘 찾아서 날려줘도 좋아짐

IQR=3Q-1Q

카테고리가 많으면 라벨 인코딩을,

몇개 없으면 2~5개면 원핫 인코딩하면 됨

Validation도 학습하고 평가함

train data에서 일부 나눠 validation data로 사용함

크게 train data와 test data로 나뉨

 

model.fit() #학습 명령어

model.predict() #예측 명령어