7회 기출
from statsmodels.formula.api import logit
import numpy as np
회귀 계수는 summary에서 coef 를 의미함
from statsmodels.formula.api import glm?
from sklearn.metrics import accuracy_score?
7회 문제 2-1
*cf) 알아두면 좋을 내용들
- 1에 가까울수록 양의 선형 관계가 강함: 한 변수가 증가할 때 다른 변수도 증가하는 경향이 강합니다.
- -1에 가까울수록 음의 선형 관계가 강함: 한 변수가 증가할 때 다른 변수는 감소하는 경향이 강합니다.
- 0에 가까울수록 선형 관계가 약함: 두 변수 사이에 선형 관계가 거의 없거나 약한 경우입니다.
문제 2-3
범주형 데이터 분석
2가지로 나뉨 적합도 검정(=동질성), 독립성 검정
적합도 검정 : 특정 분포를 가지고 있는지
독립성 검정 : 두 변수가 독립적/연관이 있는지 분석
카이제곱 검정하기 위해서 빈도수로 변경해줘야 함
감기약 비율로 되어 있으니 곱하기 20을 해서 빈도로 맞춰줘야 함
빈도로 맞추지 않으면 오답이 나오게 됨!
df['항암약'].value_counts() = 정렬이 오름차순으로 출력되므로 제일 많이 나오는 값이 가장 첫번째로 나타남
따라서, df['항암약'].value_counts().sort_index() 라고 하게 되면 index 값 따라 출력
cf. value_counts().sort_index().to_list() 하게 되면 앞에 거 먼저 하고 뒤에거 나중에 하는 거임!
그 다음에 카이제곱 검정하면 됨. 카이제곱 검정은 from scipy import stats 모듈안에 있음
stats.chisquare(관찰 빈도 리스트, 기대 빈도 리스트)
cf. 문제에서 다중 선형 회귀 모델을 사용하라고 했는데 독립변수가 여러개인것을 통해서 우리는 다중선형 회귀 모델을 사용해야 함을 알 수 있음, 다중 선형 회귀와 선형 회귀 모델의 차이는 챗 gpt가 알려줌
2-3번 문제 95% 신뢰구간을 구해라
'빅데이터 분석기사' 카테고리의 다른 글
2과목 정리 (0) | 2024.06.21 |
---|---|
1유형 기출 문제 (0) | 2024.06.18 |
[실기] 1유형 정리 - 3 (0) | 2024.06.16 |
[실기] 1유형 정리 - 3 (1) | 2024.06.16 |
[실기] 1유형 정리 - 2 (0) | 2024.06.16 |