본문 바로가기

빅데이터 분석기사

3유형 기출 문제 - 1

7회 기출 

한 문제당 3개의 소문제로 나뉘는 듯(?)
train, test 데이터셋으로 나눈 뒤에 print(train.shape, test.shape) 함수 써서 잘 나뉘어졌는지 확인
로지스틱 회귀 모델 생성 및 학습 하는 공식 외워

from statsmodels.formula.api import logit

import numpy as np

회귀 계수는 summary에서 coef 를 의미함

 

from statsmodels.formula.api import glm?

from statsmodel.formula.api import glm 은 statsmodel 패키지에서 제공하는 formula.api를 이용하여 일반 선형화 모델(general linear model)을 생성하는 말이며, statsmodel.formula.api 모듈에서 glm 함수를 import 할 수 있음(이항분포 가능)

from sklearn.metrics import accuracy_score?

7회 문제 2-1

df.corr() 하게 되면 erp와 가장 상관관계를 가진 값을 구할 수 있음

 

*cf) 알아두면 좋을 내용들

  • 1에 가까울수록 양의 선형 관계가 강함: 한 변수가 증가할 때 다른 변수도 증가하는 경향이 강합니다.
  • -1에 가까울수록 음의 선형 관계가 강함: 한 변수가 증가할 때 다른 변수는 감소하는 경향이 강합니다.
  • 0에 가까울수록 선형 관계가 약함: 두 변수 사이에 선형 관계가 거의 없거나 약한 경우입니다.

df.corr() 로 나타내면 각 열 간의 상관 계수를 계산하여 행렬 형태로 출력함

문제 2-3

p-values 를 구하는 문제는 model.pvalues 라고 하면 됨

범주형 데이터 분석
2가지로 나뉨 적합도 검정(=동질성), 독립성 검정
적합도 검정 : 특정 분포를 가지고 있는지
독립성 검정 : 두 변수가 독립적/연관이 있는지 분석

카이제곱 검정하기 위해서 빈도수로 변경해줘야 함
감기약 비율로 되어 있으니 곱하기 20을 해서 빈도로 맞춰줘야 함
빈도로 맞추지 않으면 오답이 나오게 됨!

파일 없이 직접 데이터프레임을 만듦, 귀무가설, 대립가설로 나뉘며, len(df['항암약'])은 전체 개수를 의미함
value_counts(normalize=True) 하게 되면 값의 개수가 아니라 비율로 값이 나옴!, value_counts 안에 normalize라는 파라미터가 있음
ob = 기대 빈도수, ex = 기대 빈도수 = 확률*빈도수

df['항암약'].value_counts() = 정렬이 오름차순으로 출력되므로 제일 많이 나오는 값이 가장 첫번째로 나타남
따라서, df['항암약'].value_counts().sort_index() 라고 하게 되면 index 값 따라 출력

 

cf. value_counts().sort_index().to_list() 하게 되면 앞에 거 먼저 하고 뒤에거 나중에 하는 거임!

그 다음에 카이제곱 검정하면 됨. 카이제곱 검정은 from scipy import stats 모듈안에 있음
stats.chisquare(관찰 빈도 리스트, 기대 빈도 리스트)

from scipy import stats가 정확히 무슨 의미인지? 가설 검정(hypothesis testing)을 위한 t-test, chi-square test, ANOVA 등의 함수들이 포함

 

마지막에 params는 회귀 계수 구함
formula = "종속변수 ~ 독립변수1 + 독립변수2 + 독립변수3" => formula 라는 변수에 종속 변수와 독립 변수 간의 관계를 나타내는 회귀식을 설정하는 것임. fit()은 적합을 의미!
model.params['o3'] 라는 의미는 o3라는 독립 변수의 회귀 계수를 가져오는 말!

cf. 문제에서 다중 선형 회귀 모델을 사용하라고 했는데 독립변수가 여러개인것을 통해서 우리는 다중선형 회귀 모델을 사용해야 함을 알 수 있음, 다중 선형 회귀와 선형 회귀 모델의 차이는 챗 gpt가 알려줌

 

2-3번 문제 95% 신뢰구간을 구해라

pred = model.get_prediction(new_data) 라고 입력할 줄 알아야 해!

'빅데이터 분석기사' 카테고리의 다른 글

2과목 정리  (0) 2024.06.21
1유형 기출 문제  (0) 2024.06.18
[실기] 1유형 정리 - 3  (0) 2024.06.16
[실기] 1유형 정리 - 3  (1) 2024.06.16
[실기] 1유형 정리 - 2  (0) 2024.06.16