본문 바로가기

빅데이터 분석기사

[빅분기 필기] 빅분기 필기 요약 정리 자료

빅분기 필기.hwpx
0.07MB

빅분기 필기 1과목

1, 빅데이터 개요 및 활용

DIKW 피라미드

데이터 정보(가공 처리된 데이터 간 연관 관계) 지식(패턴/예측) 지혜(다른 물건도 살 것이다와 같은 규칙을 적용하는 요소)

 

데이터의 양을 측정하는 크기 단위 - 페엑제요

페타바이트 / 엑사바이트 / 제타바이트 /요타바이트

 

가트너가 정의한 빅데이터 특징 - 규다속신 가정휘

규모 Volumne 다양성 variety 속도 velocity 신뢰성 veracity 가치 value 정확성 validity 휘발성 volatility

 

분석 가치 에스컬레이터 단계 - 묘진 예처

빅데이터의 가치를 묘사 분석, 진단 분석, 예측 분석, 처방 분석 4단계로 정의한 기법

- 묘사 분석 : 과거에는 어떤 일이 일어났고, 현재는 무슨 일이 일어나고 있는지 확인

- 진단 분석 : 분기별 매출 차이 발생 이유 확인

- 예측 분석 : 고객 이탈 가능성 확인 후 고객 구매 이력으로 상품 추천

- 처방 분석

 

빅데이터 유형 정반비

정형 데이터 주로 RDB 이용해 데이터 저장

반정형 데이터 데이터 내부의 데이터 구조에 대한 메타 정보가 포함된 구조, 고정된 필드에 저장되어 있지는 않지만 메타 데이터나 데이터 스키마 정보를 포함하는 데이터

ex. xml, json, html

비정형 데이터 - 데이터 내부의 데이터 구조에 대한 메타 정보 X

 

<그림 참조>

지식의 구분

암묵지(tacit knowledge) - 고추장 비법

형식지 대차대조표 작성 지식

 

데이터 지식 경영 상호 작용 암내공 형표면

내면화 (형식지->암묵지)

공통화 대화 같은 상호작용 통해 개인의 암묵지를 습득하는 단계

표출화 (암묵지->형식지)

연결화 형식지가 상호결합하면서 새로운 형식지를 창출하는 과정

 

빅데이터 위기 요인

사생활 침해

책임원칙 훼손- 분석 대상이 되는 사람들이 예측 알고리즘의 희생양이 될 가능성 증가 마이너리포트 예측 -> 범죄자!, 사전에 책임 물게 하면 안됨. 결과에 대한 책임을 지녀야 함!

데이터 오용 잘못된 지표 사용

 

빅데이터 조직 설계 절차

<그림 참조>

 

빅데이터 조직 구조 유형 : 집기분, DSCoE Datascience center of excellence 전문가 조직

집중 구조 전사 분석 업무를 별도의 분석 전담 조직에서 담당

기능 구조 일반직원이 분석해

분산 구조 부서마다 DSCoE 존재, DSCoE 부서, 분석 결과에 따른 신속한 피드백 나오고 베스트 프랙티스 공유가 가능, 업무 과다와 이원화 가능성이 존재할 수 있기에 부서 분석 업무와 역할 분담이 명확해야 함(R&R)

 

빅데이터 분석 방법론의 분석 절차 - 기준분시평

분석 기획/

데이터 준비(데이터를 정의, 수집 및 검증 단계) /데이터 분석/시스템 구현/평가 및 전개

 

빅데이터 분석 방법론의 분석 기획 절차 - 비정위

비즈니스 이해 및 범위 설정

프로젝트 정의 및 계획 수립 - 작업 분할 구조도 WBS 작성 단계

프로젝트 위험계획 수립

 

데이터 품질 진단 절차

품질진단 계획 수립

품질 기준 및 진단 대상 정의

데이터 품질 측정

품질측정 결과 분석 : 오류가 발견된 컬럼/측정항목에 대하여 품질 기준별, 발생유형별 오류 원인을 분석하고, 주요 발생 사례를 정리

데이터 품질 개선

 

최종 대상 데이터베이스로 변환 데이터를 적재하는 기술

ETL, 추출 Extract 변환 Transform 적재 Load

 

데이터 사이언티스트의 요구역량 - 협통전 숙지 (게임 협동()전을 숙지하라)

소프트 스킬 : 협력 능력 / 통찰력 / 전달력

하드 스킬 기술,이론 숙련도 / 지식

 

데이터 분야 직무별 역할

데이터 엔지니어

비즈니스를 이해하고 대량의 데이터 세트를 가공하는 업무, 데이터 셋 가공, 하둡 스파크 이용해 대용량 데이터 분산 처리 시스템 개발, 데이터 분석 및 활용에 사용될 sw 개발 능력 필요(데이터 분석가도!)

 

데이터 분석가

최적 의사결정 내리는 데 도움 주는 비즈니스 인사이트 제공, 시각화, 보고서 작성, 비즈니스 팀과 연계해 각 팀의 전략 수립/업무 효율화에 필요한 데이터 수집 및 분석

 

데이터 사이언티스트

머신러닝 모델을 사용해 정형, 비정형 데이터에서 인사이트 창출

 

데이터 아키텍트(Data Architect)

데이터 관리를 위한 청사진 만드는 업무, 기업의 데이터를 정형 데이터베이스에서 하둡 기반 비정형 데이터베이스로 이관할 때 이관 프로세스 정립, 모니터링, 테스트를 주도

 

데이터베이스 장단점

장점

데이터 공유, 일관성 무결성 보안성 유지, 최신의 데이터 유지, 데이터의 표준화 가능, 데이터의 논리적, 물리적 독립성, 데이터 저장 공간 절약

 

단점

데이터베이스 전문가 필요, 데이터 백업과 복구가 어려움, 대용량 디스크로 엑세스가 집중되면 과부하 발생, 통합된 시스템이기 때문에 일부에서 장애가 발생하면 전체 시스템이 중단되는 장애 발생

 

데이터 거버넌스

기업에서 사용하는 데이터의 가용성, 유용성, 통합성, 보안성을 관리하기 위한 정책과 프로세스를 다루며 프라이버시, 보안성, 데이터 품질, 관리규정 준수를 강조하는 모델

 

데이터 거버넌스의 구성요소 원조프(원조가 프로그램에 출연했다.)

원조프 원칙, 조직, 프로세스

 

빅데이터 플랫폼이란?

빅데이터에서 가치를 추출하기 위해 일련의 과정(수집, 저장, 분석, 활용)을 규격화한 기술

 

빅데이터 플랫폼 계층 구조

소프트웨어 계층 : 데이터 처리 및 분석 엔진, 모니터링 모듈, 보안 모듈로 구성

플랫폼 계층 : 작업 스케줄링 모듈, 데이터 자원 및 할당 모듈, 프로파일링 모듈, 서비스 관리 모듈, 사용자 관리 모듈, 모니터링 모듈, 보안 모듈로 구성

인프라스트럭쳐/자원 계층(infrastructure): 자원 배치 모듈, 노드 관리 모듈, 데이터 관리 모듈, 자원 관리 모듈, 서비스 관리 모듈, 사용자 관리 모듈, 모니터링 모듈, 보안 모듈로 구성되어 있는 계층

 

데이터 수집 방법

크롤링 웹 문서 수집

CEP(Complex event processing) 여러 이벤트 소스로부터 발생한 실시간 이벤트

RSS 블로그, 뉴스, 쇼핑몰 등의 웹 사이트에 게시된 새로운 글을 수집하여 공유하기 위해서 사용되는 방법

FTP - 대용량 파일 수집

Open API 실시간 데이터 수집

 

데이터 저장 단계 기술

HDFS, NoSQL, 데이터베이스 클러스터

 

데이터 변환 기술

정규화 Normalization 데이터를 특정 구간으로 바꾸는 방법

일반화 Generalization 특정 구간에 분포하는 값으로 스케일을 변화시키는 방법

집계 Aggregation 다양한 차원의 방법으로 데이터를 요약하는 방법

평활화 Smoothing 주어진 여러 데이터 분포를 대표할 수 있는 새로운 속성이나 특징을 만드는 방법

 

Z 점수 정규화

Feature의 값이 평균과 일치하면 0으로 정규화되고, 평균보다 작으면 음수, 평균보다 크면 양수로 변환하는 방법

이상값 문재를 피하는 데이터 정규화로 이상값은 잘 처리하지만, 같은 척도로 정규화된 데이터를 생성하지 못한다.

 

분석 준비도 readiness

기업의 데이터 분석 도입의 수준을 파악하기 위한 진단 방법

 

사용자 요구사항 수집 기법

브레인 스토밍 : 말을 꺼내기 쉬운 분위기로 만들어 회의 참석자들이 내놓은 아이디어를 비판 없이 수용할 수 있도록 하는 회의 기법

 

스캠퍼

사고의 영역을 7개 키워드로 정해 놓고 이에 맞는 새로운 아이디어를 생성한 뒤 실행 가능한 최적의 대안을 골라내는 기법

 

포커스 그룹 인터뷰 FGI Focus group interview

일정한 자격 기준에 따라 6~12명 정도 선발하여 한 장소에 모이게 한 후, 요구사항과 관련된 토론을 함으로써 자료를 수집하는 방법

 

조직 평가 위한 성숙도 단계

도입 단계

활용 단계

확산 단계

최적화 단계

 

<하둡 에코시스템 개념>

하둡 프레임워크를 이루고 있는 다양한 서브 프로젝트들의 모임

 

하둡 에코시스템의 비정형 데이터 수집 기술

척와 분산된 서버에서 에이전트를 실행, 컬렉터가 에이전트로부터 데이터 받아 HDFS에 저장

플럼 마스터 서버 있어서 데이터 어디서 수집, 어떤 방식으로 전송할지 동적 변경 가능

스크라이브 데이터를 중앙 집중 서버로 전송하는 방식

 

하둡 에코시스템의 정형 데이터 수집 기술

스쿱 : 대용량 데이터 전송 솔루션, 상용 & 오픈 소스 RDBMS(Mysql) 지원

히호 : 대용량 데이터 전송 솔루션, 현재 깃허브에 공개됨

 

하둡 에코시스템의 분산 데이터 저장

HDFS : 대용량 파일 저장할 수 있도록 설계된 파일 시스템

3중 복제, 대량 파일 저장, 온라인 변경, 범용서버 기반, 자동복구 특징 있음

NTFS, FAT 파일 시스템과 연계 가능, GFS와 동일한 함수 적용

네임 노드, 보조 네임 노드, 데이터 노드로 구성 <이것까지 알아야 하나?, 사진 >

 

하둡 에코시스템의 분산 데이터 처리

맵리듀스 : 대용량 데이터 세트를 처리하거나 생성하기 위한 프로그래밍 모델

키 값 쌍으로 구성, 데이터를 분류, -> 셔플 -> 리듀스 순서대로 데이터 처리

 

하둡 에코시스템 분산 데이터베이스

HBase : HDFS 기반의 컬럼 기반 데이터베이스, 실시간 조회 및 업데이트 가능, 비동기적 업데이트

 

하둡 에코시스템 리소스 관리

YARN : 하둡의 맵리듀스 처리 부분을 새롭게 만든 자원 관리 플랫폼

 

하둡 에코시스템 인메모리 처리

아파치 스파크 : 하둡 기반 대규모 데이터 분산처리시스템, 인 메모리 기반의 실시간 데이터 처리와 관련된 오픈소스 프로젝트, 메모리 안이라 성능 좋음, 메모리 기반으로 실시간

 

하둡 에코 시스템 데이터 가공 기술

가공

Pig 피그 라틴이라는 자체 언어 제공, sql과 유사만 해

Hive 하둡 기반의 dw 솔루션

 

마이닝

머하웃 (Mahout) - 데이터 마이닝 알고리즘을 구현한 오픈 소스

하둡 에코 시스템 분석/관리 기술

실시간 sql 질의

impalar : 하둡 기반의 실시간 SQL 질의 시스템, select, insert 가능!!

Tajo : 다양한 데이터 소스를 위한 하둡 기반의 ETL 기술을 이용해서 데이터 웨어하우스에 적재하는 시스템

 

워크 플로우 관리

우지 : 하둡 작업을 관리하는 워크플로우 및 코디네이터 시스템, 자바 웹 애플리케이션 서버

 

분산 코디테이터

주키퍼 : 사육사 역할, 분산 환경에서 서버들 간에 상호조정이 필요한 다양한 서비스를 제공

 

인공지능이란?

인간의 지적능력을 인공적으로 구현하여 컴퓨터가 인간의 지능적인 행동과 사고를 모방할 수 있도록 하는 SW

 

인공지능 > 머신러닝 > 딥러닝

 

개인정보보호 관련 법령 - 개망신 위(나만 개망신을 당해서 위안이 된다.)

개인정보 보호법 / 정보통신망법 / 신용정보법 / 위치정보법

 

개인정보의 수집이용이 가능한 경우(151)

정보 주체의 동의 / 법률에 특별한 규정 / 공공기관이 법령 등에서 정하는 소관 업무의 수행 /정보 주체와의 계약의 체결 및 이행 / 3자의 급박한 생명, 신체, 재산의 이익 / 개인정보처리자의 정당한 이익을 달성하기 위하여 필요한 경우

 

개인정보의 처리 목적에 필요한 범위에서 최소한이 개인정보만을 적법하고 정당하게 수집할 수 있고 개인의 동의가 없어도 수집 목적의 범위에서 이요할 수 있다.

 

가명 정보가 개인의 동의 없이 활용 가능한 경우는 상업적 목적을 포함한 통계작성, 산업적 연구, 공익적 기록보존 목적등으로 활용될 때이다.

 

개인정보의 수집이용을 위해 정보 주체의 동의를 받을 때 고지사항(152) - 목항기불

개인정보의 수집ㆍ이용 목적 / 수집하려는 개인정보의 항목 / 개인정보의 보유 및 이용 기

/ 동의를 거부할 권리가 있다는 사실 및 동의 거부에 따른 불이익이 있는 경우에는 그 불

이익의 내용

 

개인정보를 제공하기 위해 정보 주체의 동의를 받을 때 고지 사항(172) - 자목항기불

개인정보를 제공받는 자 / 개인정보를 제공받는 자의 개인정보 이용 목적 / 제공하는 개인정

보의 항목 / 개인정보를 제공받는 자의 개인정보 보유 및 이용 기간 / 동의를 거부할 권리가

있다는 사실 및 동의 거부에 따른 불이익이 있는 경우에는 그 불이익의 내용

 

개인정보 유출 시 정보 주체에게 고지해야 할 사항(341) - 항시주대부

유출된 개인정보의 항목/ 유출된 시점과 그 경위/ 유출로 인하여 발생할 수 있는 피해를 최소화하기 위하여 정보 주체가 할 수 있는 방법 등에 관한 정보/ 개인정보처리자의 대응조치 및 피해 구제절차/ 정보 주체에게 피해가 발생한 경우 신고 등을 접수할 수 있는 담당 부서 및 연락처

2과목

이상값 찾는 방법

단변량이면 박스 플롯 다변량이면 산점도 이용

평균적으로 3시그마 떨어진 곳의 값 파악

 

비정형 텍스트 마이닝

토큰화 : 의미 있는 형태소로 분할하기 위해 토큰화

품사 태깅 : 불필요한 품사 제거

표제어 추출 != 어간 추출(stemming)

 

변수 선택 기법

필터기법

학습/성능 평가 1번만

 

래퍼 기법

학습->성능 1회 반복

성능평가 1회만 함, recursive

1. 특징 변수의 전체 집합 -> 2. 가장 적합한 하위집합 선택[하위집합 생성<-> 알고리즘 학습] -> 3. 성능 평가

 

임베디드 기법

학습, 성능 모두 반복

1. 특징 변수의 전체 집합 -> 2. 가장 적합한 하위집합 선택[하위집합 생성<-> 알고리즘 학습+성능평가]

 

변수 변환 방법

정규화

 

불균형 데이터 처리 방법

언더 샘플링

다수 클래스의 데이터를 일부만 선택하여 데이터의 비율을 맞추는 방법

경계값 이동 임계값을 데이터가 많은 쪽으로 이동시키는 방법

비용 민감 학습 소수 클래스에 높은 가중치를 부여하는 방법

 

차원축소

분석 대상이 되는 여러 변수의 정보를 최대한 유지하면서 데이터 세트 변수의 개수를 줄이는 탐색적 분석기법

 

차원축소 방법

정보 유지

모델 학습의 용이

결과 해석의 용이

변수 선택 상관계수가 높거나 VIF 분산팽창지수가 높은 변수 중 하나를 선택

변수 추출 기존 변수를 조합해 새로운 변수를 만드는 기법

 

차원축소 기법

주성분 분석 PCA

변수들의 공분산 행렬이나 상관행렬을 이용

고차원 공간의 표본들을 선형 연관성이 없는 저차원 공간으로 변환하는 기법

정방행렬에서만 사용

 

수염 whiskers

q1, q3 로부터 IQR1.5배 내에 있는 가장 멀리 떨어진 데이터까지 이어진 선

이상값은 수염 밖에 위치한다.

 

백분위수

변동계수 : 표준편차/평균

통계량 : 표본에서 얻은 평균/표준오차 같은 값, 이 값을 통해 모수를 추정하며, 무작위로 추출할 경우 각 표본에 따라 달라지는 확률 변수

 

연속형 확률 밀도 함수

확률변수 X구간 또는 구간들의 모임인 숫자값을 갖는 확률 분포 함수

 

확률 함수

확률변수에 의해 정의된 실수를 확률에 대응시키는 함수

 

확률 변수

01사이의 값을 가진다.

 

인코딩

문자열 값들을 숫자형으로 변경하는 방식

 

- -핫 인코딩 : 표현하고 싶은 단어의 인덱스에 1의 값 부여, 다른 인덱스에는 0을 부여

- 레이블 인코딩 : 범주형 변수의 문자열을 수치형으로 변환 방식

- 카운트 인코딩 : 각 범주의 개수 집계한 뒤 그 값을 인코딩하는 방식

- 대상 인코딩(Target encoding) : 범주형 자료의 값들을 훈련 데이터에서 목표에 해당하는 값으로 바꿔주는 방식

 

막대그래프

동일한 너비의 여러 막대를 사용하여 데이터를 표시, 각 막대는 특정 범주를 나타내는 그래프

 

히스토그램

자료 분포의 형태를 직사각형 형태로 시각화하여 보여주는 그래프

불균형 데이터 처리 기법

과대 표집

과소 표집

임곗값 이동(cut-off value moving)

비용 민감 학습(cost sensitive learning)

앙상불 기법(ensemble)

 

3과목

텍스트 마이닝의 텍스트 벡터화

텍스트의 분류 또는 군집화를 위하여 각 문서가 벡터로 표현되도록 변환하는 작업이 벡터화

 

텍스트 마이닝의 텍스트 벡터화 방법

BoW : 비슷한 의미를 갖는 단어는 문서에서 근처에 존재할 것이라는 가정으로 단어에 벡터값을 부여하여 유사한 단어를 거리 기반으로 매핑하는 방법

 

word2vec : Term Frequency-inverse document frequency

특정 단어와 문서 내에 등장하는 빈도와 그 단어가 문서 전체 집합에서 등장하는 빈도를 고려하여 벡터화하는 방법

 

TF-IDF

정보 검색과 텍스트 마이닝에서 이용하는 가중치, 여러 문서로 이루어진 문서 군이 있을 때 어떤 단어가 특정 문서 내에서 얼마나 중요한 것인지를 추출하는 기법

 

Bag of words

 

예측 분석 predictive analytics

데이터로부터 학습하여 미래를 예측하는 예측 모델을 생성하고 활용하는 기법

 

- 묘사 분석(descriptive analytics) - 분석의 가장 기본적인 지표를 확인하는 단계, 어떤 일이 일어났고, 현재는 무슨 일이 일어나고 있는지 확인

- 진단 분석(diagnostic analytics) - 묘사 단계서 찾아낸 분석의 원인을 이해하는 단계, 데이터를 기반으로 애 발생했는지 이유를 확인

- 처방 분석(prescriptive analytics) - 예측을 바탕으로 최적화하는 단계

 

요인분석

변수들간의 상관관계를 고려한 분석 방법

 

요인 분석에서 요인이란?

상관계수가 높은 변수를 묶어 신규로 생성한 변수의 집합

요인은 관측이 불가능하지만 해석이 가능하다.

 

3과목

로지스틱 회귀 분석

반응변수가 범주형일 때 사용하는 분석 방법

반응 변수를 로짓으로 변환할 때 오즈가 사용되며 변환 후에는 반응변수가

무한대 ~ +무한대이다.

 

백색잡음은 독립적이고 동일한 분산을 가진다.

 

ARIMA 모형

ARMA의 일반화 형태, 일간 주간 월간으로 예측이 가능하다. 비정상 시계열 모형이다.

 

전이 학습 Transfer learning

학습된 모형을 기반으로 최종 출력층을 바꾸어 재학습하는 알고리즘

 

합성곱 신경망 CNN

시각적 이미지를 분석하는 데 사용되는 심층 신경망

 

순환 신경망 RNN

입력층, 은닉층, 출력층으로 구성

은닉층에서 재귀적인 신경망을 갖는 알고리즘, 음성인식, 필기체 인식에 활용

 

기울기 클리핑

기울기 폭발을 막기 위해 일정 임곗값을 넘어서지 못하게 기울기 값을 자르는 방법

 

순환 신경망 RNN에서 발생하는 GV(Gradient Vanishing:기울기 소실)

GE(Gradient exploding:기울기 폭발)

 

LSTM (Long short term memory)

RNN의 장기의존성 문제를 보완하기 위한 알고리즘

입력 게이트, 망각 게이트, 출력 게이트로 구성

 

비모수 통계

평균이나 분산 같은 모집단의 분포에 대한 모수성을 가정하지 않고 분석하는 통계적 방법

- 윌콕슨 부호 순위 검정

- 부호 검정

- 만 위트니의 U 검정

- 크루스칼-왈리스 검정 : 세 집단 이상의 분포를 비교하는 검정 방법

4과목

일반화 오류 과대 적합/학습 오류 과소 적합

과대적합

과소적합

 

데이터 시각화 단계 - 구시표

데이터 구조화 단계

데이터 시각화 단계

데이터 시각 표현 단계 시각화 단계에서 만들어진 과물을 보정하는 단계

 

관계 시각화 산행버히네

산점도, 산점도 행렬, 버블차트, 히스토그램, 네트워크 그래프

 

비교 시각화 - 플히체스평 (신작 게임 플레이 히어로 체스는 평이 좋다.)

다변량 변수를 갖는 자료를 제한된 2차원에 효과적으로 표현하는 시각화 방법

플로팅 바 차트, 히스토그램, 체르노프 페이스, 스타 차트, 평행좌표 그래프(평행좌표계)

 

히트맵

칸 별로 색상을 구분하여 데이터값을 표현하는 시각화 그래프로 여러 가지 변수를 비교할 수 있음

 

교차검증 cross validation

과대적합 방지 활용, 모집단 수 적을 때, 훈련&평가 데이터를 기반으로 하는 검증 기법

 

인포그래픽 infographics

중요 정보를 하나의 그래픽으로 표현해서 보는 사람들이 쉽게 정보를 이해할 수 있도록 만드는 시각화 기법

 

모형의 평가 기준 표본의 충분성x

일반화의 가능성 데이터를 확장하여 적용할 수 있는지에 대한 평가기준으로 모집단 내의 다른 데이터에 적용해도 안정적인 결과를 제공하는지 평가

효율성 적은 입력 변수를 사용할수록 효율성이 높은 분석 모형으로 평가

예측과 분류의 정확성 정확성 측면에서 평가

 

ROC 그래프 사용하는 값: 민감도, 특이도

특이도(거짓긍정률, TP Rate) 가로축, 민감도(참긍정률, FP-Rate) 세로축

 

정규성(정상성) 검증

Q-Q Plot

샤피로-윌크 검정

콜모고로프-스미르노프 검정

 

의사결정나무

전체 자료를 몇 개의 소집단으로 분류하거나 예측하는 분석 방법

가지분할(split)가지를 생성하는 과정이다.

연속적으로 발생하는 의사결정 문제를 시각화해서 의사결정이 이루어지는 시점과 성과 파악을 쉽게 해준다.

 

앙상블 학습

모형의 투명성이 떨어지게 되어 정확한 현상의 원인 분석에는 부적합

개별 모델을 결합하는 과정에서 분산이 낮아져 과적합 감소 효과

이상값에 대한 대응력 높아지고, 전체 분산 감소