빅데이터분석기사 시험은 누적된 기출문제가 적기도 하고, 시험자들이 문제집과 시험의 괴리가 상당하다고 불만을 토로하고 있기에 기존 기출문제를 살펴봐도 도움이 되지 않을 수 있다. 그러나 어느 정도 감을 익히고, 스스로 얼마나 이해를 하고 있는지 확인하는 데는 더할 나위 없을 것이라 본다.
이 포스트는 데이터에듀의 2, 3회 기출문제와 모의고사 3회분에 예문사와 이기적, 그리고 수제비 교재의 모의고사 각 3회분씩을 풀고 기록한 것이다. (총 14회 분량) 기출문제와 모의고사 원본에 대한 공유는 하지 않으므로 참고하길 바란다.
합격 기준은 비례식을 세워서 정리해봤다. 80:100 = x:60, 즉 80문제를 100점으로 환산했을 때, 합격 기준인 60점을 넘기려면 몇 문제를 맞혀야 하는가에 대한 해답이다. 답은 48문제다 (개당 1.25점). 여기에 과락이 있는데 과목 최소 40점 이상이다. 동일하게 비례식으로 풀어보면, 8문제 이상을 맞혀야 한다는 계산이 선다.
Index
2회 기출문제
2과목 약세. 80문제 중 55문제 정답. (220926, 합격 - 7문제 여유 - 68.75점)
빅데이터 분석 기획
- 비식별화
- L-다양성 : K-익명성을 충족해도 각 블록이 최소 L개의 민감 정보를 지녀야 함.
- T-근접성 : 민감 정보의 분포를 낮춰 추론 가능성을 하향시키는 기법.
- 비식별화 처리 방법
- 치환 : 가명처리의 일환
- 섭동 pertubation : 노이즈를 추가해 교란. 마스킹 관련.
- 업무규칙 도출 순서 : 데이터 현상 분석 - 업무규칙 도출 - 데이터 품질 측정.
- 진단분석 - 왜 일어났는가? (설명적 분석, 예측적 분석, 처방적 분석 유의)
- OPEN API를 통한 센서데이터 취득 가능함.
- 상향식 접근 방식 프로세스 : 프로세스 분류 - 프로세스 흐름 분석 - 분석 요건 식별 - 분석 요건 정의
빅데이터 탐색
- 데이터 불균형
- 앙상블 샘플링 : 오버샘플링 수행 + 부스팅 알고리즘으로 가중치를 산정하고 오버샘플링된 샘플을 삭제해 밸런스 유지
- 불균형 미해결 시, 가중치가 높은 클래스에 주력하여 accuracy는 높아질 수 있으나 precison과 recall 하락 문제 발생.
- 파생변수 : 요약통계량을 통한 변환도 포함됨.
- 특정 장소 불량일 확률 / 전체 불량일 확률
- 95% 신뢰구간 도출 : 표본평균 (엑스바) ± t (양측, 0.025) * s/√n
- 지수분포의 최대 우도 추정량 : 공식에 로그 적용 후, 편미분.
- 시각화 방법
- 트리맵, 도넛, 파이 - 분포 시각화 / 바 차트 - 시간 시각화
- 점추정
- 모평균 추정 시, 표본평균, 표본최빈값, 표본중앙값을 사용할 수 있는데 이 중 표본평균이 가장 좋음.
- 효율추정량 : 불편추정량이 여러 개 있을 시, 통계량의 분산이 제일 작은 것을 취함.
- 1종 오류 : 귀무가설이 참이지만 기각. / 2종 오류 : 귀무가설이 거짓이지만 채택.
- 주성분분석 : 변환된 공간에서 데이터의 분산을 최대로 하는 좌표축 선택.
- 특이값분해 : 직사각형 행렬일 때 활용.
- 확률분포
- 베르누이 분포를 n번 시행하면 초기하분포를 따름.
- 정규분포의 모수는 3개.
- 포아송 분포의 분산은 평균과 동일.
- 표본분포
- 모집단의 분산을 알고, 표본 크기가 30보다 크면 z-분포.
- 모집단의 분산을 모르고, 표본 크기가 30보다 작으면 t-분포.
- 표본의 크기가 커질수록 표본오차는 작아짐.
빅데이터 모델링
- 회귀분석 - 잔차의 가정 : 정규성, 등분산성, 독립성
- 서포트 벡터 머신
- 이진분류가 아니어도 적용 가능해 복수의 선 생성 가능.
- 계산속도 느린 편.
- 다차원 척도법
- 거리 계산 - 유클리드, 유사도 계산 - 자카드 유사도
- 객체의 좌표값이 있다면, 근접도 행렬 계산 가능.
- 데이터에 잠재된 패턴을 찾아 소수 차원의 공간에 기하학적 표현.
- 부스팅 - GBM, adaboost, XGboost가 있음.
- 베이즈 정리....
- 랜덤포레스트
- 대용량 데이터 처리에 효과적
- 분류와 회귀에 모두 사용.
- 결정 트리 개수와 정확도는 무관.
- k-fold
- 결과를 정확도의 평균 혹은 투표로 결정.
빅데이터 결과해석
- 편향과 분산
- 모델이 복잡해질수록 편향 감소, 분산 증가 - 오버피팅
- 모델 단순해질수록 편향 증가, 분산 감소 - 언더피팅
- 관계시각화 - 산점도, 버블차트
- ROC 곡선 : x축 - 1-특이도, y축 - 민감도.
- F1-score는 재현율과 정밀도의 조화평균.
- 종속변수 - 범주형일 때, 혼합분포군집은 사용 불가. (비지도학습 방법임 - 종속변수 불필요.)
- 적합도 검정 : 어떤 요인에 대해 무슨 분포를 따르는지 검정.
- 회귀모형진단
- K-S 검정, 샤피로 윌크 검정은 정규성 검정용.
- 데이터 선형성 확인을 위해 잔차 분석 필요.
- 독립성 검정 시, 쿡의 거리가 1보다 크면 영향치.
- 분해 시계열에서는 계절, 추세, 불규칙, 잔차 확인 가능.
3회 기출문제
80문제 중 61문제 정답. (220926, 합격 - 13문제 여유 - 76.25점)
빅데이터 분석 기획
- 정량적 데이터 : 도형, 기호, 수치 ↔ 정성적 데이터 : 문자
- 분석조직 구조
- 기능 구조 : 해당 부서에서 데이터 분석.
- 집중 구조 : 분석 전담 조직에서 데이터 분석.
- 애드호크러시 : 다양한 분야의 전문가가 문제를 해결하기 위해 수행하는 임시적 조직 구조
- 난이도는 분석 수준, 데이터 획득 및 저장 비용, 분석 비용 등. 시급성은 전략적 중요도와 목표 가치 반영.
- 프로토타이핑 방법론
- 가설 생성 - 디자인에 대한 실험 - 실제 환경에서의 테스트 - 결과에서 인사이트 도출 및 가설 확인
- 분석 환경이 완벽하지 않아도 활용 가능한 상향식 접근방식.
- 빅데이터 분석 방법론
- 분석 기획 단계 : 위험 대응 계획 수립, 프로젝트 범위 설정, 프로젝트 수행 계획 수립
- 데이터 준비 단계 : 데이터 획득 방안 수립.
- ETL
- 데이터 이동과 변환이 주목적. 통합, 마스터 데이터 관리에도 활용됨.
- 기존의 레거시 시스템 환경에서 비즈니스 데이터로 변환 가능.
- 일괄 ETL과 실시간 ETL이 있음.
- DW 기반 분석시스템은 3개의 레이어 (소스, DW, 분석)로 구성되고 ETL은 소스에서 DW레이어로 전달하기 전에 이루어짐.
빅데이터 탐색
- 결측치 대치
- 평균 대치법 : 데이터의 평균으로 결측치 대치. 오차가 무작위 분포, 50% 이상 결측치가 있는 데이터가 삭제된 경우에 활용.
- 비조건부 평균 대치법 : 관측치의 평균으로 대체.
- 피처 선택 : 기존 분석변수 중 학습에 중요한 정보를 포함한 변수를 찾아내는 방법
- 상관계수 유의성 검정
- 귀무가설 : 선형관계가 없다.
- 대립가설 : 두 변수 간 선형관계가 존재한다.
- 검정통계량은 자유도가 n-2인 t분포를 따름.
- 카이제곱 통계량 : 교차분석, 적합성 검정, 동질성 검정에 활용. 범주형 데이터인 두 변수의 관계를 알아보는 데 사용됨.
- 모평균의 최대 우도 추정량 : 원소의 총합을 원소의 개수로 나눔.
- 더미변수는 n-1개 만들어짐.
- 웹 크롤링
- 스크래핑은 코드 따오기, 크롤링은 이를 데이터화.
- 웹 자원에서 인사이트를 얻는 것은 웹 마이닝.
- 데이터 불균형
- 정확도와 재현율 문제는 결정 트리나 다층 퍼셉트론 등의 분류기에서 빈번.
- 정확도는 높아지나 재현율이 낮아지는 부작용 초래 가능성.
빅데이터 모델링
- 다중회귀분석의 자유도 : 데이터 수 - 독립변수 수 - 1
- 데이터마이닝 - 예측 : 회귀분석, 시계열 분석, 의사결정나무, 장바구니 분석.
- 의사결정나무
- 이산형 목표변수 : 카이제곱 통계량의 p-value, 지니 지수, 엔트로피 지수
- 연속형 : 분산의 감소량.
- 데이터 현황 분석 : 데이터 이상치, 데이터 분포도, 데이터 충실도, 데이터 오류율 고려
- 판별분석
- 집단에 대한 정보로 집단을 구별할 수 있는 판별함수 또는 규칙을 구하고, 새 개체가 어느 집단에 속하는지 판별하여 분류하는 다변량 기법.
- 판별함수는 '집단 수 -1', '독립변수 수' 중 작은 값만큼 들어감.
- 독립변수 - 간격 or 비율 척도 / 종속변수 - 명목 or 서열 척도.
- 시계열 구성요소
- 추세 : 장기 변동 요인
- 순환 : 주기가 알려지지 않음.
- 독립성 검정
- 귀무가설 : 요인 a와 요인 b는 독립적이다.
- 자유도 : (범주1의 수 - 1) * (범주 2의 수 -1) (더하기 아님!)
- 부트스트랩 자료 생성은 배깅과 연관.
- 머하웃 : 분산 처리 가능 + 확장성을 지닌 머신러닝용 라이브러리.
- 콜모고로프-스미노프 검정 : 특정 분포를 따르는지 검정하는 비모수 통계 기법.
빅데이터 결과 해석
- 재현율 : 실제 P 중 예측도 P인 것. 모델의 완전성 평가 지표.
- 향상도 곡선 : 빠른 속도로 감소할수록 좋음.
- 쿡의 거리 : 전체 모형에서 한 개의 특정값이 제외됐을 때, 최소제곱추정치 벡터의 변화를 표준화한 척도.
- K-Fold : MSE의 평균을 모델의 MSE값으로 사용.
- 매개변수 최적화
- SGD는 이해와 구현이 용이하나 성능이 딸림.
- 앙상블 (분석 모형 융합)
- 다수결은 여러 분류기로 학습 후 투표로 최종 모델 선정.
- 배깅은 일반적 모델 생성이 목적, 부스팅은 난제 해결에 초점.
- 랜덤 포레스트 : 배깅과 부스팅보다 더 많은 무작위성을 부여해 여러 약한 모델을 생성하고 이를 결합하여 종속변수를 예측 및 분류.
- Adaboost : 약한 모형을 순차적으로 적용하며 잘 분류된 샘플의 가중치는 하향, 잘못 분류된 샘플 가중치는 상향시켜 샘플분포를 바꿔나감.
- 분석모델 배포 과정의 일반적 이슈 : 서로 다른 환경으로 인한 프로세스 단절, 성능 모니터링 부재, 규제 요구 사항 준수, 모델 저장소 부재.
- 분석 모델의 정상적 실행 여부는 주기별 모니터링 (실시간 아님)
- 최종모형 선정 과정 : 평가기준 선정 - 분석결과 검토 - 알고리즘 결과 비교 - 챔피언 모델 등록
예문사 모의고사 1회
80문제 중 62문제 정답 (220926, 합격 - 14문제 여유 - 77.5점)
빅데이터 분석 기획
- 데이터 변환
- 정규화 : 정해진 구간으로 전환
- 일반화 : 특정 구간으로 스케일링
- 조직성과 평가 절차 : 목표 설정 - 모니터링 - 목표 조정 - 평가 실시 - 결과 피드백
- 데이터 레이크
- 정형, 비정형 등 다양한 유형의 데이터를 저장, 관리. 소스 데이터의 형태를 그대로 저장하여 메타 관리가 중요.
- 유의미한 데이터를 효율적으로 활용하고자 콘텍스트에 맞는 레이크쇼어 마트 구성.
- 데이터 수집 프로세스 : 수집 데이터 도출 - 수집 데이터 목록화 - 기관 확인 및 협의 - 데이터 유형 확인 및 분류 - 데이터 수집 기술 선정 - 수집 계획서 작성 - 수집 주기 정의 - 데이터 수집
- 빅데이터 요구사항 분석 절차 : 요구사항 수집 - 요구사항 분석 - 요구사항 명세 - 요구사항 검증 (요구사항을 파악하고 분석하여 리스트 확인 후 검증한다고 생각하면 될 듯)
- 데이터 품질 요소
- 유일성 : 데이터 구분 기준에 따라 중복이 없는 특성.
빅데이터 탐색
- 거리 측도 - 마할라노비스 거리 : 분포 고려. 평군으로 벗어난 정도를 측정해 이상값 검출.
- 데이터 정제 - 파싱 : 날씨 정보를 연, 월, 일 등으로 분할.
- 명목형 데이터는 카이제곱 검정으로 상관성 분석을 실시
- 공분산의 크기는 측정 단위에 따라 달라지므로 선형 관계의 강도를 나타내지 못함 → 상관계수 활용.
- 표본 추출 - 층화 추출 : 모집단을 겹치지 않는 계층으로 나누고, 계측별로 무작위추출. (예 - 동별 100명 선정해 설문조사)
- 점 추정 조건
- 불편성 : 모든 가능한 표본에서 얻은 추정량의 기댓값은 묍단 모수와 차이가 없음.
- 효율성 : 추정량의 분산은 작을수록 좋다.
- 일치성 : 표본의 크기가 아주 커지면 추정량이 모수와 거의 동일해짐.
- 충족성 : 추정량은 모수에 대해 모든 정보 제공.
빅데이터 모델링
- 자기조직화지도 : 군집화 + 차원축소 동시에 함.
- 회귀식은 선형성, 등분산성, 독립성, 정규성, 비상관성을 만족해야 함.
- K-means 클러스터링
- 군집 형성 후 타 군집으로 이동 가능.
- 초기값 지정 필요.
- 알고리즘이 단순하고 학습이 빨라 계층적 군집에 비해 대용량 데이터 학습에 적합.
- 정상성의 조건
- 평균 일정
- 분산이 시점에 의존하지 않음.
- 공분산은 시차에만 의존.
- 시점에 관계없이 시계열 특성 일정.
- 비모수 통계 검정
- 부호검정은 부호만을 기준으로 모집단의 중위수를 검정.
- 크루스칼-왈리스 검정은 순위 기반 일원분산분석이라고도 함.
- 윌콕슨 순위합 검정은 두 집단 간 중위수를 비교하는 비모수적 통계방법.
빅데이터 결과 해석
- 선형회귀모형의 가정
- 등분산성 : 오차항의 분산은 등분산.
- 선형성 : 종속변수는 독립변수의 선형 함수.
- 정규성 : 오차항의 평균은 0
- 독립성 : 독립변수끼리 상관관계가 없어야 함. → 더빈-왓슨 검정
- 학습률 : 경사하강법에서 다음 지점으로 얼마나 이동할지를 나타내는 초매개변수.
- 부스팅
- 약한 분석모형을 여러 개 결합해 강한 분석모형을 만듦.
- 분류가 잘되지 않은 데이터에 가중치 부여.
- 설명력이 높은 분석모형은 상대적으로 성능이 떨어지는 편.
- 히트맵 - 비교 시각화 / 산점도, 산점도 행렬, 버블 차트 - 관계 시각화
- 분석모형 리모델링 단계에서는 최종분석모형 선정 시 사용했던 평가 지표 활용.
이기적 모의고사 1회
80문제 중 67문제 정답 (220927, 합격 - 19문제 여유 - 83.75점)
빅데이터 분석 기획
- 정형 데이터 품질 진단 방법 : 메타데이터 수집 및 분석, 컬럼 속성 분석, 누락 값 분석, 값의 허용 범위 분석, 문자열 패턴 분석, 유일 값 분석, 구조 분석, 날짜 유형 분석, 특수 도메인 분석 등.
- DBMS는 DB to DB 방식으로 파일 동기화 및 전송.
- 상향식 접근 방식 : 생각지 못한 인사이트 도출 및 시행착오를 통한 개선 가능.
빅데이터 탐색
- 기댓값 식에서 계수를 다 더해 모평균이 나오는지로 불편성 파악. 계수의 제곱을 더해 작은 값이 더 효율성이 있다고 함.
- 차원의 저주 : 학습을 위해 차원이 증가하며 데이터가 차원의 수보다 적어져 성능이 감소하는 현상. 차원을 줄이거나 데이터를 늘리는 것으로 해결.
- 층화 추출
- 최적 배분법 : 추정량의 분산을 최소화시키거나 주어진 분산의 범위 하에서 비용 최소화
- 네이만 배분법 : 각 층의 크기와 층별 변동의 정도를 동시에 고려한 배정 방법.
- 비례 배분법 : 각 층 내의 추출단위 수에 비례해 표본 크기 배분.
- 모집단과 표본 통계량
- 표본분포의 평균은 모집단의 평균 (뮤)과 동일.
- 모집단의 표준편차가 시그마면, 표본분포의 표준편차는 시그마를 표본 개수 n의 제곱근으로 나눈 것.
- 모집단의 크기가 무한대로 수렴할 때, 표본평균의 표준오차는 시그마 / n의 제곱근임.
빅데이터 모델링
- 회귀분석의 진단
- 선형성 : 독립변수와 종속변수는 선형적.
- 잔차 정규성 : 잔차의 기댓값은 0, 정규분포를 따름.
- 잔차 독립성: 잔차는 상호 독립적.
- 다중 공선성 : 다중 회귀분석 수행 시, 3개 이상의 독립변수 간 상관관계로 인한 문제가 없어야 함.
- SVM
- 선형 혹은 비선형 분류로 이진 분류만 가능.
- 정확도가 높지만 처리속도가 느린 편.
- 시계열 모형
- 백색잡음 : 무작위 패턴.
- 이동평균법 : 시계열 자료를 대상으로 일정기간 이동하며 평균을 계산해 추세 파악.
- 정상성 : 시계열 데이터의 평균과 분산이 일정한 경우.
- 자기회귀모형 : 시계열이 시차값 사이 선형관계를 보이는 것을 자기상관이라 함. 자기상관성을 토대로 과거의 패턴이 계속되면 시계열 데이터 관측치는 과거 데이터로 예측 가능함.
빅데이터 결과 해석
- 표본추출
- 군집추출 : 특정 군집에 대해서만 추출하기에 단순무작위 추출보다 편향성이 증가할 우려가 있음.
- 집단으로 나눈다는 표현이 있다고 무조건 군집추출은 아니다.
- ROC 곡선
- x, y축은 0~1을 범위로 하고, x축은 1-특이도, y축은 민감도 값을 가짐.
- 이진분류기의 성능 지표.
- 선형회귀분석 : 잔차의 제곱합이 최소가 되는 직선을 찾는 분석.
- 크로스 엔트로피 : 분류모델에 대한 손실함수
- 적합도 검정 : 표본의 실제값에 대한 회귀식 설명력을 확인.
수제비 모의고사 1회
80문제 중 66문제 정답 (220927, 합격 - 18문제 여유 - 82.5점)
빅데이터 분석 기획
- EAI, ETL, 크롤러는 빅데이터 수집 기술 / NoSQL은 빅데이터 저장 기술
- 분석가치 에스컬레이터 (가트너)
- 묘사 분석 (기술 분석) : 과거와 현재의 상황 분석
- 처방 분석 : 무엇을 해야 하나?
- 예측 분석 : 무슨 일이 일어날까?
- 높은 난이도의 데이터 분석일수록 더 많은 가치 창출
- HDFS : 네임 노드와 데이터노드가 있음 (master - slave)
- RSS : XML 기반으로 정보를 배포하는 프로토콜을 활용해 데이터 수집.
- 아파치 카프카 : 레코드 스트림을 발행, 구독하는 방식의 분산 스트리밍 플랫폼 기술
- 구매정보는 실시간 데이터가 아님.
- 가명처리 4단계 절차 : 사전준비 - 가명처리 - 적정성 검토 및 추가처리 - 사후관리
- 개인정보의 최소처리 원칙을 지켜야 함.
빅데이터 탐색
- 단순 확률 대치법 : 핫덱 대체, 콜드덱 대체, 혼합 방법이 있음.
- 데이터 이상값 검출 방법 : 데이터 관찰, 통계값, 시각화, 머신러닝, 마할라노비스, LOF, iForest
- 시각화
- 데이터가 큰 지역의 면적을 강조 - 카토그램
- 위도와 경도를 사용해 좌표를 원으로 정의 - 버블 플롯맵
- 연속확률분포
- 모표준편차를 모르면 T-분포.
- 독립적인 카이제곱 분포가 있을 때, 두 확률변수의 비는 F-분포.
- 가설검정
- 신뢰수준 : 추정값이 존재하는 구간에 모수가 포함될 확률.
- p-value : 귀무가설이 옳다는 가정 하, 통계량이 귀무가설을 얼마나 지지하는지 나타낸 확률
- T-분포
- 정규분포의 평균 (뮤) 해석에 자주 쓰임.
- T-분포에서 자유도는 n-1
- 표본평균의 표준오차
- 표준오차는 0 이상의 값을 지님.
- 표본평균의 표준편차.
- 모집단의 표준편차가 커지면 표본평균의 표준오차도 커짐.
- 군집추출 : 모집단을 여러 군집으로 나눈 후, 일부 군집의 전체를 추출.
빅데이터 모델링
- 분석모형 구출 절차 : 요건 정의 - 모델링 - 검증 및 테스트 - 적용.
- 분류 - 신용 위험, 특정 고객 분류, 분실 및 복제와 같은 오용 분류 등
- RNN
- 음성신호, 연속적 시계열 데이터 분석에 적합.
- 확률적 경사 하강법, 시간 기반 오차 역전파로 가중치 업데이트.
- 의사결정나무 구성 요소
- 뿌리 마디 : 전체 데이터를 포함하는 시작되는 마디
- 가지 : 뿌리 마디에서 끝마디까지 연결된 상태의 마디.
- 깊이 : 뿌리 마디부터 끝마디까지의 중간 마디의 수.
- 자식 마디 : 하나의 마디에서 분리돼 나간 2개 이상의 마디.
- 부적합 변수 생성 : 편향을 발생시키진 않지만 과대적합을 야기.
- 활성화 함수 : 계딴함수, 부호함수, 선형함수, 시그모이드함수, tanh 함수, ReLU 함수 등
- 회귀모형의 가정 : 선형, 독립, 등분산, 비상관, 정상성
- 로지스틱 회귀분석 : 독립변수가 한 개라면, S자 혹은 역S자 모양을 가짐.
- 비모수 통계 : 표본이 커질수록 간단하나 반복 계산이 발생.
빅데이터 결과 해석
- 일원배치분산분석 : 집단 간 - 자유도 k-1 / 집단 내- 자유도 n-k
- 분산분석 ANOVA : 두 개 이상의 집단 비교를 수행할 때, 집단 내 분산, 집단 간 분산 비교로 얻은 F-분포로 가설검정.
- 적합도 검정 - 카이제곱 검정
- 가정된 확률 검정.
- 이를 만족하면 귀무가설 채택.
- R의 chisq.test() 함수 사용.
- 버블 차트 : 관계 시각화 기법 중 하나 (산점도, 산점도 행렬, 네트워크 그래프 등).
- 아이디어 개발 관점 : 마인드맵, 친화 도표, 피라미드 방식
- 부트스트랩
- 데이터의 크기만큼 샘플을 추출해 이를 훈련데이터로 선정.
- 무작위 복원 추출.
데이터에듀 모의고사 1회
80문제 중 64문제 정답 (220928, 합격 - 16문제 여유 - 80점)
빅데이터 분석 기획
- 데이터 3법
- 2020년 8월 시행. 빅데이터 3법 또는 데이터 경제 3법이라 불림.
- 법의 중복 규제를 없애 개인과 기업의 정보 활용폭을 늘리고자 마련.
- 가명정보의 개념 도입.
- 분석과제 발굴 방법 : 업무, 제품, 고객, 규제&감사, 지원 인프라
- 상향식 접근방식의 데이터 분석은 일반적으로 비지도 학습 방법으로 수행.
- 식별자
- 개인을 식별할 수 있는 속성.
- 암호화된 값도 식별자에 속함.
- 비식별 조치 시, 무조건 삭제.
- HDFS
- 자바로 구현. 다양한 서버 지원.
- 다수의 리눅스 서버에 설치 및 운영. 확장성이 좋아 페타바이트 이상의 대용량 데이터 저장 공간 확보 가능.
- 사용자의 직접 접근 권한을 지원하지 않음
빅데이터 탐색
- 산포 측도 : 분산, 표준편차, 변동계수, 사분위수, 평균의 표준오차 등.
- 무작위 결측 : 실제 데이터에서 가장 빈번. 특정 변수의 결측치가 다른 변수에 영향을 받으나 해당 변수의 비관측값들과는 서로 연관되지 않은 경우.
- 구간측정 : 확률로 표현된 신뢰도 아래, 모수가 특정값이라 추정할 때 모수의 범위.
- 상관계수
- 피어슨 : 연속형 변수. 정규성 가정.
- 스피어만 : 순서형 변수. 비모수적 방법. 비선형적 관계 측정 가능.
- 데이터 변환
- 데이터 스케일링 : 데이터의 범위가 같아지도록 변수별로 값을 비례적으로 조정하는 과정
- 표준화와 정규화가 주로 쓰임.
- 표준 정규 분포로 변환하는 것은 표준화.
- Z-Score 표준화 - 평균 0, 표준편차 1.
- 범주형 자료 분석 - 교차분석, 동질성 검정, 독립성 검정.
- 이상치 판별
- 상자그림
- 군집화
- ±3 * 표준편차
- 기하평균에서 ±2.5 * 표준편차
- 단순 확률 대치법
- 평균 대치법에서 추정량 표준오차가 과소 추정되는 문제 보완
- 평균 대치법에서 추정된 통계량으로 대치 시, 적절한 확률값 부여 후 대치
- Nearest Neighbor : 결측치가 범주형이면 이웃 데이터 중 최빈값으로, 연속형이면 중앙값으로 대치.
- 오버샘플링 : SMOTE, Borderline SMOTE, ADASYN
빅데이터 모델링
- SVM은 데이터가 표현된 공간에서 분류를 위한 경계 정의. 각 그룹의 분류자를 결정 초평면이라 함.
- 지수평활법 : 모든 시계열 자료를 사용해 평균을 구하고 최근 시계열에 더 많은 가중치 부여. 단기간의 불규칙변동을 평활하는 방법. 중기예측 이상에 주로 사용.
- 로지스틱 회귀분석의 결과 : 데이터가 특정 범주에 속할 확률.
- 나이브 베이즈 분류
- 데이터에서 변수에 대한 조건부 독립을 가정.
- 텍스트 분류에 대한 솔루션으로 활용 가능.
- 베이즈 정리는 두 확률변수의 사전과 사후 확률 간의 관계를 나타내는데 나이브 베이즈 알고리즘의 기본 개념.
- RNN
- 신경망 내부에 상태 저장. 시퀀스 형태의 데이터 입력을 처리 및 예측.
- 내부가 순환 구조. 은닉층이 이전 데이터 참조.
- 윌콕슨 부호 순위 검정 : 단일 표본에서 중위수 검정, 대응 표본의 중위수 차이 검정에 활용.
빅데이터 결과 해석
- AUC는 0.5~1의 값.
- 카파 통계량 - 0.2~0.4 : 어느 정도의 일치.
- 군집 모델 평가지표
- 던 지수 : 군집 간 거리의 최솟값 / 군집 내 요소간 거리의 최댓값
- 실루엣 계수 : 군집 내 응집도와 군집 간 분리도 활용. -1~1의 범위.
- 카이제곱 검정
- 가정된 확률이 정해져 있을 때 사용.
- 관측 데이터가 가정 확률을 따르는지 확인.
- R - chisq.test()
- 가정 확률을 따른다면 귀무가설 채택.
- 분산분석
- 검정통계량인 F값은 집단 내 분산 대비 집단 간 분산이 몇 배 큰지 표현.
- 독립변수의 개수에 따라 일원배치, 이원배치, 다원배치가 있음.
- 분산을 계산하여 집단 간 통계적 차이를 판단.
- 카토그램 : 데이터 값의 변화에 따라 지도 면적이 왜곡되는 지도. 변량비례도라고 함.
- 배포 : 분석 모델을 운영계 환경과 통합하고 실행. 다양한 언어로 개발된 모델의 성능 평가 후, 챔피언 모델 선정 및 배포.
- 분석 결과 활용 시나리오
- 분석 서비스 시나리오 : 사용자의 눈높이에 맞춘 설명.
- 활용 시나리오 도출 과정 : 데이터셋, 정보 기술 - 시나리오 작성 - 스토리보드 기획.
- 모니터링 플랫폼 측정 항목 : 응답시간, 사용률, 정확성, 가용성.
- 리모델링
- 최적화 : 조건 변화 혹은 가중치 변화 시 계수 값 조정 및 제약조건 추가해 재조정.
- 시뮬레이션 : 업무 프로세스 KPI 변경 또는 주요 시스템 원칙 변경, 발생 이벤트 증가 등에 따라 성능 평가하고 재조정.
- 데이터 마이닝 : 최신 데이터 적용이나 변수 추가 방식으로 분석 모형 재조정.
예문사 모의고사 2회
80문제 중 60문제 정답 (220928, 합격 - 12문제 여유 - 75점)
빅데이터 분석 기획
- 데이터 확보 계획 : 목표 정의 - 요구사항 도출 - 예산안 수립 - 계획 수립
- HDFS
- 다수의 저사양 서버를 이용해 대용량의 공간을 효율적으로 구성 가능.
- 네임노드 : 디렉토리명, 파일명, 파일 블록 등의 메타 데이터를 관리하는 마스터 역할.
- 저장하려는 파일을 특정 크기의 블록 단위로 나누너 분산 서버에 저장하는데 유실 방지를 위해 블록을 3중 복제함.
- NoSQL의 유형 : Key Value Database, Wide Column Database, Graph Database, Document Database
- 하향식 분석 문제 정의 : 문제 탐색 - 분석 문제 정의 - 해결방안 탐색 - 타당성 평가 및 과제 선정.
- 빅데이터 저장 기술
- GFS : 마스터, 청크 서버로 구성.
- 맵 리듀스 : 대용량 데이터를 저사양 서버로 구성된 클러스터 환경에서 병렬 처리를 지원하기 위해 만들어진 프레임워크. 맵 - 데이터 분할, 리듀스 - 분할 데이터 재결합 과정.
- 클라우드 컴퓨팅 - AWS, GCP, Azure 등
- S3 : AWS에서 제공하는 파일시스템 저장소
빅데이터 탐색
- 결측치
- 결측값이 20% 이상이라면 해당 변수를 제거하는 것을 권장.
- 관측치가 모종의 사유로 입력되지 않고 기본값이 입력됐다면 결측치로 취급해선 안됨.
- 이상치
- 설명변수의 관측치에 비해 종속변수의 값이 상이한 케이스
- 군집분석 : 군집으로 묶이지 않으면 이상치. 단순히 거리만 기준으로 삼지 않음.
- 마할라노비스 거리 : 멀리 떨어지면 이상치.
- 주성분 분석
- 차원 감소폭은 전체 변이의 공헌도, 평균 고윳값, scree plot 등을 활용.
- P개의 변수를 중요한 M개의 주성분으로 표현해 전체 변동을 설명. M개의 주성분은 변수들의 선형 결합으로 표현.
- 변수 사이의 구조를 이해하는 것은 어려움.
- t-분포 : 연속형 확률 분포 중 표준정규분포처럼 평균이 0을 중심으로 대칭인 분포를 따르고, 두 집단의 평균이 동일한지 파악하는 검정 통계량으로 활용.
- 표본 조사
- 표본 편의 : 표본 추출 방법에서 기인하는 오차.
- 확률화 : 표본 편의의 최소화 및 삭제 방법. 모집단으로부터 편의되지 않은 표본을 추출하는 절차. 확률화 절차에 의거해 추출된 표본을 확률 표본이라 함.
- p-value : 귀무가설이 참이지만 거짓이라고 판단할 때의 실제 확률.
빅데이터 모델링
- 회귀변수 - 독립변수가 많은 경우
- 설명력이 작아짐.
- 추정치의 표준오차가 커짐.
- 회귀식의 적합도 및 타당도 감소.
- 지니지수 계산 : 1-(해당 모형 확률 ^ 2의 합)
- 의사결정나무
- 부모마디 : 자식마디의 상위 마디
- 자식마디 : 하나의 마디에서 파생된 2개 이상의 마디
- 가지 :하나의 마디로부터 끝마디까지 연결된 마디
- 깊이 : 가지를 구성하는 마디의 개수
- 정지 규칙 : 분리가 가능하나 분리를 멈추고 현재 마디가 끝마디가 되도록 하는 규칙.
- SVM : 과적합 가능성 낮음.
- 계층적 군집 분석
- N개의 군집으로 시작해 군집 간 거리를 기준으로 가장 가까운 군집끼리 병합.
- 덴드로그램으로 표현 가능.
- 군집 수를 사전에 정하지 않아도 됨.
- MANOVA
- 2개 이상의 종속변수에 대한 분산분석.
- 종속변수 간 상관관계가 있는 경우, 결합된 차이 확인 가능.
- 각 집단의 공분산이 동일해야 함.
- 가정을 위배한 경우, pilai's trace로 가장 유의한 결과 출력
- 정상성
- 평균이 일정하지 않은 경우 - 차분
- 분산이 일정하지 않은 경우 - 변환
빅데이터 결과 해석
- 수정된 결정 계수
- 수정된 결정 계수 < 결정 계수
- 유의한 독립변수를 제거하면 수정 결정 계수의 값은 감소.
- 독립변수 개수가 다른 모형끼리 비교 가능.
- k-fold 교차 검증
- 일반적으로 k는 5나 10으로 지정.
- 분류 문제에서는 층화 k-fold 교차 검증을 취함.
- 카이제곱 검정
- 관측치의 비율값이 기대 비율값과 동일한지 검정.
- 독립성, 적합도, 동질성 검정에서 활용.
- 과소적합 - 모든 데이터에서 성능이 낮음.
- 순열 변수 중요도
- 변수 값을 무작위로 섞어 해당 변수를 노이즈처럼 만들어 변수 중요도를 평가하는 방법.
- 무작위로 섞기에 매번 값이 달라질 수 있음.
- 변수 제거와 모형 학습을 반복하지 않아도 된다는 장점. (재학습 불필요)
- 순현재가치 NPV : 투자 시작 지점부터 비즈니스 종료 시점까지의 연도별 편익과 비용을 현재가치로 환산한 것.
- 분석 결과 활용
- 분석 모형 전개 - 분석 결과 활용 시나리오 개발 - 분석 모형 모니터링 - 분석 모형 리모델링
- 분석 모형 전개 : 데이터 분석 결과를 확장 적용.
- 재학습은 분석 모형 모니터링 단계에서 실시됨.
이기적 모의고사 2회
80문제 중 54문제 정답 (220928, 합격 - 6문제 여유 - 67.5점)
빅데이터 분석 기획
- 데이터 리터러시 - 데이터 분석 시대
- 기업들의 데이터 사용 제약 - 데이터 권리 시대
- 센서 네트워크 : 유비쿼터스 컴퓨팅 구현을 위해 초경량 저전력 다센서로 구성된 유무선 네트워크
- 빅데이터 분석 절차 (일반적) : 문제 인식 - 연구 조사 - 모형화 - 데이터 수집 - 데이터 분석 - 분석 결과 제시
- 개인정보 제3자
- 처리 위탁 : 개인정보처리자의 업무 처리 목적
- 제3자 제공 : 해당 정보를 제공받는 자의 고유 업무 처리 목적 및 이익을 위함.
- 개인정보 이전 : 제3자에게 이전되거나 공동으로 처리하게 되는 것.
- 분석 문제 정의
- 동적인 환경에서 발산과 수렴을 반복하며 상호 보완을 통해 분석 가치를 극대화하는 혼합방식으로 최적의 의사결정을 할 수 있음.
- 프로토타이핑 접근법은 실험이 아닌 진화에 가까움.
- 분석 프로젝트 속성
- 결과 활용 : 정확도 / 분석 모형의 안정성 : 정밀도
빅데이터 탐색
- PCA
- 분산이 가장 큰 방향으로 가정.
- 변수의 선형결합으로만 고려
- 스케일의 영향이 큼.
- 정규분포화
- 우측 쏠림 = 좌측으로 꼬리 김 = Negative Skew : 로그로 변환
- 극단적 우측 치우침 : 역수를 취함
- 좌로 약간 치우침 = 우측으로 꼬리 김 = positive skew : 제곱
- 비확률표본 추출법 - 판단추출법 : 조사자가 자신의 지식과 경험을 토대로 모집단을 가장 잘 대표한다고 여겨지는 표본을 주관적으로 선택하는 방법
- 지수분포 : 50시간 동안 정상 - 2000시간 정상일 확률 → p(x>2000) / p(x>50)
- t-분포 : 자유도가 1보다 클 때, 기대값 0
- 편향
- 기대 추정량과 모수의 차이
- 불편추정량 : 편향이 0이 되는 상황의 추정량
- 표본평균은 불편추정량이지만 표본분산은 불편추정량 아님.
- 신뢰구간 : 95% 신뢰수준 → 1.960
- 표본크기 : 1/4(z-통계량값 * 1/d (추정오차))^2 (비율에 대한 정보가 없어 p=1/2로 가정)
- 가설검정
- 유의수준 : 1종 오류 확률
- 임계치 : 유의수준 (알파)에서 귀무가설 채택 여부의 기준값
- 귀무가설의 기각 여부는 p-value와 유의수준의 크기에 의거. p-value가 작을수록 유의수준이 클수록 귀무가설 기각 가능.
빅데이터 모델링
- 정보획득 : 정보이론에서 순도가 증가하고, 불확실성이 감소하는 것. 사건의 발생률이 높아지면 가치가 줄어듦.
- 의사결정나무 - 카이제곱 검정 : 관찰 빈도와 기대 빈도의 차이가 커질수록 순수도 증가 → 가장 큰 예측 변수로 자식마디 형성
- 의사결정나무
- 구조가 복잡해지면 해석력 감소
- 연속형, 범주형 모두 가능
- 데이터 변형에 민감.
- 마케팅, 부도 예측, 시장조사 등에 활용.
- 부트스트래핑 : 랜덤포레스트의 앙상블 학습 기반
- 인공신경망
- 가중치와 입력값이 활성화함수를 통해 전달.
- 노드는 뉴런, 가중치는 시냅스에 비유.
- 오토인코더 : 다차원 데이터를 저차원으로, 다시 저차원 데이터를 고차원 데이터로 바꾸며 특징을 찾는 비지도학습 알고리즘.
- 교차분석 : 범주형 변수의 두 변수간 연관성 검증에 쓰임. 카이제곱 통계량 활용.
- 시계열 데이터
- 백색잡음 : 자기상관성이 없는 무작위 시계열 데이터
- 자기상관성 : 시차값 사이 선형 상관관계를 띠는 것
- 문서 분류 - 나이브 베이즈 모델 활용
- 심층 신뢰 신경망 DBN : 잠재변수의 다중계층으로 구성. 계층 간 연결이 있으나 계층 내 유닛 간에는 연결 없음.
빅데이터 결과 해석
- MSE : 잔차제곱합에 평균을 취한 값. 주요 회귀지표 중 하나
- K-Means 절차 : k 선택 - 각 개체를 최근접 중심에 할당 - 군집 내 자료의 평균 계산 후 중심점 갱신 - 상기 과정 반복하며 최종 군집 형성
- K-Fold (K=5)
- 훈련 데이터셋을 5개의 Fold로 구분.
- 테스트 횟수는 총 6회 (최종 테스트 포함)
- 다차원척도법
- 모든 변수를 비교해 비슷한 대상을 그래프에서 가깝게 배치
- 다차원척도법은 대상의 상대적 거리를 표현하기에 실제 좌표값과 다름.
- 원래의 차원보다 낮은 차원으로 위치시킬 수 있음.
- 유사한 특징을 지닌 데이터끼리 뭉쳐짐.
- 분석모형 리모델링
- 현재 진행 중인 분석 프로젝트의 성능을 유지, 개선하기 위한 활동
- 성능 모니터링, 분석 알고리즘 개선, 매개변수 최적화 포함
수제비 모의고사 2회
80문제 중 59문제 정답 (220928, 합격 - 11문제 여유 - 73.75점)
빅데이터 분석 기획
- 킬로 10^3 - 메가 - 기가- 테라- 페타 - 엑사 - 제타 (2^70) - 요타 (10단위로 하면 3승씩, 2단위로 하면 10승씩 상승)
- 데이터 분석구조 : DSCoE가 아니면 그냥 부서에서 알아서 하는 것 - 기능 구조
- CRISP-DM : 업무 이해 - 데이터 이해 (데이터 수집 및 속성 이해, 인사이트 발견) - 데이터 준비 (데이터 정제 등) - 모델링 - 평가 - 전개
- 분석 로드맵 : 분석체계 도입 - 분석 유효성 검증 - 분석 확산 및 고도화
- 우선순위 선정 매트릭스 (1- 2 -4 -3 순 시계방향, 좌측 상단부터)
- 난이도 기준 : 3 - 1 - 2
- 시급성 기준 : 3 - 4 - 2
- 내면 - 공통 (내면의 지식을 조직의 지식으로) - 표출 - 연결화
- 프로토타이핑
- 시행착오를 통해 문제해결.
- 상향식 접근 방식
- 가설 생성 - 디자인에 대한 실험 - 실제 환경에서의 테스트 - 결과로부터의 통찰 도출 및 가설 확인
빅데이터 탐색
- CEP (Complex Event Processing) : 실시간 이벤트 처리
- 데이터 변환
- 정규화 : 데이터를 특정 구간으로 바꿈
- 비닝 : 데이터 값을 몇 개의 버킷으로 분할해 계산
- 박스-콕스 : 데이터를 정규분포에 가깝게 만듦.
- 주성분 분석
- 변수의 공분산 행렬이나 상관행렬과 같은 정방행렬 이용
- 고차원 공간의 표본을 선형 연관성이 없는 저차원 공간으로 변환
- 이항분포 : 평균 - np, 분산 - npq
- 모평균 추정
- 신뢰구간의 길이는 표준오차에 비례, 표본 크기의 제곱근에 반비례
- 예) 표본 크기 9배 증가 - 루트 9 → 3배 증가
- 가설검정
- 유의수준 : 제 1종 오류를 범할 최대 허용확률 α
- 신뢰수준 : 귀무가설이 참일 때 이를 참으로 판단할 확률 1- α
- 베타 수준 : 제 2종 오류를 범할 최대 허용확률
- 검정력 : 귀무가설이 참이 아닐 때 이를 기각할 수 있는 확률 1-베타
- 표준오차
- 표본평균의 표준편차
- 시그마 / n의 제곱근
빅데이터 모델링
- 의사결정나무 알고리즘
- 불순도 측도 : CHAID - 카이제곱 통계량 / CART - 지니 지수
- QUEST의 분리규칙 : 분리변수 선택과 분리점 선택, 2단계로 시행
- C4.5, C5.0은 각 마디에서 다지분리 가능.
- 분석과정 : 의사결정나무 성장 (적절한 분리규칙 및 정지 규칙 지정) - 가지치기 - 타당성 평가 - 해석 및 예측
- 시계열 데이터
- 백색잡음 : 모든 개별 확률변수가 독립, 동일한 확률분포를 따르는 과정
- 분해 시계열 : 시계열에 영햐을 주는 일반적 요인을 시계열에서 분리
- 이동평균 모형 : 시간이 흐를수록 관측치의 평균값이 지속적으로 증가하거나 감소하는 시계열 모형
- 자기 회귀 모형 : 현시점의 자료가 p 시점 전의 유한개의 과거 데이터로 설명될 수 있다고 가정한 모형.
- SVM
- 구성요소 : 초평면, 마진, 서포트벡터, 결정경계, 슬랙 변수
- 패턴 인식, 글씨 인식 등에 활용
- 훈련 시간이 느린 편. 정확성이 우수하고 과대 적합 가능성이 낮음.
- 퍼셉트론 : 입력층과 출력층으로만 구성된 최초의 인공신경망 by 로젠블랏
빅데이터 결과 해석
- 일반화 오류 - 과대 적합, 학습 오류 - 과소 적합
- 검정 종류
- T-검정 : 두 집단 간 평균을 비교하는 모수적 통계 기법. 정규성, 등분산성, 독립성을 만족하면 적용.
- Z-검정 : 귀무가설에서 검정통계량의 분포를 정규분포로 근사할 수 있는 통계검정.
- 분산분석 ANOVA : 두 개 이상의 집단 간 비교. 집단 내 분산, 집단 간 분산 비교로 얻은 F-분포를 이용해 가설검정.
- 카이제곱 검정 : 범주형 변수가 정규분포를 따를 때, 빈도가 기대값으로부터 유의미한 차이가 있는지 검증.
- 정규성 검정 : 샤피로-윌크, K-S, 적합성 검정, Q-Q 플롯
- 매개변수 최적화 기법
- AdaGrad : 손실함수의 기울기가 큰 처음엔 많이 학습. 최적점에 가까워질수록 점차 학습률을 줄임.
- Adam : 모멘텀 + AdaGrad
- 총소유비용 TCO : 하나의 자산을 획득하고자 할 때, 주어진 기간 동안의 모든 연관 비용을 고려.
- 시각화
- 관계 시각화 : 산점도, 버블 차트, 히스토그램
- 버블 차트 : 산점도에 데이터값을 나타내는 점 또는 마크에 의미 부여.
데이터에듀 모의고사 2회
80문제 중 57문제 정답 (220929, 합격 - 9문제 여유 - 71.25점)
빅데이터 분석 기획
- CRM : 고객 관련 내외부 자료를 통합, 분석해 고객 중심의 자원 극대화. 이를 토대로 고객 특성에 맞는 마케팅 활동 전개
- 빅데이터 가치 산정 : 데이터 활용 방식, 새로운 가치 창출, 분석 기술의 발전
- STEP : social, technological, economic, political
- 디자인 씽킹 : 스탠포드 D-School - 감정 이입 Emphasize 강조
- 나선형 모델 : 진화적 프로토타입의 대표격. 처음 시도하는 프로젝트에는 용이하나 관리 체계가 부실하면 난이도 급상승.
- CRISP-DM : 6단계 구성. 모델 평가 - 모델링 단계
빅데이터 탐색
- 결측치 처리
- 단순확률 대치법 : 평균 대치법에서 결측치를 추정 통계량으로 바꿀 때, 적절 확률값 부여 후 대치
- 비조건부 평균 대치 : 관측 데이터의 평균값으로 대치
- 다중 대치 : 단순 대치를 한 번이 아닌 m번 수행해 m개의 가상 완전 데이터 생성. 통계량의 효율성 및 일치성 문제 보완.
- 표본추출 과정 : 모집단 결정 - 표집틀 선정 - 표본추출방법 결정 - 표본 크기 결정 - 표본추출
- 비확률표본추출방법 : 편의 표본추출, 눈덩이 표본추출, 할당 표본추출
- CNN (Condensed Nearest Neighbor) : 더 많은 데이터를 가진 집단의 관측치 중 밀집된 데이터를 제거하고 해당 집단을 대표할 수 있는 데이터만 남기는 것.
빅데이터 모델링
- 다중 회귀모형의 통계적 유의성은 F-통계량으로 확인. 이 때, 유의확률 (p-value)가 유의수준보다 작아야 통계적으로 유의.
- 향상도 : 연관분석에서 규칙이 우연에 의해 발생했는지 판단코자 연관규칙 내 항목의 연관성 정도를 측정.
- 순서척도 데이터 이용 - 나이브 베이즈, 랜덤 포레스트, 판별분석
- 분할적 군집분석 방법 : K-means, 밀도기반 군집분석, 혼합분포 군집
- 홀드아웃 : 데이터의 양이 불충분하거나 입력변수에 대한 설명이 충분할 때, 데이터를 무작위로 2개의 데이터로 구분.
- 주성분분석 vs 요인분석
- 요인분석은 변수 이름 지정 가능.
- 주성분분석으로 만들어지는 변수 관계는 대등하지 않음.
- 주성분분석은 목표변수를 고려하지만, 요인분석은 비슷한 성격으로 변수를 묶어 신규 변수를 만듦.
- 정상성
- 정상 시계열은 항상 평균값으로 회귀하려는 경향. 평균값 주변에서의 변동은 대개 일정.
- 정상시계열이 아니라면, 특정 기간의 시계열 데이터에서 얻은 정보를 다른 시기로 일반화 불가.
- 시계열의 확률적 성질이 시간의 흐름에 따라 불변.
- 분산 비일정 - 변환, 평균 비일정 - 차분
- 분석 알고리즘 선정 요소 : 데이터 볼륨, 데이터 유형, 분석 인프라, 분석 목적
- 앙상블
- 배깅 : 주어진 자료에서 여러 부트스트랩 자료를 만들고, 각 부트스트랩 자료에 예측모형을 만든 후 결합하여 최종 예측모델 생성.
- 랜덤 포레스트 : 약한 학습기를 생성하고, 이를 선형 결합하여 최종 학습기 만듦.
- 부스팅 : 예측력이 약한 모형을 결합해 강한 예측모형 생성.
빅데이터 결과 해석
- AUC 판단 기준 : 0.5~0.6 - 실패
- 이익도표 - 향상도 ; 해당 등급 반응률 / 기본 향상도 (전체 고객 중 실제 구매자 비율)
- Q-Q plot : 정규성 가정의 위배 기준이 모호하여 통계 기법의 보조로 사용하는 것을 권장.
- 평균제곱근오차 RMSE : 종속변수와 동일 단위로 설명 가능. 표준편차처럼 예측이 얼마나 빗나갔는지 정보 제공. 가장 일반적.
- 최종모형 선정 - 최종모형 평가 기준 선정 : 모델링 기법에 상관없이 정확도 기준.
- 데이터 시각화
- 공간 시각화 : 데이터 간 차이점과 유사성 확인
- 관계 시각화 : 한 수치의 변화로 다른 수치의 변화 예측.
- 비교 시각화 : 막대 그래프, 플로팅 바, 히트맵, 체르노프 페이스, 스타 차트 등.
- 빅데이터 분석 결과 적용 - 의사결정 : 데이터 탐색 - 대안 설계 - 대안 선택 - 실행 순. 기업의 효율성과 효과 극대화.
- 성능 추적 모니터링 척도
- 범주형 예측 : 추적신호
- 범주형 분류 : 정확도, 민감도, 정밀도
- 연속형 : MSE
- 모니터링 측정 항목
- 응답시간 : 서비스 요청 ~ 사용자 응답까지 걸리는 시간
- 가용성 : 서비스 장애없이 정상적으로 제공할 수 있는 능력
- 사용률 : 일정 시간 동안 정보시스템 자원의 정상적 사용 비율
- 정확성 : 정보시스템 산출물의 정확성
- 모델의 성능 저하를 눈치챘다면 가장 먼저 재학습을 시켜본다.
예문사 모의고사 3회
80문제 중 61문제 정답 (220929, 합격 - 13문제 여유 - 76.25점)
빅데이터 분석 기획
- 빅데이터 위기 요인
- 데이터 오용 - 알고리즘 접근권 제공, 알고리즘의 부당함에 대한 반증 방법 공개 요구, 알고리즈미스트
- 사생활 침해 - 동의에서 책임제로
- 책임원칙 훼손 - 결과 기반 책임원칙 고수
- 반정형데이터 수집 - scribe, chukwa, flume, sensing, streaming
- 하둡 에코시스템 - 데이터 수집 : chukwa, scribe, sqoop
- Impala : 실시간 SQL 질의 시스템
- CRISP-DM : 업무 이해 - 데이터 이해 -데이터 준비- 모델링 - 평가 - 전개
- HDFS
- 메타 관리의 네임노드 - 파일이 저장되는 데이터 노드로 구성
- 파일일 특정 크기의 블록으로 분할해 데이터 노드에 3중 저장.
- 저사양의 많은 서버로 이루어져 저렴.
- NoSQL - CAP 이론
- 분산 컴퓨팅 환경은 일관성, 가용성, 분산성의 3가지 특징을 가지고 있으나 이 중 2가지만을 충족시킬 수는 없음.
- 일관성 : 모든 사용자에게 동일 시점에 동일 데이터 제공
- 가용성 : 특정 노드에 장애가 생겨도 다른 노드는 정상 작동해야 함.
- 분산성 : 물리적으로 네트워크가 분리되어도 시스템이 작동해야 함.
빅데이터 탐색
- 데이터 정제 - 보강
- 데이터의 일관성 유지
- 변환, 파싱, 수정, 표준화 등으로 추가정보를 반영
- iForest 기법 : 관측치 사이의 거리와 밀도에 의존치 않고, 의사결정나무로 이상값 탐지.
빅데이터 모델링
- 데이터 분할
- 시계열 분석의 경우, 최신 데이터를 테스트 데이터로
- 분할된 데이터는 전체 데이터에 대해 대표성을 띠어야 함.
- 지도 학습 : 연관 분석, SVM, 의사결정나무
- 의사결정나무
- 구조가 단순해 해석 용이
- 정지 규칙으로 과적합 방지
- 연속, 범주형 변수 모두 활용
- 가지치기 : 불필요 마디 제거
- 정지 규칙 : 더 이상 분리가 일어나지 않도록 현재 마디가 끝마디가 되게 함.
- 분리 기준 : 부모마디보다 자식마디의 순수도가 증가하도록 함.
- 포화 상태 : 활성화 함수는 대체적으로 입렵값이 커지면 기울기가 작아지고 평평해짐. 이 경우, 활성화 함수가 편향되어 과적합 발생하므로 입력값을 작게 유지해야함.
- 자기지도학습 SOM
- 입력층과 경쟁층으로 구성.
- 입력 패턴과 가장 유사한 경챙층 뉴런이 승자가 되어 경쟁층에 승자 뉴런만 표현됨.
- SVM
- 지도 학습
- 분류, 회귀 모두 수행
- 고차원 혹은 무한 차원의 공간에서 초평면의 집합을 찾음.
- 카이제곱 검정 - 적합도 검정 : 귀무가설 - 집단의 분포와 기대 분포가 같다.
- 시계열 - 이동평균 모형 : 관측치의 평균이 지속적으로 증가하거나 감소하는 경향을 모형으로 구성.
- CNN : 합성곱 연산으로 이미지에서 필터를 이용해 특징을 추출한 피처맵과 서브샘플링 연산으로 화면의 크기를 줄여 차원 축소
- SNA 주요 속성 : 명성, 범위, 중개, 응집력, 구조적 등위성
빅데이터 결과 해석
- 회귀모형 평가 지표
- 이상치가 있는 데이터에 적합 : MAE, MAPE
- 절댓값을 사용하기 때문.
- 분산 분석
- F분포 사용
- 그룹 간 평균이 같은지 검증
- 3개 이상 집단 비교 가능
- t-test와 같은 목적으로 사용 가능.
- Q-Q plot
- 해석이 주관적일 수 있음.
- 정규성의 확인 방법.
- 한쪽으로 쏠리면 안됨.
- 경사하강법
- 배치 경사하강법은 미니 배치보다 시간이 오래 걸리지만 부드럽게 수렴.
- 미니 배치는 확률적 경사하강법보다 느리지만 오차율이 낮음.
- 확률적 경사하강법은 무작위로 선정한 1개의 데이터 샘플 사용.
- 부분 의존도 플롯 PDP
- 회귀, 분류 모두 사용 가능
- 예측 모형의 한 독립변수가 종속변수에 어떤 영향을 주는 알고 싶을 때 활용.
- 전역적 방법론 (독립 -종속변수 전체적 관계 파악)
- 비즈니스 기여도 평가
- 순현재가치 : 편익의 현재가치 - 비용의 현재가치
- 내부 수익률 > 요구 수익률, 투자 적합.
이기적 모의고사 3회
80문제 중 60문제 정답 (220929, 합격 - 12문제 여유 - 75점)
빅데이터 분석 기획
- OLAP, OLTP 비교
- OLTP : 데이터 복잡 / OLAP : 데이터 단순
- OLTP : 응답시간 빠름 / OLAP : 수 초 ~ 몇 분 사이
- OLTP : 데이터 액세스 많음 / OLAP : 데이터 액세스 보통
- 빅데이터는 새로운 시장 참여자에게 진입장벽이고, 기존 플레이어에게는 경쟁 우위를 제공.
- 데이터 산업 진화 과정 : 처리 - 통합 - 분석 - 연결 - 권리
- 분산형 조직 구조
- 전사 차원에서 분석과제의 우선순위 선정
- 전문 인력의 부서 배치
- 현업에 빠르게 적용.
- 개인정보
- 개인을 식별할 수 있는 정보
- 다른 정보와 결합해 알아볼 수 있는 정보 포함
- 생존 중
- 내용 및 형태에 제한 없음
- 분석과제 우선순위 조정 시 고려사항
- 분석 과제의 전 범위 일괄 적용, 추진 가능.
- 분석과제 중 일부만 PoC로 진행 후 범위 확대 가능
- 기존 시스템과 별도로 시행해 난이도 조율 가능.
- 분석 방법론
- 반복적 모형 : 시스템을 여러 번 나누어 출시
- 폭포수 모형 : 요구 사항 도출 어려움.
- 원형 모형 : 프로토타입 폐기 발생.
- 나선형 뫃여 : 계획수립 - 위험분석 - 개발 - 고객평가 순.
- 분석 프로젝트 관리
- Accuracy : 모형과 실제 값의 차이를 측정
- Precision : 결과의 일관성 측정.
- 모형의 정확도와 복잡도는 Trade-off
- 데이터 범주화 : 감추기, 랜덤 라운딩, 범위 방법
빅데이터 탐색
- 데이터 정제
- 정체를 하지 않으면, 데이터 구성의 일관성이 없어짐.
- 후처리 : 데이터 저장 후의 처리를 이름. 저장 데이터의 품질 관리 등.
- 단순확률 대치법 : 평균 대치법에서 추정량 표준오차의 과소 추정을 보완. Hot-deck 방법이라고도 함.
- 주성분 분석
- 서로 연관성 있는 고차원 공간의 데이터를 선형 연관성이 없는 저차원(주성분)으로 변환하는 과정 (직교변환 활용)
- 차원 축소에 널리 사용. 분포 가정 없음.
- 차원 축소는 원 변수가 서로 상관있을 때만 가능.
- 위상적 공간 타입 : 공간 객체간의 관계. 방위, 공간 객체 간의 중첩, 포함, 교차, 분리 등과 같은 위치적 관계
- 정준분석
- 두 변수집단 간의 연관성을 각 변수집단에 속한 변수 간 선형결합의 상관계수를 이용해 분석.
- 정준상관계수 : 정분변수 사이의 상관계수
- 두 집단에 속한 변수 개수 중 변수의 개수가 적은 집단에 속한 변수의 수만큼 정준변수 상이 생성될 수 있음.
- 표본추출오차
- 표본에서 선택된 대상이 모집단의 특성을 과잉 대표하거나 최소 대표할 때 발생.
- 과잉 대표 : 중복선택 등이 원인. 모집단이 반복 혹은 중복된 데이터만으로 규정되는 현상.
- 최소 대표 : 실제 모집단의 대표성을 나타내지 못하는 데이터가 표본이 되는 현상.
- 표본추출 시, 표본 사이즈보다 대표성을 지니는 표본을 추출하는 것이 중요.
- 표본평균은 불편추정량이지만, 표본분산은 아님. (n이 아닌 n-1로 나누는 이유)
빅데이터 모델링
- 다중회귀분석 결과 해석 순서 : 다중공선성 진단 - 회귀계수 유의성 확인 - 수정된 결정계수 확인 - 모형의 적합도 평가
- 정보획득 : 정보이론에서 순도가 증가하고 불확실성이 감소하는 것.
- 의사결정나무 - CART : 범주형, 이산형 - 지니지수 / 연속형 : 분산의 감소량을 활용한 이진분리
- 일반적 신경망 알고리즘 학습 프로세스 : 미니배치 - 가중치 매개변수 기울기 산출 - 매개변수 갱신
- 앙상블
- 앙상블 값은 다수결로 결정되고, 0 또는 1의 값.
- 약학습기 : 오차율이 일정 확률 (대개 50%) 이하인 학습 규칙
- 강학습기 : 약학습기보다 강한 학습 규칙
빅데이터 결과 해석
- 모델의 과대적합 방지 : 드롭아웃, L1, 2규제, 편향-분산 trade-off
- 군집분석의 타당성 지표 : 군집간 거리, 군집 지름, 군집의 분산
- 결합분석 모형
- 두 종류 이상의 결과변수를 동시에 분석 가능
- 변수 간 유의성, 관련성 설명.
- 분류모델 시각화 : 의사결정트리, SVM, KNN
- 분석 프로젝트 성과 평가
- 정량적, 정성적 지표 모두 고려.
- 리모델링은 성과 평가 결과에 달림.
수제비 모의고사 3회
80문제 중 60문제 정답 (220930, 합격 - 12문제 여유 - 75점)
빅데이터 분석 기획
- 빅데이터의 특징
- 휘발성 Volatility : 데이터가 얼마나 오래 저장되고, 타당하여 오래 쓰일 수 있는지에 대한 성질
- 정확성 Validity : 규모가 아무리 커도 질 높은 데이터로 정확한 분석을 해야 함.
- 다양성 Variety : 정형 + 비정형 + 반정형 데이터
- 연결화 : 형식지끼리 상호결합으로 새로운 형식지 창출.
- 동의없는 가명정보 처리 : 통계 작성, 과학 연구, 공익 목적
- 하향식 접근 방식
- 문제 탐색 (분석 유스케이스 정의 포함) - 문제 정의 - 해결방안 탐색- 타당성 검토 - 선택
- 업무, 고객, 규제&감사, 지원 인프라, 제품의 5가지 영역으로 비즈니스 분석
- 상향식 접근 방식 : 프로세스 분류 - 프로세스 흐름분석 - 분석 요건 식별 - 분석 요건 정의
- 스텝 : 입력자료, 처리 및 도구, 출력자료로 이루어진 단위 프로세스
- SEMMA
- SAS가 주도한 통계 중심 5단계 방법론
- 샘플링 - 탐색 (기초 통계, 그래프 탐색, 클러스터링, 변수 유의성 및 상관분석 등) - 수정 (수량화, 표준화, 변환, 그룹화 등) -모델링 - 검증
- 개인정보 익명처리 기법 : 가명, 일반화, 섭동 (동일한 확률적 정보를 가지는 변형 값에 대해 원래 데이터를 대체), 치환 (속성값을 수정하지 않고 레코드 간 속성 값의 위치 변환)
- 개인정보 파기는 대통령령으로 정함
- HDFS
- 하나의 네임 노드 + 하나 이상의 보조 네임 노드 + 다수의 데이터 노드로 구성 (보조 네임 노드는 또 처음이네...)
- 블록크기는 64MB에서 128MB로 상향 (하둡 2.0부터)
빅데이터 탐색
- 노이즈
- 실제로 입력되지 않았으나 입력됐다고 잘못 판단한 값.
- 일정 간격으로 이동하며 주변보다 높거나 낮으면 평균값 혹은 중간값으로 대체.
- 단순 대치법
- 단순 확률 대치법 : 핫덱, 콜드덱, 혼합방법
- 평균 대치법 : 비조건부 평균 대치, 조건부 평균 대치
- 확률변수의 분산, 기댓값
- Y=3X+1
- E(X) = 2, E(X^2) = 4
- V(Y) =?
- V(3X+1) → 9V(X) → 9{E(X^2)-E(X)^2}
- 답 : 0
- 카토그램 : 변량비례도라고도 함. 특정 데이터값의 변화에 따라 지도의 면적이 왜곡됨.
- 확률적 경사 하강법 SGD 개선 알고리즘
- 방향 개선 : 모멘텀, 네스테로프 모멘텀
- 속도 개선 : AdaGrad, RMSProp
- 방향, 속도 개선 : Adam
- 불균형 데이터 처리
- SMOTE (Synthetic Minority Oversampling TEchinique) : 소수 클래스의 중심 데이터와 주변 데이터 간에 가상의 직선을 만들고 그 위에 데이터 추가.
- 임곗값 이동 : 임계값을 데이터가 많은 쪽으로 이동. (테스트 단계에서)
- 포아송 분포
- 예) 3분에 1명이 온다 → 0명 오는 경우, 1명 오는 경우 덧셈.
- 공식 암기 필요. 포아송은 은근 자주 보이는 듯
- 귀무가설이 참일 때, 귀무가설을 기각하는 1종 오류를 범할 확률 : p-value
- 이산확률분포
- 확률 질량 함수 : 이산확률변수에서 특정 값에 대한 확률
- 누적 질량 함수 : 이산확률변수가 특정 값보다 작거나 같을 확률
빅데이터 모델링
- 데이터 마이닝
- 예측 모델 : 범주형 및 수치형 등의 과거 데이터의 특성을 분석해 다른 데이터의 결과값을 예측하는 방법
- 연관 규칙 모델 : 데이터에 내재된, 동시에 발생하는 사건 혹은 항목간의 규칙을 수치화.
- 군집 분석
- 다변량 분석 기법
- 군집 간 연결법 : 최단연결법, 최장연결법, 중심연결법 등이 있음
- 순위상관계수로 거리 측정.
- 군집 간 거리 계산 : 유클리드, 맨하탄, 민코프스키, 마할라노비스 거리 등.
- 계층적 군집 - 분할적 방법 : R의 diana(), mona() 함수 활용.
- 혼합분포 : 데이터가 k개의 모수적 모형의 가중합으로 표현되는 모집단 모형에서 나왔다는 가정 아래, 모수와 가중치를 자료로부터 추정함.
- 의사결정나무 - CART : 성취도가 가장 좋은 변수를 찾는 것에 초점. 개별 입력변수뿐만 아니라 입력변수의 선형 결합 중에서도 최적의 분리를 찾는 것이 가능.
- 교차 분석
- 적합도, 독립성, 동질성 검정이 있음.
- 적합도 검정 : 1개 요인을 대상으로 표본 집단의 분포가 특정 이론을 따르는지 확인.
- 독립성 검정 : 여러 범주를 지닌 2개의 요인이 독립적인지 검정.
- 비모수 통계 검정
- 부호 검정 : 차이의 크기는 고려하지 않고, 차이의 부호만을 이용해 중위수의 위치로 검정.
- 크루스칼 왈리스 검정 : 세 집단 이상의 분포를 비교. 모수적 방법의 One-Way ANOVA와 동일한 목적. 그룹별 평균이 아닌 중위수로 검정.
- 대응표본 검정 : 하나의 모집단에 두 가지 방법을 적용한 관찰값 쌍의 중위수 차이 검정.
- 런 검정
- 이분화된 자료가 아니라면 이분화 자료로 변환. 평균, 중위수, 최빈수와 사용자 정의값 등을 사용해 이분화.
- 두 개의 값을 가지는 연속적 측정값이 임의적으로 나왔는지 검정.
빅데이터 결과 해석
- 샤피로 윌크 검정 : shapiro.test()
- 차트 블록
- 코딩없이 스프레드 시트, 데이터베이스 기반 데이터 가시화
- 웹 기반 차트 구현 (SNS 공유 가능)
- 카파 통계량
- 두 관찰자가 측정한 범주 값에 대한 일치도 측정
- 0~1의 값. 1에 근접할수록 에측값과 실젯값이 일치
- 계산식 : K = Pr(a) - Pr(e) / 1 - Pr(e) (K = 카파 상관계수, Pr(a) = 예측 일치 확률, Pr(e) : 우연히 일치할 확률)
데이터에듀 모의고사 3회
80문제 중 71문제 정답 (220930, 합격 - 23문제 여유 - 88.75점)
빅데이터 분석 기획
- 방법론 생성과정
- 암묵지가 형식화로 표출되어 형식지가 됨.
- 형식지가 체계화되어 방법론.
- 방법론이 내재화되면 암묵지
- 내면화 - 공통화 - 표출화 - 연결화와는 별개.
빅데이터 모델링
- 머하웃 : 분산처리 가능 + 확장성을 지닌 머신러닝용 라이브러리. 하둡 위에 적용되어 비슷한 특성을 가진 데이터를 분류 및 정의. 추천 알고리즘의 협업 필터링에 활용.
빅데이터 결과 해석
- 매개변수 최적화
- SGD가 AdaGrad 등에 비해 이해와 구현 용이.
- 일반적으로 모멘텀, Adam 등이 빠르게 학습하고 정확도도 높은 편.
- 리모델링 결정 - 모델 개선
- 상향식 접근 방식 : 모델 개선의 기회를 특정 업무 영역에서 발굴. 분석 대상 식별 - 프로세스 분석 순.
- 220926 - 출제 난이도가 점점 어려워질 것이기 때문에 만족하지 말고 헷갈리는 건 명확히, 모르는 건 줄여나가야 함.
- 220927 - 이기적 모의고사는 기출문제와 유사. 수제비 모의고사 - 난이도 높은 편. 시각화, 검정 취약함.
- 220928 - 난이도는 출판사별로 다루는 개념이 살짝 달라서 그렇게 느껴지는 듯. 정오표 필수.... 오타가 종종 있음.이기적 2회 - 계산 많고 개념 생소.
- 220929 - 1, 4회에서 오히려 흔들리는 상황. 기초가 부실하다는 뜻이겠지. 확실히 이기적이 낯선 개념이 많음.
- 220930 - 지엽적 문제가 나올 가능성이 높으므로 교재 정주행 후 마무리. 데이터에듀 모의고사 3회는 익숙한 문제 많이 보임. 내일 잘 보길...
'Cerificate > 빅데이터분석기사' 카테고리의 다른 글
[빅데이터분석기사 실기] 제5회 빅데이터분석기사 합격 후기 (0) | 2022.12.16 |
---|---|
[빅데이터분석기사 실기] 필기 합격 & 실기 응시와 합격 전략 (0) | 2022.10.18 |
[빅데이터분석기사 필기] 4과목 - 빅데이터 결과 해석 (2/2) (마지막) (0) | 2022.08.22 |
[빅데이터분석기사 필기] 4과목 - 빅데이터 결과 해석 (1/2) (0) | 2022.08.18 |
[빅데이터분석기사 필기] 3과목 - 빅데이터 모델링 (5/5) (0) | 2022.08.17 |