본문 바로가기

Cerificate/빅데이터분석기사

[빅데이터 분석기사 필기] 1과목 - 빅데이터 분석 기획 (2/3)

728x90
반응형

이전 글 : 2022.08.01 - [데이터/빅데이터분석기사] - [빅데이터 분석기사 필기] 1과목 - 빅데이터 분석 기획 #1


저번 포스트에 이어 빅데이터 분석 기획에 대한 내용을 이어서 공부하도록 하겠다. 데이터에듀에서 발행한 '빅데이터 분석기사 필기' 교재의 74~127페이지에 해당하는 내용이다. 이번 글부터는 목차를 넣어 편의성을 더욱 높였다. 교재를 읽다 보니 숫자 분류에 오타가 있는 부분이 있어 글의 목차로 정리하는 것이 도움이 될 것이다.

※ 출처가 있는 이미지를 클릭하면 원 사이트로 접속된다.


<목차>

2. 데이터 분석 계획

2. 데이터 분석 계획

1) 분석 방안 수립

(1) 데이터 분석 기획의 방향

  • 데이터 사이언티스트는 분석 기획을 수행할 수 있도록 '수학&과학' , '도메인 지식', 'IT'에 대한 역량을 갖춰야 함.
  • 분석 유형
    1. 최적화 (Optimazation) : 대상과 방법 모두 이해
    2. 솔루션 (Solution) : 대상은 알지만 방식을 모르는 경우, 해결법을 찾아야 함.
    3. 통찰 (Insight) : 대상은 모르고 방법은 아는 경우, 대상에 대한 숨은 인사이트를 찾을 수 있음.
    4. 탐색 (Discovery) : 대상, 방법 모두 모르는 경우. 새로운 분석 대상을 탐색해야 함. 

출처 : Wikidocs

  • 목표시점별 분석 기획 방안
    1. 과제중심적 접근 : 목적 - 당면 과제 신속 해결 / 문제 해결
    2. 장기적 마스터 플랜 : 목적 - 지소적 분석 내재화 / 문제 정의
  • 분석 기획 시 고려사항
    1. 가용 데이터 : 데이터 확보는 필수! 
    2. 적절한 유즈 케이스 : 유즈 케이스는, 여러 변수를 고려한 사용자 경로를 테스트한 것.
    3. 낮은 실행 장벽 : 교육 및 활용방안 등의 변화 관리에 대한 계획 필요.

(2) 분석 마스터 플랜 수립 프레임워크

  • 전략적 중요도, ROI, 난이도 등을 고려해 분석과제의 우선순위 결정.
    • 빅데이터 4V 중, Value는 비즈니스 (ROI) 관점의 개념.
    • 3V는 투자비용 요소
    • 포트폴리오 사분면을 통해 정하는 것도 가능.
    • 시급성 중시 : 3-4-2

포트폴리오 사분면 (출처 : 네이버블로그 - 휴인)

  • 업무 내재화, 분석 데이터, 기술을 고려해 로드맵 수립
    • 3단계 추진 단계 : 분석체계 도입 - 분석 유효성 검증 - 분석 확산 및 고도화
    • 분석체계는 폭포수 방식보다 혼합형을 적용하는 경우가 많음.

(3) 거버넌스 체계

  • 구성요소
    • 분석 기획 및 관리 조직
    • 과제기획 및 운영 프로세스
    • 데이터
    • 교육 및 육성 체계 (HR)
    • 분석 시스템
  • 분석 수준 진단
    • 분석 준비도와 성숙도를 활용.
    • 조직 성숙도 평가 도구 : CMMI 모델

출처 : DATA ON-AIR

  • 분석 수준 진단결과

출처 : DATA ON-AIR


(4) 분석 과제 발굴 및 문제 정의

  • 분석과제 발굴 방법론 
    1. 하향식 (그림 참조)
      • 문제 탐색 단계 (1단계) :
      • 외부참조 모델기반 - 산업별, 업무 서비스별 테마 후보군에 필요한 분석기회를 탐색 후, 자사에 적용할 내용을 브레인스토밍으로 빠르게 도출하는 방법
      • 분석 유즈케이스
      • 타당성 검토 단계 (4단계) :
      • 경제적, 데이터 및 기술적 타당성 검토 요구됨.
    2. 상향식
    3. 하향식의 한계를 극복하기 위한 분석 방법론
      • 디자인 씽킹 (고객의 피드백을 받아 디자인을 고치는 과정을 반복하는 디자이너의 워크 플로에서 비롯됨.)
      • 비지도 학습 (장바구니 분석, 군집분석) & 지도 학습 (분류, 예측 등) : 목표값의 사전 정의에 따라 나뉨.
      • 시행착오를 통한 해결 (프로토타이핑 방법론) :
      • 확인이 어려운 상황에서 분석을 시도하고, 그 결과에 따라 개선해가는 방식. 하향식 접근 방식과 달리데이터 분석 환경이 갖춰지지 않아도 가능하기 때문에 빅데이터 분석 환경에서 자주 쓰임.
    4. 수요 기반, 데이터 주도 분석과제 도출

분석과제 도출을 위한 하향식 접근법 (출처 : velog)

 

문제 탐색 단계 - 분석 기회 발굴의 범위 확장 (출처 : 네이버블로그 - Private Room)

  • 상기 방법으로 분석 과제를 찾았다면, 분석 과제 정의서를 작성한다.

(5) 데이터 분석 방안

  • 분석 방법론은 상세한 절차, 방법, 도구&기법, 템플릿과 산출물로 구성.
  • 기업의 합리적 의사결정을 막는 요인 : 고정관념, 편향, 프레이밍 효과
  • 방법론 생성과정

방법론 생성과정 (출처 : velog)

  • 업무 특성에 따른 방법론 모델
    • 폭포수 모델 : 하향식. 단계별 문서화 가능
    • 프로토타입 모델 
    • 나선형 모델 : 프로타입 모델의 개량판. 폭포수와 프로토타입 모델의 장점 + 위험분석 단계 추가. 관리 체계가 부실한 경우, 복잡해져 프로젝트 진행에 지장을 줄 수 있음.

출처 : 네이버블로그 - 바보상자

  • 빅데이터 분석 방법론의 계층적 프로세스
    • 단계 : 최상위 계층 / 단계별 완료 보고서
    • 태스크 : 단계를 구성하는 단위 활동 / 보고서
    • 스텝 : Input, Process&Tool, Output으로 구성된 단위 프로세스 / 보고서 구성요소
  • 일반적 빅데이터 분석 방법론
    • 분석기획 - 데이터 준비 - 데이터 분석 - 시스템 구현 (developing) - 평가 및 전개 

출처 : 티스토리 (needjarvis)

  • KDD 분석 방법론 
    • 프로파일링 기술을 토대로 데이터에서 통계적 패턴 혹은 지식을 찾기 위해 체계적으로 정리한 데이터 마이닝 프로세스. (단방향) 
    • 데이터셋 선택 - 데이터 전처리 - 데이터 변환 (학습용, 검증용 분리 포함) - 데이터 마이닝 - 결과 평가

출처 : 투이컨설팅

  • CRISP-DM 분석 방법론 
    • 1996년, 유럽연합의 ESPRIT 프로젝트에서 시작. 다임러 등 5개사가 주도.
    • 4개 레벨로 구성된 6단계 계층적 프로세스 모델.
    • 단계간 피드백으로 완성도 제고

4레벨 구조 (출처 : 티스토리 - 쓱쓱기획)

 

출처 : 티스토리 - 헤으응

  • KDD와 CRISP-DM의 단계 비교!
  • SEMMA 분석 방법론
    • SAS 주도. 기술, 통계 중심의 방법론.
    • 샘플링 ▶ 탐색 ▶ 수정 ▶ 모델링 ▶ 검증 

LG CNS 블로그


2) 분석 작업 계획

(1) 데이터 확보 계획

  • 계획 수립 절차 및 유의사항
    • 목표 정의 (왜 필요? - 성과지표 개발 등) ▶ 요구사항 도출 (어떤 게 필요? - 전처리, 관리 형태 정의) ▶예산안 수립 (확보 방법은?) ▶ 상세안 수립(진행방법? - SOW : 프로젝트 범위 정의서)
  • 분석 데이터에 대한 이해
    • Training Set : 학습용, Test Set : 모델 평가용, Validation Set : 각 모델의 성능 비교용
  • 주요 단계 
    1. 분석 변수 및 데이터 정의 : 내/외부의 데이터 확보 - 분석변수 정의
    2. 프로세스 정의 : 사실 중심의 문제접근을 통한 분석변수 정의 (1단계의 분석변수 정의와는 무슨 차이?) - 척도에 따른 연관성 분석 실시

(2) 데이터 확보 방안

  • 필요 데이터 정의
  • 내/외부 데이터 확보 방안을 검토하고 점검사항에 따라 체크

(3) 분석 절차 및 작업 계획

  • 분석 기획 - 데이터 준비 - 데이터 분석 - 시스템 구현 - 평가 및 전개
  • WBS (work Breakdown Structure)
    • 10일 or 2주 단위로 업무 쪼개기
    • 가장 작은 단위 : 워크 패키지 (담당인원 배치)

WBS 예시 (출처 : Wiki.gurubee)

  • 단계별 세부단계 및 실제 업무 (pp.122-127)
    • 데이터 스토어 : 데이터베이스같은 저장소뿐 아니라 단순 파일, 이메일 등의 더 단순한 스토어 타입들을 포함하는, 데이터 컬렉션들을 영속적으로 저장하고 관리하기 위한 저장소  (Wiki)

♧ 예상문제 오답노트

  • 마스터 플랜 방식의 특징
  • 시급성 - 빅데이터 특징 중 value와 밀접
  • 디자인 사고 : 상향식 발산 + 하향식 수렴의 반복
  • 하향식 과제 도출 : 최적화 → 솔루션, 상향식 과제 도출 : 발견 → 통찰
  • 분석 유즈 케이스 : 문제에 관한 상세 설명과 해결 시의 효과를 명시한 것. 분석기회를 사전에 유즈 케이스로 작성하는 것이 이상적.
  • 거시적 메가 트렌드 STEEP : 사회, 기술, 환경, 경제, 정치
  • 데이터 분석 과제 발굴 과정 
    • 문제 정의 : 필요한 데이터 및 기법을 정의하기 위한 데이터 분석의 문제로 변환
    • 문제 탐색 : 어떤 목적으로 분석 수행
  • 수요 기반 분석과제 도출 : 문제 해결 시나리오 정의 후, 적절한 데이터 분석 기법 매칭.
  • KDD 방법론 - 데이터 변환 : 분석 목적에 맞게 변수 생성 및 데이터 차원 축소
  • CRISP-DM vs KDD : 데이터 이해 vs 데이터셋 선택 + 데이터 전처리 / 모델링 vs 데이터 마이닝
  • CRISP-DM
    • 준비 : 데이터 포매팅
    • 이해 : 데이터 탐색, 데이터 마이닝 목표 설정
    • 평가 : 모델 적용성 평가, 모델링 과정 평가
  • 명목과 서열 척도가 교차 분석을 이용할 수 있음.
    • 온도 : 등간 / 키, 몸무게 : 비율
  • 분석 절차
    • 분석 기획 : 위험 식별
    • 데이터 준비 : 필요 데이터 정의
  • 빅데이터 분석 방법론
    • 데이터 분석 : 모델 평가 프로세스, 분석용 데이터 준비
    • 데이터 준비 : 데이터 정합성 확보
  • 모델 평가 : 알고리즘 설명서는 시스템 구현단계의 중요 입력 자료로 활용되기에 의사코드 수준의 자세한 기입이 요구됨.
728x90
반응형