728x90
반응형
이전 글 : 2022.08.01 - [데이터/빅데이터분석기사] - [빅데이터 분석기사 필기] 1과목 - 빅데이터 분석 기획 #1
저번 포스트에 이어 빅데이터 분석 기획에 대한 내용을 이어서 공부하도록 하겠다. 데이터에듀에서 발행한 '빅데이터 분석기사 필기' 교재의 74~127페이지에 해당하는 내용이다. 이번 글부터는 목차를 넣어 편의성을 더욱 높였다. 교재를 읽다 보니 숫자 분류에 오타가 있는 부분이 있어 글의 목차로 정리하는 것이 도움이 될 것이다.
※ 출처가 있는 이미지를 클릭하면 원 사이트로 접속된다.
<목차>
2. 데이터 분석 계획
- 1) 분석 방안 수립
- 2) 분석 작업 계획
2. 데이터 분석 계획
1) 분석 방안 수립
(1) 데이터 분석 기획의 방향
- 데이터 사이언티스트는 분석 기획을 수행할 수 있도록 '수학&과학' , '도메인 지식', 'IT'에 대한 역량을 갖춰야 함.
- 분석 유형
- 최적화 (Optimazation) : 대상과 방법 모두 이해
- 솔루션 (Solution) : 대상은 알지만 방식을 모르는 경우, 해결법을 찾아야 함.
- 통찰 (Insight) : 대상은 모르고 방법은 아는 경우, 대상에 대한 숨은 인사이트를 찾을 수 있음.
- 탐색 (Discovery) : 대상, 방법 모두 모르는 경우. 새로운 분석 대상을 탐색해야 함.
- 목표시점별 분석 기획 방안
- 과제중심적 접근 : 목적 - 당면 과제 신속 해결 / 문제 해결
- 장기적 마스터 플랜 : 목적 - 지소적 분석 내재화 / 문제 정의
- 분석 기획 시 고려사항
- 가용 데이터 : 데이터 확보는 필수!
- 적절한 유즈 케이스 : 유즈 케이스는, 여러 변수를 고려한 사용자 경로를 테스트한 것.
- 낮은 실행 장벽 : 교육 및 활용방안 등의 변화 관리에 대한 계획 필요.
(2) 분석 마스터 플랜 수립 프레임워크
- 전략적 중요도, ROI, 난이도 등을 고려해 분석과제의 우선순위 결정.
- 빅데이터 4V 중, Value는 비즈니스 (ROI) 관점의 개념.
- 3V는 투자비용 요소
- 포트폴리오 사분면을 통해 정하는 것도 가능.
- 시급성 중시 : 3-4-2
- 업무 내재화, 분석 데이터, 기술을 고려해 로드맵 수립
- 3단계 추진 단계 : 분석체계 도입 - 분석 유효성 검증 - 분석 확산 및 고도화
- 분석체계는 폭포수 방식보다 혼합형을 적용하는 경우가 많음.
(3) 거버넌스 체계
- 구성요소
- 분석 기획 및 관리 조직
- 과제기획 및 운영 프로세스
- 데이터
- 교육 및 육성 체계 (HR)
- 분석 시스템
- 분석 수준 진단
- 분석 준비도와 성숙도를 활용.
- 조직 성숙도 평가 도구 : CMMI 모델
- 분석 수준 진단결과
(4) 분석 과제 발굴 및 문제 정의
- 분석과제 발굴 방법론
- 하향식 (그림 참조)
- 문제 탐색 단계 (1단계) :
- 외부참조 모델기반 - 산업별, 업무 서비스별 테마 후보군에 필요한 분석기회를 탐색 후, 자사에 적용할 내용을 브레인스토밍으로 빠르게 도출하는 방법
- 분석 유즈케이스
- 타당성 검토 단계 (4단계) :
- 경제적, 데이터 및 기술적 타당성 검토 요구됨.
- 상향식
- 하향식의 한계를 극복하기 위한 분석 방법론
- 디자인 씽킹 (고객의 피드백을 받아 디자인을 고치는 과정을 반복하는 디자이너의 워크 플로에서 비롯됨.)
- 비지도 학습 (장바구니 분석, 군집분석) & 지도 학습 (분류, 예측 등) : 목표값의 사전 정의에 따라 나뉨.
- 시행착오를 통한 해결 (프로토타이핑 방법론) :
- 확인이 어려운 상황에서 분석을 시도하고, 그 결과에 따라 개선해가는 방식. 하향식 접근 방식과 달리데이터 분석 환경이 갖춰지지 않아도 가능하기 때문에 빅데이터 분석 환경에서 자주 쓰임.
- 수요 기반, 데이터 주도 분석과제 도출
- 하향식 (그림 참조)
- 상기 방법으로 분석 과제를 찾았다면, 분석 과제 정의서를 작성한다.
(5) 데이터 분석 방안
- 분석 방법론은 상세한 절차, 방법, 도구&기법, 템플릿과 산출물로 구성.
- 기업의 합리적 의사결정을 막는 요인 : 고정관념, 편향, 프레이밍 효과
- 방법론 생성과정
- 업무 특성에 따른 방법론 모델
- 폭포수 모델 : 하향식. 단계별 문서화 가능
- 프로토타입 모델
- 나선형 모델 : 프로타입 모델의 개량판. 폭포수와 프로토타입 모델의 장점 + 위험분석 단계 추가. 관리 체계가 부실한 경우, 복잡해져 프로젝트 진행에 지장을 줄 수 있음.
- 빅데이터 분석 방법론의 계층적 프로세스
- 단계 : 최상위 계층 / 단계별 완료 보고서
- 태스크 : 단계를 구성하는 단위 활동 / 보고서
- 스텝 : Input, Process&Tool, Output으로 구성된 단위 프로세스 / 보고서 구성요소
- 일반적 빅데이터 분석 방법론
- 분석기획 - 데이터 준비 - 데이터 분석 - 시스템 구현 (developing) - 평가 및 전개
- KDD 분석 방법론
- 프로파일링 기술을 토대로 데이터에서 통계적 패턴 혹은 지식을 찾기 위해 체계적으로 정리한 데이터 마이닝 프로세스. (단방향)
- 데이터셋 선택 - 데이터 전처리 - 데이터 변환 (학습용, 검증용 분리 포함) - 데이터 마이닝 - 결과 평가
- CRISP-DM 분석 방법론
- 1996년, 유럽연합의 ESPRIT 프로젝트에서 시작. 다임러 등 5개사가 주도.
- 4개 레벨로 구성된 6단계 계층적 프로세스 모델.
- 단계간 피드백으로 완성도 제고
- KDD와 CRISP-DM의 단계 비교!
- SEMMA 분석 방법론
- SAS 주도. 기술, 통계 중심의 방법론.
- 샘플링 ▶ 탐색 ▶ 수정 ▶ 모델링 ▶ 검증
2) 분석 작업 계획
(1) 데이터 확보 계획
- 계획 수립 절차 및 유의사항
- 목표 정의 (왜 필요? - 성과지표 개발 등) ▶ 요구사항 도출 (어떤 게 필요? - 전처리, 관리 형태 정의) ▶예산안 수립 (확보 방법은?) ▶ 상세안 수립(진행방법? - SOW : 프로젝트 범위 정의서)
- 분석 데이터에 대한 이해
- Training Set : 학습용, Test Set : 모델 평가용, Validation Set : 각 모델의 성능 비교용
- 주요 단계
- 분석 변수 및 데이터 정의 : 내/외부의 데이터 확보 - 분석변수 정의
- 프로세스 정의 : 사실 중심의 문제접근을 통한 분석변수 정의 (1단계의 분석변수 정의와는 무슨 차이?) - 척도에 따른 연관성 분석 실시
(2) 데이터 확보 방안
- 필요 데이터 정의
- 내/외부 데이터 확보 방안을 검토하고 점검사항에 따라 체크
(3) 분석 절차 및 작업 계획
- 분석 기획 - 데이터 준비 - 데이터 분석 - 시스템 구현 - 평가 및 전개
- WBS (work Breakdown Structure)
- 10일 or 2주 단위로 업무 쪼개기
- 가장 작은 단위 : 워크 패키지 (담당인원 배치)
- 단계별 세부단계 및 실제 업무 (pp.122-127)
- 데이터 스토어 : 데이터베이스같은 저장소뿐 아니라 단순 파일, 이메일 등의 더 단순한 스토어 타입들을 포함하는, 데이터 컬렉션들을 영속적으로 저장하고 관리하기 위한 저장소 (Wiki)
♧ 예상문제 오답노트
- 마스터 플랜 방식의 특징
- 시급성 - 빅데이터 특징 중 value와 밀접
- 디자인 사고 : 상향식 발산 + 하향식 수렴의 반복
- 하향식 과제 도출 : 최적화 → 솔루션, 상향식 과제 도출 : 발견 → 통찰
- 분석 유즈 케이스 : 문제에 관한 상세 설명과 해결 시의 효과를 명시한 것. 분석기회를 사전에 유즈 케이스로 작성하는 것이 이상적.
- 거시적 메가 트렌드 STEEP : 사회, 기술, 환경, 경제, 정치
- 데이터 분석 과제 발굴 과정
- 문제 정의 : 필요한 데이터 및 기법을 정의하기 위한 데이터 분석의 문제로 변환
- 문제 탐색 : 어떤 목적으로 분석 수행
- 수요 기반 분석과제 도출 : 문제 해결 시나리오 정의 후, 적절한 데이터 분석 기법 매칭.
- KDD 방법론 - 데이터 변환 : 분석 목적에 맞게 변수 생성 및 데이터 차원 축소
- CRISP-DM vs KDD : 데이터 이해 vs 데이터셋 선택 + 데이터 전처리 / 모델링 vs 데이터 마이닝
- CRISP-DM
- 준비 : 데이터 포매팅
- 이해 : 데이터 탐색, 데이터 마이닝 목표 설정
- 평가 : 모델 적용성 평가, 모델링 과정 평가
- 명목과 서열 척도가 교차 분석을 이용할 수 있음.
- 온도 : 등간 / 키, 몸무게 : 비율
- 분석 절차
- 분석 기획 : 위험 식별
- 데이터 준비 : 필요 데이터 정의
- 빅데이터 분석 방법론
- 데이터 분석 : 모델 평가 프로세스, 분석용 데이터 준비
- 데이터 준비 : 데이터 정합성 확보
- 모델 평가 : 알고리즘 설명서는 시스템 구현단계의 중요 입력 자료로 활용되기에 의사코드 수준의 자세한 기입이 요구됨.
728x90
반응형
'Cerificate > 빅데이터분석기사' 카테고리의 다른 글
[빅데이터분석기사 필기] 2과목 - 빅데이터 탐색 (3/3) (어려움) (0) | 2022.08.09 |
---|---|
[빅데이터분석기사 필기] 2과목 - 빅데이터 탐색 (2/3) (0) | 2022.08.07 |
[빅데이터 분석기사 필기] 2과목 - 빅데이터 탐색 (1/3) (0) | 2022.08.05 |
[빅데이터 분석기사 필기] 1과목 - 빅데이터 분석 기획 (3/3) (0) | 2022.08.04 |
[빅데이터 분석기사 필기] 1과목 - 빅데이터 분석 기획 (1/3) (0) | 2022.08.01 |