본문 바로가기

Cerificate/빅데이터분석기사

[빅데이터 분석기사 필기] 1과목 - 빅데이터 분석 기획 (3/3)

728x90
반응형

이전 글 : 2022.08.03 - [데이터/빅데이터분석기사] - [빅데이터 분석기사 필기] 1과목 - 빅데이터 분석 기획 #2


  지난 포스트에서는 어떻게 빅데이터 분석에 대한 전체적인 계획을 수립했다. 이번에는 데이터 수집 및 저장 계획을 어떻게 수립해야 하는지 배워보겠다. 이 글은 데이터에듀에서 발행한 '빅데이터 분석기사 필기' 교재의 146~178페이지에 해당하는 내용을 참고하였다. 

※ 출처가 있는 이미지를 클릭하면 원 사이트로 접속된다.


 

 

Index

     

    2. 데이터 수집 및 저장 계획

    1) 데이터 수집 및 전환

    (1) 데이터 수집 및 전환

    • 빅데이터 수집 기법 : Log Aggregator, 크롤링, 스크래핑 (자동으로 웹 사이트의 특정 정보 추출), Open API, RSS 등
      1. 정형 데이터 :
        • ETL (Extract Transform Load) : 데이터 웨어하우스와 데이터 마트로 데이터를 보내기 위해 활용하는 추출, 변환, 적재 프로세스
        • FTP (File Transfer Protocol)
        • API (실시간 데이터 수신)
      2. 반정형 
        • 로그 수집기 (scribe - 페이스북, Chukwa 등)
      3. 비정형
        • 크롤링, 스크래피 (Python으로 만들어짐), 아파치 카프카 (스트리밍 데이터 처리), RSS, Open API
        • 크롤링 = 스파이더링, 가장 흔함. 데이터 위치의 분류 작업이 주목적.
        • 스크래피와 아파치 카프카의 활용이 늘어나는 중.
    • 데이터 소스에 따른 수집 방법 : 내부 데이터 (ETL) ↔ 외부 데이터 (크롤링)
    • 빅데이터 수집 시스템의 요건 : 확장성, 안정성, 유연성, 실시간성 
    • 빅데이터 수집 절차 : 수집 대상 선정 → 수집 계획 수립 ↔ 수집 실행

    (2) 데이터 유형 및 속성 파악

    • 데이터 유형

    출처 : Velog (hoseipark)

    • 일반적 데이터 특징 : 정성적 (언어, 외부 시스템) VS 정량적 (숫자, 내부 시스템)
    • 구조 관점의 데이터 유형
      • 정형 데이터 : 정형화된 스키마, 일관성 O, RDB, 스프레드시트, 통계
      • 반정형 데이터 : 정형화된 스키마, 메타 데이터 포함, XML, HTML, JSON
      • 비정형 데이터 : 스키마 X, SNS, NoSQL
      • 스키마? (출처 : 티스토리 - 코딩팩토리 (이미지 포함)
        1. 스키마는 데이터베이스의 구조와 제약 조건에 관한 전반적인 명세를 기술한 메타데이터의 집합.
        2. 스키마는 데이터베이스를 구성하는 데이터 개체(Entity), 속성(Attribute), 관계(Relationship) 및 데이터 조작 시 데이터 값들이 갖는 제약 조건 등에 관해 전반적으로 정의함.
        3. 스키마는 사용자의 관점에 따라 외부 스키마, 개념 스키마, 내부 스키마로 나뉨.

    • 시간 관점의 데이터 유형
      • 실시간 데이터 : 센서 데이터, 시스템 로그, 알람 등
      • 비실시간 데이터 (배치 데이터) : 통계, 웹 로그, 구매 정보, 헬스케어 정보 등
    • 저장 형태 관점의 데이터 : 파일, 데이터베이스, 콘텐츠, 스트림 데이터 (네트워크를 통해 실시간 전송되는 데이터)

    (3) 데이터 변환

    • 일반적으로 ETL 과정을 의미.
    • 컴퓨터가 바로 처리할 수 없는 반정형, 비정형 데이터를 정형 데이터의 구조로 바꾸는 것을 뜻함.
    • 레거시 데이터 : 기존에 모아두거나 활용한 데이터
    • 데이터 전·후처리 
      • 전처리 : 수집한 데이터를 저장소에 적재하기 위해 필터링, 타입 변환, 정제 등의 처리를 하는 것.
      • 후처리 : 분석에 용이하도록 통합, 축소 등의 처리를 하는 것
    • 고려사항 
      • 전처리 : 실패 이력 저장 및 해당 내용 전달, 결과 데이터 저장 등
      • 후처리 : 이상치 변환 및 추천 기능, 데이터 요약 기능 등
    • 데이터 변환 기술
      • 평활화 (Smoothing) : 노이즈 제거를 위해 추세에서 벗어난 값을 변환. 구간화, 군집화 사용
      • 집계
      • 일반화 : 특정 구간에 분포하는 값으로 스케일 변화. 범용 데이터에 적합한 모델을 만드는 방법
      • 정규화 : 정해진 구간에 포함되도록 함. z-스코어 정규화, 소수 스케일링 등 통계적 기법 활용.
      • 속성 생성 : 통합을 위해 새로운 속성 생성
    • ETL 프로세스
      • 이동 및 변환이 주목적. 통합, 이동, 마스터 데이터 관리 등에도 활용.
      • 일괄 ETL (Batch ETL)과 실시간 ETL로 나뉨.
      • ETL의 역할 : 소스 레이어 (수집), DW 레이어 (관리), 분석 레이어 (분석)
    • 데이터 변환 절차
      • 비정형 데이터  → 정형 데이터로 변환 시, 관계형 DBMS 자주 활용.
      • 데이터 구조 정의 - 수행 코드 정의 - 프로그램 작성 - DB 저장

    (4) 데이터 비식별화

    • 20년 8월, 데이터 3법의 시행으로 이목이 쏠리고 있는 분야.
    • 데이터 보안 : 사용자 인증, 접근 제어, 암호화, 개인정보 비식별화, 개인정보 암호화 등의 기술 활용.
    • 비식별화
      • 데이터 자체로 개인을 특정할 수 있는 데이터 대상 (다른 정보와 쉽게 결합해 특정할 수 있는 것도 포함)
      • 즉, 식별자(고유식별정보, 생체정보 등)와 준식별자( 개인 특성, 신체 특성 등)를 대상으로 함.
      • 비식별화 기술 
        1. 식별 방지 : 가명처리 (암호화 등), 총계처리 (라운딩 등), 데이터 삭제, 데이터 범주화 (랜덤 라운딩 등), 데이터 마스킹 (섭동, 교란 등)
        2. 추론 방지 : k-익명성, l-다양성 (k-익명성 보완), t-근접성 (l-다양성 보완) 

    (5) 데이터 품질 검증

    • 데이터 품질 : 조직의 목적 달성을 위해 관리되는 데이터가 이용자의 만족을 충족시킬 수 있는 수준을 의미. (한국데이터베이스진흥원)
    • 품질 관리의 중요성 : 신뢰성 확보, 일원화된 프로세스 (효율성), 활용도 향상, 양질의 데이터 확보.
    • 데이터 품질 기준
      1. 정형 데이터 : 완전성, 유일성, 유효성, 일관성, 정확성
      2. 비정형 : 신뢰성, 기능성, 효율성, 사용성, 이식성
    • 품질 진단 방법 : 프로파일링 (값 진단, 구조 진단), 체크리스트 (인터뷰), 업무규칙 (BR) 진단, 비정형 실측

    2) 데이터 적재 및 저장

    (1) 데이터 적재

    • 데이터의 신뢰성 확보를 위한 오류 대책 및 검증 방안을 준비해야 함.
    • 데이터 마이그레이션 (migration) ETL 설계 : 데이터 변경에 대한 타임스탬프 관리 요구됨.

    (2) 데이터 저장

    • 빅데이터 저장 기술 : 분산 파일 시스템, NoSQL, 클라우드 등 
    • 빅데이터 저장 기술은 구글과 애플의 완성도가 높고, 솔루션은 하둡과 아파치 카산드라가 대표적. 한국 개발 솔루션은 GLORY-FS 등이 있음.
    • 분산 파일 시스템 : 데이터를 수집, 저장, 분석하기 위해 두 대 이상의 컴퓨터로 작업하고 발생한 문제에 대응하는 방식 
      • 하둡, HDFS (하둡 분산 파일 시스템, 클라우드용), GFS (구글)
    • NoSQL : 비정형 데이터의 저장과 관리를 위해 만들어진 기술 (Cassandra, HBase - 네이버 라인에 적용)
    • 빅데이터 저장을 위한 고려사항
      • 설치와 유지보수 비용까지 고려한 TCO (Total Cost of Ownership) 실현
      • 데이터 관리 기술
      • 용량의 확장성
    • 맵리듀스 : 간단한 단위를 처리하는 맵 작업과 그 작업물을 집계하는 리듀스 단계로 구성.

    출처 : wikidocs

    • 데이터 웨어하우스 
      • 데이터를 분석 가능한 형태로 저장한 저장소
      • 특징 : 통합성, 주제지향성, 시계열성, 비휘발성
    • 데이터 레이크
      • 다양한 분야의 Raw Data를 형식을 불문하고 저장하는 시스템으로 저장 및 접근도 쉽게 할 수 있는 저장소 (아파치 하둡, Teradata 등이 플랫폼으로 이루어진 솔루션 서비스)
      • 특징 : ETL 필요없음. 유연성 O, 확장성 O, 다양한 데이터를 취급하기 때문에 분석이 어려워 솔루션 필요함.
    • 데이터 거버넌스
      • 전사 차원의 데이터에 대해 관리체계를 수립하고 운영을 위한 프레임워크 및 저장소를 구축하는 것을 뜻함.
      • 중요 대상 : 마스터 데이터, 메타 데이터, 데이터 사전
      • 구성 요소 : 원칙, 조직, 프로세스
      • 데이터 거버넌스 체계 : 데이터 표준화 ↔ 관리 체계 ↔ 저장소 관리 ↔ 표준화 활동
    • 데이터 리터러시 : 데이터를 이해하고 분석하며 활용할 수 있는 능력.
    • IT 거버넌스 : IT자원의 효율적 활용을 위한 관리/통제 체계

    ♧ 예상문제 오답노트

    • 로그 수집기 : Flume / Scribe - 페이스북에서 개발한 실시간 스트리밍 로그 데이터 수집 앱 / Chukwa - 야후 채택
    • NoSQL은 비정형 데이터
    • 저장 형태에 따른 데이터 
      • 콘텐츠 데이터 : 텍스트, 이미지처럼 개별적으로 데이터 객체로 분류되는 미디어 데이터.
      • 파일 데이터 : 시스템 로그, 서비스 로그, 텍스트, 스프레드시트
    • 데이터 삭제 예시 : 891111-2122233 > 여자, 80년대생
    • 레코드 삭제와 식별자 삭제는 다름.
    • 데이터 품질 정의 : 특정 비즈니스 목적으로 특정 사실의 부합 여부를 결정하기 위해 사용되는 주관적 기준 (IBM)
    • 품질 진단 방법 - 비정형 실측 : 정보를 사람이 직접 오류 확인
    • HDFS는 사용자의 직접 접근 권한을 지원하지 않음.
    • HBase : 구글 Bigtable을 샘플로 하여 자바 기반으로 개발된 비관계형 DB (대표적 NoSQL)
    • NoSQL은 SQL을 쓰지 않으므로 join도 없다.
    • NoSQL : RDBMS의 주요특성인 ACID는 제공하지 않으나 뛰어난 확장성과 성능을 제공하는 저장 시스템
    728x90
    반응형