본문 바로가기

Cerificate/빅데이터분석기사

[빅데이터 분석기사 필기] 1과목 - 빅데이터 분석 기획 (1/3)

728x90
반응형

이 카테고리는 '데이터에듀 2022 빅데이터 분석기사' 교재에 기반하여 필자가 개인적으로 공부한 것을 정리한 것이다. 이동하면서도 볼 수 있도록 필요한 파트만 요약하고자 한다. 총 3회독을 목표로, 우선 1회차에는 문제풀이없이 일 40페이지 분량을 읽고 기록할 것이다. 이번 포스트는 55페이지까지, '1장 빅데이터의 이해'에 대한 내용을 다룬다.

 

※ 출처가 적힌 이미지를 클릭하면, 원 사이트로 들어갈 수 있게 링크를 걸어두었습니다.


 

 

Index

    1. 빅데이터의 이해

    1) 빅데이터 개요 및 활용

    (1) 데이터의 이해

    • Data는 1646년 영국 문헌에 첫 등장. 라틴어 dare (주다)의 과거분사형이다.
    • 객체로서의 가치 + 다른 객체와 관계에서 숨은 가치
    • 데이터의 유형 
      1. 정성적 : 비정형 데이터
      2. 정량적 : 정형 데이터
    • 지식경영 : 기업의 생존과 성장은 인적 자원의 지식에 있다는 인식에서 비롯됨. (by Peter Drucker)
      1. 핵심 이슈 : 암묵지와 형식지의 상호작용
      2. 암묵지 : 숨은 지식 - 학습과 경험으로 몸에 익은 지식이라 개개인은 이해해도 타인에게 공유 어려움
      3. 내면화된 지식을 조직의 지식으로 공통화
      4. 형식지 : 형상화된 지식 - 구체적 형태가 있어 공유 용이
      5. 표출화된 지식을 개인의 지식으로 연결화
    • DIKW : Data - Information - Knowledge - Wisdom
      1. DIKW 피라미드
      2. Data : 홈플러스는 치킨을 6,900원, BBQ는 치킨을 23,000에 판다. 
      3. Information : BBQ의 치킨이 더 비싸네.
      4. Knowledge : 싼 홈플러스 치킨을 구입해야지.
      5. Wisdom : 홈플러스 치킨이 저렴하니까 콜라, 다른 메뉴를 같이 사도 더 이득이겠지.

    DIKW 피라미드 (출처 : IT위키)


    (2) DB의 이해

    • DB 정의
      1. 1차 : 정형데이터 관리 - 정리된 수집물, 체계적 편집물 + 검색 도구
      2. 2차 : 비정형데이터까지 확대 - DBMS, 정보의 집합체, 데이터의 집합
    • DB 특징
      1. 일반 : 통합, 저장, 공용, 변화
      2. 다양 : 정보 축적&전달, 정보 이용, 정보 관리, 정보기술 발전, 경제
    • 1990년대 전사 시스템으로 DB 확대
    • 80's 기업 내부 DB (p.21 표 참고)
      1. OLTP (OnLine Transaction Processing) : 여러 기기에서 보낸 요청을 바탕으로 호스트가 DB에 접속, 처리결과 회신하는 구조. ex) 재고관리시스템, 주문입력시스템  
      2. OLAP (OnLine Anlaytical Processing) : 정보 위주의 분석 처리. OLTP로 처리된 데이터를 분석해 판매 경향, 구매 패턴 등을 살펴보는 것.
      3. OLTP가 즉시 처리 결과를 돌려보내기 때문에 데이터 구조도 단순할 것이라 생각되지만, OLTP의 데이터구조가 복잡하고 OLAP는 단순.
    • 00's 기업 내부 DB
      1. CRM (Customer Relationship Management) : 고객관계관리, 신규고객 유치와 지속적 관계 유지 및 증진이 목적
      2. SCM (Supply Chain Management) : 공급망 관리
    • 부문별 DB 시스템
      1. 제조 : ERP - 전사적 자원 관리, BI - 데이터 활용 프로세스, CRM, RTE - 경영정보 통합 관리 시스템
      2. 금융 : EAI - 기업 연관 앱 통합, EDW - DW 확장판
      3. 유통 : KMS - 지식관리시스템, RFID - 전자태그 
    • 사회기반구조의 DB
      1. 배경 : 90년대 거의 모든 부문의 정보화가 이루어져, DB구축이 추진됨. 정부를 축으로, SOC차원에서 EDI에 기반한 정보망이 형성. 00년대부터는 일반인도 가정에서 정보 입수 가능.
      2. 종류 
        • EDI (Electronic Data Interchange) : 표준 양식으로 서류를 전자 신호로 바꿔 상대방에 전송하는 시스템. 
        • VAN (Value Added Network) : 부가가치통신망, KT로부터 통신회선을 빌려 독자적인 네트워크를 구축해 부가가치가 높은 서비스를 제공하는 것 (SKT나 유플러스가 이 사례일까?)
        • CALS (Commerce At Light Speed) : 전자상거래 구현을 위해 제품주기에 관한 데이터를 관리할 수 있게끔 한 통합정보시스템. 미국 국방성이 시초.
      3. 분야별 DB
        • 물류 : CVO (화물), PORT-MIS (항만) 등
        • 지리 : GIS (지리정보), RS (원격탐사), SIM (공간정보관리) 등
        • 의료 : PACS (의료영상)
        • 교육 : NEIS (교육행정) 

    (3) 빅데이터의 이해

    • 빅데이터 정의
      1. 대용량 자료 ▶ 데이터를 분석해 지식을 추출하고 이를 통해 문제를 해결하는 행위
      2. 데이터 변화 ▶ 기술 변화 ▶ 인재, 조직 변화
    • 데이터 크기 : KB - MB - GB - TB- PB - EB - ZB - YB

    출처 : Wikipedia

    • 빅데이터 주요 특징
      1. 4V = 3V + 1V
      2. Volume, Variety, Velocity + Value, Visualization, Veracity (정확성 - 신뢰성 제고)
    • 기존 분석과 빅데이터 분석의 차이
      1. 데이터 확장 : 조직 내부 ▶ SNS로
      2. 데이터 다양화 : 정형 ▶ 비정형 (텍스트 분석 수요증가)
      3. 데이터 대규모화 
    • 빅데이터 등장 배경
      1. 비정형 데이터 증가
      2. ICT 발전
      3. 데이터 처리방식의 발전에 따른 개인, 조직의 변화
    • 빅데이터가 이끌어낸 변화
      1. 사후처리, 전수조사, 양, 상관관계
      2. 최대한 많은 데이터를 확보해 정보를 찾고, 변수간의 상관관계를 찾는 것이 중요해짐.
    • 빅데이터의 가치
      1. "21세기의 원유" (Gartner)
      2. 가치 산정은 어려움 
        • 지금까지 없었고, 기술 발전에 따라 가치를 부여받을 수 있기 때문.

    (4) 데이터 산업의 이해

    • 데이터 산업의 발전
      1. 현재 DNA 강조 : Data - Network - AI
      2. 70~80 : 데이터 처리
      3. 90~00 : 데이터 통합(DBMS, ERP, CRM)
      4. 10~ : 데이터 분석 (하둡, 스파크)
      5. 18~ : 데이터 연결 (오픈 API, 오픈 이노베이션), 데이터 권리 (마이 데이터) 시대

     


    (5) 빅데이터 조직 및 인력 

    • 분석조직의 구조
      1. 집중구조 : 별도의 분석조직
      2. 기능구조 : 각 부서별 데이터 분석
      3. 분산구조 : 각 부서에 분석조직 인력 배치. 전사 차원의 우선순위 수행. 분석 결과에 따른 신속한 대응 가능

    출처 : 네이버 블로그 (휴인)

    • 분석조직의 구성
      1. 빅데이터 시스템 개발팀
      2. 빅데이터 분석팀
      3. 빅데이터 활용팀

    출처 : 티스토리 (2030빅데이터)

    • 애드호크러시 (Adhocracy) : 다양한 분야의 전문가들이 혁신적 기능을 활용해 집중적으로 과제를 수행하는 고도의 유기적 조직구조 유형 (일종의 TF인듯?)
    • 빅데이터 전문 인력
      1. 데이터 사이언티스트 : Hard + Soft 스킬의 겸비 요구
      2. 알고리즈미스트 : 데이터 오용 대응
      3. 인포그래픽스 아티스트 : 시각화 전문

    2) 빅데이터 기술 및 제도

    (1) 빅데이터 플랫폼 

    • 데이터 수집 - 저장 - 분석 - 시각화

    (2) 빅데이터와 인공지능

    • 인공지능 기술의 분류
      1. 학습지능 : 지식 획득 알고리즘 연구 (머신러닝 - 딥러닝, 강화학습, 앙상블 등)
      2. 단일지능 : 언어, 시각, 청각 데이터로 분석 (번역, 텍스트 생성, 음성·영상 처리)
      3. 복합지능 : 복합 데이터로 예측, 이해 (행동, 감정 이해 등)

    인공지능 개념도 (출처 : Nvidia)

    • AI 연구의 역사
      • 90년대 : 머신러닝 연구, 기계가 데이터를 직접 학습해 지식을 얻는 귀납적 추론 적용.

    출처 : 주간경향

    • 인공지능 경쟁력의 3요소
      1. 알고리즘 : 구글의 텐서플로우, 메타 (구 페이스북)의 파이토치(토치에 기반한 ML 라이브러리)
      2. H/W (컴퓨팅 파워)
      3. 빅데이터

    (3) 개인정보 법, 제도

    • 위기 요인 
      1. 사생활 침해 : 딥페이크 사례
      2. 책임 원칙 훼손 : 실제로 범행을 저지르지 않았으나 예측 알고리즘으로 인해 범인으로 몰릴 가능성 있음.
      3. 데이터 오용 : 늘 정답일 수는 없음.
    • 통제 방안
      1. 정보 제공자의 동의 ▶ 사용자의 책임
      2. 결과 기반 책임 원칙
      3. 알고리즘 접근 허용 (알고리즈미스트의 등장)
    • 관련 법안 
      1. 개인정보보호법
        • 예외 : 공공기관의 업무 수행, 계약 이행을 위해 필수적일 때, 사전동의를 받을 수 없는 경우 등
      2. 정보통신망법 : 개인정보보호법보다 우선함.
      3. 신용정보법
      4. 데이터 3법 (1~3의 개정안, 2020.08 시행) : 가명정보의 도입

    (4) 개인정보 활용

    • 가명정보 활용이 가능해짐에 따라 데이터 활용 기반이 마련됨.
    • 가명처리 목적 : 통계 (일대일 마케팅 제외), 과학 연구, 공익적 기록 보존
    • 가명처리 : 개인정보의 일부를 삭제 또는 대체하여 추가 정보 (메타데이터) 없이 특정 개인을 분별할 수 없도록 하는 것.
    • 사전준비 - 가명처리 - 검토 및 추가처리 - 사후관리의 과정을 거침.

    출처 : 가명정보 처리 가이드 라인 (2020), 개인정보보호 위원회

    • 가명처리 세부 절차

    출처 : 가명정보 처리 가이드 라인 (2020), 개인정보보호 위원회

     

    ♧ 예상문제 오답노트

    • 암묵지 상호작용 : 공통화, 내면화 / 형식지 상호작용 : 표출화, 연결화
    • 데이터베이스 특징 : 공용 데이터 - 여러 사람이 이용. 대용량화 & 복잡한 구조
      • 정보 축적, 전달 측면 (원격조작성) : 원거리에서 이용하는 것
    • OLTP가 데이터 갱신 위주라 착각할 수 있지만, OLAP도 쉽고 빠르게 데이터에 접근해 대화식 분석으로 유용한 정보를 얻을 수 있게끔 함. 데이터 구조도 OLTP가 더 난해. 
    • EDI : 무역에 필요한 서류를 표준화된 양식을 통해 전자적 신호로 바꿔 상대방에 전송하는 시스템.
    • RTE : 회사의 주요 경영정보를 실시간 통합관리
    • 빅데이터 정의 (협의) : 3V로 요약되는 데이터의 특성 변화에 초점.
    • 빅데이터 가치 산정의 어려움 : 데이터 재사용의 일반화로 언제 누가 사용했는지 특정하기 쉽지 않음.
    • 데이터 산업의 진화 : 처리 - 통합 (데이터 모델링, DBMS 활용) - 분석 (하둡, 스파크 등 빅데이터 기술 등장) - 연결 (오픈 API) - 관리 (마이 데이터)

    출처 : 데이터산업백서 2019

     

    • 빅데이터 조직 구성 시 고려사항 : 조직 구조 ↔ 인력 구성
    • 조직 구조별 장단점 파악
    • 딥러닝 관련 오픈소스 : 오픈딥, Caffe, Theano, Torch, BigDL 등
    • 사생활 침해 : 동의 ▶ 책임 / 데이터 오용 : 알고리즘 접근 허용
    • 신용정보법 : 가명정보는 신용정보 주체의 동의없이 활용 가능.
    • 위험도 측정은 가명처리 단계에서 시행.
    • 가명처리 대상 선정 시 목적 달성에 필요한 최소 정보를 처리. DB의 분리가 물리적으로 어렵다면 논리적 분리도 가능.
    728x90
    반응형