728x90
반응형
이 카테고리는 '데이터에듀 2022 빅데이터 분석기사' 교재에 기반하여 필자가 개인적으로 공부한 것을 정리한 것이다. 이동하면서도 볼 수 있도록 필요한 파트만 요약하고자 한다. 총 3회독을 목표로, 우선 1회차에는 문제풀이없이 일 40페이지 분량을 읽고 기록할 것이다. 이번 포스트는 55페이지까지, '1장 빅데이터의 이해'에 대한 내용을 다룬다.
※ 출처가 적힌 이미지를 클릭하면, 원 사이트로 들어갈 수 있게 링크를 걸어두었습니다.
Index
1. 빅데이터의 이해
1) 빅데이터 개요 및 활용
(1) 데이터의 이해
- Data는 1646년 영국 문헌에 첫 등장. 라틴어 dare (주다)의 과거분사형이다.
- 객체로서의 가치 + 다른 객체와 관계에서 숨은 가치
- 데이터의 유형
- 정성적 : 비정형 데이터
- 정량적 : 정형 데이터
- 지식경영 : 기업의 생존과 성장은 인적 자원의 지식에 있다는 인식에서 비롯됨. (by Peter Drucker)
- 핵심 이슈 : 암묵지와 형식지의 상호작용
- 암묵지 : 숨은 지식 - 학습과 경험으로 몸에 익은 지식이라 개개인은 이해해도 타인에게 공유 어려움
- 내면화된 지식을 조직의 지식으로 공통화
- 형식지 : 형상화된 지식 - 구체적 형태가 있어 공유 용이
- 표출화된 지식을 개인의 지식으로 연결화
- DIKW : Data - Information - Knowledge - Wisdom
- DIKW 피라미드
- Data : 홈플러스는 치킨을 6,900원, BBQ는 치킨을 23,000에 판다.
- Information : BBQ의 치킨이 더 비싸네.
- Knowledge : 싼 홈플러스 치킨을 구입해야지.
- Wisdom : 홈플러스 치킨이 저렴하니까 콜라, 다른 메뉴를 같이 사도 더 이득이겠지.
(2) DB의 이해
- DB 정의
- 1차 : 정형데이터 관리 - 정리된 수집물, 체계적 편집물 + 검색 도구
- 2차 : 비정형데이터까지 확대 - DBMS, 정보의 집합체, 데이터의 집합
- DB 특징
- 일반 : 통합, 저장, 공용, 변화
- 다양 : 정보 축적&전달, 정보 이용, 정보 관리, 정보기술 발전, 경제
- 1990년대 전사 시스템으로 DB 확대
- 80's 기업 내부 DB (p.21 표 참고)
- OLTP (OnLine Transaction Processing) : 여러 기기에서 보낸 요청을 바탕으로 호스트가 DB에 접속, 처리결과 회신하는 구조. ex) 재고관리시스템, 주문입력시스템
- OLAP (OnLine Anlaytical Processing) : 정보 위주의 분석 처리. OLTP로 처리된 데이터를 분석해 판매 경향, 구매 패턴 등을 살펴보는 것.
- OLTP가 즉시 처리 결과를 돌려보내기 때문에 데이터 구조도 단순할 것이라 생각되지만, OLTP의 데이터구조가 복잡하고 OLAP는 단순.
- 00's 기업 내부 DB
- CRM (Customer Relationship Management) : 고객관계관리, 신규고객 유치와 지속적 관계 유지 및 증진이 목적
- SCM (Supply Chain Management) : 공급망 관리
- 부문별 DB 시스템
- 제조 : ERP - 전사적 자원 관리, BI - 데이터 활용 프로세스, CRM, RTE - 경영정보 통합 관리 시스템
- 금융 : EAI - 기업 연관 앱 통합, EDW - DW 확장판
- 유통 : KMS - 지식관리시스템, RFID - 전자태그
- 사회기반구조의 DB
- 배경 : 90년대 거의 모든 부문의 정보화가 이루어져, DB구축이 추진됨. 정부를 축으로, SOC차원에서 EDI에 기반한 정보망이 형성. 00년대부터는 일반인도 가정에서 정보 입수 가능.
- 종류
- EDI (Electronic Data Interchange) : 표준 양식으로 서류를 전자 신호로 바꿔 상대방에 전송하는 시스템.
- VAN (Value Added Network) : 부가가치통신망, KT로부터 통신회선을 빌려 독자적인 네트워크를 구축해 부가가치가 높은 서비스를 제공하는 것 (SKT나 유플러스가 이 사례일까?)
- CALS (Commerce At Light Speed) : 전자상거래 구현을 위해 제품주기에 관한 데이터를 관리할 수 있게끔 한 통합정보시스템. 미국 국방성이 시초.
- 분야별 DB
- 물류 : CVO (화물), PORT-MIS (항만) 등
- 지리 : GIS (지리정보), RS (원격탐사), SIM (공간정보관리) 등
- 의료 : PACS (의료영상)
- 교육 : NEIS (교육행정)
(3) 빅데이터의 이해
- 빅데이터 정의
- 대용량 자료 ▶ 데이터를 분석해 지식을 추출하고 이를 통해 문제를 해결하는 행위
- 데이터 변화 ▶ 기술 변화 ▶ 인재, 조직 변화
- 데이터 크기 : KB - MB - GB - TB- PB - EB - ZB - YB
- 빅데이터 주요 특징
- 4V = 3V + 1V
- Volume, Variety, Velocity + Value, Visualization, Veracity (정확성 - 신뢰성 제고)
- 기존 분석과 빅데이터 분석의 차이
- 데이터 확장 : 조직 내부 ▶ SNS로
- 데이터 다양화 : 정형 ▶ 비정형 (텍스트 분석 수요증가)
- 데이터 대규모화
- 빅데이터 등장 배경
- 비정형 데이터 증가
- ICT 발전
- 데이터 처리방식의 발전에 따른 개인, 조직의 변화
- 빅데이터가 이끌어낸 변화
- 사후처리, 전수조사, 양, 상관관계
- 최대한 많은 데이터를 확보해 정보를 찾고, 변수간의 상관관계를 찾는 것이 중요해짐.
- 빅데이터의 가치
- "21세기의 원유" (Gartner)
- 가치 산정은 어려움
- 지금까지 없었고, 기술 발전에 따라 가치를 부여받을 수 있기 때문.
(4) 데이터 산업의 이해
- 데이터 산업의 발전
- 현재 DNA 강조 : Data - Network - AI
- 70~80 : 데이터 처리
- 90~00 : 데이터 통합(DBMS, ERP, CRM)
- 10~ : 데이터 분석 (하둡, 스파크)
- 18~ : 데이터 연결 (오픈 API, 오픈 이노베이션), 데이터 권리 (마이 데이터) 시대
(5) 빅데이터 조직 및 인력
- 분석조직의 구조
- 집중구조 : 별도의 분석조직
- 기능구조 : 각 부서별 데이터 분석
- 분산구조 : 각 부서에 분석조직 인력 배치. 전사 차원의 우선순위 수행. 분석 결과에 따른 신속한 대응 가능
- 분석조직의 구성
- 빅데이터 시스템 개발팀
- 빅데이터 분석팀
- 빅데이터 활용팀
- 애드호크러시 (Adhocracy) : 다양한 분야의 전문가들이 혁신적 기능을 활용해 집중적으로 과제를 수행하는 고도의 유기적 조직구조 유형 (일종의 TF인듯?)
- 빅데이터 전문 인력
- 데이터 사이언티스트 : Hard + Soft 스킬의 겸비 요구
- 알고리즈미스트 : 데이터 오용 대응
- 인포그래픽스 아티스트 : 시각화 전문
2) 빅데이터 기술 및 제도
(1) 빅데이터 플랫폼
- 데이터 수집 - 저장 - 분석 - 시각화
(2) 빅데이터와 인공지능
- 인공지능 기술의 분류
- 학습지능 : 지식 획득 알고리즘 연구 (머신러닝 - 딥러닝, 강화학습, 앙상블 등)
- 단일지능 : 언어, 시각, 청각 데이터로 분석 (번역, 텍스트 생성, 음성·영상 처리)
- 복합지능 : 복합 데이터로 예측, 이해 (행동, 감정 이해 등)
- AI 연구의 역사
- 90년대 : 머신러닝 연구, 기계가 데이터를 직접 학습해 지식을 얻는 귀납적 추론 적용.
- 인공지능 경쟁력의 3요소
- 알고리즘 : 구글의 텐서플로우, 메타 (구 페이스북)의 파이토치(토치에 기반한 ML 라이브러리)
- H/W (컴퓨팅 파워)
- 빅데이터
(3) 개인정보 법, 제도
- 위기 요인
- 사생활 침해 : 딥페이크 사례
- 책임 원칙 훼손 : 실제로 범행을 저지르지 않았으나 예측 알고리즘으로 인해 범인으로 몰릴 가능성 있음.
- 데이터 오용 : 늘 정답일 수는 없음.
- 통제 방안
- 정보 제공자의 동의 ▶ 사용자의 책임
- 결과 기반 책임 원칙
- 알고리즘 접근 허용 (알고리즈미스트의 등장)
- 관련 법안
- 개인정보보호법
- 예외 : 공공기관의 업무 수행, 계약 이행을 위해 필수적일 때, 사전동의를 받을 수 없는 경우 등
- 정보통신망법 : 개인정보보호법보다 우선함.
- 신용정보법
- 데이터 3법 (1~3의 개정안, 2020.08 시행) : 가명정보의 도입
- 개인정보보호법
(4) 개인정보 활용
- 가명정보 활용이 가능해짐에 따라 데이터 활용 기반이 마련됨.
- 가명처리 목적 : 통계 (일대일 마케팅 제외), 과학 연구, 공익적 기록 보존
- 가명처리 : 개인정보의 일부를 삭제 또는 대체하여 추가 정보 (메타데이터) 없이 특정 개인을 분별할 수 없도록 하는 것.
- 사전준비 - 가명처리 - 검토 및 추가처리 - 사후관리의 과정을 거침.
- 가명처리 세부 절차
♧ 예상문제 오답노트
- 암묵지 상호작용 : 공통화, 내면화 / 형식지 상호작용 : 표출화, 연결화
- 데이터베이스 특징 : 공용 데이터 - 여러 사람이 이용. 대용량화 & 복잡한 구조
- 정보 축적, 전달 측면 (원격조작성) : 원거리에서 이용하는 것
- OLTP가 데이터 갱신 위주라 착각할 수 있지만, OLAP도 쉽고 빠르게 데이터에 접근해 대화식 분석으로 유용한 정보를 얻을 수 있게끔 함. 데이터 구조도 OLTP가 더 난해.
- EDI : 무역에 필요한 서류를 표준화된 양식을 통해 전자적 신호로 바꿔 상대방에 전송하는 시스템.
- RTE : 회사의 주요 경영정보를 실시간 통합관리
- 빅데이터 정의 (협의) : 3V로 요약되는 데이터의 특성 변화에 초점.
- 빅데이터 가치 산정의 어려움 : 데이터 재사용의 일반화로 언제 누가 사용했는지 특정하기 쉽지 않음.
- 데이터 산업의 진화 : 처리 - 통합 (데이터 모델링, DBMS 활용) - 분석 (하둡, 스파크 등 빅데이터 기술 등장) - 연결 (오픈 API) - 관리 (마이 데이터)
- 빅데이터 조직 구성 시 고려사항 : 조직 구조 ↔ 인력 구성
- 조직 구조별 장단점 파악
- 딥러닝 관련 오픈소스 : 오픈딥, Caffe, Theano, Torch, BigDL 등
- 사생활 침해 : 동의 ▶ 책임 / 데이터 오용 : 알고리즘 접근 허용
- 신용정보법 : 가명정보는 신용정보 주체의 동의없이 활용 가능.
- 위험도 측정은 가명처리 단계에서 시행.
- 가명처리 대상 선정 시 목적 달성에 필요한 최소 정보를 처리. DB의 분리가 물리적으로 어렵다면 논리적 분리도 가능.
728x90
반응형
'Cerificate > 빅데이터분석기사' 카테고리의 다른 글
[빅데이터분석기사 필기] 2과목 - 빅데이터 탐색 (3/3) (어려움) (0) | 2022.08.09 |
---|---|
[빅데이터분석기사 필기] 2과목 - 빅데이터 탐색 (2/3) (0) | 2022.08.07 |
[빅데이터 분석기사 필기] 2과목 - 빅데이터 탐색 (1/3) (0) | 2022.08.05 |
[빅데이터 분석기사 필기] 1과목 - 빅데이터 분석 기획 (3/3) (0) | 2022.08.04 |
[빅데이터 분석기사 필기] 1과목 - 빅데이터 분석 기획 (2/3) (0) | 2022.08.03 |