데이터의 유형
정성적 데이터 | 언어, 문자 | 저장, 검색, 분석에 많은 비용 소모 |
정량적 데이터 | 수치, 도형, 기호 | 비용소모 적음 |
지식경영의 핵심 이슈
암묵지 | 겉으로 드러나지 않는 지식 | 김장김치 담그기, 자전거 타기 |
다른 사람에게 공유되기 어려움 | 공통화, 내면화 |
형식지 | 형상화 된 지식 | 교과서, 비디오, DB | 전달과 공유가 용이함 | 표출화, 연결화 |
ex) 암묵지 : 개인에게 축적된 내면화 된 지식 -> 조직의 지식으로 공통화
형식지 : 언어, 기호, 숫자로 표출화 된 지식 -> 개인의 지식으로 연결화
DIKW 피라미드
데이터 : A 마트는 100원에 B 마트는 200원에 연필을 판매
정보 : A 마트의 연필이 더 싸다
지식 : 상대적으로 저렴한 A 마트에서 연필을 사야겠다
지혜 : A 마트의 다른 상품들도 B 마트보다 쌀 것이라고 판단
데이터베이스의 특징
통합된 데이터 : 데이터가 중복되어 있지 않다는 것을 의미
저장된 데이터 : 접근할 수 있는 저장 매체에 저장되는 것을 의미
공용 데이터 : 여러 사용자가 서로 다른 목적으로 데이터를 공동으로 이용한다는 것을 의미
변화되는 데이터 : 항상 변화하면서도 항상 현재의 정확한 데이터를 유지해야함
OLTP VS OLAP
OLTP | OLAP |
데이터베이스의 데이터를 수시로 갱신하는 프로세스 주문입력시스템, 재고관리시스템 복잡 |
OLTP에서 처리된 트랜잭션 데이터를 분석해 제품의 판매 추이, 구매성향파악, 재무 회계 분석 프로세싱 데이터 조회 위주 단순 |
CRM vs SCM
고객관계관리 | 공급망 관리 |
고객중심자원을 극대화하고, 이를 토대로 고객특성에 맞게 마케팅 활동을 계획,지원,평가하는 과정 고객데이터의 세분화를 실시하여 신규고객획득, 우수고객유지 등 |
기업에서 원재료의 생산, 유통 등 모든 공급망 단계를 최적화해 수요자가 원하는 제품을 원하는 시간과 장소에 제공하는 것 거래관계에 있는 기업간 IT를 이용한 실시간 정보공유를 통해 시장이나 수요자들의 요구에 기민하게 대응토록 지원하는 것 |
ERP | 인사, 재무, 생산 등 기업 전 부분에 걸쳐 독립적으로 운영되던 각종 시스템의 경영자원을 하나의 통합시스템으로 재구축 |
BI | 비즈니스 인텔리전스, 기업의 의사결정에 활용하는 일련의 프로세스 |
RTE | 회사의 주요 경영정보를 통합관리하는 실시간 기업의 새로운 기업경영시스템 |
EAI | 정보를 중앙 집중적으로 통합, 관리, 사용할 수 있는 환경을 구현하는 것으로 e-비즈니스를 위한 기본 인프라 |
EDW | 다양한 분석 애플리케이션을 위한 원천 |
KMS | 지식관리시스템, 기업 경영을 지식이라는 관점에서 새롭게 조명하는 접근 방식 |
RFID | 주파수를 이용해 ID를 식별하는 시스템으로 일명 전자태그로 불림 |
빅데이터 가치 산정이 어려운 이유
1. 데이터 활용방식 : 언제 어디서 누가 활용할지 알 수 없게 되었다. 따라서 가치를 산정하는 것도 어려워졌다.
2. 새로운 가치 창출 : 기존에 없던 가치를 창출함에 따라 그 가치를 측정하기 어려워졌다.
3. 분석 기술 발전 : 현재는 가치가 없을지라도 추후에 새로운 분석 기법이 등장한다면 거대한 가치를 지닌 데이터가 될 수도 있다.
빅데이터 기본 테크닉
연관규칙학습 | 변인들 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법 | 커피를 구매하는 사람이 탄산음료를 더 많이 사는가? |
유형분석 | 문서를 분류하거나 조직을 그룹으로 나눌 때 수강생들을 특성에 따라 분류할 때 | 이 사용자는 어떤 특성을 가진 집단에 속하는가? |
소셜네트워크분석 | 몇 촌 정도의 관계인가를 파악할 때 사용하고, 영향력있는 사람을 찾아낼 때 사용 | 고객들 간 관계망은 어떻게 구성되어 있나? |
DBMS
데이터베이스를 관리하여 응용 프로그램들이 데이터베이스를 공유하며 사용할 수 있는 환경을 제공하는 소프트웨어
SQL
데이터베이스를 사용할 때 데이터베이스에 접근 할 수 있는 데이터 베이스의 하부 언어, 영어 문장과 비슷한 구문으로 초보자들도 사용할 수 있다.
개인정보 비식별 기술
데이터마스킹 | 데이터 길이, 유형, 형식과 같은 속성을 유지한채 새롭고 읽기 쉬운 데이터를 익명으로 생성하는 기술 |
가명처리 | 개인정보 주체의 이름을 다른 이름으로 변경하는 기술 |
총계처리 | 데이터의 총합 값을 보임으로서 개별 데이터의 값을 보이지 않도록 함 |
데이터값 삭제 | 데이터 공유, 개방 목적에 따라 데이터 셋에 구성된 값 중에 필요 없는 값 또는 개인식별에 중요한 값을 삭제 |
데이터 범주화 | 데이터 값을 범주화하는 것 |
위기요인에 따른 통제 방안
동의에서 책임으로 : 사생활 침해 문제
결과 기반 책임 원칙 고수 : 책임원칙 훼손 위기요인에 대한 통제 방안
알고리즘 접근 허용 : 데이터 오용의 위기요소에 대한 대응책
산업별 분석 애플리케이션
병원 : 가격책정, 고객 로열티, 수익관리
에너지 : 트레이딩, 공급 수요
정부 : 사기탐지, 사례관리, 범죄 방지
커뮤니케이션 : 가격계획 최적화, 고객보유, 수요 예측
무결성과 레이크
1. 데이터 무결성 : 데이터 베이스 내의 데이터에 대한 정확한 일관성, 유효성, 신뢰성을 보장하기 위해 데이터 변경 수정시 여러가지 제한을 두어 데이터의 정확성을 보증하는것
2. 데이터 레이크 : 의미있는 내용을 찾기 위해 방식에 상관없이 데이터를 저장하는 시스템, 대용량의 정형 및 비정형 데이터를 저장할 뿐만 아니라 접근도 쉽게 할 수 있는 대규모 저장소
빅데이터 분석기술
1. 하둡 : 여러개의 컴퓨터를 하나인 것 처럼 묶어 대용량 데이터를 처리하는 기술. 분산파일 시스템(HDFS)을 통해 수 천대의 장비에 대용량 파일을 저장할 수 있는 기능을 제공
2. 아파치 스파크 : 실시간 분산형 컴퓨팅 플랫폼으로써 스칼라로 작성되어 있지만 스칼라, 자바, R, 파이썬, API를 지원한다. 하둡에 비해 처리 속도가 빠르다.
3. 스마트 팩토리 : 공장 내 설비와 기계에 사물인터넷이 설치되어, 공정 데이터가 실시간으로 수집되고 데이터에 기반한 의사결정이 이뤄짐으로써 생산성을 극대화 할 수 있다.
데이터양의 단위
바이트/ 킬로바이트(2^10)/ 메가바이트/ 기가바이트/ 테라바이트(2^40)/ 페타바이트/ 엑사바이트/ 제타바이트/ 요타바이트(2^80)
B2B vs B2C
1. B2B : 기업과 기업 사이의 거리를 기반으로 한 비즈니스 모델을 의미, 기업이 필요로 하는 장비 재료나 공시입찰 등이 있다.
2. B2C : 기업과 고객사이의 거래를 기반으로 한 비즈니스 모델을 의미하며, 이동통신사, 여행회사, 카드회사 등등이 있다.
블록체인
거래 정보를 하나의 덩어리로 보고 이를 차례로 연결한 거래 장부, 거래에 참여하는 모든 사용자에게 거래 내역을 보내주며 거래 때마다 이를 대조해 데이터 위조를 막는 방식
데이터의 유형
비정형 | 이미지, 음성, 소셜데이터 |
반정형 | xml, html, json |
정형 | 데이터베이스 시트, csv |
'adsp' 카테고리의 다른 글
ADSP PART 3. 데이터 분석 (0) | 2020.08.28 |
---|---|
ADSP PART 2. 데이터 분석 기획 요약 정리 (0) | 2020.08.28 |