본문 바로가기

Professional Engineering/데이터분석준전문가(ADsP)

[ADsP] 1과목 제 2장 데이터의 가치와 미래

반응형

제1과목 데이터 이해 - 제2장 데이터의 가치와 미래 - 제1절 빅데이터의 이해


1. 정의
"빅데이터" 용량만 방대한 것이 아니라 복잡성도 증가 -> 기존의 툴로는 다루기 어려운 데이터 세트의 집합
: 빅데이터는 일반적인 데이터베이스 소프트웨어로 저장,관리, 분석할 수 있는 범위를 초과하는 규모의 데이터
: 빅데이터는 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키덱처
: 데이터와 데이터 처리, 저장 및 분석 기술에 의미 있는 정보 도출에 필요한 인재나 조직까지도 빅데이터에 포함
*빅데이터의 3V
: 데이터의 양(Volume), 다양성(Variety), 속도(Velocity) 의 증가로 발생한 현상 = 빅데이터
*메이어-쇤베르거 틀 키어의 정의
새로운 통찰이나 가치를 추출해내는 일, 나아가 이를 활용해 시장, 기업 및 시민과 정부의 관계 등 많은 분야에 변화를 가져오는 일.
-> 사회 정치 경제 문화적 변화를 포착하기 위해 더 추상적이고 포괄적으로 다루기 위한 정의

# 관점 범위에 따른 정의
1) 데이터 자체 특성 변화에 따라
: 규모, 형태, 속도 (3V로 요약)
2) 데이터 자체 뿐 아니라 처리, 분석 기술적 변화까지 포함 : 클라우드 컴퓨팅 활용
3) 인재, 조직변화까지 포함 : Data Scientist 같은 새로운 인재 필요, 데이터 중심 조직
=> 기존의 작은 데이터 처리 분석으로는 얻을 수 없었던 통찰과 가치를 창출하는 새로운 방식

2. 출현 배경
: 데이터와 그것을 다루는 기술 차원에서 패러다임 전환이 일어난 것을 빅데이터 현상으로 볼 수 있다.
1) 산업계 : 양질 전환 법칙, 사용자 및 소비자 행태 정보를 적극 수집/분석해 경영, 경쟁 전략에 활용-> 고객 데이터의 축적
2) 학계 : 거대 데이터 활용 과학 확산 -> 인간 게놈 프로젝트
3) 기술발전 : 디지털화의 급진전, 저장 기술의 발전과 가격하락, 인터넷의 발전과 모바일 시대의 진전에 따른 클라우드 컴퓨팅의 보편화 등

*인터넷 발전이 빅데이터에 기여한 측면
: 사용자 로그 정보 -> 사용자와 고아고 매칭 정확도 향상
*클라우드 컴퓨팅 : 빅데이터 처리 비용을 획기적으로 낮춤
-> 클라우드 분산 병렬 처리 컴퓨팅은 빅데이터와 같은 대용량 데이터 처리 비용을 맵리듀스와 같은 혁신적 방식을 통해 획기적으로 줄였다.

*ICT 발전과 빅데이터의 출현 (그래프)
: 2020년 관리해야 할 데이터의 양이 50배 이상 증가
- 2011년 : ZB(Zetta Byte) 진입
                 비정형 데이터 - 다양성, 복합성, 소셜
- 2020년 : 본격화
                 사물정보, 인지 정보 - 현실성, 실시간성

3. 빅데이터 기능 : 무한한 가능성을 가졌다!
1) 산업혁명의 석탄이나 철
: 상상할 수 없는 혁신
: 지금의 제조업 뿐 아니라 서비스 분야의 생산성을 획기적으로 끌어올려 사회, 경제, 문화 생화 전반에 혁명적 변화 가져올 것
2) 21세기 원유
: 각종 비즈니스, 공공기관 대국민 서비스, 경제 성장에 필요한 "정보"를 제공함으로써 산업 전반의 생산성을 한 단계 향상 -> 새로운 범주의 산업 생성할 전망!
3) 렌즈 역할
: 현미경 렌즈, 구글의 Ngram Viewer처럼(수천만 권의 책을 디지털화해서 빅데이터 서비스 제공함)
4) 플랫폼 역할
: 공동활용의 목적으로 구축된 유무형의 구조물 , 각종 사용자 데이터나 M2M센서 등에서 수집된 데이터를 가공, 처리, 저장 -> API(Application Program Interface)를 공개

4. 빅데이터가 만들어 내는 본질적인 변화 (4가지)
1) 사전 -> 사후처리 시대
: 필요한 정보만 수집하던 "사전처리 시대"에서
-> 가능한 한 많은 데이터를 모으고 그 데이터를 다양한 방식으로 조합해 숨은 정보를 찾아내는 로그 데이터 같은 것처럼 데이터 마이닝과 같은 방식으로 처리하는 "사후처리"방식으로 변화

2) 표본조사-> 전수조사
: 적은 데이터로 보다 풍부한 결과를 확정하려는 것이 "표본조사"의 목적
-> 클라우드 컴퓨팅 기술 발전으로 데이터 처리 비용 감소, 복잡하고 거대한 데이터 다룰 수 있는 통계 도구도 속출
-> 샘플링이 주지 못하는 패턴이나 정보를 제공해 주는 "전수조사"가 가능해졌다.
=>" 표본조사"는  데이터의 활용성 측면에서 융통성이 떨어진다. "전수조사"는 모든 데이터를 모아두기 때문에 질문에 따라 다양한 방식으로 데이터를 재가공할 수 있기 때문에 활용의 융통성을 유지할 수 있다.
예) 대통령 선거일의 출구 조사

3) 질 -> 양
: 엄청난 용량이 질적으로 전환된다.
: 통계학에서 회귀분석 시 변수의 수가 무한정 증가하면 모델의 설명력 R2가 100에 수렴하는 것과 유사
: 구글의 자동번역 시스템 구축
-> IBM은 정교하게 번역된 말뭉치(corpus) 중심으로 데이터베이스 구축 -> 구글은 오역까지 모두 수용
=> 데이터가 지속적으로 추가될 때 양질의 정보가 오류 정보보다 많기에 전체적으로 좋은 결과 산출
=> 사소한 몇 개의 오류 데이터가 대세에 영향을 주지 못하는 경향이 늘어나기 때문
**제외된 사례들일지라도 다른 변수에 대해서는 풍부한 정보를 갖고 있기 때문에 모든 데이터를 활용할 때, 훨씬 더 많은 가치를 추출할 수 있다고 보는 것이 빅데이터 세계의 데이터 관점

4) 인과관계 -> 상관관계
: 비즈니스 상황에서는 상관관계 분석만으로 충분한 경우가 많다.
예) 아비바 (Aviva) : 신용 평가보고서 + 소비자 마케팅 데이터로 검사 없이 고혈압, 당뇨, 우울증과 같은 질병에 걸릴 확률 예측 (인과관계없는 변수들을 활용하여 검사비용 절약)
** 변수들 간의 인과관계를 많이 알 수록 현상에 대한 이해의 폭과 깊이가 깊어지기 때문에 인과관계가 정말 불필요한 것은 아니다. 그러나 신속한 의사결정을 원하는 비즈니스에서는 실시간 상관관계 분석에서 도출된 인사이트를 바탕으로 수익을 창출할 수 있는 기회가 점점 늘어나고 있다.
=> 상관관계를 통해 특정 현상의 발생 가능성이 포착되고 그에 상응하는 행동을 하도록 추진되는 일이 늘어날 것이다. 바야흐로 데이터 기반의 상관관계 분석이 주는 인사이트가 인과관계에 의해 미래 예측을 점점 더 압도해가는 시대가 도래하고 있다.

제2절. 빅데이터의 가치와 영향
1. 빅데이터의 가치
: 빅데이터 시대에서 특정 데이터의 가치를 측정하는 것은 쉽지 않다.
1) 데이터 활용 방식
: 재사용
전기자동차의 배터리 정보 -> 충전시간, 충전소 설립 최적지 선택 등등 데이터의 재사용은 1차, 2차, 3차적 목적으로 사용될 수 있다
: 재조합(창의적 조합)
휴대전화의 전자파가 뇌종양을 일으킨다는 주장, ->무관함을 밝혀냄
: 다목적용 개발
CCTV -> 절도범, 고객 구매 정보도 동시 제공
=> 특정 데이터를 언제, 어디서, 누가 활용할지 알 수 없다.

2) 새로운 가치 창출
: 기존에 없던 가치를 창출하기 때문에 -> 아마존의 전자책 (독서 패턴 파악)

3) 분석 기술의 발달
: 페이스북, 트위터, 인터넷 댓글 등 기존에는 정형화된 데이터와 분석할 수 없었던 데이터가 텍스트 마이닝 기법 등을 통해 분석 가능해졌다.

** 이밖에도 데이터는 기존 사업자에게 경쟁우위를 제공하기도 한다 -> 구글, 페이스북 등이 갖춘 데이터 양 자체가 잠재적 경쟁자에겐 진입장벽과 같은 역할

2. 빅데이터의 영향
# 빅데이터가 가치를 만들어 내는 5가지 방식
1) 투명성 제고로 연구개발 및 관리 효율성 제고
2) 시뮬레이션을 통한 수요 포착 및 주요 변수 탐색으로 경쟁력 강화
3) 고객 세분화 및 맞춤 서비스 제공
4) 알고리즘을 활용한 의사결정 보조 혹은 대체
5) 비즈니스 모델과 제품, 서비스의 혁신

# 추출된 가치의 영향
1) 기업 : 혁신과 경쟁력, 생산성 향상
-> 비즈니스 모델을 혁신하거나 신사업 발굴
-> 원가절감, 제품 차별화, 기업활동의 투명성 제고
-> 경쟁력 확보, 산업 전체의 생산성 향상, GDP 상승
2) 정부  환경을 탐색, 분석한 후 잠재적 문제점에 대한 대응 방안을 제시할 수 있게 해 줌
-> 기상, 인구이동, 각종 통계, 법재 데이터 등을 수집하여 사회 변화 추정
-> 사회관계망 분석, 시스템 다이내믹스, 복잡계 이론과 같은 분석으로 미래 의제 도출 -> 대응 방안 도출
3) 개인, 정치인, 가수들 , 일반인 : 목적에 따라 활용
-> 맞춤형 서비스를 저렴한 비용으로 이용, 적시에 필요한 정보를 얻음 -> 기회비용을 절약
예) 제조업에 빅데이터 활용 시 제품 개발비 50%, 운전자본 7% 절감 예상
=> 생활 전반의 스마트화

제3절 비즈니스 모델
1. 빅데이터 활용 사례
1) 기업 차원
: 구글의 사용자 로그 데이터 활용 -> 페이지 랭크 알고리즘 혁신
: 월마트 - 상품 진열에 활용 (손전등, 비상 음식 함께)
: 의료 부분 - IBM의 왓슨 인공지능
2) 정부 차원
: 실시간 교통정보 수집, 기후 정보, 각종 지질 활도, 소방서비스 ,
: NSA- 소셜미디어, CCTV, 통화기록, 문자 통화 내역 등 분석
3) 개인 차원
: 정치인, 가수
=> 2차, 3차 목적의 재사용이나 다양한 재조합을 통한 새로운 가치 창출 기대

2. 빅데이터 활용 기본 테크닉 (7가지)
1) 연관 규칙 학습
: 변인들 간 주목할만한 상관관계있나?
2) 유형분석
: 어떤 특성을 가진 집단에 속하나?
-> 문서 분류, 조직을 그룹으로 나눌 때 (온라인 수강생 특성에 따라 분류 시)
3) 유전 알고리즘
: 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜 나가는 방법
-> 어떤 시간 대 방송해야 최대 시청률을 얻나?
4) 기계 학습
: 훈련 데이터로부터 학습한 알려진 특성을 활용해 "예측"
-> 이메일에서 스팸 메일 걸러내기, 추천 서비스 제공 등
5) 회귀 분석 (인과 관계)
: 독립변수를 조작하며 종속변수가 어떻게 변화하는지 변인 간의 관계 파악
-> 구매자 나이가 구매 차량의 타입에 어떤 영향?
6) 감정 분석
: 특정 주제에 대해 말하거나 글 쓴 사람의 감정 분석
-> 호텔 코멘트, 새로운 환불 정책에 대한 고객의 평가는?
7) 소셜 네트워크(사회관계망) 분석
: 고객들 간 소셜 관계 파악
=> 여러 기법을 결합해 다양한 비즈니스 모델 개발 가능
=> 데이터뿐 아니라 분석 테크닉까지 창의적으로 재조합하여 기존에 업선 비즈니스 모델 개발이 가능할 수도 있고 새로운 가치도 창출할 수 있게 된다.

제4절 위기 요인과 통제 방안 (3가지 위기 & 방안)
1. 위기 요인
1) 사생활 침해
- 방지하기 위해 익명화 기술 발전, 여전히 문제
2) 책임 원칙의 훼손
- 예측 알고리즘의 희생량 -> 정확도 증가하여
기존의 행위 결과 기반 책임 추궁 원칙의 훼손 (특정한 행위 할 가능성이 높다는 이유만으로 처벌/해고/거절 등을 당할 수 있다)
3) 데이터의 과신 & 오용
- 빅데이터 활용자의 과신 : 정확도를 가질 수는 있지만 항상 맞는 것은 아님에도 불구
- 잘못된 지표를 사용 : 잘못된 인사이트를 얻어 적용할 경우, 예를 들어 구글이 검색 알고리즘에 잘못된 시그널 사용할 경우 특정 사이트들이 검색에서 밀려나 시장에서 퇴출될 수도 있다.

2. 통제 방안 (3가지)
1) 동의 -> 책임
: 제공자의 동의 -> 사용자의 책임으로!! 사용 주체가 보다 적극적인 보호 장치를 강구하게 하는 효과 기대
2) 결과 기반 책임 원칙 고수
: 결과에 대해서만 처벌!
3) 알고리즘에 대한 접근권 보장
: 불이익을 당한 사람들을 대변해 피해자를 구제할 수 있는 능력을 가진 전문가가 필요해짐 -> 알고 리즈 미스트

제5절 미래의 빅데이터
**빅데티어 활용에 필요한 기본 3요소 : 데이터 , 기술 , 인력
1) 데이터 : 모든 것의 데이터 화 (Datafication)
- 수많은 센서들이 인터넷에 연결되는 사물인터넷(IoT) 시대
- 스마트 폰에서 웨어러블 단말 시장으로
예) 나이키 - 신발, 의류, 각종 센서를 내장한 제품 출시
2) 기술 : 진화하는 알고리즘, 인공지능
- 알고리즘은 데이터 양의 증가에 따라 정확도가 증가
- M2M, IoT의 확산으로 데이터 생산량 기하급수적으로 증가 -> 빅데이터 다루는 알고리즘의 효율성 역시 기하급수적으로 증가할 것
예) 구글 - 자기 학습이 가능한 인공신경망 개발 (2013년), 동영상에서 고양이 찾아내기 등
- 인공지능 분야 : 패턴인식, 자연어 처리, 자동제어, 기계학습, 자동 추론, 지능엔진, 시멘틱 웹 등이 포함
예) IBM 왓슨 - 제퍼디 퀴즈대회에서 우승
- 인공지능 기술이 인간의 사고, 추론, 계획, 학습 능력을 담아내고 있는 데 빅데이터를 활용해 인간보다 더 빠르고 정확한 판단을 내릴 수 있다는 것
-> 문제는 이러한 기계적 판단이 어느 선까지 허용되고 통제될 수 있느냐는 것
예) 증권거래 , 아마존 책 가격 (40달러가 천만 달러로 표시되게 오류)
3) 인력 : 데이터 사이언티스트, 알고 리즈 미스트
- 데이터 사이언티스트 : 빅데이터에 대한 이론적 지식 + 숙련된 분석 기술 -> 통찰력, 전달력, 협업 능력 갖춘!
-> 빅데이터의 다각적 분석을 통해 인사이트 도출 , 조직의 전략 방향 제시에 활용할 줄 아는 기획자로서 전문가 역할 => 빅데이터 가치 실현을 위해 필요!
- 알고 리즈 미스트 : 데이터 사이언티스트가 한 일로 인해 부당하게 피해가 발생하는 것을 막기 위해

[연습문제]
1. 빅데이터가 기업에게 주는 가치
: 혁신 수단 제공, 경쟁력 강화, 생산성 제고, 환경 탐색
-> 정부에게 주는 가치

2. 빅데이터가 만들어 내는 변화가 아닌 것
1) 데이터의 질보다 양
2) 사전보다 사후
3) 상관관계보다 인과관계 -> 상관관계에 비중 둠
4) 표본조사보다 전수조사

3. 빅데이터 출현 배경 중 거대한 데이터의 분석 비용 문지를 해결해 준 것 (2)
1) 디지털 기술
2) 클라우드 컴퓨팅 기술
3) 하드 드라이브 가격의 하락
4) SNS 확산

4. 커피를 사는 사람들이 탄산음료도 많이 구매하는지 알아보기 위해 사용되는 분석은?
1) 회귀분석 : 인과관계
2) 기계학습 : 학습 통한 결과 도출
3) 유전 알고리즘 : 최적화 결과 찾기
4) 연관 규칙 학습 : 상관관계 -> 정답
-> 전혀 연관 없어 보이는 두 변인 관계를 분석 하녀 유의미한 결과 창출하기!

5. 구글이 제공하는 Ngram Viewer 서비스는 무슨 역할? 렌즈 역할

728x90
반응형