본문 바로가기

Professional Engineering/데이터분석준전문가(ADsP)

[ADsP] 3과목 제 1장 데이터 분석 기획의 이해

반응형

3과목 데이터 분석 기획
: 데이터 분석 3요소 - Data, Analytic Model, Analyst => 가치 창출 달성
: 데이터 분석에서의 기획은 이런 요소를 잘 활용하여 가치를 창출할 수 있도록 분석 과제를 발굴하고 목표를 달성하기 위하여 데이터, 분석모델, it솔루션 등의 요건 및 수행계획을 정의하는 과정

제1장 데이터 분석 기획의 이해

제1절 분석 기획 방향성 도출
- 분석기획
: 실제 분석을 수행하기에 앞서 분석을 수행할 과제의 정의 및 의도했던 결과를 도출할 수 있도록 이를 적절하게 관리할 수 있는 방안을 사전에 계획하는 일련의 작업 , 성공적 분석 결과를 도출하기 위한 중요한 사전 작업!!

1. 분석 기획의 특징
: 데이터 분석에서 주의사항은 IT기술 및 분석 기법에 치우치는 경향 -> 데이터 사이언스의 3가지 영역에 대한 고른 역량과 시각이 요구된다.
=> 해당 문제 영역에 대한 전문성 역량 및 수학/통계학적 지식을 활용한 분석 역량
     + 분석의 도구인 데이터 및 프로그래밍 기술 역량에 대한 균형 잡힌 시각을 가지고
         => 방향성 및 계획을 수립해야 한다.

**분석의 대상 및 방법에 따른 4가지 유형
1) 개선을 통한 최적화 (Optimization) : 해결해야 할 문제를 알고 있고 분석 방법도 알고 있는 경우
2) 솔루션 찾아내는 방식 : 해결할 문제는 알지만, 분석 방법을 모르는 경우
3) 통찰(Insight) : 대상이 명확하게 무엇인지 모르는 경우 , 기존 분석방법 활용하여
4) 발견(Discovery) : 분석의 대상 자체를 새로 도출

분석 주제 유형

**목표 시점에 따른 유형
: 과제 중심적인 접근 방식 - 당면한 과제 빠르게 해결 -> Quick-Win 방식
: 장기적인 마스터플랜 방식 - 지속적인 분석 내재화, 분석 과제 정의를 위한

목표 시점 별 분석 기획 방안

=> 의미있는 분석을 하기 위해서는
     분석기술 ,      IT 및 프로그래밍, 분석 주제에 대한 도메인 전문성,      의사소통이 중요하고
     분석 대상 및 방식에 따른 다양한 분석 주제를 과제 단위 혹은 마스터플랜 단위로 도출할 수 있어야 한다.
=> 분석가는 3가지 기본 역량에 더하여 프로젝트 관리 역량, 리더십 역량 등이 필요하다.

분석 수행 시 분석가에게 요구되는 영역

2. 분석 기획 시 고려사항
**분석 기획
: 실제 분석 수행하기에 앞서
  어떤 목표를 달성하기 위하여 어떤 데이터를 가지고 어떤 방식으로 수행할 지에 대한 일련의 계획 수립 과정
: 고려사항 : 가용한 데이터, 적절한 유스케이스, 분석 과제 수행을 위한 장애요소

1) 분석의 기본이 되는 데이터에 대한 고려가 필요
: 분석을 위한 데이터 확보가 우선 필수적 -> 데이터 유형에 따라 적용 가능한 설루션 및 분석방법이 다르다
=> 유형에 대한 분석이 선행되어야 한다. (정형 데이터, 비정형 데이터 , 반정형 데이터의 존재 유무 및 유형)
    *반정형데이터 : 센서를 중심으로 스트리밍 되는 머신 데이터

다양한 데이터 유형
왼쪽) 정형 데이터 , 가운데) 반정형 데이터 오른쪽)비정형데이터 / 아래쪽) 크기와 속도 작음 , 위쪽) 크기와 속도 커짐

 

2) 유스케이스의 탐색 : 기존의 유사 분석 시나리오 및 솔루션 최대한 활용
-> 사용자 측면에서 공감대를 얻고 월활한 분석 수행에 도움 될 것
3) 장애요소들에 대한 사전 계획 수립
: 기간과 투입 리소스가 정확도를 올리기 위해 늘어남 -> 비용 상승
: 사용자가 쉽게 이해할 수 있도록 하여 좋은 분석 결과를 도출해야 한다.
: 실제에서는 성능에 문제 발생할 수 있으니, 일회성으로 그치지 않고 내재화하기 위해서는 충분하고 계속적인 교육 및 활용방안 등의 변화관리가 고려되어야 한다.

분석 기획 시 고려사항
1. 가능한 데이터 확보 2. 유명한 유스케이스 활용 3. 장애요소들을 최소화한 구현 => 성공적 분석

제2절 분석방법론

1. 분석 방법론 개요
- 기업의 합리적인 의사결정을 가로막는 장애요소 : 고정관념, 편향된 생각, 프레이밍 효과
   *프레이밍 효과 : 문제의 표현 방식에 따라 동일한 사건이나 상황임에도 불구하고 개인의 판단이나 선택이 달라질 수도 있는 현상
- 방법론은 상세한 절차, 방법, 도구와 기법 , 템플릿과 산출물로 구성되어 어느 정도 지식만 있으면 활용 가능해야 한다.
- 방법론 생성과정 : 암묵지-> 형식화 -> 형식지 -> 체계화하여 문서화 -> 방법론 -> 내재화 -암묵지

**적용 업무의 특성에 따른 다양한 모델
1) 폭포수 모델 : 단계를 순차적으로 진행 , 하향식으로 진행 -> 문제나 개선사항이 발견되면 전 단계로 돌아가는 피드백 과정 수행
2) 나선형 모델 : 반복을 통해 점증적으로 개발 , 처음 시도하는 프로젝트에 적용 용이
                          BUT, 반복에 대한 관리 체계를 효과적으로 갖추지 못한 경우 복잡도가 상승하여 프로젝트 진행 어려울 수 있다.
      -> 분석 과제의 특성과 조직의 역량에 따라 다양한 모델을 기반으로 방법론을 구축할 수 있다.

**일반적 방법론의 형태 : 계층적 프로세스 모델
1) 최상위 계층 : 단계(Phase)
    - 각 단계별 산출물 생성 , 각 단계는 기준선(Baseline)으로 설정되어 관리 + 버전 관리 등을 통하여 통제
2) 테스크(Task) : 각 단계를 구성하는 단위 활동 - 물리적 또는 논리적 단위로 품질 검토의 항목이 될 수 있다.
3) 마지막 계층 : 스텝(Step) : WBS의 워크 패키지에 해당됨, 입력자료 / 처리 및 도구 / 출력자료로 구성된 단위 프로세스

방법론의 구성

2. KDD 분석 방법론
: KDD(Knowledge Discovery in Databases)는 Fayyard가 체계적으로 정리한 데이터 마이닝 프로세스
-> 데이터베이스에서 의미 있는 지식을 탐색하는 데이터 마이닝부터 ,
       + 기계학습, 인공지능, 패턴인식, 데이터 시각화 등에서 응용될 수 있는 구조
**데이터 패턴을 찾는 9개의 프로세스
1) 분석대상 비즈니스 도메인의 이해
2) 분석대상 데이터셋 선택과 생성
3) 데이터에 포함되어 있는 노이즈와 이상 값 등을 제거하는 정제 작업 혹은 선처리
4) 분석 목적에 맞는 변수를 찾고 필요시 데이터의 차원을 축소하는 데이터 변경
5) 분석 목적에 맞는 데이터 마이닝 기법 선택
6) 분석 목적에 맞는 데이터 마이닝 알고리즘 선택
7) 데이터 마이닝 시행
8) 데이터 마이닝 결과에 대한 해석
9) 데이터 마이닝에서 발견된 지식 활용

 

KDD 분석 절

A. 데이터셋 선택( Selection )
: 비즈니스 도메인에 대한 이해 + 프로젝트 목표를 정확하게 설정
-> 필요한 데이터 선택 + 필요한 경우 추가적 데이터셋 생성
=> 데이터 마이닝에 필요한 목표 데이터를 구성 -> 다음 단계인 전처리 단계에서 필요시 데이터 선택 프로세스 반복가능
B. 데이터 전처리 ( Preprocessing )
: 추출된 분석 대상용 데이터셋에 포함되어 있는 잡음과 이상 값, 결측치를 식별하고
  필요시 제거하거나 의미 있는 데이터로 처리하는 데이터셋 정제 작업 -> 필요시 데이터 선택 프로세스 반복가능
C. 데이터 변환( Transformation )
: 분석 목적에 맞는 변수 선택, 데이터 차원을 축소
D. 데이터 마이닝 (  Data Mining )
: 분석용 데이터 셋 이용 -> 분석 목적에 맞는 데이터 마이닝 기법 , 알고리즘 선택 -> 패턴 찾거나 데이터 분류, 예측
-> 필요에 따라 데이터 전처리, 데이터 변환 프로세스를 병행할 수 있다.
E. 데이터 마이닝 결과 평가 ( Interpretation/Evaluation )
: 해석과 평가, 분석 목적과의 일치성 확인 -> 필요에 따라 데이터 선택 ~ 데이터 마이닝 프로세스 반복하여 수행

3. CRISP-DM 분석 방법론
: Cross Industry Standard Process for Data Mining

**4개의 계층적 프로세스 레벨로 구성되어 있다.
1) 최상위 레벨 : 여러 단계로 구성, 각 단계는 일반화 테스크를 포함
2) 일반화 테스크 : 데이터 마이닝의 단일 프로세스를 완전하게 수행하는 단위
3) 세분화 테스크 : 일반화 테스크를 구체적으로 수행하는 레벨
    예)  정제(Data Cleaning)의 일반화 테스크에는 범주형 데이터 정제/ 연속형 데이터 정제 등으로 구체화된 세분화 테스크가 포함
4) 프로세스 실행 : 구체적인 실행을 포함

** 6단계로 구성 : 각 단계는 폭포수 모델이 아니라 (일방향) 단계간 피드백을 통해 단계별 완성도 높이는 구조
1) 업무 이해
: 도메인 지식을 데이터 분석을 위한 문제 정의로 변경, 초기 프로젝트 계획 수립
: 업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립
2) 데이터 이해
: 분석을 위한 데이터를 수집, 속성을 이해하기 위한 과정 , 품질에 대한 문제점 식별 + 숨겨진 인사이트 발견
: 초기 데이터 수집, 기술 분석, 탐색, 품질확인 -> 업무이해로 BACK 가능
3) 데이터 준비 (전처리)
: 분석기법에 적합한 데이터셋 편성
: 분석용 데이터셋 선택, 데이터 정제, 분석용 데이터 셋 편성, 데이터 통합, 포맷팅
4) 모델링
: 다양한 모델링 기법과 알고리즘 선택, 파라미터 최적화 -> 필요시 데이터 준비 단계 반복 수행 가능
: 테스트용 프로세스와 데이터 셋으로 평가하여 모델 과적합 등의 문제 발견, 대응 방안 마련
: 모델링 기법 선택, 테스트 계획 설계, 모델 작성, 평가
5) 평가
: 프로젝트 목적에 부합하는 지 평가
: 분석결과 평가, 모델링 과정 평가, 모델 적용성 평가 -> 업무이해로 BACK 가능
6) 전개
: 적용되는 비즈니스 도메인 특성, 입력되는 데이터의 품질 편차, 운영 모델의 평가 기준 등에 따라 생명주기가 다양하므로
  상세한 전개 계획이 필요하다.
: 마지막 단계이므로 프로젝트 종료 관련 프로세스를 수행하여 프로젝트를 완료
: 전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료 보고서 작성, 프로젝트 리뷰

업무이해 -> 데이터 이해 -> 전처리 -> 모델링 -> 평가 -> 전개

4. 빅데이터 분석 방법론
: 빅데이터 분석을 위한 방법론은 계층적 프로세스 모델로써 3계층으로 구성된다. (일반적 분석 방법론과 같음 - 위에 서술)

빅데이터 분석 방법론 3계층 구조

**빅데이터 분석 방법론의 단계 (5단계)
1) 분석기획 단계 : 비즈니스 도메인과 문제점을 인식, 분석계획 및 프로젝트 수행계획을 수립
2) 데이터 준비 : 비즈니스 요구사항과 데이터 분석에 필요한 원천 데이터 정의하고 준비
-> 상호 보완하며 반복이 가능
3) 데이터 분석 단계 : 원천 데이터 확보되면 분석용 데이터 셋으로 편성하고 다양한 분석 기법과 알고리즘 이용
4) 시스템 구현 단계 : 분석기획에 맞는 모델을 도출, 운영 중인 가동 시스템에 적용 or  시스템 개발을 위한 가전 검증으로 프로토타입 시스템 구현
5) 평가 및 전개 단계 : 프로젝트 성과 평가, 정리 , 모델의 발전계획 수립하여 차기 분석 기획으로 전달하는 단계

**단계별로 구체적 방법론
A. 분석기획
: 분석하려는 비즈니스 이해, 도메인의 문제점 파악 -> 범위 확정하는 단계
: 프로젝트의 정의 및 수행계획 구체적이고 상세하게 수립하여 향후 프로젝트 진행의 기준선되도록 !
: 대용량의 정형/비정형 데이터를 활용해야 하고
  분석 및 운영을 위한 인프라 구축을 병행하거나 또는 기존 시스템과의 많은 인터페이스를 동반하는 등
  프로젝트 내에 위험요소가 많이 있으므로 사전에 식별하고 대응 방안 수립하는 프로세스도 진행.
: 비즈니스 이해 및 범위 설정, 프로젝트 정의 및 계획 수립, 프로젝트 위험계획 수립
B.데이터 준비
: 비즈니스 요구 사항을 데이터 차원에서 다시 파악하고 데이터를 정의하여 전사 차원의 데이터 스토어를 준비
: 데이터 수집, 저장은 복잡하고 많은 시간 소요 -> ETL등의 다양한 도구 사용
: 데이터의 품직확보가 중요하므로 품질통제와 품질보증 프로세스도 수행
: 필요 데이터 정의, 데이터 스토어 설계, 데이터 수집 및 정합성 검사
C. 데이터 분석
: 데이터 스토어에서 분석에 필요한 데이터셋을 준비하고 탐색적 분석, 모델링과 모델 평가 태스크를 진행
: 비정형 텍스트 데이터가 존재할 경우
   텍스트 마이닝, 텍스트 분류 등의 분석 기법과 알고리즘 이용하여 비정형 분석 실시
-> 필요시 정형 데이터와 결합하여 통합 모델링 수행
-> 필요한 충분한 데이터를 확보할 수 없을 경우 데이터 준비 단계를 반복 수행
: 분석용 데이터 준비, 텍스트 분석, 탐색적 분석(EDA), 모델링, 모델 평가 및 검증, 모델 적용 및 운영 방안 수립
D.시스템 구현
: 분석기획의 의도에 맞는 모델을 데이터 분석 단계를 진행하여 도출 -> 운영 중 시스템에 적용 or 프로토타입 구현
: 단순 데이터 분석 혹은 데이터 마이닝 분석 보고서 작성하는 경우 구현할 필요 X -> 바로 평가 및 전개 단계 수행
: 소프트웨어공학, 정보공학, CBD 등 S/W 개발 생명 주기인 SDLC
   + 기업내 시스템 개발을 위하여 사용하고 있는 방법론을 커스터마이징 하여 적용할 수도 있다.
: 설계 및 구현, 시스템 테스트 및 운영
E. 평가 및 전개
: 수립된 프로젝트의 목적을 달성했는 지 여부 평가 -> 수행된 프로젝트를 객관적이고 정량적으로 평가
-> 내부 활동 및 자산화를 추진
: 모든 중간 산출물 정리, 종료 보고서를 작성하여 의사소통 체계에 따라 보고하고 프로젝트 종료
: 모델 발전계획 수립, 프로젝트 평가 및 보고



(각 단계를 더 세밀하게 )
5. 분석계획/기획


A. 비즈니스 이해 및 범위 설정
: 비즈니스에 대한 충분한 이해와 도메인에 대한 문제점 파악
-> 이를 위해 업무 메뉴얼 및 업무 전문가의 도움이 필요
-> 프로젝트의 범위를 명확하게 파악하기 위해서는 구조화된 명세서를 작성한다.
1) 비즈니스 이해 : 비즈니스에 대한 충분한 이해 + 도메인에 대한 문제점 파악
- 업무 도메인 이해 : 내부 업무 메뉴얼과 관련자료, 외부의 관련 비즈니스 자료 조사하여 향후 방향 설정
     - 입력 자료 : 업무메뉴얼, 업무전문가의 지식, 빅데이터 분석 대상 도메인에 대한 관련 자료
     - 프로세스 및 도구 : 자료 수집 및 비즈니스 이해
     - 출력 자료 : 비즈니스 이해 및 도메인 문제점
2) 프로젝트 범위 설정 : 범위를 명확히 설정 -> 모든 관계자들의 이해 일치를 위해 프로젝트 범위 정의서(SOW)작성
     - 입력자료 : 중장기 계획서, 빅데이터 분석 프로젝트 지시서, 비즈니스 이해 및 도메인 문제점
     - 프로세스 및 도구 : 자료 수집 및 비즈니스 이해, 프로젝트 범위 정의서 작성 절차
     - 출력자료 : 프로젝트 범위 정의서 (SOW, Statement Of Work)
   -> 상세하게 수립할 필요 ; 향후 프로젝트의 기준선

B. 프로젝트 정의 및 계획 수립
: 모델의 운영 이미지를 설계하고 모델 평가 기준을 설정 -> 프로젝트 정의를 명확하게
  -> 이를 기준으로 프로젝트의 WBS(Work Breakdown Structure)를 만들고 데이터 확보계획, 빅데이터 분석방법, 일정계획, 예산계획, 품질계획, 인력구성계획, 의사소통 계획 등을 포함하는 프로젝트 수행계획 작성
1) 데이터 분석 프로젝트 정의 : 프로젝트의 목표 및 KPI, 목표 수준등 구체화 -> 상세 프로젝트 정의서 작성, 모델 우연 이미지 및 평가기준을 설정
     - 입력 자료 : SOW, 빅데이터 분석 프로젝트 지시서
     - 프로제스 및 도구 : 프로젝트 목표 구체화, 모델 운영 이미지 설계
     - 출력 자료 : 프로젝트 정의서, 모델 운영 이미지 설계서, 모델 평가 기준
2) 프로젝트 수행 계획 수립
: 프로젝트의 목적 및 배경, 기대효과, 수행방법, 일정 및 추진 조직, 프로젝트 관리 방안 작성.             
: WBS는 프로젝트 산출물 위주로 작성되어 프로젝트의 범위를 명확하게 한다
     - 입력자료 : 프로젝트 정의서, 모델 운영 이미지 설계서, 모델 평가 기준
     - 프로세스 및 도구 : 프로젝트 수행 계획 작성, WBS작성 도구, 일정 계획 수립 도구
     - 출력자료 : 프로젝트 수행 계획서, WBS        

C.프로젝트 위험계획과 수립                           
: 내,외부 시스템간 다양한 인터페이스 , 대량의 정형/비정형 데이터 연계, 개인 정보 보호 등으로 데이터 획득 및 활용에 현실적으로  많은 어려움이 있다. -> 발생가능한 모든 위험을 발굴하여 사전에 대응방안을 수립 -> 프로젝트 안정성 높인다.
1) 데이터 분석 위험 식별
: 선행 프로젝트 산출물 + 정리자료 + 전문가의 판단 활용 -> 빅데이터 분석 프로젝트의 발생 가능 위험 식별
: 위험위 영향도와 빈도, 발생가능성 등을 평가하여 위험의 우선 순위 설정
     - 입력자료 : 프로젝트 정의서, 수행계획서, 산물물 및 정리자료
     - 프로세스 및 도구 : 위험 식별저랓, 위험영향도 및 발생가능성 분석, 위험 우선 순위 판단
     - 출력자료 : 식별된 위험 목록
2)위험대응 계획수립
:예상되는 위험에 대한 대응은 회피, 전이, 완화, 수용으로 구분하여 위험 관리 계획서 작성
     - 입력자료 : 식별된 위험 목록 , 프로젝트 정의서, 프로젝트 수행 계획서
     - 프로세스 및 도구 : 위험 정량적 분석, 위험 정성적 분석
     - 출력자료 : 위험 관리 계획서                                                                                                                                             

=> 분석기획 단계
: 비즈니스와 도메인에 대한 문제점을 파악하여
  프로젝트 범위 설정 , 모델 운영 이미지 , 평가 기준 설정하여 프로젝트 정의를 명확하게 하고
  위험 대응 계획 수립

6.데이터 준비


A. 필요 데이터 정의
: 프로젝트 진행에 필요한 데이터를 정의 - 전사 차원에서 필요 데이터 정의하는 것이 중요!!
: 모든 내/외부 데이터를 포함 -> 속성, 오너, 관련시스템 담당자 등을 모두 포함하는 데이터 정의서 작성
=> 데이터 획득과정에서 발생하는 프로젝트 지연을 방지
1) 데이터 정의 : 내/외부 원천 데이터 소스로부터 분석에 필요한 데이터 정의
      - 입력자료 : 프로젝트 수행 계획서, 시스템 설계서, ERD, 메타 데이터 정의서, 문서 자료
      - 프로세스 및 도구 : 내 외부 데이터 정의, 정형 비정형 반정형 데이터 정의
      - 출력 자료 : 데이터 정의서
2)데이터 획득 방안 수립 : 구체적 방안 수립
      (내부)부서간 업무 협조, 개인정보 보호 , 정보보안 문제 사전 점검
      (외부)시스템간 다양한 인터페이스 및 법적인 문제점 고려하여 상세한 데이터 획득 계획 수립
      - 입력자료 : 데이터 정의서, 시스템 설계서, ERD, 메타 데이터 정의서. 문서 자료, 데이터 구입
      - 프로세스 밑 도구 : 데이터 획득 방안 수립
      - 출력자료 : 데이터 획득 계획서

B.데이터 스토어 설계 : 획득방안 수립되면 데이터 저장하기 위한 전사차원의 데이터 스토어 설계
1) 정형 데이터 스토어 설계 : 구조화된 형식, 일반적으로 관계형 데이터 베이스인 RDBMS를 사용
-> 효율적인 저장과 활용 위하여 데이터 스토어의 논리적, 물리적 설계를 구분하여 설계
     - 입력자료 : 데이터 정의서, 데이터 획득 계획서
     - 프로세스 및 도구 : 데이터베이스 논리설계, 데이터베이스 물리설계 , 데이터 매핑
     - 출력자료 : 정형 데이터 스토어 설계서, 데이터 매핑 정의서
2) 비정형 데이터 스토어 설계 : 하둡, NoSQL 등 활용 비정형, 반정형 데이터 저장 위한 논리적/물리적 스토어설계
     - 입력자료 : 데이터 정의서, 데이터 획득 계획서
     - 프로세스 및 도구 : 비정형/반정형 논리설계, 비정형/반정형물리설계
     - 출력자료 : 비정형 데이터 스토어 설계서, 데이터 매핑 정의서

C.데이터 수집 및 정합성 점검
: 구축된 데이터 스토어에 크롤링, 시스템 간 실시간 처리, 배치 처리 등으로 데이터 수집
: 데이터베이스 간 연동, API를 이용한 개발, ETL도구의 활용 등 다양한 방법 이용하여 데이터 수집 프로세스 진행
: 저장된 데이터는 테이터의 품질을 확보하기 위한 정합성 검증을 실시하고
   데이터 거버넌스에 근거하여 메타 데이터 및 데이터 사전 등이 작성되고 적용되고 있는 지 주기적으로 확인한다.
1) 데이터 수집 및 저장
: 크롤링 등의 데이터 수집을 위한 ETL 등의 다양한 도구와 API, 스크립트 프로그램 등을 이용하여
  데이터를 수집하고 수집된 데이터를 설계된 데이터 스토어에 저장한다.
     - 입력자료 : 데이터 정의서, 데이터 획득 계획서, 데이터 스토어 설계서
     - 프로세스 및 도구 : 데이터 크롤링 도구, ETL도구, 데이터 수집 스크립트
     - 출력자료 : 수집된 분석용 데이터
2)데이터 정합성 정검
: 데이터 스토어의 품질 점검을 통해 품질 개선이 필요한 부분에 대하여 보완 작업
     - 입력자료 : 수집된 분석용 데이터
     - 프로세스 및 도구 :데이터 품질 확인, 데이터 정합성 점검 리스트
     - 출력자료 : 데이터 정합성 점검 보고서

=> 데이터 준비
: 필요데이터를 정의하고 획득방안 수립하고,
  전사차원의 데이터 스토어 설계하여
  설계한 데이터 스토어에 데이터를 수집하고
  수집된 데이터는 품질 점검을 위해 정합성 점검을 실시하는 과정

7. 데이터 분석


A. 분석용 데이터 준비
: 분석에 필요한 데이터셋을 준비하기 위해 프로젝트 목표와 도메인을 이해하고 비즈니스 룰을 확인한다.
: 전사 차원으로 구축된 데이터 스토어에서
  분석용 데이터 셋을 ETL 도구 등을 이용하여 추출하고 데이터베이스나 구조화된 데이터 형태로 편성한다. 
1) 비즈니스 룰 확인
: 분석 계획 단계에서 정의한 프로젝트 목표를 바탕으로 세부적인 비즈니스 룰을 파악하고 분석에 필요한 데이터의 범위를 확인한다.
( 분석기획 단계에서는 프로젝트의 범위를 정의한 것 , 여기서 데이터의 범위 확인)
     - 입력자료 : 프로젝트 정의서, 프로젝트 수행 계획서, 데이터 정의서, 데이터 스토어
     - 프로세스 및 도구 :프로젝트 목표 확인, 비즈니스 룰 확인
     - 출력자료 :비즈니스 룰, 분석에 필요한 데이터 범위
2) 분석용 데이터 셋 준비
: 데이터 스토어로부터 필요한 데이터 추출 -> 필요시 적절한 가공
: 추출된 데이터는 구조화된 형태로 구성하고
  필요시 분석을 위한 작업공간과 전사 차원이 데이터 스토어로 분리할 수 있다.
     - 입력자료 : 데이터 정의서, 데이터 스토어
     - 프로세스 및 도구 : 데이터 선정, 데이터 변환, ETL 도구
     - 출력자료 : 분석용 데이터 셋

B. 텍스트 분석
: 비정형/반정형의 텍스트 데이터를 이용하여
  어휘/구문 분석, 감성 분석, 토픽 분석, 오피니언 분석, 소셜 네트워크 분석 등을 실시하여
  텍스트로부터 분석 목적에 맞는 적절한 모델을 구축한다.
: 분석 결과는 모델링 태스크와 연동하여 프로젝트 목적에 부합되는 최종 모델을 구축하기도 한다.
1) 텍스트 데이터 확인 및 추출 : 비정형 데이터를 데이터 스토어에서 확인하고 필요한 데이터 추출
     - 입력자료 : 비정형 데이터 스토어
     - 프로세스 및 도구 : 분석용 텍스트 데이터 확인, 텍스트 데이터 추출
     - 출력자료 : 분석용 텍스트 데이터
2) 텍스트 데이터 분석
: 용어사전을 사전에 확보하거나 업무 도메인에 맞도록 작성 , 모델의 의미 전달을 명확하게 하기 위한 텍스트 시각화 도구 이용
     - 입력자료 : 분석용 텍스트 데이터, 용어사전 (용어 유의어 사전, 불용어 사전 등)
     - 프로세스 및 도구 : 분류체계 설계, 형태소 분석, 키워드 도출, 토픽 분석, 감성 분석, 오피니언 분석, 네트워크 분석
     - 출력자료 : 텍스트 분석 보고서

C. 탐색적 분석 (EDA)
: 분석용 데이터 셋에 대한 정합성 검토, 데이터 요약, 데이터 특성을 파악하고 모델링에 필요한 데이터 편성
**탐색적 분석(EDA, Esploratory Data Analysis)은
      다양한 데이터 시각화를 활용-> 가독성 높이고, 데이터 형상 및 분포 등 데이터 특성을 파악하는 태스크
1) 탐색적 데이터 분석
: 다양한 관점 별로 기초 통계량(평균, 분산, 표준편차, 최댓값 등)을 산출
   -> 데이터의 분포와 변수 간의 관계 등 데이터 자체의 특성(중심성, 분포 성, 산포 성) 및 데이터의 통계적 특성을 이해하고
       모델링을 위한 기초 자료로 활용한다.
     - 입력자료 : 분석용 데이터 셋
     - 프로세스 및 도구 : EDA 도구, 통계 분석, 변수간 연관성 분석, 데이터 분포 확인
     - 출력자료 : 데이터 탐색 보고서
2) 데이터 시각화
: 탐색적 데이터 분석을 위한 도구, 모델링 또는 향후 시스템 구현을 위한 사용자 인터페이스/프로토타입으로 활용 가능
(모델의 시스템화를 위해 사용할 경우 시각화 기확-설계-구현 등의 별도 프로세스 따라야 함.)
     - 입력자료 : 분석용 데이터 셋
     - 프로세스 및 도구 : 시각화 도구 및 패키지, 인포그래픽, 시각화 방법론
     - 출력자료 : 데이터 시각화 보고서

D. 모델링
: 분석용 데이터를 이용한 가설 설정을 통하여 통계 모델을 만들거나 기계학습을 이용한 데이터의 분류, 예측, 군집 등의 기능을 수행하는 모델을 만드는 과정
(기계학습은 지도 학습과 비지도 학습으로 나뉘어 다양한 알고리즘 적용 가능)
1) 데이터 분할 : 모델의 과적합과 일반화를 위해 훈련용과 테스트용으로 분할한다.
: 모델에 적용하는 기법에 따라
   교차검증을 수행하거나 앙상블 기법을 적용할 경우
   데이터 분할 또는 검증 횟수, 생성 모델 개수 등을 설정하여 데이터 분할 기법을 응용
     - 입력자료 : 분석용 데이터 셋
     - 프로세스 및 도구 : 데이터 분할 패키지
     - 출력자료 : 훈련용 데이터, 테스트용 데이터
2) 데이터 모델링
훈련용 데이터를 활용하여 분류, 예측, 군집 등의 모델을 만들어 가동 중인 운영 시스템에 적용
: 필요시 비정형 데이터 분석 결과를 통합적으로 활용하여 프로젝트 목적에 맞는 통합 모델링을 수행
     - 입력자료 : 분석용 데이터 셋
     - 프로세스 및 도구 : 통계 모델링 기법 , 기계 학습, 모델 테스트
     - 출력자료 : 모델링 결과 보고서
3) 모델 적용 및 운영 방안
: 상세한 알고리즘 설명서 작성, 시스템 구현 시 중요한 입력자료로 활용되므로 필요시 의사 코드 수준의 상세 작성
  또한, 안정적 운영을 모니터링하는 방안도 수립
     - 입력자료 : 모델링 결과 보고서
     - 프로세스 및 도구 : 모니터링 방안 수립, 알고리즘 설명서 작성
     - 출력자료 : 알고리즘 설명서, 모니터링 방안
4) 모델 평가 및 검증
: 모델 평가 방법은 다양, 분석기획 단계에서 작성된 프로젝트 정의서 평가 기준에 따라 모델의 완성도 평가
: 모델 검증은 분석용 데이터 셋이 아닌 별도의 데이터 셋으로 모델의 객관성과 실무 적용성을 검증해야 한다.
  -> 성능 목표에 미달하는 경우 모델링 태스크를 반복하는 등 모델 튜닝 작업 수행
① 모델 평가 : 프로젝트 정의서(분석기획 단계)의 모델 평가 기준에 따라 모델을 객관적으로 평가 + 모델 평가 프로세스
: 모델 평가를 위해서는 모델 결과 보고서 내의 알고리즘을 파악하고
  테스트용 데이터나 필요시 모델 검증을 위한 별도의 데이터를 활용할 수도 있다.
     - 입력자료 : 모델링 결과 보고서 , 평가용 데이터
     - 프로세스 및 도구 : 모델 평가, 모델 품질관리, 모델 개선 작업
     - 출력자료 : 모델 평가 보고서
②모델 검증
: 모델의 실 적용성 검증 , 실제 운영용 데이터를 확보하여 모델의 품질을 최종 검증하는 프로세스
     - 입력자료 : 모델링 결과 보고서 , 모델 평가 보고서, 검증용 데이터 
     - 프로세스 및 도구 : 모델 검증
     - 출력자료 : 모델 검증 보고서

=> 분석용 데이터 셋 준비하기 위해
분석기획 단계에서 정의한 프로젝트 정의를 확인하여
사용할 데이터 범위를 확인 -> 분석용 데이터 셋 추출
-> 텍스트 데이터 확인 및 추출하여서 분석한다. 
-> 앞서 추출한 데이터셋에 대한 정합성 검토하고 탐색적 데이터 분석과 데이터 시각화를 한다.
모델의 과적합 방지와 일반화를 위하여 데이터를 분할 학고 모델링을 한다. 그리고 상세 알고리즘 설명서를 작성한다.
마지막으로 구현한 모델링이 프로젝트 정의서의 평가기준에 부합하는지 평가 및 검증을 한다.

8. 시스템 구현
A. 설게 및 구현
: 모델링 태스크에서 작성된 알고리즘 설명서와 데이터 시각화 보고서를 이용 -> 시스템, 데이터 아키텍처 설계, 사용자 인터페이스 설계를 진행
: 가동 중인 시스템에 적용하기 위해 운영 시스템에 대한 분석도 수행
: 시스템 설계서를 바탕으로 BI 패키지를 활용하거나 새롭게 프로그램 코딩을 통하여 시스템을 구축
1) 시스템 분석 및 설계
: 알고리즘 설명서에 근거하여 응용 시스템 구축 설계 프로세스 진행
     - 입력자료 : 알고리즘 설명서 , 운영 중인 시스템 설계서 
     - 프로세스 및 도구 : 정보시스템 개발 방법론 (커스터 마이 징하여 적용 가능)
     - 출력자료 : 시스템 분석 및 설계서
2) 시스템 구현
: 시스템 분석 및 설계서에 따라 BI 패키지를 활용, 새롭게 시스템을 구축/ 가동 중인 운영 시스템의 커스터마이징을 통해 설계된 모델 구현
     - 입력자료 : 시스템 분석 및 설계서, 알고리즘 설명서
     - 프로세스 및 도구 : 시스템 통합개발도구(IDE), 프로그램 언어, 패키지 
     - 출력자료 : 구현 시스템

B. 시스템 테스트 및 운영  
1) 시스템 테스트 : 구축된 시스템의 검증을 위해 단위 테스트, 통합 테스트, 시스템 테스트 등을 실시
: 품질관리 차원에서 진행 -> 시스템의 객관성과 완전성 확보
     - 입력자료 : 구현 시스템, 시스템 테스트 계획서
     - 프로세스 및 도구 : 품질관리 활동
     - 출력자료 : 시스템 테스트 결과보고서
2) 시스템 운영 계획
: 지속적으로 활용하기 위하여 필요한 교육을 실시하고 시스템 운영계획을 수립
     - 입력자료 : 시스템 분석 및 설계서, 구현 시스템
     - 프로세스 및 도구 : 운영 계획 수립, 운영자 및 사용자 교육
     - 출력자료 : 운영자 매뉴얼, 사용자 매뉴얼, 시스템 운영 계획서

=> 시스템 구현
: 알고리즘 설명서에 근거하여 실제 시스템 구축 및 구현한 뒤 시스템 테스트를 통해 시스템의 객관성과 완전성 확보하고 지속적으로 사용 가능하도록 매뉴얼을 만들고 필요한 교육을 실시한다.

9. 평가 및 전개
A. 모델 발전 계획 수립
: 모델의 생명 주기를 설정하고 주기적인 평가를 실시하여 모델을 유지보수하거나 재구축하기 위한 방안 마련
: 모델 업데이트를 자동화하는 방안을 수립, 적용도 가능
1) 모델 발전 계획
: 모델의 계속성을 확보
     - 입력자료 : 구현 시스템, 프로젝트 산출물
     - 프로세스 및 도구 : 모델 발전 계획 수립
     - 출력자료 : 모델 발전 계획서
2) 프로젝트 평가 및 보고
: 프로젝트의 성과를 정량적, 정성적으로 평가하고
프로젝트 진행과정에서 산출된 지식, 프로세스, 출력자료를 지식 자산 화하고 프로젝트 최종 보고서를 작성
1) 프로젝트 성과 평가
: 정량적 성과와 정성적 성과로 나누어 성과 평가서 작성
     - 입력자료 : 프로젝트 산출물, 품질관리 산출물, 프로젝트 정의서, 프로젝트 수행 계획서
     - 프로세스 및 도구 : 프로젝트 평가 기준, 프로젝트 정량적 평가, 프로젝트 정성적 평가
     - 출력자료 : 프로젝트 성과 평가서
2) 프로젝트 종료
: 모든 산출물 및 프로세스를 지식자산화
     - 입력자료 : 프로젝트 산출물, 품질관리 산출물, 프로젝트 정의서, 프로젝트 수행 계획서, 프로젝트 성과 평가서  
     - 프로세스 및 도구 : 프로젝트 지식자산화 작업 , 프로젝트 종료
     - 출력자료 : 프로젝트 최종 보고서  

=> 평가 및 전개
: 모델링한 것을 계속 사용할 수 있도록 발전 계획을 세우고 프로젝트 성과를 평가한 뒤 보고서를 작성하여 산출물 및 프로세스를 지식 자산화 하여 종료

제3절 분석 과제 발굴
: 대규모의 다양한 데이터를 생성하고 빠르게 변하는 기업 환경에서는 문제 자체의 변화가 심해서 정확하게 문제를 사전에 정의하는 것이 어려워지고 있음.
-> 데이터를 활용하여 생각하지 못했던 인사이트 도출
      + 시행착오를 통해 개선 "상향식 접근 방식" 증가 추세
: 새로운 상품을 개발하거나 전략 수립 등 중요한 의사결정을 할 때 가능한 옵션을 도출하는 것이 "상향식"의 발산 단계
  도출된 옵션을 분석, 검증하는 것이 "하향식"의 수렴 단계
=> 반복적으로 이 두 단계를 수행하는 방식으로 상호 보완하는 것이 동적인 환경에서 분석의 가치를 높일 수 있는 최적의 의사결정 방식

**분석 과제를 도출하기 위한 2가지 방식
-  하향식 접근 방식 (Top Down Approach)
: 문제 제시됨 -> 해법 찾기 위한 과정 체계적으로 수행
-  상향식 접근 방식 ( Bottom Up Approach) 
: 문제 정의 자체가 어려운 경우 , 데이터를 기반으로 해결방안 탐색 + 지속적으로 개선 

1. 하향식 접근법 (Top Down Approach) 
: 현황 분석을 통해서 또는 인식된 문제점 혹은 전략으로부터 기회나 문제를 탐색 
  -> 해당 문제를 데이터 문제로 정의 -> 해결방안 탐색 -> 데이터 분석의 타당성 평가 -> 분석 과제 도출 

하향식 접근법

가. 하향식 접근법의 step 1. 문제 탐색 단계 (2가지 모델 - 비즈니스 모델 & 외부 참조 모델 + 분석 유즈 케이스 정의 )
개별적 문제 정리 X , 전체적 관점의 기본 모델 활용 -> 빠짐없이 문제 도출, 식별 
해결하기 위한 방안, 세부 구현 및 설루션에 중점 두는 것 X  문제를 해결함으로써 발생하는 가치에 중점을 두는 것이 중요 

1) 비즈니스 모델 기반 문제 탐색
 (비즈니스 모델이라는 기본 틀 활용 + 혁신의 관점에서 분석 기회 추가 도출-> 2가지) 
: 과제 발굴을 위한 기본 틀 = '비즈니스 모델'이라는 틀 활용  -> 가치가 창출될 문제를 누락 없이 도출
  -> 업무, 제품, 고객 단위로 문제 발굴
  ->규제와 검사, 자원 인프라 영역 도출 

비즈니스 모델 캔버스를 활용한 과제 발굴

**업무 (Operation) : 생산하기 위해 운영하는 내부 프로세스 및 주요 자원 관련 주제 도출 - 생산 공정 최적화 , 재고량 최소화 등
**제품 (Product) : 제품/서비스를 개선하기 위한 주제 도출 - 제품의 주요 기능 개선, 서비스 모니터링 지표 도출 등 
**고객 (Customer) : 사용자 및 고객, 이를 제공하는 채널의 관점에서 관련 주제 도출 - 고객 call 대기 시간 최소화, 영업점 위치 등 
**규제와 감사 (Regulation & Audit) : 생산 및 전달 과정 프로세스 중에서 발생하는 규제 및 보안의 관점 - 품질 이상, 새로운 환경 규제 시 예상되는 제품 추출 
**지원 인프라 ( IT & Human Resource) : 시스템 영역 및 운영/관리하는 인력의 관점에서 주제 도출 - EDW 최적화, 적정 운영 인력 도출 등 

:최적화 및 단기 과제 형식으로 문제 해결 도출될 가능성 높기 때문에 새로운 문제의 바윌 및 장기적인 접근을 위해서는
 기업이 현재 수행하고 있는 비즈니스뿐만 아니라
 '환경과 경쟁 구도의 변화 및 역량의 재해석을 통한 혁신의 관점에서 분석 기회를 추가 도출' 필요
-> 현재 사업을 영위하고 있는 환경, 경쟁자, 보유하고 있는 역량, 제공하고 있는 시장 등을 넘어서
    '거시적 관점의 요인, 경쟁자의 동향, 시장의 니즈 변화, 역량의 재해석' 등 새로운 관점의 접근을 통해
    새로운 유형의 분석 기회 및 주제 발굴을 수행해야 한다. 
->분석가뿐만 아니라 해당 기능을 수행하는 직원 및 관련자에 대한 폭넓은 인터뷰와 워크숍 형태의 아이디어 발굴 작업이 필요

분석 기회 발굴의 범위 확장 -> 문제 출제된 적 있음 ( 경쟁사의 동향 중 틀린 것으로 고객채널이 보기로 나옴)

① 거시적 관점(5가지) = 메가 트렌드- > 사기 경환 정
    : 사회(Social), 기술(Technological) , 경제(Economic), 환경(Environmental), 정치(Political) 영역
     - 사회 : 현재 고객 확장하여 전체 시장을 대상으로 사회적, 문화적, 구조적 트렌드 변화 기반한 분석 기회 도출 
               예) 노령화, 밀레니얼 세대의 등장, 저출산에 따른 해당 사업 모델의 변화 등
     - 기술 : 최신 기술의 틍장, 변화에 다른 역량 내재화/제품, 서비스 개발에 대한 분석 기회 도출
               예) 나노기술, IT융합 기술, 로봇기술
     - 경제 : 경제 구조 변화 동향에 따른 시장 흐름
               예) 원자재 가격, 환율, 금리변동에 다른 구매 전략 변화
     - 환경 : 정부, 사회단체, 시민사회의 관심과 규제
               예) 탄소 배출 규제, 거래시장 등장에 따른 원가 절감, 정보 가시화 
     - 정치 : 주요 정책 방향, 정세, 지정학적 동향
               예)  대북 관계 동향에 따른 원자재 구매 거래선의 다변화 등 
② 경쟁자 확대 관점 (경쟁사의 동향) : 직접 경쟁사 및 제품 서비스뿐만 아나리 대체제와 신규 진입자 등으로 위험될 상황 분석 
    : 대체재, 경쟁자 , 신규 진입자 영역
     - 대체재 : 오프라인 제품 온라인으로 제공하는 것에 대한 탐색 및 잠재적 위협
     - 경쟁자 : 주요 경쟁자 동향 파악
     - 신규 진입자 : 새로운 제품에 대한 크라우드 소실 서비스인 kickstarter의 유사 제품 분석 , 자사 제품 위협 파악
③ 시장의 니즈 탐색 관점 : 직접 고객뿐만 아니라 고객과 접촉하는 역할을 수행하는 채널 및 고객의 구매와 의사 결정에 영향 미치는 영향자들에 대한 폭넓은 관점을 바탕으로 분석 기회 탐색 
     - 고객 영역  : 제품, 서비스의 개선 필요에 필요한 기회 도출 - 주요 거래선의 경영 현황 파악
     - 채널 영역 : 자체적 채널뿐 아니라 최종 고객에서 상품, 서비스 전달하는 것에 경로로 존재하는 가능한 경로 파악 - 온라인 채널
     - 영향자들 영역 : 주주, 투자자, 협회 및 기타 이해관계자의 주요 관심 사항 - M&A 시장 확대 , 신규 기업 인수 기회 탐색 등
④ 역량의 재해석 관점 : 파트너 네트워크 포함, 내부 역량
     - 내부 역량 : 지식, 기술, 스킬 등의 노하우와 인프라적인 유형 자산 -> 재해석&분석 - 자사 소유 부동산 활용
     - 파트너와 네트워크 영역 : 밀접한 관계 유지하고 있는 관계사, 공급사 역량 - 수출입 , 통관 노하우 활용한 추가 사업기회

2) 외부 참조 모델 기반 문제 탐색 
: 유사, 동종의 환경에서 기존에 수행한 분석 과제를 살펴보는 것 (벤치마킹) -> Quick &Easy 방법으로
 -> 필요한 분석 기회가 무엇인지 아이디어 얻고, 기업에 적용할 분석 테마 후보 목록 워크숍 형태인 브레인스토밍을 통해 빠르게 도출
 -> 평상시 지속적인 조사와 데이터 분석을 통한 가치 발굴 사례를 정리하여
     풀로 만들어 둔다면 과제 발굴 및 탐색 시 빠르고 의미 있는 분석 기회 도출 가능

공공 부문 분석주제 풀 & 민간 부문 분석주제 풀 예시


3) 분석 유즈 케이스 정의 : 유사, 동종 사례 탐색 -> 구체적인 과제로 만들기에 앞서 유즈 케이스로 표기하는 것이 필요
**상세한 설명 및 해당 문제를 해결했을 때 발생하는 효과를 명시함으로써 향후 데이터 분석 문제로의 전환 및 적합성 평가에 활용

분석 유즈 케이스 예시


나. 하향식 접근법의 step 2. 문제 정의 단계 
: 식별된 비즈니스 문제를 데이터의 문제로 변환하여 정의하는 단계
: 필요한 데이터 및 기법을 정의하기 위한 데이터 분석의 문제로의 변환을 수행하는 단계
: 분석 수행 당사자와 최종 사용자의 관점 모두를 고려해야 한다. / 가능한 정확하게 문제를 재정의!

문제 정의 단계 :문제 탐색 단계에서 식별한 비즈니스 문제를 데이터 분석의 문제로 변환하여 정확하게 재정의 하는 단계

다. 하향식 접근법의 step 3. 해결방안 탐색 단계 
: 정의된 데이터 분석 문제를 해결하기 위한 다양한 방안 모색 
: 동일한 데이터 분석 문제라 해도 어떤 데이터 , 분석 시스템을 사용할 것인가에 따라 소요되는 예산 및 활용 가능 도구가 다르기 때문에 다각도로 고려해야 한다.  

분석역량도 있고 시스템도 있는 경우 : 기존 시스템 개선 활용 분석역량은 없고 시스템은 있는 경우 : 교육 및 채용을 통해 역량을 확보 분석역량은 있는 데 심도있는 시스템이 필요한 경우 : 시스템 고도화 분석역량도 없고 시스템도 없는 경우 : 전문 업체활용

라. 하향식 접근법의 step 4. 타당성 검토 단계 
1) 경제적 타당성 : 비용 대비 편익 분석 관점의 접근 
2) 데이터 및 기술적 타당성 : 데이터 존재 여부, 분석 시스템 환경 그리고 분석 역량이 있는지 

분석역량이 프로젝트 실행 시 걸림돌 -> 기술적 타당성 분석 시 역량 확보 방안 사전 수립 필요 => 비즈니스 분석가, 데이터 분석가, 시스템 엔지니어 등과의 협업 수반 필요


2. 상향식 접근법 ( Bottom Up Approach ) 
: 기업에서 보유하고 있는 다양한 원천 데이터로부터 분석을 통하여 통찰력과 지식을 얻는 방법 (가치 있는 문제 도출)
** 기존 하향식 접근법의 한계를 극복하기 위한 분석 방법론 
: 논리적인 단계별 접근법은 문제의 구조가 분명, 문제를 해결하고 해결책 도출하기 위한 데이터가
  분석가 및 의사 결정자에게 주어져 있음을 가정하고 있어서 설루션 도출에는 유효하지만 새로운 문제의 탐색에는 한계가 있다. 
: 기존의 Why관점은 알고 있다고 가정한 것으로부터 설루션을 찾는 방법 , 
  상향식 방법은 답을 미리 내는 것이 아니라 사물을 있는 그대로 인식하는 what관점! -> 감정이입(Empathize)이 중요!!!

하향식 접근법의 오류를 해결하기 위해 d.school에서 고안한 디자인 사고 접근법

: 일반적으로 상향식 접근 방식의 데이터 분석은 비지도 학습 방법에 의해 수행 
 -> 데이터 분석의 목적 명확하지 X , 데이터 자체의 결합, 연관성, 유사성 등을 중심으로 상태 표현 
     예) 장바구니 분석, 군집 분석, 기술 통계 및 프로 파일링 
: 비지도 학습의 경우 목푯값을 사전에 정의 X , 데이터 자체만으로 그룹 도출 -> 해석 용이 X,
   BUT, 새로운 유형의 인사이트를 도출하기에 유용한 방식으로 활용 가능

지도학습 : 어떤 결과 나올 지 예측하여 분류 하는 것 / 비지도 학습 : 인자들 간의 유사성 바탕으로 군집화

: 빅데이터 환경에서는 논리적인 인과관계 분석뿐 아니라 상관관계 /연관 분석을 통해서 다양한 문제 해결에 도움을 받을 수 있다. 
 -> 인과관계로부터 상관관계 분석으로의 이동이 빅데이터 분석에서의 주요 변화! 
: 다량의 데이터 분석을 통해서 "왜" 그러한 일이 발생했는지 역으로 추적하면서 문제 도출 & 재정의 하는 접근 방법!!!

**시행착오를 통한 문제 해결 
: 프로토 타이핑 접근법
- 사용자가 요구사항이나 데이터를 정확히 규정하기 어렵고 데이터 소스도 명확히 파악하기 어려운 상황에서
  "일단 분석 시도" 해보고 결과 확인해가며 "반복"적으로 개선해 나가는 방법 - 데이터가 완전하지 못해도 접근 가능
  * 프로토 타이핑 접근법의 기본 프로세스 : 가설 생성, 디자인에 대한 실험, 실제 테스트, 결과 통찰 도출 및 가설 확인

  * 빅데이터 분석 환경에서 프로토타이핑의 필요성 
    - 문제에 대한 인식 수준 : 문제 뭔지 모를 때 -> 문제 이해, 구체화하는 데 도움
    - 필요 데이터 존재 여부의 불확실성 
    - 데이터의 사용 목적의 가변성 : 제1, 2,3 목적으로 사용 가능 


3. 분석 과제 정의 
: 분석 과제 정의서는 향후 프로젝트 수행 계획의 입력 물로 사용되기 때문에 프로젝트를 수행하는 이해관계자가 프로젝트의 방향을 설정하고 성공 여부를 판별할 수 있는 주요한 자료로서 명확하게 작성되어야 한다. 
: 필요한 소스 데이터, 분석방법, 데이터 입수 난이도, 분석 수행 주기, 분석 결과에 대한 검증 오너십, 상세분석 과정, 분석 적용 난이 사유 , 데이터 범위 확장까지 고려하여 상. 세하게 작성!!!! 


제4절 분석 프로젝트 관리 방안 
: 범위, 일정, 품질, 리스트 , 의사소통 등 영역별 관리 수행 + 5가지 주요 속성을 고려한 추가적인 관리 필요!!
1) DATA SIZE : 데이터 양을 고려한 관리 방안 수립 필요 
2) DATA COMPLEXITY : 정형/비정형 데이터의 통합 분석 -> 이를 모두 다룰 수 있는 분석 모델 선정 등 
3) SPEED : 활용하는 시나리오 측면에서, 일단위, 주 단위, 실시간 수행에 따라 다르게 -> 분석 모델 성능 및 속도 고려!
4) ANALYTIC COMPLEXITY : 분석 모델의 정확도와 복잡도는 트레이드오프 관계가 존재
   복잡-> 정확도 높고, 해석 어려워 => 기준점 사전에 정의 -> 해석 가능하면서도 정확도 올릴 수 있는 최적모델 모색 
5) ACCURACY&PRECISION : 트레이드오프 관계 존재 -> 최적 모델 모색 필요 
      ACCURACY- 모델과 실제 값 사이의 차이가 적다는 정확도 / 분석 활용 측면에서 중요
      PRECISION - 지속적으로 반복한 경우 편차가 없이 동일한 결과 제시 / 안정성 측면에서 중요 

트레이드 오프 관계 존재 -> 최적 모델 모색 필요 ; 4번째 모델이 최적 !

1. 분석 프로젝트의 특성 
: 분석가는 분석 정확도 높이는 것이 목표 / 프로젝트는 개별 분석뿐 아니라 전반적 프로젝트 관리도 중요 
: 분석가는 조정자로서 데이터 영역 + 비즈니스 영역의 현황 이해가 중요!
  (프로젝트 관리 방안에 대한 이해와 주요 관리 포인트를 사전 숙지하는 것이 필수적) 
: 분석 프로젝트는 도출된 결과의 재해석 통한 지속적인 반복 및 정교화가 수행되는 경우가 대부분 
 -> 프로토타이핑 방식의 어자일 프로젝트 관리 방식에 대한 고려도 필요 -> 반복 및 개선을 통해 의도한 결과에 가까워지는 형태! 

2. 분석 프로젝트 관리방안
: 프로젝트 관리 지침을 기본 가이드로 활용 - 10개의 주제 그룹으로 구성

관리 영역
/주제그룹
개념 및 관련 프로세스 / 특성 및 주요 관리 항목 
통합
프로젝트와 관련된 다양한 활동과 프로세스를 도출, 정의, 결합, 단일화, 조정, 통제, 종료에 필요한 프로세스
 - 프로젝트 관리 프로세스들이 통합적으로 운영될 수 있도록 관리함
이해관계자
프로젝트 스폰서, 고객사, 기타 이해관계자를 식별하고 관리하는 데 필요한 프로세스
 - 데이터분석 프로젝트는 데이터 전문가, 비즈니스 전문가, 분석 전문가, 시스템 전문가 등 다양한 전문가가 참여  
 -> 이해 관계자의 식별과 관리가 필요
범위
작업과 인도물을 식별하고 정의하는 데 요구되는 프로세스 
- 분석 기획단계의 프로젝트 범위가 분석을 진행하면서 데이터의 형태와 양 또는 적용되는 모델의 알고리즘에 따라 범위가 빈번하게 변경된다.
- 분석의 최종 결과물이 분석 보고서 형태인지 시스템인지에 따라서 투입되는 자원 및 범위가 크게 변경되므로 사전에 충분한 고려가 필요
자원 
인력, 시설, 장비, 자재, 기반시설, 도구와 같은 적절한 프로젝트 자원을 식별하고 확보하는 데 필요한 프로세스
- 고급 분석 및 빅데이터 아키텍쳐링을 수행할 수 있는 인력의 공급이 부족하므로 프로젝트 수행 전 전문가 확보 검토 필요
시간 
프로젝트 활동의 일정을 수립하고 일정 통제의 진척상황을 관찰하는 데 요구되는 프로세스 
- 데이터 분석 프로젝트는 초기에 의도했던 결과가 나오기 쉽지 않기 때문에 지속, 반복 되어 많은 시간 소요 가능
- 분석 결과에 대한 품질이 보장된다는 전제로 Time Boxing 기법으로 일정관리 진행이 필요
원가 
예산개발과 원가 통제의 진척사항을 관찰하는 데 요구되는 프로세스를 포함 
외부 데이터를 활용한 데이터 분석인 경우 고가의 비용이 소요될 수 있으므로 사전 조사 필요
- 오픈 소스 도구 외에 프로젝트 수행시 의도했던 결과 달성을 위한 상용버전의 도구가 필요할 수 있음 ( BI/ GIS 등)
리스크
위험과 기회를 식별하고 관리하는 프로세스 
- 분석에 필요한 데이터 미확보로 분석 프로젝트 진행이 어려울 수 있어 관련 위험 식별하고 대응방안을 사전에 수립
데이터 및 분석 알고리즘의 한계로 품질목표를 달성하기 어려울 수 있어 대응 방안 수립 필요
품질
품질보증과 품질 통제를 계획하고 확립하는 데 요구되는 프로세스 
- 분석 프로젝트를 수행한 결과에 대한 품질목표를 사전에 수립하여 확정
- 프로젝트 품질은 품질통제와 품질보증으로 나누어 수행
조달
계획에 요구된 프로세스를 포함하여 제품 및 서비스 또는 인도물을 인수하고 공급자와의 관계 관리에 요구되는 
- 프로젝트 목적성에 맞는 외부 소싱을 적절하게 운영
- PoC(Proof of Concept) 형태의 프로젝트는 인프라 구매가 아닌 클라우드 등의 다양한 방안을 검토할 필요
의사소통
프로젝트와 관련된 정보를 계획, 관리 배포하는 데 요구되는 프로세스
- 전문성이 요구되는 데이터 분석의 결과를 모든 프로젝트 이해관계자가 공유할 수 있도록
- 프로젝트의 원활한 진행을 위한 다양한 의사소통 체계 마련 필요

[연습문제]
1. 데이터 분석을 통한 가치 발굴에서 필요한 주요 요소 아닌 것?
: Hadoop - 분석 툴일 뿐  / data, anaylytic model, analyst + value 

2. 분석 기획은 단기적으로는 ( 분석 과제 )를 도출하여 프로젝트화 한 후 관리를 수행하여 분석 결과를 도출하는 것이고, 중장기적으로는 (분석 마스터플랜)를 수행하여 지속적인 (분석 과제 ) 수행을 지원할 수 있는 거버넌스 체계를 수립하는 것이다.

3. 분석가가 가져야 할 가장 주요한 역량은? 
: IT 기술 및 분석 기법에 치우치는 경향이 있으나 이를 포함하여 문제 도메인에 대한 전문적 지식 , 수학/통계학적 수리적 지식, 정보기술, 혁신적 사고 및 입체적인 시각 등의 개인 역량이 종합적으로 필요

4. 데이터 분석 단계 모델링 태스크 중 모델 적용 및 운영방안 스텝의 주요한 산출물은?
: 모델을 가동 중인 운영시스템에 적용하기 위해서 알고리즘 설명서가 필요하다.
  (데이터 분할 -모델링 - 모델 적용 및 운영방안 - 모델 검증 &평가)

5. 분석 주제 유형 중 문제를 잘 알고 있으면서 기존에 수행하고 있는 방법이 존재하는 경우에 해당하는 유형?
 -> Optimization (최적화)
: 방법을 알지 못한 경우에서는 설루션 (Solution)을 찾는 방식으로 분석 과제를 수행한다. 
  그런데 분석대상이 분명하지 않지만 분석 방법은 알고 있으면 인사이트(Insight)를 도출하는 방향으로, 
  방법 또한 알지 못 한하면 발견 (Disco very)를 통하여 분석 대상 자제를 새롭게 도출

6. 분석 과제를 도출하기 위한 방식은 문제가 주어진 경우 해법을 찾기 위하여 절차적으로 수행하는 (하향식 접근법) 방식과 문제의 정의 자체가 어려운 경우 데이터를 기반으로 탐색하고 이를 지속적으로 개선해나가는 방식인 (상향식 접근법)으로 분류된다.

7. 비즈니스 모델 캔버스를 활용한 분석 기회 발굴 시에 탐색하는 주요 영역이 아닌 것은?
비즈니스 모델'이라는 틀 활용 -> 5가지 : 업무, 제품, 고객, 규제와 감사, 지원 인프라 
  오답은 -> 경쟁자

8, "예상치 않은 설비장애로 인한 판매량 감소"라는 비즈니스 문제를 분석 문제로 변환하여 기입하시오.
:  설비장애 요인을 식별하고 , 장애 발생 시점 및 가능성 예측 (무엇을 어떤 목적으로 어떻게? )

9. 분석 프로젝트는 IT 프로젝트와 달리, 앞서 분석 방법론에서 살펴본 (폭포수 모델 ) 방식 같은 초기 의도했던 결과에 안정적인 이관을 수행하는 것이 아니라 도출된 결과의 재해석을 통한 지속적인 반복 및 정교화가 수행되는 경우가 대부분이므로 프로토타이핑 방식의 (에자일) 프로젝트 관리방식에 대한 고려도 필요하다.

10. 분석 프로젝트 수행 시 " DATA, BUISNEE, 분석 등 다양한 영역의 사람들이 프로젝트에 참여하며, Project sponsor 및 향후 분석 결과를 활용할 user 등 다양한 사람들의 니즈를 고려해야 한다라는 관리 포인트에 대한 부분을 고려해야 하는 영역은?
: 이해관계자

728x90
반응형