본문 바로가기

Professional Engineering/데이터분석준전문가(ADsP)

[ADsP] 1과목 제 1장 데이터 이해

반응형

1과목. 데이터 이해  - 제1장 데이터 이해  -  제1절 데이터와 정보

1. 데이터의 정의
"데이터(data)"
- 과거의 관념적이고 추상적인 개념에서 기술적이고 사실적인 의미로 변화
- 데이터를 단순한 객체로서 가치뿐만 아니라 다른 객체와의 상호관계 속에서 가치를 갖는 것.
- 객관적 사실이라는 존재적 특성 + 추론/예측/전망/추정을 위한 근거라는 당위적 특성

*데이터의 유형 (정성적 vs 정량적)
1) 정성적 데이터 : 언어, 문자 등 (예: 트위터, 페이스북, 기상특보 등)
-> 비정형데이터이기 때문에 상대적으로 많은 비용과 기술이 수반
2) 정량적 데이터 : 수치, 도형, 기호 등 (예: 날씨, 풍속, 나이, 습도 등)
-> 수치로 명확하게 표현되는 정. 량. 데이터는 데이터의 양이 크게 증가하더라도 이를 관리하는 시스템에 저장, 검색, 분석하여 활용하기가 매우 용이

* 암묵지와 형식지
1) 암묵지 : 내재되어 있는 정보, 살면서 경험을 통해 터득된 정보 (드러나지 않음)
2) 형식지 : 형상화된 지식
-> 과학적 발견은 암묵적 지식에 기초에 이뤄지고 , 경영학 분야에서도 조직 차원의 개인의 지식을 공유/발전시키는 데 주목하고 있다. => “암묵지와 형식지의 상호작용”
[암묵지와 형식지의 순환작용]
1) 암묵지 -> 형식지
      “내면화”되어 있는 암묵지의 지식을 다른 사람에게 공유하며 “공통화”하고 ,
2) 형식지 -> 암묵지
        이 공통화한 지식을 “표출화”하여서 형식지로 만들고 이렇게 만들어진 형식지를
       본인의 지식과 “연결화”하여 다시 암묵지로 만드는 과정을 반복하는 것

2. 데이터와 정보의 관계
DIKA ( data - information - knowledge - wisdom ) 모델 - 지식의 피라미드
1) data : 데이터 자체로는 의미가 중요하지 않은 객관적인 사실 ( 이 모델에서의 데이터 )
2) information : 데이터 간 연관 관계 속에서 의미 도출된 것
3) knowledge : 정보를 구조화하여 유의미한 정보로 분류 + 개인 경험 결합 -> 예측
4) wisdom : 지식의 축적 + 아이디어 -> 창의적 산물
=> 예시와 관련하여 공부할 것
=> “데이터의 정확성”은
     향후 정보, 지식, 지혜에 지대한 영향 미쳐서 결과적으로 “가치창출의 핵심적 역할”을 수행

제2절 데이터 베이스 정의와 특징
1. 용어의 연역
1950년대 미국 :
  군비상황 집중 관리하기 위해 컴퓨터 기술로 구현한 도서관 설립 -> 데이터 기지라는 의미의 database 탄생
1963년 미국 sdc : 대량의 데이터를 축적하는 기지 라는 의미
1965년 2차 심포지엄 : 시스템을 통한 체계적 관리와 저장 -> 데이터 베이스 시스템
1963년 ge : 데이터베이스 관리 시스템인 ids개발
1970년 유럽 : 데이터베이스 라는 단일어가 일반화
*우리나라 :
1975년 미국의 CAC(C hemical  Abstracts Condensates)가 KORSTIC(한국 괴 학기술 정보 센터)을 통해 서비스되면서 데이터베이스 이용이 이루어졌다. 
이때는 오늘날과 같은 온라인 서비스 형태가 아니라 CAC  데이터베이스를 자기 테이프 형태로 들여와 배치 (batch) 방식으로 제공하였다 이후 KORSTIC이 INSPEC이나 COMPENDEX와 같은 해외 전문 데이터베이스를 획충하여 1980년에는 “technoline”이라는 온라인 정보검색 서비스를 개시하여 본격적인 데이터베이스 서비스 시대를 맞이하게 되었다. 아울러 국내의 데이터베이스 관련 기술의 연구 ·개발은 1980년대 중반부터 시작되어 오늘에 이르고 있다.

2. 데이터베이스의 정의
단순 데이터 수집/저장을 위해 탄생한 "데이터베이스"
=>
1)EU의 데이터베이스의 법적 보호에 관한 지침
: 체계적이거나 조직적으로 정리되고 전자식 도는 기타 수단으로 개별적으로 접근할 수 있는 독립된 저작물, 데이터 또는 기타 소재의 수집물
2) 국내 '저작권법'
: 소재를 체계적으로 배열 또는 구성한 편집물, 개별적으로 그 소재에 접근하거나 그 소재를 검색할 수 있도록 한 것 -> 일종의 저작물로서 인정
3) 컴퓨터 용어사전
: 동시에 복수의 적용 업무를 지원할 수 있도록 복수 이용자의 요구에 대응하여 데이터를 받아들이고 저장, 공급하기 위하여 일정한 구조에 따라서 편성된 데이터의 집합
4) 정보통신 용어 사전
: 관련된 레코드의 집합, 소프트웨어로는 데이터베이스 관리 시스템을 의미
=> 체계적으로 정렬된 데이터 집합
=> 데이터량과 이용 늘어나면서 대용량의 데이터를 저장 관리 검색 이용할 수 있는 컴퓨터 기반의 데이터 베이스로 진화
=> "문자, 기호, 음성, 화상, 영상 등 상호 관련된 다수의 콘텐츠를 정보 처리 및 정보 통신 기기에 의하여 체계적으로 수집/축적하여 다양한 용도와 방법으로 이용할 수 있도록 정리한 정보의 집합체" = 데이터 베이스
=> "콘텐츠" 란 데이터, 정보, 지식, 저작물 등의 인식 가능한 모든 자료

3. 데이터베이스의 특징
: 초기엔 있는 그대로 데이터를 저장하는 것
-> 일반적인 텍스트나 숫자, 그래프 형태의 데이터
=> 정보 기술의 발달로 그 범위는 이미지, 동영상 등을 포함한 멀티미디어로 확대되었다.
=> 더 나아가 정보를 저장하는 지식베이스로 진화
=> 원하는 데이터를 저장/ 검색할 수 있는 복합체로 진화
1) 통합된 데이터 (Integrated data) : 중복 x
2) 저장된 데이터 (stored data) : 저장매체에 저장
3) 공용 데이터 (shared data) : 공동 이용, 대용량
4) 변화되는 데이터 : 새로 갱신
  ** but, 항상 정확한 데이터를 유지해야 한다.

#측면에 따른 특성
1) 정보의 축적 및 전달 측면
     : 기계 가독성 , 검색 가능성, 원격 조작성
2) 정보 이용 측면
     : 다양한 정보 신속하게 획득, 정확 +경제적 검색
3) 정보 관리 측면
    : 일정한 질서와 구조 -> 체계적
4) 정보기술 발전의 측면
    : 정보처리, 검색 sw, hw, 정보 전송을 위한 네트워크 기술 등의 발전을 견인할 수 있다.
5) 경제. 산업적 측면
    : 신속하게 제공 이용할 수 있는 인프라 -> 효율적, 국민 편의 증진 수단


제3절 데이터베이스 활용
1. 기업 내부 데이터베이스
1) OLTP (Online Transaction Processing)
: 1990년대 , 경영활동의 기반이 되는 전사 시스템으로 확대
-'정보 수집 + 공유' 위한 경영정보시스템(MIS)
- 생산자동화, 통합 자동화
2) OLAP(Online Analytic Processing)
: 1990년대 중반 이후 , 단순 정보 수집에서 탈피 -> 분석이 중심이 되는 시스템 구축으로 변화

=> 이러한 변화를 보고 OLTP 시장과 DW(Data Warehouse) 시장으로 양분되고 있다고 킴벌 박사가 언급하기도 하였다.

3) CRM과 SCM : 2000년대
CRM (Consumer Relationship Management)
: 고객별 구매이력 데이터 베이스 분석
SCM (Supply Chain Management)
: 기업이 외부 공급업체 또는 제휴업체와 통합된 정보시스템으로 연계하여 시간과 비용 최적화 위함.
예) 자재구매 데이터, 생산 재고 데이터, 유통 판매 데이터, 고객 데이터
=> 유통 판매 및 고객 데이터는 CRM과 연동

A. 제조 부분
: 부품 테이블 , 재고관리
  + 부품의 설계, 제조, 유통 전 공정을 포함하는 범위로 확대
: 설루션 유형으로 발전 
: 클라이언트/서버 기반의 내부 정보 시스템 -> 웹 환경으로 전화
: ERP -> SCM으로 기능 확장
=> 기업 내부 인하우스 DB구축
* 주로 대기업 중심으로 발생 -> 중소기업에 대한 투자 필요하다는 인식 -> 실시간 기업(RTE)이 화두
* 실시간 기업 : 비즈니스 프로세스 투명, 민첩하게 유지 -> 환경변화에 따른 적응속도 최대화 -> 지연시간 없애는 정보화 전략

=> 최근, ERP 시스템 도입 + DW, CRM, BI 등의 진보된 정보기술 적용한 기업 내부 인하우스 DB구축이 주류

B. 금융부문
: 1998년, 금융사 간의 합병, 지주회사 설립
: 2000년대 초반,
EAI, ERP, e-CRM 등 정보 공유 및 통합, 고객 정보의 전략적 활용이 주된 테마
: 2000년대 중반,
DW적극적으로 도입, DB마케팅 증대, 인터넷뱅킹 정착, 방카슈랑스 도입
: 최근,
EDW(Enterprise Data Warehouse)의 확장

C. 유통 부분
: 2000년 이후,
- 특정 지역/고객 중심 운영을 위해 CRM 구축
- 전자문서 교환의 본격화로 SCM 구축
- 상거래를 위한 각종 인프라/ KMS를 위한 별도 백업 시스템도 구축
: 2000년대 중반,
- 체계적인 고객정보의 수집, 분석과 상관분석 등으로 심화
- 균형성과관리(BSC) , 핵심 성과지표(KPI), 웹 리포팅 등
: 최근,
전자태그(RFID)의 등장

2. 사회기반구조로서의 데이터베이스
: 1990년대 정부 부처 중심으로 무역, 통관, 물류, 조세, 국제, 조달 등 사회간접자본(SOC) 차원에서
EDI(Electronic Data Interchange, 전자문서교환) 본격화 -> 부가가치 통신만(VAN) 통한 정보망 구축
-> 공공 DB 이자 관련 산업의 유용한 인프라로 활용
예) 1995년 조세전산망, 1996년 조달 국방 물류 종합망 의료정보망 산업정보망, 이후 중공업이나 유통분야로 확산, 1990년대 후반 지리, 교통부문까지 , 2000년대 의료 교육 행정 등 사회 각 분야로 확대

A. 물류 부분
: 1998년 종합물류정보망 개발 완료 -> 실시간 차량 추적
1) CVO 서비스 (Commercial Vehicle Operation System) , EDI , 데이터베이스 서비스(물류), 부가서비스로 구성
2) 항만운영정보시스템 , 철도운영정보시스템, 복합화물터미널 망, 항공 정보망, 민간기업물류 VAN연결 , 무역자동화 망, 통관자동화 망 등 유관 전산망과도 연계
예) 현대 택배의 HYDEX, 한진의 GIOVAN, 대한통운의 SPAT, CONSIS, 한국 복합물류 주식회사의 KIFOS 등
: 2000년 이후 ,
내륙화물기지와 같은 주요 물류 거점 시설의 지속적인 정보화 추진
: 최근,  전자태그를 활용한 사업으로 확장

B. 지리 부분
: 1995년, 국가지리정보체계(NGIS) 구축
: 2000년 , 국가 수치지형도 구축 -> 속성, 위상 표현 X
: 2000년 이후, GIS, RS, GPS, ITS 기술 통합하여 4S통합기술 , LBS, SIM, 공간 DBMS 등 발전
: 2005년 : 국가지리 체계 구축 사업 완료

C. 교통 부분
: 동적 교통정보
지능형 교통 시스템 ( Intelligent Transport System) 
: 정적 교통정보
교통 정책 및 계획 수립 등에 필요한 교통 분야별 기초자료 및 통계를 제공하는 데이터베이스
: 1998년 공공근로 사업 교통량 조사 사업
: 2000년 수도관 정보, 도시 내 육상 교통조사, 교통시설물 조사
: 2001년 5개 광역시 통행량, 대중교통 이용실태, 교통량 조사 세분화
: 2002년 전국 교통 데이터베이스 구축 사업, 국가 교통 데이터베이스 구축 사업
: 2003년 ~ 2007년  국가 교통 데이터베이스 구축 사업
-> 교통조사, 조사분석 중복 방지로 각종 예산 절감과 사업기간 단축, 신뢰성 제고의 효과를 거두고 있다.
-> SOC(사회 간접 자본)으로 역할을 수행 중

D. 의료 부분
: 1996년 53개 기관을 대상으로 의료 EDI 상용
: 2002년 전자 의무기록이 법적 효력 , 원격의료와 전자처방전 허용
: 2005년 국제 의료정보 전송 표준인 HL7의 국내 표준화 작업
: 2005년 이후 , U헬스 시장
: 최근, 고객 중심의 경영 -> 환자 중심의 병원, ABC, BSC, 6 시그마 등의 경영기법이 도입

E. 교육 부분
: 각종 교육정보의 개발 및 보급, 정보 활용 교육, 대학정보화 및 교육행정정보화 위주로 사업을 추진
: 소장 자료 데이터베이스 구축, 모바일 캠퍼스 구축, 고객(학생) 중심으로 한 CRM 도입
: 2002년 에듀넷, 전국의 교육자료 원스톱으로 검색
: 2003년 교육행정 정보시스템(NEIS) - 학사뿐만 아니라 인사, 물품, 회계 등 기타 교육 행정 전 업무 처리하는 시스템


[연습문제]
1. 데이터에 대한 설명으로 부적절한 것
1) 데이터를 단순한 객체로서 가치뿐만 아니라 다른 객체와의 상호관계 속에서 가치를 갖는 것
2) 데이터는 그 형태에 따라 언어/문자 등으로 기술되는 정량적 정성적 데이터와 수치/기호/도형으로 표시되는 정성적 정량적 데이터로 구분된다.
3) 설문조사와 주관식 응답, 트위터나 페이스북, 블로그 등에 올린 글 등과 같은 정성 데이터의 경우 그 형태와 형식이 정해져 있지 않아 비정형 데이터라고도 한다
4) 지역별 온도/풍속/강량과 같이 수치로 명확하게 표현되는 데이터를 정량 데이터 (정형 데이터)라고 한다.

2. 다음은 DIKW피라미드에 대한 설명이다. 가장 적절한 것은?
1) 지식은 지혜는 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적 아이디어
2) 정보는 지식은 상호 연결된 정보 패턴을 이해하고 이를 토대로 예측한 결과물
3) 지혜는 정보는 데이터의 가공 및 상관관계 간 이해를 통해 패턴을 인식하고 그 의미를 부여한 데이터
4) 데이터는 존재형식을 불문하고 타 데이터와의 상관관계가 없는 가공하기 전의 순수한 수치나 기호를 의미

3. 데이터베이스의 일반적 특징
1) 통합된 데이터
2) 저장된 데이터
3) 공용 데이터
4) 변화되지 않는 변화하는 데이터

4. 데이터베이스의 특성과 관련한 것 가장 부적절한 것 모두 고르기 (2,3 틀림 -> 수정함)
1) 축적 및 전달 측면 : 대량의 정보를 일정한 형식에 따라 정보처리기기가 읽고 쓰고 검색할 수 있도록 하는 기계 가독성과 검색 가능성 그리고 정보통신망을 통하여 원거리에서도 즉시 온라인으로 이용할 수 있는 원격 조작성을 갖는다.
2) 정보 관리 측면에서는 이용 측면에서는 이용자의 정보 요구에 따라 다양한 정보를 신속하게 획득할 수 있고 원하는 정보를 정확하고 경제적으로 찾아낼 수 있다는 특성
3) 정보 이용 관리 측면에서는 정보를 일정한 질서와 구조에 따라 정리 저장하고 검색 관리할 수 있도록 하여 정보를 체계적으로 축적하고 새로운 내용의 추가나 갱신이 용이
4) 정보 기술 발전의 측면에서 정보처리, 검색 관리 소프트웨어, 관련 하드웨어 정보 전송을 위한 네트워크 기술 등의 발전을 견인할 수 있다.

 

 

728x90
반응형