본문으로 건너뛰기

4.1. 데이터 품질관리 개요

4.1.1. '데이터 품질관리'란?

  • 정의

    • 조직이 운영하는 정보시스템과 데이터베이스를 활용하는 이용자의 기대를 만족시키기 위해 지속적으로 수행하는 데이터 관리활동
    • 운영서버에 배포한 어플리케이션에서 발생한 데이터가 설계한대로 저장되어 있는지를 확인하기 위한 활동을 말한다.
  • 목적

    • 품질을 목표수준으로 개선하고, 유지하여 오류 데이터 발생을 예방하는데 목적이 있음
  • 대상

    • 기본적으로 데이터포털에서 관리하는 시스템은 품질진단 대상
    • 패키지, 폐기 대상, 기타 사유가 있을 경우, 전사 품질담당자와 협의하여 대상에서 제외할 수 있음

4.1.2. 데이터 품질관리 활동 목표

  • 데이터 품질관리 활동 : 품질을 목표수준으로 개선하고, 유지하는 모든 활동 1
단계설명
정의품질점검대상, 품질지표(DQI), 중요정보항목(CTQ), 진단규칙 등
데이터품질관리 활동의 기준을 정의하는 단계
측정정의된 대상과 정의된 진단규칙을 기준으로 규칙에 위배되는 오류데이터를 추출하는 단계
분석추출된 오류데이터를 통해 오류현상, 오류원인, 영향도 등을 파악하는 단계
개선오류항목의 개선계획을 수립하고, 오류데이터와 원인을 개선하는 단계
통제개선에 대한 평가와 데이터품질관리 절차 전체를 통제하는 단계

4.1.3. 공통 기준-DQI (데이터 품질 지표)

  • 정의

    • DQI(Data Quality Indicator, 데이터 품질기준)이란 데이터의 품질 수준을 평가하는 기준으로 데이터의 정확성 및 품질 확보를 위하여 지속적으로 관리되어야 할 측정 기준을 의미함
  • 목적

    • 정의된 DQI는 CTQ(Critical to Quality, 핵심 품질 항목)에 대한 컬럼별 진단규칙을 적용하기 위한 기준이 됨
  • 선정기준

    • 일반적으로 공공데이터 수준평가/DQC-V/타사 사례 분석과 기업의 현황 분석을 통해 DQI를 정의함. 일반적인 활용 예시를 작성함

      2

품질기준정의
완전성(Completeness)필수 항목에 누락이 없어야 함
유효성(Validity)데이터 항목은 정해진 데이터 유효 범위 및 도메인을 충족하여야 함
정확성(Accuracy)실세계에 존재하는 객체의 표현 값이 정확히 반영이 되어야 한다는 것을 의미
유일성(Uniqueness)데이터 항목은 유일하여야 하며 중복되어서는 안됨
일관성(Consistency)데이터가 지켜야 할 구조, 값 표현되는 형태가 일관 되게 정의되고 서로 일치해야 함

4.1.4. 중요 기준-CTQ (핵심 품질 항목)

  • 정의
    • CTQ(Critical to Quality, 핵심 품질 항목)란 6Sigma(6σ)에서 유래한 용어로서, 데이터 품질관리 관점으로는 데이터의 신뢰도가 고객, 프로세스 및 시장 환경 등 기업 경영에 중요한 영향을 미치는 데이터 품질관리 대상 정보항목을 의미
  • 목적
    • 개선 항목의 선택과 집중을 통해 중요하지 않은 데이터 개선 수행의 비용 낭비를 예방 함
    • 주요 엔터티 및 속성을 도출하고 그룹핑하여 CTQ로 정의하고, 도출된 속성별로 DQI를 적용하여 업무 규칙 정의의 기초로 활용함
  • 선정기준
    • 데이터 관점의 품질 이슈 조사를 통한 기술적 관점과 현업과의 인터뷰 및 요구사항 분석을 통한 업무적 관점이 있음
기준고려사항
프로세스영향도• 해당 데이터의 업무 프로세스 상 중요성
• 업무 하위 프로세스에 미치는 중요도
• 데이터 변경에 따른 하위 프로세스 변경도
• 데이터 변경에 따른 타시스템 변경 영향도
시장 영향도• 데이터의 법적 리스크
• 정부 규제 영향도
• 경쟁사 현황 및 시장 현황 영향도
재무적 영향도• 재무적 관점에서 관리가 필요한 데이터
• 매출/원가 등 각 부서별 상이한 관점에 의해 관리가 필요한 데이터
최종사용자 영향도• 고객 서비스 리스크가 큰 데이터
• 최종 사용자의 의사결정에 중요한 영향력을 갖는 데이터• 마케팅 관점에서 관리가 필요한 데이터

4.1.5. 분석-데이터 프로파일링-규칙 발견

  • 데이터 프로파일링 : 실제 DB Table의 데이터를 분석하여 값의 패턴, 분포, 현상 등을 파악 3

4.1.6. 규칙-진단 규칙유형-3가지

  • 진단규칙 : 오류 데이터를 추출할 수 있는 Rule로서 SQL로 작성 4
진단규칙 유형설명
1. 업무 규칙• 복잡한 계산식이나 담당자가 Rule을 직접 작성해야 하는 진단규칙
※ 검증룰(SQL)을 담당자가 직접 작성해야 함
2. 참조 규칙• 두 테이블 간에 부모/자식 or 상위/하위의 논리적인 참조관계가 존재하는 경우의 진단규칙
※ 데이터모델(ERD)의 관계 정보로 일괄등록 가능
3. 도에인 규칙• 날짜, 코드, 유효값 등의 비교적 단순한 진단규칙
※ 검증룰(SQL)이 솔루션에서 자동으로 생성됨