본문 바로가기
IT Study/정보처리기사

2020 정보처리기사 (3장. 데이터 입출력 구현)

by dev_huhu 2020. 10. 5.
반응형

데이터 모델의 개념

데이터 모델: 현실 세계의 정보들을 컴퓨터에 표현하기 위해서 단순화, 추상화하여 체계적으로 표현한 개념적 모형

 

- 현실 세계를 데이터베이스에 표현하는 중간 과정, 즉 데이터 베이스 설계과정에서 데이터의 구조를 논리적으로 표현하기 위해 사용되는 지능적 도구이다.

- 데이터 모델 구성 요소: 개체, 속성, 관계

- 데이터 모델의 종류: 개념적 데이터 모델, 논리적 데이터 모델, 물리적 데이터 모델

- 데이터 모델에 표시할 요소: 구조, 연산, 제약 조건


데이터 모델의 구성 요소

  • 개체: 데이터베이스에 표현하려는 것으로, 사람이 생각하는 개념이나 정보 단위 같은 현실 세계의 대상체
  • 속성: 데이터의 가장 작은 논리적 단위로서 파일 구조상의 데이터 항목 또는 데이터 필드에 해당한다.
  • 관계: 개체 간의 관계 또는 속성 간의 논리적인 연결을 의미한다.

개념적 데이터 모델

: 현실 세계에 대한 인간의 이해를 돕기 위해 현실 세계에 대한 인식을 추상적 개념으로 표현하는 과정


논리적 데이터 모델

: 개념적 모델링 과정에서 얻은 개념적 구조를 컴퓨터가 이해하고 처리할 수 있는 컴퓨터 세계의 환경에 맞도록 변환하는 과정

 

논리적 데이터 모델의 품질 검증

 

- 개체 품질 검증 항목

: 단수 명사 여부, 개체의 주 식별자, 개체 간 상호 배타성, 개체의 정규화 여부, 개체 상세 정의, 개체 관리 업무 기능, 개체에 2개 이상의 속성 존재 여부, 개체의 총 길이, 개채 동의어 여부, 개체 분산 요구 등

 

- 속성 품질 검증 항목

: 단수 명사 여부, 속성의 값 존재 여부 및 개수, 도메인 정의, 반복되는 속성, 그룹화 가능 속성, 주 식별자 및 비 식별자에 의존하는 속성, 다치 종속 속성 등

 

- 관계 품질 검증 항목

: 관계의 명칭, 2개 이상의 노드와 관계 존재 여부, 노드의 기수성과 선택성, 필수적 관계, 유효한 관계, 중복된 관계, 외부식별자 존재 여부, 참조 무결성 여부 등

 

- 식별자 품질 검증 항목

: 식별자의 명칭, 정의, 구성, 정합성, 크기, 순서 등

 

- 전반적인 품질 검증 항목

: 주제 영역 구성의 적절성, 데이터 모델 상에 정규화 여부, 다대다 관계 해소 여부, 이력 관리 대상 선정 확인, 이력 관리 방법의 적절성 확인


데이터 모델에 표시할 요소

  • 구조: 논리적으로 표현된 개체 타입들 간의 관계로서 데이터 구조 및 정적 성질을 표현한다.
  • 연산: 데이터베이스에 저장된 실제 데이터를 처리하는 작업에 대한 명세로서 데이터베이스를 조작하는 기본 도구이다.
  • 제약 조건: 데이터베이스에 저장될 수 있는 실제 데이터의 논리적인 제약 조건이다.

이상/함수적 종속/정규화

 

이상: 테이블에서 일부 속성들의 종속으로 인해 데이터의 중복이 발생하고, 이 중복으로 인해 테이블 조작 시 문제가 발생하는 현상을 의미

 

  • 삽입 이상: 테이블에 데이터를 삽입할 때 의도와는 상관없이 원하지 않은 값들로 인해 삽입할 수 없게 되는 현상
  • 삭제 이상: 테이블에서 한 튜플을 삭제할 때 의도와는 상관없는 값들도 함께 삭제되는, 즉 연쇄 삭제가 발생하는 현상
  • 갱신 이상: 테이블에서 튜플에 있는 속성 값을 갱신할 때 일부 튜플의 정보만 갱신되어 정보에 불일치성이 생기는 현상이다.

함수적 종속

: 어떤 테이블 R에서 X와 Y를 각각 R의 속성 집합의 부분 집합이라 하자. 속성 X의 값 각각에 대해 시간에 관계없이 항상 속성 Y의 값이 오직 하나만 연관되어 있을 때 Y는 X에 함수적 종속 또는 X가 Y를 함수적으로 결정한다고 하고 X->Y로 표기한다.


정규화

: 테이블의 속성들이 상호 종속적인 관계를 갖는 특성을 이용하여 테이블을 무손실 분해하는 과정이다.

 

- 제 1정규형: 도메인이 원자값

- 제 2정규형: 부분적 함수 종속 제거 (= 완전 함수적 종속)

- 제 3정규형: 이행적 함수적 종속 제거

- BCNF: 모든 결정자가 후보키인 정규형 (= 결정자이면서 후보키가 아닌 것 제거)

- 제 4정규형: 다치 종속

- 제 5정규형: 조인 종속성 이용


논리 데이터 모델의 물리 데이터 모델로 변환

논리 데이터 모델 물리 데이터 모델
엔티티(Entity) 테이블(Table)
속성(Attribute) 컬럼
주 식별자(Primary Identifier) 기본키
외부 식별자(Foreign Identifier) 외래키
관계(Relationship) 관계

반정규화

: 시스템의 성능 향상, 개발 및 운영의 편의성 등을 위해 정규화된 데이터 모델을 통합, 중복, 분리하는 과정

 

- 반정규화를 수행하면 시스템의 성능이 향상되고 관리 효율성은 증가하지만 데이터의 일관성 및 정합성이 저하될 수 있다.

- 과도한 반정규화는 오히려 성능을 저하시킬 수 있다.

- 반정규화를 위해서는 사전에 데이터의 일관성과 무결성을 우선으로 할지, 데이터베이스의 성능과 단순화를 우선으로 할지를 결정해야 한다.


테이블 통합

 

- 테이블 통합시 고려사항

  • 데이터 검색은 간편하지만 레코드 증가로 인해 처리량이 증가한다.
  • 테이블 통합으로 인해 입력, 수정, 삭제 규칙이 복잡해질 수 있다.
  • Not Null, Default, Check 등의 제약조건을 설계하기 어렵다.

테이블 분할

 

- 수평 분할

  • 레코드별로 사용 빈도의 차이가 큰 경우 사용 빈도에 따라 테이블을 분할한다.

 

- 수직 분할

  • 갱신 위주의 속성 분할: 데이터 갱신 시 레코드 잠금으로 인해 다른 작업을 수행할 수 없으므로 갱신이 자주 일어나는 속성들을 수직 분할하여 사용한다.
  • 자주 조회되는 속성 분할: 테이블에서 자주 조회되는 속성이 극히 일부일 경우 자주 사용되는 속성들을 수직 분할하여 사용한다.
  • 크기가 큰 속성 분할: 이미지나 2GB 이상 저장될 수 있는 텍스트 형식 등으로 된 속성들을 수직 분할하여 사용한다.
  • 보안을 적용해야 하는 속성 분할: 테이블 내의 특정 속성에 대해 보안을 적용할 수 없으므로 보안을 적용해야 하는 속성들을 수직 분할하여 사용한다.

중복 테이블 추가

 

- 중복 테이블을 추가하는 경우

  • 정규화로 인해 수행 속도가 느려지는 경우
  • 많은 범위의 데이터를 자주 처리해야 하는 경우
  • 특정 범위의 데이터만 자주 처리해야 하는 경우
  • 처리 범위를 줄이지 않고는 수행 속도를 개선할 수 없는 경우

 

- 중복 테이블을 추가하는 방법

  • 집계 테이블의 추가: 집계 데이터를 위한 테이블을 생성하고, 각 원본 테이블에 트리거(Trigger)를 설정하여 사용하는 것으로, 트리거의 오버헤드에 유의해야 한다.
  • 진행 테이블의 추가: 이력 관리 등의 목적으로 추가하는 테이블로, 적절한 데이터 양의 유지와 활용도를 높이기 위해 기본키를 적절히 설정한다.
  • 특정 부분만을 포함하는 테이블의 추가: 데이터가 많은 테이블의 특정 부분만을 사용하는 경우 해당 부분만으로 새로운 테이블을 생성한다.

중복 속성 추가

 

- 중복 속성을 추가하는 경우

  • 조인이 자주 발생하는 속성인 경우
  • 접근 경로가 복잡한 속성인 경우
  • 액세스의 조건으로 자주 사용되는 속성인 경우
  • 기본키의 형태가 적절하지 않거나 여러 개의 속성으로 구성된 경우

 

- 중복 속성 추가 시 고려 사항

  • 테이블 중복과 속성의 중복을 고려한다.
  • 데이터 일관성 및 무결성에 유의해야 한다.
  • SQL 그룹 함수를 이용하여 처리할 수 있어야 한다.
  • 저장 공간의 지나친 낭비를 고려한다.

인덱스(Index)

: 데이터 레코드를 빠르게 접근하기 위해 <키 값, 포인터> 쌍으로 구성되는 데이터 구조

 

- 인덱스는 데이터가 저장된 물리적 구조와 밀접한 관계가 있다.

- 인덱스는 레코드가 저장된 물리적 구조에 접근하는 방법을 제공한다.

- 인덱스를 통해서 파일의 레코드에 대한 액세스를 빠르게 수행할 수 있다.

- 레코드의 삽입과 삭제가 수시로 일어나는 경우에는 인덱스의 개수를 최소로 하는 것이 효율적이다.

- 인덱스가 없으면 특정한 값을 찾기 위해 모든 데이터 페이지를 확인하는 TABLE SCAN이 발생한다.

- 레코드의 물리적 순서가 인덱스의 엔트리 순서와 일치하게 유지되도록 구성되는 인덱스를 클러스터드(Clustered) 인덱스라고 한다.


트리 기반 인덱스: 인덱스를 저장하는 블록들이 트리 구조를 이루고 있는 것

비트맵 인덱스: 인덱스 컬럼의 데이터를 Bit 값인 0 또는 1로 변환하여 인덱스 키로 사용하는 방법

함수 기반 인덱스: 컬럼의 값 대신 컬럼에 특정 함수나 수식을 적용하여 산출된 값을 사용하는 것

도메인 인덱스: 개발자가 필요한 인덱스를 직접 만들어 사용하는 것


인덱스 설계 순서

  1. 인덱스의 대상 테이블이나 컬럼 등을 선정한다.
  2. 인덱스의 효율성을 검토하여 인덱스 최적화를 수행한다.
  3. 인덱스 정의서를 작성한다.

뷰(View)

: 사용자에게 접근이 허용된 자료만을 제한적으로 보여주기 위해 하나 이상의 기본 테이블로부터 유도된, 이름을 가지는 가상 테이블

 

- 뷰는 가상 테이블이기 때문에 물리적으로 구현되어 있지 않다.

- 데이터의 논리적 독립성을 제공할 수 있다.

- 필요한 데이터만 뷰로 정의해서 처리할 수 있기 때문에 관리가 용이하고 명령문이 간단해진다.

- 뷰를 통해서만 데이터에 접근하게 하면 뷰에 나타나지 않는 데이터를 안전하게 보호하는 효율적인 기법으로 사용할 수 있다.


클러스터(Cluster)

: 데이터 저장 시 데이터 액세스 효율을 향상시키기 위해 동일한 성격의 데이터를 동일한 데이터 블록에 저장하는 물리적 저장 방법이다.

 

- 클러스터링 된 테이블은 데이터 조회 속도는 향상시키지만 데이터 입력, 수정, 삭제에 대한 성능은 저하시킨다.

- 클러스터는 데이터의 분포도가 넓을수록 유리하다.

- 데이터 분포도가 넓은 테이블을 클러스터링 하면 저장 공간을 절약할 수 있다.

- 클러스터링된 테이블은 클러스터링키 열을 공유하므로 저장 공간이 줄어든다.

- 처리 범위가 넓은 경우에는 단일 테이블 클러스터링을, 조인이 많이 발생하는 경우에는 다중 테이블 클러스터링을 사용한다.

- 파티셔닝된 테이블에는 클러스터링을 할 수 없다.


클러스터 대상 테이블

  • 분포도가 넓은 테이블
  • 대량의 범위를 자주 조회하는 테이블
  • 입력, 수정, 삭제가 자주 발생하지 않는 테이블
  • 자주 조인되어 사용되는 테이블
  • ORDER BY, GROUP BY, UNION이 빈번한 테이블

파티션(Partition)

 

- 데이터베이스에서 파티션은 대용량의 테이블이나 인덱스를 작은 논리적 단위인 파티션으로 나누는 것을 말한다.

- 데이터 처리는 테이블 단위로 이뤄지고, 데이터 저장은 파티션별로 수행된다.


파티션의 장'단점

장점 - 데이터 접근 시 액세스 범위를 줄여 쿼리 성능이 향상된다.
- 파티션별로 데이터가 분산되어 저장되므로 디스크의 성능이 향상된다.
- 파티션별로 백업 및 복구를 수행하므로 속도가 빠르다.
- 시스템 장애 시 데이터 손상 정도를 최소화할 수 있다.
- 데이터 가용성이 향상된다.
- 파티션 단위로 입'출력을 분산시킬 수 있다.
단점 - 하나의 테이블을 세분화하여 관리하므로 세심한 관리가 요구된다.
- 테이블간 조인에 대한 비용이 증가한다.
- 용량이 작은 테이블에 파티셔닝을 수행하면 오히려 성능이 저하된다.

파티션의 종류

 

- 범위 분할

  • 지정한 열의 값을 기준으로 분할한다.

- 해시 분할

  • 해시 함수를 적용한 결과 값에 따라 데이터를 분할한다.
  • 특정 파티션에 데이터가 집중되는 범위 분할의 단점을 보완한 것으로, 데이터를 고르게 분산할 때 유용하다.
  • 특정 데이터가 어디에 있는지 판단할 수 없다.
  • 고객번호, 주민번호 등과 같이 데이터가 고른 컬럼에 효과적이다.

- 조합 분할

  • 범위 분할로 분할한 다음 해시 함수를 적용하여 다시 분할하는 방식이다.
  • 범위 분할한 파티션이 너무 커서 관리가 어려울 때 유용하다.

데이터베이스 용량 설계

 

데이터베이스 용량 설계의 목적

- 데이터베이스의 용량을 정확히 산정하여 디스크의 저장 공간을 효과적으로 사용하고 확장성 및 가용성을 높인다.

- 디스크의 특성을 고려하여 설계함으로써 디스크의 입'출력 부하를 분산시키고 채널의 병목 현상을 최소화한다.

- 디스크에 대한 입'출력 경합이 최소화되도록 설계함으로써 데이터 접근성이 향상된다.

* 데이터 접근성을 향상시키는 설계 방법

- 테이블의 테이블스페이스와 인덱스의 테이블스페이스를 분리하여 구성한다.
- 테이블스페이스와 임시 테이블스페이스를 분리하여 구성한다.
- 테이블을 마스터 테이블과 트랜잭션 테이블로 분류한다.

데이터베이스 용량 분석 절차

  1. 데이터 예상 건수, 로우(Row) 길이, 보존 기간, 증가율 등 기초 자료를 수집하여 용량을 분석한다.
  2. 분석된 자료를 바탕으로 DBMS에 이용될 테이블, 인덱스 등 오브젝트별 용량을 산정한다.
  3. 테이블과 인덱스의 테이블스페이스 용량을 산정한다.
  4. 데이터베이스에 저장될 모든 데이터 용량과 데이터베이스 설치 및 관리를 위한 시스템 용량을 합해 디스크 용량을 산정한다.
반응형

댓글