데이터 모델의 개념
데이터 모델: 현실 세계의 정보들을 컴퓨터에 표현하기 위해서 단순화, 추상화하여 체계적으로 표현한 개념적 모형
- 현실 세계를 데이터베이스에 표현하는 중간 과정, 즉 데이터 베이스 설계과정에서 데이터의 구조를 논리적으로 표현하기 위해 사용되는 지능적 도구이다.
- 데이터 모델 구성 요소: 개체, 속성, 관계
- 데이터 모델의 종류: 개념적 데이터 모델, 논리적 데이터 모델, 물리적 데이터 모델
- 데이터 모델에 표시할 요소: 구조, 연산, 제약 조건
데이터 모델의 구성 요소
- 개체: 데이터베이스에 표현하려는 것으로, 사람이 생각하는 개념이나 정보 단위 같은 현실 세계의 대상체
- 속성: 데이터의 가장 작은 논리적 단위로서 파일 구조상의 데이터 항목 또는 데이터 필드에 해당한다.
- 관계: 개체 간의 관계 또는 속성 간의 논리적인 연결을 의미한다.
개념적 데이터 모델
: 현실 세계에 대한 인간의 이해를 돕기 위해 현실 세계에 대한 인식을 추상적 개념으로 표현하는 과정
논리적 데이터 모델
: 개념적 모델링 과정에서 얻은 개념적 구조를 컴퓨터가 이해하고 처리할 수 있는 컴퓨터 세계의 환경에 맞도록 변환하는 과정
논리적 데이터 모델의 품질 검증
- 개체 품질 검증 항목
: 단수 명사 여부, 개체의 주 식별자, 개체 간 상호 배타성, 개체의 정규화 여부, 개체 상세 정의, 개체 관리 업무 기능, 개체에 2개 이상의 속성 존재 여부, 개체의 총 길이, 개채 동의어 여부, 개체 분산 요구 등
- 속성 품질 검증 항목
: 단수 명사 여부, 속성의 값 존재 여부 및 개수, 도메인 정의, 반복되는 속성, 그룹화 가능 속성, 주 식별자 및 비 식별자에 의존하는 속성, 다치 종속 속성 등
- 관계 품질 검증 항목
: 관계의 명칭, 2개 이상의 노드와 관계 존재 여부, 노드의 기수성과 선택성, 필수적 관계, 유효한 관계, 중복된 관계, 외부식별자 존재 여부, 참조 무결성 여부 등
- 식별자 품질 검증 항목
: 식별자의 명칭, 정의, 구성, 정합성, 크기, 순서 등
- 전반적인 품질 검증 항목
: 주제 영역 구성의 적절성, 데이터 모델 상에 정규화 여부, 다대다 관계 해소 여부, 이력 관리 대상 선정 확인, 이력 관리 방법의 적절성 확인
데이터 모델에 표시할 요소
- 구조: 논리적으로 표현된 개체 타입들 간의 관계로서 데이터 구조 및 정적 성질을 표현한다.
- 연산: 데이터베이스에 저장된 실제 데이터를 처리하는 작업에 대한 명세로서 데이터베이스를 조작하는 기본 도구이다.
- 제약 조건: 데이터베이스에 저장될 수 있는 실제 데이터의 논리적인 제약 조건이다.
이상/함수적 종속/정규화
이상: 테이블에서 일부 속성들의 종속으로 인해 데이터의 중복이 발생하고, 이 중복으로 인해 테이블 조작 시 문제가 발생하는 현상을 의미
- 삽입 이상: 테이블에 데이터를 삽입할 때 의도와는 상관없이 원하지 않은 값들로 인해 삽입할 수 없게 되는 현상
- 삭제 이상: 테이블에서 한 튜플을 삭제할 때 의도와는 상관없는 값들도 함께 삭제되는, 즉 연쇄 삭제가 발생하는 현상
- 갱신 이상: 테이블에서 튜플에 있는 속성 값을 갱신할 때 일부 튜플의 정보만 갱신되어 정보에 불일치성이 생기는 현상이다.
함수적 종속
: 어떤 테이블 R에서 X와 Y를 각각 R의 속성 집합의 부분 집합이라 하자. 속성 X의 값 각각에 대해 시간에 관계없이 항상 속성 Y의 값이 오직 하나만 연관되어 있을 때 Y는 X에 함수적 종속 또는 X가 Y를 함수적으로 결정한다고 하고 X->Y로 표기한다.
정규화
: 테이블의 속성들이 상호 종속적인 관계를 갖는 특성을 이용하여 테이블을 무손실 분해하는 과정이다.
- 제 1정규형: 도메인이 원자값
- 제 2정규형: 부분적 함수 종속 제거 (= 완전 함수적 종속)
- 제 3정규형: 이행적 함수적 종속 제거
- BCNF: 모든 결정자가 후보키인 정규형 (= 결정자이면서 후보키가 아닌 것 제거)
- 제 4정규형: 다치 종속
- 제 5정규형: 조인 종속성 이용
논리 데이터 모델의 물리 데이터 모델로 변환
논리 데이터 모델 | 물리 데이터 모델 |
엔티티(Entity) | 테이블(Table) |
속성(Attribute) | 컬럼 |
주 식별자(Primary Identifier) | 기본키 |
외부 식별자(Foreign Identifier) | 외래키 |
관계(Relationship) | 관계 |
반정규화
: 시스템의 성능 향상, 개발 및 운영의 편의성 등을 위해 정규화된 데이터 모델을 통합, 중복, 분리하는 과정
- 반정규화를 수행하면 시스템의 성능이 향상되고 관리 효율성은 증가하지만 데이터의 일관성 및 정합성이 저하될 수 있다.
- 과도한 반정규화는 오히려 성능을 저하시킬 수 있다.
- 반정규화를 위해서는 사전에 데이터의 일관성과 무결성을 우선으로 할지, 데이터베이스의 성능과 단순화를 우선으로 할지를 결정해야 한다.
테이블 통합
- 테이블 통합시 고려사항
- 데이터 검색은 간편하지만 레코드 증가로 인해 처리량이 증가한다.
- 테이블 통합으로 인해 입력, 수정, 삭제 규칙이 복잡해질 수 있다.
- Not Null, Default, Check 등의 제약조건을 설계하기 어렵다.
테이블 분할
- 수평 분할
- 레코드별로 사용 빈도의 차이가 큰 경우 사용 빈도에 따라 테이블을 분할한다.
- 수직 분할
- 갱신 위주의 속성 분할: 데이터 갱신 시 레코드 잠금으로 인해 다른 작업을 수행할 수 없으므로 갱신이 자주 일어나는 속성들을 수직 분할하여 사용한다.
- 자주 조회되는 속성 분할: 테이블에서 자주 조회되는 속성이 극히 일부일 경우 자주 사용되는 속성들을 수직 분할하여 사용한다.
- 크기가 큰 속성 분할: 이미지나 2GB 이상 저장될 수 있는 텍스트 형식 등으로 된 속성들을 수직 분할하여 사용한다.
- 보안을 적용해야 하는 속성 분할: 테이블 내의 특정 속성에 대해 보안을 적용할 수 없으므로 보안을 적용해야 하는 속성들을 수직 분할하여 사용한다.
중복 테이블 추가
- 중복 테이블을 추가하는 경우
- 정규화로 인해 수행 속도가 느려지는 경우
- 많은 범위의 데이터를 자주 처리해야 하는 경우
- 특정 범위의 데이터만 자주 처리해야 하는 경우
- 처리 범위를 줄이지 않고는 수행 속도를 개선할 수 없는 경우
- 중복 테이블을 추가하는 방법
- 집계 테이블의 추가: 집계 데이터를 위한 테이블을 생성하고, 각 원본 테이블에 트리거(Trigger)를 설정하여 사용하는 것으로, 트리거의 오버헤드에 유의해야 한다.
- 진행 테이블의 추가: 이력 관리 등의 목적으로 추가하는 테이블로, 적절한 데이터 양의 유지와 활용도를 높이기 위해 기본키를 적절히 설정한다.
- 특정 부분만을 포함하는 테이블의 추가: 데이터가 많은 테이블의 특정 부분만을 사용하는 경우 해당 부분만으로 새로운 테이블을 생성한다.
중복 속성 추가
- 중복 속성을 추가하는 경우
- 조인이 자주 발생하는 속성인 경우
- 접근 경로가 복잡한 속성인 경우
- 액세스의 조건으로 자주 사용되는 속성인 경우
- 기본키의 형태가 적절하지 않거나 여러 개의 속성으로 구성된 경우
- 중복 속성 추가 시 고려 사항
- 테이블 중복과 속성의 중복을 고려한다.
- 데이터 일관성 및 무결성에 유의해야 한다.
- SQL 그룹 함수를 이용하여 처리할 수 있어야 한다.
- 저장 공간의 지나친 낭비를 고려한다.
인덱스(Index)
: 데이터 레코드를 빠르게 접근하기 위해 <키 값, 포인터> 쌍으로 구성되는 데이터 구조
- 인덱스는 데이터가 저장된 물리적 구조와 밀접한 관계가 있다.
- 인덱스는 레코드가 저장된 물리적 구조에 접근하는 방법을 제공한다.
- 인덱스를 통해서 파일의 레코드에 대한 액세스를 빠르게 수행할 수 있다.
- 레코드의 삽입과 삭제가 수시로 일어나는 경우에는 인덱스의 개수를 최소로 하는 것이 효율적이다.
- 인덱스가 없으면 특정한 값을 찾기 위해 모든 데이터 페이지를 확인하는 TABLE SCAN이 발생한다.
- 레코드의 물리적 순서가 인덱스의 엔트리 순서와 일치하게 유지되도록 구성되는 인덱스를 클러스터드(Clustered) 인덱스라고 한다.
트리 기반 인덱스: 인덱스를 저장하는 블록들이 트리 구조를 이루고 있는 것
비트맵 인덱스: 인덱스 컬럼의 데이터를 Bit 값인 0 또는 1로 변환하여 인덱스 키로 사용하는 방법
함수 기반 인덱스: 컬럼의 값 대신 컬럼에 특정 함수나 수식을 적용하여 산출된 값을 사용하는 것
도메인 인덱스: 개발자가 필요한 인덱스를 직접 만들어 사용하는 것
인덱스 설계 순서
- 인덱스의 대상 테이블이나 컬럼 등을 선정한다.
- 인덱스의 효율성을 검토하여 인덱스 최적화를 수행한다.
- 인덱스 정의서를 작성한다.
뷰(View)
: 사용자에게 접근이 허용된 자료만을 제한적으로 보여주기 위해 하나 이상의 기본 테이블로부터 유도된, 이름을 가지는 가상 테이블
- 뷰는 가상 테이블이기 때문에 물리적으로 구현되어 있지 않다.
- 데이터의 논리적 독립성을 제공할 수 있다.
- 필요한 데이터만 뷰로 정의해서 처리할 수 있기 때문에 관리가 용이하고 명령문이 간단해진다.
- 뷰를 통해서만 데이터에 접근하게 하면 뷰에 나타나지 않는 데이터를 안전하게 보호하는 효율적인 기법으로 사용할 수 있다.
클러스터(Cluster)
: 데이터 저장 시 데이터 액세스 효율을 향상시키기 위해 동일한 성격의 데이터를 동일한 데이터 블록에 저장하는 물리적 저장 방법이다.
- 클러스터링 된 테이블은 데이터 조회 속도는 향상시키지만 데이터 입력, 수정, 삭제에 대한 성능은 저하시킨다.
- 클러스터는 데이터의 분포도가 넓을수록 유리하다.
- 데이터 분포도가 넓은 테이블을 클러스터링 하면 저장 공간을 절약할 수 있다.
- 클러스터링된 테이블은 클러스터링키 열을 공유하므로 저장 공간이 줄어든다.
- 처리 범위가 넓은 경우에는 단일 테이블 클러스터링을, 조인이 많이 발생하는 경우에는 다중 테이블 클러스터링을 사용한다.
- 파티셔닝된 테이블에는 클러스터링을 할 수 없다.
클러스터 대상 테이블
- 분포도가 넓은 테이블
- 대량의 범위를 자주 조회하는 테이블
- 입력, 수정, 삭제가 자주 발생하지 않는 테이블
- 자주 조인되어 사용되는 테이블
- ORDER BY, GROUP BY, UNION이 빈번한 테이블
파티션(Partition)
- 데이터베이스에서 파티션은 대용량의 테이블이나 인덱스를 작은 논리적 단위인 파티션으로 나누는 것을 말한다.
- 데이터 처리는 테이블 단위로 이뤄지고, 데이터 저장은 파티션별로 수행된다.
파티션의 장'단점
장점 | - 데이터 접근 시 액세스 범위를 줄여 쿼리 성능이 향상된다. - 파티션별로 데이터가 분산되어 저장되므로 디스크의 성능이 향상된다. - 파티션별로 백업 및 복구를 수행하므로 속도가 빠르다. - 시스템 장애 시 데이터 손상 정도를 최소화할 수 있다. - 데이터 가용성이 향상된다. - 파티션 단위로 입'출력을 분산시킬 수 있다. |
단점 | - 하나의 테이블을 세분화하여 관리하므로 세심한 관리가 요구된다. - 테이블간 조인에 대한 비용이 증가한다. - 용량이 작은 테이블에 파티셔닝을 수행하면 오히려 성능이 저하된다. |
파티션의 종류
- 범위 분할
- 지정한 열의 값을 기준으로 분할한다.
- 해시 분할
- 해시 함수를 적용한 결과 값에 따라 데이터를 분할한다.
- 특정 파티션에 데이터가 집중되는 범위 분할의 단점을 보완한 것으로, 데이터를 고르게 분산할 때 유용하다.
- 특정 데이터가 어디에 있는지 판단할 수 없다.
- 고객번호, 주민번호 등과 같이 데이터가 고른 컬럼에 효과적이다.
- 조합 분할
- 범위 분할로 분할한 다음 해시 함수를 적용하여 다시 분할하는 방식이다.
- 범위 분할한 파티션이 너무 커서 관리가 어려울 때 유용하다.
데이터베이스 용량 설계
데이터베이스 용량 설계의 목적
- 데이터베이스의 용량을 정확히 산정하여 디스크의 저장 공간을 효과적으로 사용하고 확장성 및 가용성을 높인다.
- 디스크의 특성을 고려하여 설계함으로써 디스크의 입'출력 부하를 분산시키고 채널의 병목 현상을 최소화한다.
- 디스크에 대한 입'출력 경합이 최소화되도록 설계함으로써 데이터 접근성이 향상된다.
* 데이터 접근성을 향상시키는 설계 방법
- 테이블의 테이블스페이스와 인덱스의 테이블스페이스를 분리하여 구성한다.
- 테이블스페이스와 임시 테이블스페이스를 분리하여 구성한다.
- 테이블을 마스터 테이블과 트랜잭션 테이블로 분류한다.
데이터베이스 용량 분석 절차
- 데이터 예상 건수, 로우(Row) 길이, 보존 기간, 증가율 등 기초 자료를 수집하여 용량을 분석한다.
- 분석된 자료를 바탕으로 DBMS에 이용될 테이블, 인덱스 등 오브젝트별 용량을 산정한다.
- 테이블과 인덱스의 테이블스페이스 용량을 산정한다.
- 데이터베이스에 저장될 모든 데이터 용량과 데이터베이스 설치 및 관리를 위한 시스템 용량을 합해 디스크 용량을 산정한다.
'IT Study > 정보처리기사' 카테고리의 다른 글
2020 정보처리기사 (5장. 서버 프로그램 구현) (0) | 2020.10.12 |
---|---|
2020 정보처리기사 (4장. 통합 구현) (0) | 2020.10.10 |
2020 정보처리기사 (2장. 요구사항 확인) (0) | 2020.10.04 |
2020 정보처리기사 (11장. 제품 소프트웨어 패키징) (0) | 2020.10.02 |
2020 정보처리기사 (10-2장. 응용 SW 기초 기술 활용) (0) | 2020.09.29 |
댓글