반응형

# SQLD 2과목_1 데이터 모델과 성능

## 성능 데이터 모델링

  • 데이터베이스 성능 향상을 목적으로, 설계단계의 데이터 모델링 때부터 성능과 관련된 사항이 데이터 모델링에 반영될 수 있도록 하는 것.
  • 데이터의 증가가 빠를수록, 성능저하에 따른 성능개선비용은 증가한다.
  • 데이터모델은 성능을 튜닝하면서 변경 될 수 있는 특징이 있다.
  • 분석/설계 단계에서 고려한 데이터 모델링을 수행할 경우 성능 저하에 따른 Rework 비용을 최소화 할 수 있는 기회를 갖게 된다.

 

## 성능을 고려한 데이터모델링 순서

  • 데이터 모델링을 할 때 정규화를 정확하게 수행
  • 데이터베이스 용량산정 수행
  • 데이터베이스에 발생되는 트랜잭션 유형 파악
  • 용량과 트랜잭션의 유형에 따라 반정규화 수행
  • 이력모델의 조정, PK/FK 조정, 슈퍼타입/서브타입 조정 수행
  • 성능관점에서 데이터 모델 검증

 

## 성능데이터 모델링 고려사항

  • 용량산정은 전체 데이터베이스에 발생되는 트랜잭션의 유형과 양을 분석하는 자료가 되므로, 성능데이터 모델링을 할 때 중요한 작업이 될 수 있다.
  • 물리적인 데이터 모델링을 할 때 PK/FK의 칼럼 순서조정, FK인덱스 생성 등은 성능향상을 위한 데이터 모델링 작업에 중요한 요소가 된다.
  • 이력데이터는 시간에 따라 반복적으로 발생되기 때문에 대량의 데이터일 가능성이 높아 특별히 성능을 고려하여 칼럼 등을 추가하도록 설계한다.
  • 중복된 데이터를 제거하면 조회능력을 향상시킬수 있다.

 

## 1차 정규화 대상

  • 중복 속성에 대한 분리 / 로우 단위의 중복 / 칼럼 단위의 중복이 되는 경우가 1차 정규화의 대상이다.

 

## 반 정규화

  • 정규화된 엔터티, 속성, 관계에 대한 시스템의 성능향상과 개발과 운영의 단순화를 위해 중복, 통합, 분리 등을 수행하는 데이터 모델링의 기법.
  • 데이터를 중복하여 성능을 향상 시키기 위한 기법.
  • 넓은 의미의 반정규화는 성능을 향상 시키기 위해 정규화된 데이터 모델에서 중복, 통합, 분리 등을 수행하는 모든 과정을 의미.
  • 데이터 무결성이 깨질 수 있는 위험을 무릅쓰고 데이터를 중복하여 반정규화를 적용하는 이유는 데이터를 조회할 때 디스크 I/O량이 많아서 성능이 저하되거나 경로가 너무 멀어 조인으로 인한 성능저하가 예상되거나, 칼럼을 계산하여 읽을 때 성능이 저하될 것이 예상되는 경우 반정규화를 수행한다.

 

## 칼럼의 반정규화 기법

  • 중복 칼럼 추가
  • 파생 칼럼 추가
  • 이력테이블 칼럼 추가
  • PK에 의한 칼럼 추가
  • 응용시스템 오작동을 위한 칼럼 추가

 

## 반정규화 절차

  1. 반정규화 대상 조회 : 범위 처리 빈도수 조사 / 대량의 범위 처리 조사 / 통계성 프로세스 조사 / 테이블 조인 개수
  2. 다른 방법유도 검토 : 뷰 테이블 / 클러스터링 적용 / 인덱스의 조정 / 응용애플리케이션
  3. 반정규화 적용 : 테이블 / 속성 / 관계 반정규화

 

## 로우체이닝이 발생할 정도로 한 테이블에 많은 칼럼이 존재할 경우 조회성능저하가 발생할 수 있다. 트랜잭션이 접근하는 칼럼유형을 분석하여 1:1로 테이블을 분리하면 디스크 I/O가 줄어 조회 성능을 향상 시킬 수 있다.

 

## 파티셔닝

  • 데이터 액세스 성능을 향상시키기 위해 적용하는 방법
  • 하나의 테이블에 많은 양의 데이터가 저장되면 인덱스를 추가, 테이블을 몇 개로 쪼개도 성능이 저하되는 경우가 있다. 이때 논리적으로 하나의 테이블이지만 물리적으로 여러 개의 테이블로 분리하여 데이터 액세스 성능도 향상시키고, 데이터 관리방법도 개선할 수 있도록 테이블에 적용하는 기법이다.

 

## 반정규화 대상에 대한 다른 방법으로 처리

  • 지나치게 많은 조인으로 데이터 조회 작업이 기술적으로 어려울 경우 뷰를 사용하면 해결할 수 있다.
  • 대량의 데이터 처리나 부분처리에 의해 성능이 저하된 경우 클러스터링을 적용하거나 인덱스를 조정해 성능을 향상할 수 있다.
  • 대량의 데이터는 PK의 성격에 따라 부분적인 테이블로 분리할 수 있다. 파티셔닝 기법을 적용하여 성능저하를 방지.
  • 응용 애플리케이션에서 로직을 구사하는 방법을 변경해 성능을 향상시킬 수 있다.

 

## 슈퍼/서브 타입 데이터 모델의 변환기술

  • 개별로 발생되는 트랜잭션에 대해 개별 테이블 구성
  • 슈퍼타입 + 서브타입에 대해 발생되는 트랜잭션에 대해 슈퍼타입 + 서브타입 테이블 구성
  • 전체를 하나로 묶어 트랜잭션이 발생할 경우 하나의 테이블로 구성

 

## PK순서를 결정하는 기준은 인덱스 정렬구조를 이해한 상태에서 인덱스를 효율적으로 이용할 수 있도록 PK순서를 지정해야 한다. 인덱스의 특징은 여러 개의 속성이 하나의 인덱스로 구성되어 있을 때 앞쪽에 위치한 속성의 값이 비교자로 있어야 인덱스가 좋은 효율을 나타낼 수 있다. 앞쪽에 위치한 속성 값이 가급적 '=' 아니면 최소한 범위 'BETWEEN', '<>'가 들어와야 인덱스를 이용할 수 있다.

 

## 분산 데이터베이스 장단점

  • 장점
  1. 지역 자치성, 점증적 시스템 용량 확장
  2. 신뢰성과 가용성
  3. 효용성과 융통성
  4. 빠른 응답 속도와 통신비용 절감
  5. 데이터의 가용성과 신뢰성 증가
  6. 시스템 규모의 적절한 조절
  7. 각 지역 사용자의 요구수용 증대
  • 단점
  1. 소프트웨어 개발 비용
  2. 오류의 잠재성 증대
  3. 처리 비용의 증대
  4. 설계, 관리의 복잡성과 비용
  5. 불규칙한 응답 속도
  6. 통제의 어려움
  7. 데이터 무결성에 대한 위협
반응형
반응형

# SQLD 1과목 데이터 모델링의 이해 정리

## 발생 시점에 따른 엔터티 분류

  1. 기본 / 키 엔터티 (Fundamental Entity, Key Entity)
  2. 중심 엔터티 (Main Entity)
  3. 행위 엔터티 (Active Entity)

 

## 데이터 모델링

  • 정보시스템을 구축하기 위한 데이터 관점의 업무 분석 기법이다.
  • 현실 세계의 데이터에 대해 약속된 표기법에 의해 표현하는 과정이다.
  • 데이터베이스를 구축하기 위한 분석/설계의 과정이다.
  • (일정한 형식에 맞추어 표현하는 추상화의 의미를 가질 수 있다. 복잡한 현실을 제한된 언어, 표기법을 통해 이해하기 쉽게 하는 단순화 의미를 가질수 있다. 애매모호함을 배제 누구나 이해가 가능하도록 정확하게 현상을 기술하는 정확화의 의미를 가진다. 모델링은 단지 시스템 구현만을 위해 수행하는 타스크가 아니고 시스템 구현을 포함한 업무분석 및 업무형상화를 하는 목적이 있다.)

 

## 데이터 모델링이 필요한 이유

  • 업무 정보를 구성하는 기초가 되는 정보에 대해 일정한 표기법에 의해 표현
  • 분석된 모델을 갖고 데이터베이스를 생성하여 개발 및 데이터관리에 사용하기 위함
  • 데이터모델링 자체로서 업무의 흐름을 설명, 분석하는 부분에 의미

 

## 데이터 모델링의 유의점

  1. 중복 (Duplication)
  2. 비유연성 (Inflexibility) : 데이터 모델을 어떻게 설계했냐에 따라 사소한 업무변화에 데이터 모델이 수시로 변경되어 유지보수의 어려움을 가중시킬 수 있다. 데이터의 정의를 데이터 사용 프로세스와 분리 해서 데이터베이스에 중대한 변화를 일으킬 수 있는 가능성을 줄인다.
  3. 비일관성 (Inconsistency)

 

## 데이터 모델링 종류

  1. 개념적 데이터 모델링 : 추상화 수준이 높고, 자시중심적, 전사적 데이터 모델링, EA 수립시 많이 이용
  2. 논리적 데이터 모델링 : Key, 속성, 관계 등을 정확하게 표현, 재사용성 높음
  3. 물리적 데이터 모델링 : 실제로 데이터베이스에 이식할 수 있게, 물리적 성격을 고려한 것

 

## 데이터베이스의 스키마 구조

  1. 외부 스키마 (External Schema)
  2. 개념 스키마 (Conceptual Schema) : 통합한 조직 전체 관점의 통합적 표현
  3. 내부 스키마 (Internal Schema)

 

## ERD

  • 피터첸에 의해 E-R Model라는 표기법이 만들어졌다.
  • ERD 작성은 엔터티 도출 > 엔터티 배치 > 관계 설정 > 관계명 기술 > 관계 참여도 기술 > 관계의 필수여부 기술 순으로 진행

 

## 엔터티의 특징

  • 반드시 해당 업무에서 필요, 관리하고자 하는 정보이어야 함
  • 유일한 식별자에 의해 식별 가능해야 함 (유일한 식별자)
  • 영속적으로 존재하는 인스턴스의 집합이어야 함
  • 업무 프로세스에 의해 이용되어야 함
  • 반드시 속성이 있어야 함 (속성 없는 엔터티는 있을 수 없다.)
  • 다른 엔터티와 최소 한 개 이상의 관계가 있어야 함 (통계성, 코드성 엔터티의 경우 관계 생략 가능)

 

## 기본 엔터티 (키 엔터티)

  • 다른 엔터티로부터 주식별자를 상속받지 않고, 자신의 고유한 주식별자를 갖는다.
  • 사원, 부서, 고객, 상품, 자재 등이 대표적인 예

 

## 엔터티

  • 두개 이상의 인스턴스의 집합이어야 함
  • 두개 이상의 속성을 갖는다.

## 속성

  • 한 개 이상의 속성값을 갖는다.
  • 속성은 인스턴스에서 관리하고자 하는 의미상 더 이상 분리되지 않는 최소의 데이터 단위
  • 속성은 엔터티에 대한 자세하고 구체적인 정보를 나타냄
  • 하나의 엔터티는 두개 이상의 속성을 갖는다.
  • 속성도 집합이다.

 

## 엔터티 이름 부여 방법

  • 현업의 업무 용어를 사용, 업무상의 의미를 분명하게 함
  • 모든 엔터티에서 유일한 이름이 부여되어야 함
  • 생성되는 의미대로 자연스럽게 이름 부여되어야 함

 

## 속성의 특성에 따른 분류

  1. 기본 속성 : 원래 갖고 있어야 하는 속성
  2. 설계 속성
  3. 파생 속성 : 원래 속성 값을 계산해서 만든 속성

 

## 도메인

  • 각 속성이 가질 수 있는 값의 범위.
  • 엔터티 내 속성에 대한 데이터 타입, 제약사항을 지정한다.

 

## 속성 명칭 부여

  • 해당 업무에서 사용하는 이름을 부여
  • 서술식 속성명 사용 금지
  • 약어사용 가급적 제한
  • 유일성을 확보하는 것이 좋다.

 

## 데이터모델링의 관계

  • 관계는 존재에 의한 관계, 행위에 의한 관계로 구분될 수 있으나, ERD에서 관계를 연결할 때 존재와 행위를 구분하지 않고 단일화된 표기법 사용
  • UML에는 클래스다이어그램의 관계 중 연관관계, 의존관계가 존재, 실선과 점선의 표기법 서로 다르게 표기
  • 존재적 관계 사례 : 부서와 사원 엔터티 간의 소속 관계
  • 행위에 의한 관계 사례 : 주문과 배송 엔터티 간의 배송 근거 관계

 

## 관계 표기법

  1. 관계명 : 관계의 이름
  2. 관계차수 : 1:1, 1:M, M:N 등 관계의 기수성
  3. 관계 선택사양 : 필수관계, 선택관계

 

## 두 개의 엔터티 사이 정의한 관계를 체크하는 사항

  • 두 개의 엔터티 사이에 관심 있는 연관규칙이 존재하는가?
  • 두 개의 엔터티 사이에 정보의 조합이 발생되는가?
  • 업무기술서, 장표에 관계연결을 가능하게 하는 동사가 있는가?
  • 업무기술서, 장표에 관계연결에 대한 규칙이 서술되어 있는가?

 

## 관계 읽기

  • 기준(Source) 엔터티를 한 개(One) 또는 각(Each) 읽는다.
  • 대상(Target) 엔터티의 관계참여도(개수)를 읽는다.
  • 관계 선택사양과 관계명을 읽는다.

 

## 식별자의 종류

  • 엔터티 내에서 대표성을 갖느냐에 따라 : 주식별자, 보조식별자
  • 엔터티 내에서 스스로 생성되었는지에 따라 : 내부식별자, 외부식별자
  • 단일 속성으로 식별이 되는가에 따라 : 단일식별자, 복합식별자
  • 원래 업무적으로 의미있던 식별자 속성을 대체하여 일련번호와 같이 새롭게 만든 식별자 구분을 위해 : 본질식별자, 인조식별자

 

## 주식별자를 지정할 때 고려할 사항

  • 주식별자에 의해 엔터티 내 모든 인스턴스들이 유일하게 구분 되어야 한다.
  • 주식별자를 구성하는 속성의 수는 유일성을 만족하는 최소의 수가 되어야 한다.
  • 지정된 주식별자의 값은 자주 변하지 않는 것이어야 한다.
  • 주식별자가 지정되면 반드시 값이 들어와야 한다.

 

## 주식별자의 특성

  1. 유일성 : 모든 인스턴스를 유일하게 구분
  2. 최소성 : 주식별자를 구성하는 속성의 수는 유일성을 만족하는 최소의 수가 되어야 함
  3. 불변성 : 한 번 특정 엔터티에 지정되면 값이 변하지 않아야 함
  4. 존재성 : 주 식별자가 지정되면 반드시 데이터 값이 존재(Null 불가)

 

## 비식별자관계 선택 기준

  • 관계의 강약을 분석, 상호간 연관성이 약할 경우 고려
  • 자식 테이블에서 독립적인 Primary Key의 구조를 가지기 원할 때 고려
  • 모든 관계가 식별자 관계로 연결될 경우 WHERE 절에서 비교하는 항목이 증가되어 조인에 참여하는 테이블에 따라 SQL문장이 길어져 SQL문의 복잡성이 증가되는 것을 방지하기 위해 고려

 

## 비식별자 관계 연결을 고려해야 하는 경우

  • 부모엔터티에 참조값이 없어도 자식엔터티의 인스턴스가 생성될 수 있는 경우
  • 여러 개의 엔터티를 하나로 통합하면 각각의 엔터티가 갖고 있던 여러 개의 개별 관계가 통합되는 경우
  • 자식쪽 엔터티의 주식별자를 부모엔터티와는 별도로 생성하는 것이 더 유리하다고 판단하는 경우
  • 엔터티별로 데이터의 생명주기를 다르게 관리할 경우
반응형
반응형

# SELECT 문장 실행 순서

  • From Where Group by Having Select Order by

1. FROM

  • 발췌 대상 테이블을 참조.

2. WHERE

  • 발췌 대상 데이터가 아닌 것을 제거

3. GROUP BY

  • 행들을 소그룹화.

4. HAVING

  • 그룹핑된 값의 조건에 맞는 것만을 출력.

5. SELECT

  • 데이터 값을 출력 및 계산.

6. ORDER BY

  • 데이터 정렬
반응형
반응형

# 데이터 모델링의 기능, 중요성, 3단계

## 데이터 모델링의 기능

  • 시스템 가시화에 도움을 준다.
  • 시스템 구조와 행동을 명세화 할 수 있다.
  • 시스템 구축 구조화 된 틀을 제공한다.
  • 시스템 구축 과정에서 결정한 것을 문서화 한다.
  • 다양한 영역 집중을 위해 다른 영역의 세부사항을 숨긴다. 즉 다양한 관점 제공
  • 특정 목표에 따라 구체화된 상세 수준의 표현방법을 제공한다.

## 데이터 모델링의 중요성

  • 파급효과가 크다.
  • 데이터 품질 유지.

## 데이터 모델링의 유의점

1. 중복

  • 여러 장소에 같은 정보를 저장하는 것 주의

2. 비유연성

  • 사소한 업무변화에 데이터모델이 수시로 변경되면 유지보수가 어렵다.

3. 비일관성

  • 데이터의 중복이 없어도 비일관성 발생 가능

## 데이터 모델링의 진행

  • 개념적(추상적) -> 논리적 -> 물리적(구체적) 순으로 진행.

1. 개념적(추상적)

  • 추상화, 업무중시적, 포괄, 전사적, EA 수립

2. 논리적

  • [KEY, 속성, 관계] 표현, 재사용성, 정규화

3. 물리적

  • 데이터베이스 이식, 성능과 저장 등 물리적 성격을 고려
반응형

+ Recent posts