Thứ Bảy, 15 tháng 3, 2014

Nghiên cứu quy trình etl trong kho dữ liệu ứng dụng vào hệ thống dữ liệu kinh doanh trong doanh nghiệp viễn thông


LINK DOWNLOAD MIỄN PHÍ TÀI LIỆU "Nghiên cứu quy trình etl trong kho dữ liệu ứng dụng vào hệ thống dữ liệu kinh doanh trong doanh nghiệp viễn thông": http://123doc.vn/document/1040686-nghien-cuu-quy-trinh-etl-trong-kho-du-lieu-ung-dung-vao-he-thong-du-lieu-kinh-doanh-trong-doanh-nghiep-vien-thong.htm


5

CHƯƠNG

1.

TỔNG

QUAN

VỀ

ETL

TRONG

KHO

DỮ

LIỆU

1.

Kho

d


li

u

1.1.

Khái

ni

m

kho

d


li

u


Định nghĩa

do W.H.Inmon đưa ra :
Kho

d

li

u

(Data

Warehouse)



t

p

h

p

d

li

u

tích

h
ợp theo hướ
ng

ch
ủ đề
,
tương đố
i
ổn đị
nh,c

p

nh

t
đị
nh

k

nh

m

h

tr

quá

trình

t

o

quy
ế
t

đị
nh.[2]

Như vậ
y,



th

th

y

r
ằng thông thườ
ng

m

t

kho

d

li
ệu được xem như một cơ sở
d

li

u

đượ
c

duy

trì

riêng

bi

t
trên cơ sở
d

li

u

t

nhi

u

ngu

n
cơ sở
d

li

u

tác

nghi

p.


1.1.2.

Các

đặc

trưng

của

kho

dữ

liệu

M

t

kho

d

li

u
đượ
c

xác
đị
nh



m

t

c
ơ
s

d

li

u

trong
đ
ó



ch

a

b

n
đặ
c

tính

sau:

h
ướ
ng

ch
ủ đề
,

tính

n
đị
nh,
đượ
c

tích

h

p,

g

n

v

i

th

i

gian.


1.1.3.

Kiến

trúc

kho

dữ

liệu



hình

ki
ế
n

trúc

c

a

h

th

ng

kho

d

li
ệu cơ bả
n

g

m



ba

thành

ph

n:

D

li

u

ngu

n,

vùng

d

li

u

trung

gian



kho

d

li

u

.




















Hình

1.1.

Ki
ế
n

trúc

kho

d


li

u

1.1.3.1.

Kho

d


li

u

ch


đề

(Datamart)

Kho

d

li

u

ch
ủ đề
(Data

Mart)

c
ũ
ng



m

t

s

d

li

u



nh

ng
đặ
c
đ
i

m

gi

ng

v

i

kho

d

li

u

nh
ư
ng

quy



c

a



nh


h
ơ
n



l
ư
u

tr


d


li

u

v


m

t

lĩn
h

v

c,

m

t

chuyên

ngành

c

th

.



2

lo

i

-

Datamart

ph

thu

c.

6

-
Datamart độ
c

l

p.

1.1.3.2.

Siêu

d


li

u

(MetaData)

Metadata



m

t

lo

i

“d

li

u

v

d

li

u”,


đượ
c

xây

d

ng

nh

m

m

c
đ
ích



t

c

u

trúc

n

i

dung

v

d

li

u

bên

trong

c
ơ
s

d

li

u.

Metadata



ý

ngh
ĩ
a

đặ
c

bi

t

quan

tr

ng

trong

vi

c

xây

d

ng



t


ch

c

l
ư
u

tr


d


li

u

c

a

Data

Warehouse.

1.1.3.3.



sở

d


li

u

kho

d


li

u

Cơ sở
d

li

u

t

p

trung



m

t

n

n

t
ảng cơ bả
n

c
ủa môi trườ
ng

kho

d

li
ệu. Cơ sở
d

li

u

này

h

u

h
ết được cài đặ
t

d

a

trên

công

ngh

c

a

H

th

ng

qu

n

tr
ị cơ sở
d

li

u

quan

h

(RDBMS).


1.1.4.

Các

ứng

dụng

của

kho

dữ

liệu

Kho

d

li
ệu đượ
c

s

d

ng

theo

ba

cách

chính:

Cách

s


d

ng

truy

n

th

ng


Trong

cách

s

d

ng

này

vi

c

khai

thác

thông

tin

d

a

trên

các

công

c

truy

v

n



báo

cáo.

Nh




vi

c

trích

l

c,

tích

h

p



chuy

n

đổ
i

các

d


li

u

thô

sang

d

ng

d

li

u



ch

t

l
ượ
ng

cao





tính

n
đị
nh.

H


tr


tr

c

tuy
ế
n

(OLAP)


N
ế
u

ngôn

ng

truy

v

n

chu

n

SQL



các

công

c

làm

báo

cáo

truy

n

th

ng

ch



th

miêu

t


nh

ng





trong

c
ơ

s


d


li

u

thì

phân

tích

tr

c

tuy
ế
n



kh



ng

phân

tích

d


li

u,

xem

xét

xem

gi


thuy
ế
t



đún
g

hay

sai.

Tuy

nhiên

phân

tích

tr

c

tuy
ế
n

l

i

không



kh



ng

đư
a

ra

gi


thuy
ế
t.

Do

kích

th
ướ
c

quá

l

n





tính

ch

t

ph

c

t

p

nên

khó



th

s

d

ng

Data

Warehouse

cho

m

c
đ
ích

này.


Công

ngh


khai

phá

d


li

u

(Data

mining)


Trong

hoàn

c

nh

hi

n

nay

s

phát

tri

n

c

a

d

li

u
đặ
t

ra

yêu

c

u

ph

i

l
ư
u

tr


d

li

u

ph

c

t

p





kích

th
ướ
c

l

n.

Vi

c

khai

phá

d


li

u

tr


thành

m

t

nhu

c

u

khoa

h

c



trong

ho

t
độ
ng

th

c

ti

n.


1.1.5.

Thiết

k
ế

CSDL

cho

kho

dữ

li

u

1.1.5.1.

Gi

n
đồ
hình

sao
7

Gi

n
đồ
hình

sao
đượ
c
đưa
ra

l
ần đầ
u

tiên

b

i

Raph

Kimball
như


m

t

l

a

ch

n

thi
ế
t

k
ế
CSDL

cho

kho

d

li

u.

Trong

gi

n
đồ
hình

sao,

d

li

u
đượ
c

xác
đị
nh



phân

lo

i

theo

2

ki

u:

s

ki

n

(b

ng

Fact)



chi

u

(các

b

ng

Dimension:

các

b

ng

liên

k
ế
t).

1.1.5.2.

Gi

n
đồ
hình

tuy
ế
t

r
ơ
i

Gi

n
đồ
hình

tuy
ế
t

r
ơ
i



m

t

s

m

r

ng

c

a

gi

n
đồ
hình

sao,

t

i
đó
m

i

cánh

sao

không

ph

i



m

t

b

ng

Chi

u





nhi

u

b

ng.

Trong

d

ng

gi

n
đồ
này,

m

i

b

ng

theo

chi

u

c

a

gi

n
đồ
hình

sao
đượ
c

chu

n

hóa
hơn.
Gi

n
đồ
hình

tuy
ế
t

r
ơ
i

c

i

thi

n
năng
su

t

truy

v

n,

t

i

thi

u

không

gian
đĩa

c

n

thi
ế
t

để

lưu

tr


d


li

u



c

i

thi

n

năng

su

t

nh


vi

c

ch


ph

i

k
ế
t

h

p

nh

ng

b

ng



kích

th
ướ
c

nh


hơn
thay



ph

i

k
ế
t

h

p

nh

ng

b

ng



kích
thướ
c

l

n

l

i

không

chu

n

hóa.

1.1.5.3.

Gi

n
đồ
k
ế
t

h

p



k
ế
t

h

p

gi

a

gi

n
đồ
hình

sao

d

a

trên

b

ng

S

ki

n



nh

ng

b

ng

Chi

u

không

chu

n

hóa

theo

các

chu

n

1,

2,

3



gi

n
đồ
hình

tuy
ế
t

r
ơ
i

trong

đ
ó

t

t

c


các

b

ng

Chi

u

đề
u

đã

đượ
c

chu

n

hóa.


1.2.

ETL



vai

trò

ETL

trong

kho

dữ

liệu


1.2.1.

Khái

niệm

ETL

H


th

ng

ETL

(Extract-Transform-Load)



n

n

t

ng

c

a

kho

d


li

u.

M

t

h


th

ng

ETL đượ
c

thi
ế
t

k
ế
cho

vi

c

trích

xu

t

d


li

u

t


các

h

th

ng

ngu

n,

chuy
ển

đổ
i

d


li

u

đả
m

b

o

các

ngu
ồn độ
c

l

p



th

tích

h

p,



cu

i

cùng

d

li

u

sau

chuy
ển đổi được đưa
vào

kho

d

li

u

ph

c

v

m
ục đích phát triể
n

ng

d

ng

hay

ph

c

v

các

m
ục đích kho dữ
li

u.

[7,

tr.xii]


1.2.1

Vai

trò

của

ETL

trong

kho

dữ

liệu

H


th

ng

ETL

ph
ải

đ
óng

m

t

vai

trò

quan

tr

ng

trong

vi

c

cung

c

p

cho

các


ng

d

ng

ngườ
i

s

d

ng

m

t

khuôn

d

ng

d

li

u

phù

h

p.

B

n

ch

t

Kho

d

li

u



quá

trình

l

y

d

li

u

t

các

h

th

ng

LS



h

th
ống cơ sở
d

li

u

tác

nghi

p



chuy
ển đổ
i

thành

thông

tin



t

ch

c

trong

m
ột đị
nh

d

ng

thân

thi

n

v
ới ngườ
i

s

d
ụng; trên cơ sở đó có thể
phân

tích

d

li

u



h

tr

quy
ết đị
nh

kinh

doanh.

Quá

b
ắt đầ
u

t

các

h

th

ng

ngu
ồn đế
n

khi

d

li

u

được đưa vào các bả
ng

chi

u

hay

b

ng

s

ki

n

s

chi

phí

ít

nh

t

70%

th

i

gian,

n

l

c

c

a

h

u

h
ế
t

các

d

án

kho

d

li

u.

Trong

tài

li
ệu [7, tr.23] có đưa ra một định nghĩa về
kho

d

li

u

nói

lên

vai

trò

c

a

ETL

trong

kho

d

li

u
8

1.2.2

Các

thành

phần

của

ETL
.

Trích

xu

t:

D

li

u

ngu

n

t

r

t

nhi

u

ngu

n

khác

nhau





th



r

t

nhi

u

c

u

trúc

d

li
ệu khác nhau như nhiề
u

lo
ại cơ sở
d

li

u,

t

t

p

d

li

u

excel

hay

t

t

p

d

li

u

thô.



th
ế
nhi

m

v

chính

c
ủa bướ
c

này



trích

xu

t

d

li

u

t

h

th

ng

ngu
ồn để
x

lý.

Chuy
ển đổ
i

:
Đây là quá trình rấ
t

ph

c

t
ạp

dùng để
chuy
ển đổ
i

d

li

u

ngu

n

m

t



hình

khác

phù

h

p



chuy
ển vào cơ sở
d

li
ệu đích.
T

i

d

li

u
:
Đây là quá trình

đẩ
y

d

li
ệu sau khi đã đượ
c

chuy
ển đổ
i

vào

kho

d

li

u.

D

li
ệu sau khi đã đượ
c

chuy
ển đổ
i

s
ẽ đượ
c

t

i

vào

kho

d

li

u.
9

CHƯƠNG

2.

KIẾN

TRÚC



CÁC

THÀNH

PHẦN

CỦA

ETL.

2.1.

Tổng

quan

ETL

2.1.1.

Những

đặc

điểm

chính

của

ETL

M

i

ch
ức năng ETL thự
c

hi

n

m

t

m
ục đích quan trọ
ng.

Khi

mu

n

chuy

n

d

li

u

t

h

th

ng

ngu

n

vào

h

th
ống thông tin được lưu trữ
trong

kho

d

li

u,

vi

c

th

c

hi

n

các

ch
ức năng này đề
u

c

n

thi
ết. Để thay đổ
i

d

li
ệu thành thông tin, trướ
c

tiên

ph

i
xác đị
nh

các

d

li

u.

Sau

khi
xác đị
nh

d

li

u,

không

th
ể đơn giản là đổ
d

li

u

vào

kho.

D

li

u

ph
ải đượ
c

trích

xu

t



qua

các

bi
ến đổ
i

phù

h
ợp để đượ
c

chuy
ển đổ
i

thành

thông

tin.

Sau

khi đã c
huy
ển đổ
i

d

li

u,



v

n

không

h

u

ích

v
ới ngườ
i

s

d

ng

cu
ối cùng cho đế
n

khi

nó đượ
c

chuy

n

vào

kho

d

li

u.

T

i

d

li

u



m

t

ch
ức năng
cu

i

cùng
. Như vậ
y

ta

ph

i

th

c

hi

n

c

3

ch
ức năng của ETL để
chuy
ển đổ
i

d

li

u

thành

thông

tin.

2.1.2.

Các

chi

phí

cho

h


th

ng

ETL

Nói

chung

ta

s

tiêu

t

n

kho

ng

50-70%

công

s

c

c

a

d

án

vào

các

ch
ức năng ETL.
2.1.3.

Yêu

cầu

với

ETL



các

bước


ETL

Cho

bảng

sự

kiện


ETL

cho

bảng

chiều


Viết

các

thủ

tục

cho

tải

tất

cả

dữ

liệu


Tổ

chức

vùng

xử



dữ

liệu



công

cụ

kiểm

thử


Kế

hoạch

cho

các

bảng

tổng

hợp


Xác

định

các

dữ

liệu

chuyển

đổi



các

luật

làm

sạch


Thiết

lập

các

luật

trích

xuất

dữ

liệu


Chuẩn

bị

cho

việc

ánh

xạ

giữa

các

thành

phần

dữ

liệu

đích

với

dữ

liệu

nguồn


Xác

định

nguồn

dữ

liệu,

cả

dữ

liệu

trong



ngoài


Xác

định

các

dữ

liệu

đích

cần

thiết

trong

kho

dữ

liệu


Hình

2.1.

Các

bướ
c

chính

c

a

m

t

quy

trình

ETL.


2.1.4.

Các

yếu

tố

quan

trọng

đối

với

ETL

-
Xác định được độ
ph

c

t
ạp và đa dạ
ng

c

a

các

h

th

ng

ngu

n

d

li
ệu để


th

xây

d

ng

đượ
c

các

ch
ức năng trích xuấ
t



chuy
ển đổ
i

phù

h

p.

-
Xác định đượ
c

các

ki

u

t

i



th

i

gian

t

i

cho

các

lo

i

d

li
ệu để có phương án phù hợ
p.
10

2.2.

Vùng

dữ

liệu

trung

gian

Trong

t

t

c


các

ki
ế
n

trúc

kho

d


li

u,

luôn



m

t

vùng

ch

a

d

li

u

g

i



vùng

trung

gian

hay

còn

g

i



vùng

x

lý.

D

li

u
đượ
c

chuy

n

t

nhi

u

ngu

n

vào

vùng

x





không

thông

qua

(ho

c

r

t

ít)

công
đ
o

n

x



nào.

2.3.

Trích

xuất

dữ

liệu

2.3.1.

Xác

định

nguồn

dữ

liệu

Xác đị
nh

ngu

n

d

li

u

bao

g

m

vi
ệc xác đị
nh

t

t

c

các

ngu

n

d

li

u

thích

h

p,

các

d

li

u

c

n

thi
ết để đưa vào kho dữ
li

u.




























Hình

2.2.

Các

bước

xác

đị
nh

ngu

n

d


li

u

2.3.2.

Các

k


thuật

trích

xuất

dữ

liệu

2.3.2.1

Các

lo

i

k

thu

t

trích

xu

t

D

li

u

trong

h

th

ng

ngu

n



th
ể rơi vào hai loạ
i.

Giá

tr

hi

n

t

i.

H

u

h
ế
t

các

thu

c

tính

trong

các

h

th

ng

ngu
ồn rơi vào loạ
i

này.

đây giá trị được lưu trữ
c

a

m

t

thu

c

tính



t

giá

tr

c

a

thu

c

tính

ngay

th
ời điể
m

này

c

a

th

i

gian.

Các

giá

tr

t

m

th

i

ho

c

nh

t

th

i.

Khi

các

giao

d

ch

x

y

ra,

các

giá

tr

thay

đổi. Không có cách nào để
bi
ế
t

bao

lâu

giá

tr

hi

n

t

i

s

gi

nguyên

hay

s
ẽ thay đổ
i.

11

Tr
ạng thái đị
nh

kì.

Lo

i

này

không

ph

bi
ến như thể
lo
ại trướ
c.

Trong

lo

i

này,

giá

tr

c

a

m

t

thu
ộc tính đượ
c

gi
ữ như mộ
t

tr

ng

thái

m
ỗi khi có thay đổ
i

x

y

ra.

T

i

m

i

th

i

điể
m,

gíá

tr

tr
ạng thái được lưu trữ
v

i

tham

chi
ếu đế
n

th

i

gian

khi

giá

tr
ị thay đổ
i.

Khi

tri

n

khai

m

t

h

th

ng

kho

d

li

u,

các

d

li
ệu ban đầ
u

v

i

m

t

th

i

gian

nh

t

đị
nh

ph
ải đượ
c

chuy

n

vào

kho

d

li
ệu, sau đó ta phải đưa vào các dữ
li
ệu thay đổ
i

sau

t

i

ban đầ
u.

Nói

r

ng

ra,



2

lo

i

chính

c

a

trích

xu

t

d

li

u



d

li
ệu tĩnh và dữ
li

u

thay

đổ
i.Trích

xu

t

d

li
ệu tĩnh chiế
m

ch

y
ế
u

trong

t
ải ban đầ
u,



trích

xu

t

d

li
ệu thay đổ
i

trong

t
ải gia tăng.
T
ải

gia

tăng



th


phân

chia

thành

trích

xu

t

theo

th

i

gian

th

c

ho

c

trích

xu

t

ch

m

ch

m.

Trong

th

i

gian

th

c

n

m

b

t

d

li

u



3

tùy

ch

n,

n

m

b

t

d

li

u

ch

m

ta



2

tùy

ch

n.

2.3.2.2.

Các

k

thu

t

trích

xu

t

d

li

u

th

i

gian

th

c

N

m

b

t

d

li

u

qua

b

n

ghi

giao

d

ch.

Tùy

ch

n

này

s

d

ng

b

n

ghi

giao

d

ch

c

a

h

qu

n

tr
ị cơ sở
d

li
ệu đượ
c

duy

trì

cho

vi

c

khôi

ph

c

khi



l

i

x

y

ra.

M

i

giao

d

ch

thêm,

c

p

nh

t

hay

xóa

m

t

b

n

ghi

trong

b
ảng cơ sở
d

li

u,

h

qu

n

tr
ị cơ sở
d

li

u

ngay

l

p

t

c

sinh

ra

m

t

b

n

ghi

log.

N

m

b
ắt thông qua trigger cơ sở
d

li

u.

Tùy

ch
ọn này cũng đượ
c

áp

d

ng

cho

các

h

th

ng

ngu

n

d

li

u

s

d

ng

ng

d
ụng cơ sở
d

li

u.

Ta



th

t

o

các

trigger

cho

t

t

c

các

s

ki

n



ta

c

n

n

m

b
ắt. Đầ
u

ra

c
ủa trigger đượ
c

ghi

vào

m

t

t
ệp độ
c

l

p



s
ẽ đượ
c

s

d
ụng để
trích

xu

t

d

li

u

cho

kho

d

li

u.

vi

c

t

o



duy

trì

trigger

trong

su

t

các

quá

trình

c

a

h

th

ng

ngu

n

s
ẽ tăng thêm các chi phí tài nguyên và thờ
i

gian

c

a

h

th

ng

ngu

n.

N

m

b

t

trong

các

ng

d

ng

ngu

n.

K

thu
ật này đượ
c

xem

n
hư nắ
m

b

t

d

li

u

ng

d

ng

h

tr

.

Nói

cách

khác,

các

ng

d

ng

ngu
ồn đượ
c

th

c

hi
ện để
h

tr

cho

vi

c

n

m

b

t

d

li

u

cho

kho

d

li

u.

Ta

ph

i

ch

nh

s
ửa các chương trình ứ
ng

d
ụng liên quan đượ
c

vi
ế
t

cho

các têp và cơ sở
d

li

u

ngu

n

2.3.2.3.

Các

k

thu

t

trích

xu

t

d

li

u

ch

m

N

m

b

t

d

a

trên

ngày

tháng



nhãn

th

i

gian.

M

i

khi

m

t

b
ản ghi đượ
c

t

o

ra

ho

c

c

p

nh

t





th
ẻ được đánh dấ
u

b

i

m

t

nhãn

bi

u

di

n

b

i

ngày



th

i

gian.

Nhãn

th

i

gian

cung

c
ấp cơ sở
cho

vi

c

ch

n

ra

các

b

n

ghi

cho

vi

c

trích

xu

t.

Trích

xu

t

b

ng

cách

so

sánh

t

p

tin.

N
ế
u

các

k

thu

t

trên

không

kh

thi

cho

t

p

tin

ngu

n

c

th
ể, khi đó kỹ
thu
ật này được xem như biệ
n

pháp

cu

i

cùng.

K

thu
ật này cũng đượ
c

g

i
12

v

i

tên

khác



k

thu

t

so

sánh

s

khác

nhau

gi

a

nh

ch

p

b

i





so

sánh

2

nh

ch

p

c

a

ngu

n

d

li

u.

2.3.2.4. Đánh giá các kỹ
thu

t

trích

xu

t

2.4.

Làm

sạch



chuyển

đổi

dữ

liệu

2.4.1

Các

nhiệm

vụ



bản

của

chuyển

đổi

dữ

liệu

Trích

ch

n.

Nhi

m

v

này

n

m

ph
ần đầ
u

c

a

toàn

b

quá

trình

chuy
ển đổ
i.



th

toàn

b

ho

c

m

t

s

b

n

ghi

t

d

li

u

ngu

n

Tách/Nh

p.

Nhi

m

v

này

bao

g

m

các

lo

i

thao

tác

d


li
ệu để
th

c

hi

n

vi

c

ch

n

các

ph

n

d

li

u

ngu

n.

Chuy
ển

đổ
i.

chu

n

hóa

gi

a

d

li

u

trích

xu

t

t

các

ngu

n

khác

nhau



t
ạo ra các trườ
ng

mà ngườ
i

dùng

th

s

d

ng





th

hi
ểu đượ
c.

T

ng

h

p.

Khi

vi
ệc lưu trữ
d

li

u

t

ng

h

p
đượ
c

yêu

c
ầu thay vì lưu trữ
d

li

u

m

c

th

p.

Làm

giàu

d


li

u:

Nhi

m

v

này

s

p

x
ếp và đơn giản hóa các trườ
ng

riêng

bi
ết để
làm

cho

chúng

tr

nên

h

u

d
ụng hơn cho kho dữ
li

u.

2.4.2

Các

kiểu

chuyển

đổi

dữ

liệu

-

S

a

l
ại đị
nh

d

ng.

-

Gi
ải mã các trườ
ng.

-

Giá

tr

tính

toán



giá

tr

th

phát.

-

Chia

nh
ỏ các trường đơn.
-

G

p

thông

tin.

-

Chuy
ển đổ
i

B



t

.

-

Chuy
ển đổi đơn vị đo lườ
ng.

-

Chuy
ển đổ
i

th

i

gian.

-

T

ng

h

p.

-

Cơ cấ
u

l

i

khóa.

-

Xóa

b

n

ghi

trùng.

2.4.3.

Tích

hợp



hợp

nhất

dữ

liệu

2.4.3.1. Xác

đị
nh

th

c

th

trong

chuy
ển đổ
i

d

li

u.

Th

c

th



th

xu

t

hi

n

trong

nhi

u

h

th

ng

khác

nhau,

làm

th
ế
nào
để
t
ổng hơp
các

ngu

n

này



không

s

b

trùng

l

p

hay

b

thi
ế
u.
13

-
Bước

đầ
u

tiên,

t

t

c


các

b

n

gi,

không

phân

bi
ệt



trùng

nhau

hay

không,

đượ
c

đị
nh

danh

duy

nh

t.

-
Bướ
c

th

hai



h

p

các

b

n

ghi

trùng

m
ột cách đị
nh

k

thông

qua

các

gi

i

thu

t

t

độ
ng



ki

m

tra

th

công.

2.4.3.2.

Tích

h

p

nhi

u

ngu

n

d

li

u.

V
ấn đề
này



k
ế
t

qu

c

a

vi

c

m

t

ph

n

t

d

li

u



nhi
ều hơn mộ
t

ngu

n

d

li

u.

M

t

gi
ải pháp đơn giản là đặt ưu tiên cho
các

ngu

n



ch

n

ngu
ồn có độ ưu tiên cao
2.4.4.

Chuyển

đổi

các

thuộc

tính

chiều

Trong

ph

n

này

xem

xét

các

lo
ại thay đổ
i

v

i

thu

c

tính

chi

u,

các
phương pháp để
x



các

lo
ại thay đổ
i

d

li

u

chi

u.

-
Thay đổ
i

lo

i

1



s

a

l

i.

Các

lo
ại này đượ
c

áp

d

ng

cho

kho

d

li

u

không

c

n

gi

tính

l

ch

s

.

-

Lo
ại 2 thay đổ
i

gi

tính

l

ch

s

c

a

kho

d

li

u.

-

Lo
ại 3 thay đổ
i



nh
ững thay đổ
i

d

ki
ến nơi ngườ
i

dùng

c

n



kh
ả năng phân
tích

các

s

li

u

trong

c

2

cách


có thay đổi, không thay đổ
i.

2.5.

Tải

dữ

liệu

2.5.1.

Các

loại

tải

dữ

liệu

T
ải

đầ
u

tiên



t

p

h

p

t

t

c

các

b

ng

kho

d

li

u

cho

l
ần đầ
u

tiên.

T

i

b


sung



áp

d

ng

trên

nh
ững thay đổ
i

khi

c

n

thi
ế
t

m
ột cách đị
nh



Làm

tươi

toàn

bộ

-

xóa

hoàn

toàn

n

i

dung

c

a

1

ho

c

nhi

u

b

ng



t

i

l

i

v

i

d

li

u

m

i

(

T
ải đầ
u

tiên



m
ột làm tươi toàn bộ
).

2.5.1.

Kỹ

thuật



quy

trình

tải

dữ

liệu



4



hình

t

i

d

li

u

:

Load,

Append,

Destructive

Merge,

Constructive

Merge

Load.

N
ế
u

b

ng

m
ục tiêu đã tồ
n

t

i



d

li
ệu đã tồ
n

t

i

trong

b

ng,

quá

trình

t

i

s

xóa

d

li
ệu đã có và tả
i

d

li

u

t

t
ập tin đế
n.

N
ế
u

b
ảng đã rỗng trướ
c

khi

t

i,

ti
ế
n

trình

t
ải đơn giả
n

t

i

d

li

u

t
ừ file đế
n.

Append.

Ta



th

coi

vi

c

t

i

append

gi
ống như mộ
t

m

r

ng

c

a

Load.

N
ế
u

d

li
ệu đã
t

n

t

i

trong

b

ng,

ti
ế
n

trình

append

s
ẽ thêm vô điề
u

ki

n

các

d

li

u

vào,

gi

nguyên

d

li

u

hi

n



trong

các

b

ng

m

c

tiêu.

Khi

m

t

b

n

ghi

trùng

v

i

m

t

b
ản ghi đã có, ta có thể
xác đị
nh

cách

x



d

li
ệu đẩ
y

trùng.

Các

b
ản ghi đầ
u

vào



th
ể cho phép thêm vào như là
d


li
ệu

trùng.

Trong

trườ
ng

h

p

khác,

b

n

ghi

trùng



đầ
u



b


lo

i

b


trong

quá

trình

append.
14

Destructive

Merge.

Trong



hình

này,ta

t

i

d

li
ệu đầ
u

vào

vào

b

ng

d

li
ệu đích. Nế
u

khóa

chính

c

a

b
ản ghi đầ
u

v

i

gi

ng

khóa

c

a

m

t

b
ản ghi đã có, khi đó nó cậ
p

nh

t

b

n

ghi đích tương ứ
ng.

N
ế
u

b
ản ghi đầ
u

vào



m

t

b

n

ghi

m

i

không

trùng

khóa

v

i

b

n

ghi

đã có, khi đó bản ghi đượ
c

thêm

vào

b

ng

d

li
ệu đích.
Constructive

Merge.

Ch
ế độ này hơi khác so vớ
i

Destructive

Merge
.

N
ế
u

khóa

chính

c

a

m

t

b

n

ghi

trùng

v

i

khóa

c

a

b
ản ghi đã có, để
l

i

b

n

ghi

này,

thêm

b

n

ghi

m
ới và đánh
d

u

b

n

ghi

thêm

m
ới như bả
n

ghi

thay

th
ế
cho

b
ản ghi cũ.
Cách

áp

d

ng

cho

3

lo

i

t

i

c

a

kho

d

li

u.

*)

Quy

trình

t

i

cho

t

ng

lo

i

T
ải

ban

đầ
u:

V

i

l

n

ch
ạy đầ
u

tiên

c

a

t
ải ban đầ
u

ta

s

d

ng

ki

u

t
ải Load, sau đó tiế
p

t

c

v

i

ch
ế độ
Append.

T
ải

gia

tăng
.

Các

ng

d

ng

liên

t
ục thay đổ
i

theo

các

h

th

ng

ngu

n.



v

y,

ta

c

n

m

t

phương pháp để
n

m

b
ắt đượ
c

chu

k
ỳ thay đổ
i.

N
ế
u

nhãn

th
ời gian được xem như

mộ
t

ph

n

khóa

chính

ho

c

n
ế
u

nhãn

th

i

gian,

khi đó cấ
u

trúc

này



th
ể đượ
c

s

d
ụng để
gi

chu

k

t

nhiên

c
ủa các thay đổ
i.

S

d

ng

Constructive Merge.
Các

b
ản ghi đã có có thể
xóa

b



thay

th
ế
b

ng

d

li

u

m

i.

Ch
ế độ này đượ
c

áp

d

ng

cho

b

t

k

b

ng

m

c

tiêu

nào



b

ng

m

c

tiêu

l

ch

s

không

quan

tr

ng.

S

d

ng

Destructive Merge
T

i

l
àm

tươi

toàn

bộ
.

Lo

i

ng

d
ụng liên quan đến đị
nh

k

ghi

l

i

toàn

b

kho

d

li
ệu. Đôi
khi,

ta

c

n

làm

m

i

l

i

m

t

s

b

ng

c

th
ể. Làm tươi mộ
t

ph

n

r

t

hi
ế
m

b

i



m

i

b

ng

chi
ều đượ
c

g

n

v

i

b

ng

s

ki

n.

2.5.2

Làm

tươi

dữ

liệu



c
ập

nhât

dữ

liệu

Sau

t
ải ban đầ
u,

ta



th

duy

trì

kho

d

li

u



c

p

nh

t



v

i

2
phương thứ
c:



C

p

nh

t

-

ng

d

ng

cho

d

li
ệu thay đổ
i

trong

h

th

ng

ngu

n.


Làm tươi


t

i

l

i

toàn

b

theo

chu

k

.

2.5.3.

Phương

pháp

tải

với

các

bảng

chiều

Trong

kho

d


li

u,

ta

s


d

ng

khóa

sinh

b

i

h


th

ng.

B

n

ghi

trong

h


th

ng

ngu

n



khóa

c

a

chúng.



v
ậy, trướ
c

khi

d

li

u

ngu

n



th
ể đưa vào bả
ng

chi

u,

cho





t

i

ban đầ
u

hay

t

i

trên

d

li
ệu thay đổ
i,

thì

khóa

c

a

s

n

ph

m

c

n

chuy

n

sang

khóa

c

a

h

th

ng

trong

kho

d

li

u.

Ta



th

c

n

coi

chuy
ển đổi khóa như mộ
t

ph

n

c

a

ch
ức năng
truy
ển đổ
i

ho

c

th

c

hi

n

m

t

cách

riêng

bi
ệt trướ
c

khi

th

c

hi

n

các

ch
ức năng tả
i.

Không có nhận xét nào:

Đăng nhận xét