Thứ Hai, 24 tháng 2, 2014

Tổng hợp tiếng nói trên T-Engine

Tổng hợp và nhận dạng tiếng Việt trên hệ nhúng T-Engine SH7760 5
1.1 Đặc tả T-Engine.
Các đặc tả cơ bản về T-Engine được trình bày như trong bảng dưới đây:
Mục Đặc tả Thiết bị đích
CPU SH7760 Tên mô hình:
HD6417760BP200D
(RENESAS Technology)
Tần số đồng hồ cung cấp: 16.6667MHz
Tần số hoạt động (Internal): 200MHz (x
12)
(External): 66MHz (x 4)
Mạch: 256-pin BGA
Flash memory
Dung lượng: 8MB
MBM29DL640E90TN (Fujitsu) x 1
SDRAM
Dung lượng: 64MB
EDS2516APTA-75 (ELPIDA) x 2
PC Card I/F
Một khe
Controller: MR-SHPC-01 V2T
(Marubun)
Mạch: 144pin TQFP
Serial I/F Controller gồm 2 kênh:
ST16C2550CQ48 (EXAR)
Package: 48pin TQFP
-Kênh A:
H8/3048F-ONE
I/F
-Kênh B: Theo
dõi việc gỡ lỗi
Sound Tên model: UDA1342TS (Philips)
Mạch: 28pin SSOP
SSI tích hợp
trên SH7760
được sử dụng
để vận chuyển
dữ liệu. IIC trên
SH7760 được
sử dụng để
chọn chế độ
Earphone/microphone:
- Một đầu ra tai nghe
- Một đầu vào micro
- Trở kháng: 2.2KOhm
Độ nhạy: -51dB/Pa
- Tai nghe ra có trở kháng:32Ohm
USB Host
1kênh
Controller: SH7760 on-chip USB Host
TFT color LCD
module
NL2432DR22-02B (NEC)
Số màu hiển thị : 262,144 màu
Kích thước: 240(Chiều ngang) x 320
(chiều dọc)
Controller:SH7760 on-chip LCDC
Bộ điều khiển
nguồn cung cấp
H8/3048F-ONE
Tên model: HD64F3048BVTE25

Tổng hợp và nhận dạng tiếng Việt trên hệ nhúng T-Engine SH7760 6
(Renesas Technology)
Tần số hoạt động: 7.3728MHz
Mạch: 100-pin TQFP
RTC
Tên model: RV5C348B (RICOH) Thông qua
H8/3048F-ONE
Mạch: 10pin SSOP-G
Màn hình cảm
ứng I/F
Tên Model: ADS7843 (TI) Package:
16pin SSOP
Thông qua
H8/3048F-ONE
(Được gắn trên
bảng mạch
LCD)
Serial EEPROM
Dung lượng: 512 bytes Thông qua
H8/3048F-ONE
Tên model: S-29391AFJA (SII)
Điều khiển từ xa
hồng ngoại
Bộ phát: Thông
quaH8/3048F-
ONE
Tên model: GL100MN0MP (SHARP)
Sóng mang: 38KHz
Bộ thu:
Tên model: GP1UC101 (SHARP)
Sóng mang: 38KHz
1.2Mô hình tổng quan.
Sơ đồ khối tổng quan của T-Engine được chỉ ra như ở hình dưới đây:
Hình 1.1 – Sơ đồ khối tổng quan của T-Engine
Hình trên đã chỉ ra các khối cơ bản cấu thành nên bộ phát triển T-Engine trong đó
khối quan trọng nhất là vi xử lí SH7760 đóng vai trò bộ xử lí trung tâm. Hình trên
Tổng hợp và nhận dạng tiếng Việt trên hệ nhúng T-Engine SH7760 7
cũng đồng thời chỉ ra kết nối giữa các khối và cho một cái nhìn tổng quan về bộ
phát triển T-Engine. Sơ đồ khối bên trong của T-Engine được chỉ ra trong hình dưới
đây:
Hình 1.2 – Sơ đồ trong của T-Engine
Tổng hợp và nhận dạng tiếng Việt trên hệ nhúng T-Engine SH7760 8
1.3Giao diện của SH7760.
Hình 1.3 – Giao diện của T-Engine
Như thấy trong hình thì T-Engine gồm 4 bảng mạch được kết nối với nhau. Trên
cùng là bảng mạch LCD cung cấp chức năng của màn hình cảm ứng cùng 3 phím
điều khiển, trong đó có 1 phím đa chiều ở giữa. Dưới bảng mạch LCD là bảng mạch
CPU nơi gắn vi xử lí trung tâm SH7760 đóng vai trò điều khiển hoạt động của toàn
bộ các bộ phận của bộ phát triển. Dưới bảng mạch CPU là 2 bảng mạch phụ trách
hai việc là : vào ra và gỡ lỗi. Trên mạch vào ra có gắn các thiết bị hỗ trợ vào ra như
liên kết cổng COM, USB, codec, thẻ nhớ CF, điều khiển sóng hồng ngoại vv.vv.
Cuối cùng mạch gỡ lỗi cho phép liên kết với máy tính để cung cấp chức năng gỡ lỗi
cho chương trình chạy trên bộ phát triển.
Tổng hợp và nhận dạng tiếng Việt trên hệ nhúng T-Engine SH7760 9
PHẦN II
TÔNG QUAN VỀ TÍN HIỆU TIẾNG NÓI
Nội dung của phần này nhằm giới thiệu các khái niệm và lý thuyết cơ bản về tiếng
nói: nguồn gốc của tín hiệu tiếng nói (quá trình phát âm của con người) và sự cảm
nhận của con người đối với tín hiệu tiếng nói. Những khái niệm này là cơ sở nền
tảng không thể không xét đến trước khi quyết định hướng tiếp cận bài toán nhận
dạng hay tổng hợp tiếng nói.
Giao tiếp giữa con người với nhau sử dụng tiếng nói là quá trình bắt đầu với việc
phát âm của ngưòi nói và kết thúc khi người nghe cảm nhận, diễn dịch và đáp ứng
tín hiệu tiếng nói do người nói tạo ra trong quá trình phát âm (Hình 2.1).
Hình 2.1 – Quá trình giao tiếp bằng tiếng nói
Người nói Người nghe
Hình thành nội dung
Phát âm
Tín hiệu tiếng nói
DE. Cảm nhận và diễn dịch
Tổng hợp và nhận dạng tiếng Việt trên hệ nhúng T-Engine SH7760 10
Sơ đồ trên có thể được mô tả như sau: trước tiên người nói hình thành nội dung hội
thoại trong não bộ (A), những thông tin này sẽ tạo ra các xung thần kinh điều khiển
bộ phận phát âm (dây thanh, khoang miệng, khoang mũi ) để tạo ra tín hiệu tiếng
nói(B), thực chất là sự lan truyền của áp suất thay đổi trong không gian (C), trong
quá trình lan truyền trong không gian, tín hiệu tiếng nói có thể cộng hưởng hoặc triệt
tiêu với các tín hiệu khác tạo ra một tín hiệu có nhiễu với dạng sóng tương đối phức
tạp, tín hiệu truyền đến tai người nghe tạo ra sự dao động màng nhĩ nhờ đó người
nghe cảm nhận được tiếng nói (D) tiếp theo là quá trình phân tích ngữ nghĩa diễn ra
tại não bộ(E).
Từ các phân tích nêu trên, ta thấy rằng một vấn đề đặt ra trong nhận dạng tiếng nói
đó là: làm thế nào ta có thể mô phỏng quá trình cảm nhận tiếng nói của con người
bắt đầu từ khâu thu nhận tín hiệu(D) đến khâu phân tích ngữ nghĩa(E). Một vấn đề
cần được chú ý đó là quá trình cảm nhận của con người là hoàn toàn không tuyến
tính, chi tiết hơn ta sẽ nói ở trong phần sau.
2.1 Quá trình phát âm.
Hình 2.2 – Cơ quan phát âm
Khi con người phát âm, không khí được đẩy từ phổi qua khí quản, luồng không khí
chuyển động làm cho dây thanh rung kết hợp với hình dạng của tuyến âm, môi,
lưỡi đóng vai trò như các bộ cộng hưởng và các bộ lọc sẽ tạo ra các âm thanh
khác nhau. Người ta có thể mô hình hóa toàn bộ quá trình phát âm bởi các mô hình
Tổng hợp và nhận dạng tiếng Việt trên hệ nhúng T-Engine SH7760 11
toán học khác nhau. Dưới đây là một ví dụ mô hình toàn điểm cực được dùng nhiều
trong nghiên cứu tiếng nói:
Hình 2.3 – Mô hình toàn điểm cực
2.2 Biểu diễn tín hiệu tiếng nói.
Như ta đã biết một tín hiệu cùng với các đặc điểm riêng của nó có thể được biểu
diễn trên miền thời gian hoặc miền tần số, hoặc kết hợp thời gian và tần số. Tín hiệu
tiếng nói xét trên miền thời gian có thể coi là tín hiệu ít biến đổi khi ta chỉ xét một
khoảng thời gian đủ ngắn (5-100ms), điều đó có nghĩa là tín hiệu tiếng nói có thể
coi là ổn định trong khoảng thời gian ngắn. Tuy nhiên khi xét trong một khoảng thời
gian dài hơn (0.5s) thì tín hiệu tiếng nói lại là không ổn định hay nó thay đổi theo
các âm khác nhau được phát âm bởi người nói.
Để có thể thực hiện các phân tích trên tín hiệu tiếng nói nhằm tìm ra các đặc trưng
riêng cho các đoạn tín hiệu ứng với các âm khác nhau, trước hết chúng ta cần có các
phương pháp để biểu diễn tín hiệu tiếng nói. Sau đây là một sô phương pháp thường
được dùng.
Tổng hợp và nhận dạng tiếng Việt trên hệ nhúng T-Engine SH7760 12
Tín hiệu tiếng nói trên miền thời gian
Hình 2.4 – Biểu diễn tín hiệu tiếng nói trên miền thời gian
Trên miền thời gian tín hiệu tiếng nói được biểu diễn bởi đồ thị biên độ tại các thời
điểm t khác nhau, trong tự nhiên đó là một đồ thị liên tục, tuy nhiên tín hiệu tiếng
nói được xử lý trong máy tính đã được số hoá nghĩa là rời rạc cả về mặt thời gian và
tần số.
Tín hiệu tiếng nói trên miền tần số
Chúng ta biết rằng tín hiệu tiếng nói không chỉ bao gồm một thành phần tần số mà
gồm rất nhiều thành phần tần số khác nhau, tần số lớn nhất có thể lên tới hơn 10
kHz, mặt mức độ tham gia của các thành phần tín hiệu này cũng khác nhau. Dạng
biểu diễn tín hiệu tiếng nói trên miền thời gian không chứa đủ thông tin để phân tích
các thành phần tín hiệu ở các tần số khác nhau, đó là lý do người ta cần đến dạng
biểu diễn tín hiệu tiếng nói trong miền tần số, hay còn gọi là phổ tín hiệu.
Hình 2.5 – Biểu diễn tín hiệu tiếng nói trên miền tần số
Tín hiệu tiếng nói trên miền thời gian và tần số kết hợp
Trong khi nghiên cứu tiếng nói người ta luôn có gắng để biểu diễn tín hiệu nhằm thu
được nhiều thông tin nhất từ hình biểu diễn. Một trong những phương pháp biểu
diễn được dùng nhiều nhất và đó là cách biểu diễn tín hiệu trên miền kết hợp thời
gian và tần số. Thực chất của cách biểu diễn này là biểu diễn tín hiệu trên miền tần
số (2) nhưng được thực hiện với các đoạn tín hiệu ổn định (thời gian đủ ngắn) theo
thời gian. Các giá trị biên độ được thể hiện bằng màu sắc.
Tổng hợp và nhận dạng tiếng Việt trên hệ nhúng T-Engine SH7760 13
Hình 2.6 – Biểu diễn tín hiệu tiếng nói trên miền kết hợp
2.3 Âm vị trong tiếng nói.
Chúng ta biết rằng khi con người kết thúc việc hình thành nội dung cần phát
âm, một câu nói hoàn chỉnh sẽ được xây dựng bằng cách chọn và tổng hợp các đơn
vị cơ bản của tiếng nói để hình thành nên các từ phát âm hoàn chỉnh. Về mặt hình
thức điều này có thể ví dụ như cách đánh vần của trẻ khi học bắt đầu học chữ. Các
đơn vị cơ bản đó được gọi là các âm vị. Trong tiếng Việt hiện có khoảng 23 âm vị là
phụ âm và 16 âm vị là nguyên âm. Âm vị có thể xem như một trong những phương
pháp mà con người biểu diễn các phần khác nhau của một tín hiệu tiếng nói liên tục
và nó chia tín hiệu tiếng nói thành các đoạn con, điều đó có thể sẽ mang lại những
thuận lợi nhất định khi thực hiện các nghiên cứu về tiếng nói ví dụ như trong các bộ
nhận dạng tiếng nói với số lượng từ lớn hoặc trong tổng hợp tiếng nói.
Tổng hợp và nhận dạng tiếng Việt trên hệ nhúng T-Engine SH7760 14
Hình 2.7 – Bảng các âm vị là phụ âm

Không có nhận xét nào:

Đăng nhận xét