Ảnh hưởng của tần số cơ bản F0 và các biến thể của F0 đến nhận dạng phương ngữ Tiếng Việt

6 trang Gia Huy 5630

Download

Bạn đang xem tài liệu "Ảnh hưởng của tần số cơ bản F0 và các biến thể của F0 đến nhận dạng phương ngữ Tiếng Việt", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

anh_huong_cua_tan_so_co_ban_f0_va_cac_bien_the_cua_f0_den_nh.pdf

Nội dung text: Ảnh hưởng của tần số cơ bản F0 và các biến thể của F0 đến nhận dạng phương ngữ Tiếng Việt

Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XI về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 09-10/8/2018 DOI: 10.15625/vap.2018.0007 ẢNH HƯỞNG CỦA TẦN SỐ CƠ BẢN F0 VÀ CÁC BIẾN THỂ CỦA F0 ĐẾN NHẬN DẠNG PHƯƠNG NGỮ TIẾNG VIỆT Phạm Ngọc Hưng1,2, Trịnh Văn Loan1,2, Phạm Quốc Hùng1 1 Khoa Công nghệ thông tin, Trường Đại học Sư phạm Kỹ thuật Hưng Yên 2 Viện Công nghệ thông tin và Truyền thông, Trường Đại học Bách khoa Hà Nội phamngochung@gmail.com, loantv@soict.hust.edu.vn, quochungvnu@gmail.com TÓM TẮT: Phương ngữ là một hiện tượng đặc biệt của nhiều ngôn ngữ trong đó có tiếng Việt. Phương ngữ của tiếng Việt hết sức đa dạng, phong phú với nhiều sự khác biệt. Chính sự khác biệt giữa các phương ngữ tạo nên rào cản trong giao tiếp giữa những người sử dụng phương ngữ khác nhau. Việc phân biệt, nhận dạng được phương ngữ của tiếng Việt nói có ý nghĩa quan trọng giúp cho việc hiểu thông tin truyền đạt qua tiếng nói được chính xác hơn, đặc biệt với hệ thống nhận dạng tự động tiếng nói. Nếu biết tiếng nói cần nhận dạng nội dung thuộc phương ngữ nào thì có thể điều chỉnh các tham số nhận dạng phù hợp với phương ngữ đó giúp nâng cao hiệu quả nhận dạng. Việc nhận dạng đúng phương ngữ của tiếng nói cũng đặt ra nhiều thách thức, nhất là khi việc nhận dạng chỉ dựa trên các đặc trưng về mặt ngữ âm. Có nhiều đặc trưng có thể được sử dụng cho nhận dạng tự động phương ngữ. Với tiếng Việt, ngoài đặc trưng MFCC, tần số F0 là đặc trưng quan trọng có tác động tới kết quả nhận dạng. Tiếng Việt là ngôn ngữ có thanh điệu. Sự khác biệt giữa các thanh điệu được thể hiện qua quy luật biến thiên F0. Do vậy khai thác F0 để đưa vào nhận dạng phương ngữ là có cơ sở. Ngoài F0, các biến thể của F0 như đạo hàm F0, F0 được chuẩn hóa theo trung bình, LogF0, cũng có vai trò nhất định và tác động đáng kể đến hiệu quả nhận dạng phương ngữ tiếng Việt. Bài báo này trình bày kết quả các nghiên cứu ảnh hưởng của F0 và các biến thể của F0 đến nhận dạng phương ngữ tiếng Việt trong các ngữ cảnh khác nhau bao gồm độc lập người nói, phụ thuộc người nói, độc lập nội dung, phụ thuộc nội dung. Nghiên cứu được thực hiện trên bộ ngữ liệu VDSPEC bao gồm tiếng nói đại diện cho ba phương ngữ lớn của tiếng Việt là phương ngữ Bắc, phương ngữ Trung và phương ngữ Nam. Từ khóa: Nhận dạng phương ngữ, tiếng Việt, MFCC, tần số cơ bản, F0, GMM, độc lập người nói, phụ thuộc người nói, độc lập nội dung, phụ thuộc nội dung. I. GIỚI THIỆU Tiếng Việt là ngôn ngữ có thanh điệu và đa dạng về phương ngữ [1]. Các phương ngữ khác nhau về từ địa phương và phương thức phát âm. Nghiên cứu nhận dạng tự động phương ngữ đóng vai trò quan trọng trong hệ thống nhận dạng tiếng nói cho các ngôn ngữ trong đó có tiếng Việt [2, 3]. Bài báo này sẽ trình bày các nghiên cứu về ảnh hưởng của F0, các biến thể của F0 đến nhận dạng phương ngữ tiếng Việt trong các ngữ cảnh khác nhau bao gồm độc lập người nói, phụ thuộc người nói, độc lập nội dung và phụ thuộc nội dung. Các phần tiếp theo của bài báo được tổ chức như sau: phần II trình bày về lựa chọn tham số cho mô hình GMM nhận dạng phương ngữ tiếng Việt, phần III trình bày các thử nghiệm nhận dạng phương ngữ tiếng Việt sử dụng mô hình GMM với bộ tham số đã chọn trên ngữ liệu VDSPEC theo các phương pháp khác nhau và phân tích kết quả đạt được, phần IV là kết luận. II. LỰA CHỌN BỘ THAM SỐ Mô hình hỗn hợp Gauss đa thể hiện GMM (Gaussian Mixture Model) đã được sử dụng trong các nghiên cứu về nhận dạng người nói [4], định danh phương ngữ tiếng Anh [5], tiếng Trung [6], tiếng Thái [7], tiếng Hindi [8], tiếng Việt [2], nhận dạng ngôn ngữ [9, 10]. Các tham số thường dùng trong nhận dạng phương ngữ là MFCC [3, 6, 8]. Ngoài MFCC, tần số cơ bản F0 cũng thường được sử dụng kết hợp với MFCC và các biến thể của F0 giúp nâng cao hiệu quả nhận dạng phương ngữ [3, 6]. Với ngôn ngữ có thanh điệu như tiếng Việt, F0 có ảnh hưởng đáng kể tới hiệu quả nhận dạng phương ngữ. Sự khác biệt giữa các phương ngữ của tiếng Việt thể hiện ở nhiều yếu tố khác nhau. Song nếu xét về phương diện ngữ âm thì thanh điệu là một trong những yếu tố có sự khác biệt nhiều giữa các phương ngữ. Thanh điệu được thể hiện qua F0. Do vậy F0 có vai trò quan trọng trong nhận dạng phương ngữ tiếng Việt. Ngoài trực tiếp giá trị F0, các biến thể của F0 như đạo hàm F0, chuẩn hóa F0 theo giá trị trung bình, chuẩn hóa F0 theo giá trị trung bình và độ lệch chuẩn, đạo hàm LogF0, chuẩn hóa LogF0 theo giá trị min LogF0 và max LogF0 cho mỗi câu, chuẩn hóa LogF0 theo trung bình LogF0 mỗi câu, chuẩn hóa theo LogF0 theo trung bình và độ lệch chuẩn của LogF0 [11, 12] đã được nghiên cứu, sử dụng cho nhận dạng phương ngữ tiếng Việt. Về các biến thể của F0, xin tham khảo chi tiết tại [12]. Trong nghiên cứu [12], bộ tham số bao gồm MFCC và F0 chuẩn hóa theo trung bình của F0 cho kết quả nhận dạng đúng cao hơn so với các trường hợp kết hợp của MFCC với các biến thể còn lại của F0. Cũng trong nghiên cứu [12], số lượng hệ số MFCC bằng 13 cho kết quả nhận dạng đúng trong tử nghiệm nhận dạng với số lượng MFCC được chọn từ 5 đến 19. Các thử nghiệm tại nghiên cứu [12] được thực hiện trên bộ ngữ liệu VDSPEC. Do vậy, trong nghiên cứu này, bộ tham số sử dụng trong mô hình nhận dạng GMM nhận dạng phương ngữ tiếng Việt được chọn bao gồm 13 hệ số MFCC kết hợp với biến thể F0 được chuẩn hóa theo trung bình của F0.
52 ẢNH HƯỞNG CỦA TẦN SỐ CƠ BẢN F0 VÀ CÁC BIẾN THỂ CỦA F0 ĐẾN NHẬN DẠNG PHƯƠNG NGỮ TIẾNG VIỆT III. THỬ NGHIỆM NHẬN DẠNG PHƯƠNG NGỮ TIẾNG VIỆT DÙNG MÔ HÌNH GMM VỚI BỘ THAM SỐ BAO GỒM MFCC VÀ THÔNG TIN F0 TRÊN NGỮ LIỆU VDSPEC 3.1. Bộ ngữ liệu VDSPEC Các thử nghiệm nhận dạng phương ngữ tiếng Việt trong nghiên cứu này được thực hiện trên bộ ngữ liệu VDSPEC. VDSPEC là bộ ngữ liệu phương ngữ tiếng Việt được xây dựng bằng phương pháp ghi âm trực tiếp người nói trong môi trường lựa chọn có nhiễu nền thấp. Người nói đọc các đoạn văn bản đã được chuẩn bị sẵn theo 6 chủ đề (Cơ bản, Đời sống, Khoa học, Kinh doanh, Ô tô – xe máy, Pháp luật). Văn bản đã được chuẩn hóa để đạt sự cân bằng về thanh điệu. Trung bình, mỗi thanh điệu có 717 từ. VDSPEC bao gồm tiếng nói được ghi âm người nói đại diện cho 3 phương ngữ chính của tiếng Việt là phương ngữ Bắc (giọng Hà Nội), phương ngữ Trung (giọng Huế) và phương ngữ Nam (giọng Thành phố Hồ Chí Minh). Mỗi phương ngữ có 50 người nói bao gồm 25 nam và 25 nữ. Mỗi người đọc 25 câu cho một chủ đề. Không kể chủ đề Cơ bản được dùng cho nghiên cứu thanh điệu, tổng số có 18750 câu được ghi trên 5 chủ đề còn lại với độ dài trung bình 10 giây mỗi câu. Tổng thời lượng tiếng nói 45,12 giờ tương ứng với 4,84 GB dữ liệu lưu trữ. Các thử nghiệm nhận dạng được tiến hành theo 4 trường hợp như sau: - Độc lập người nói, độc lập nội dung (DLNN-DLND); - Độc lập người nói, phụ thuộc nội dung (DLNN-PTND); - Phụ thuộc người nói, độc lập nội dung (PTNN-DLND); - Phụ thuộc người nói, phụ thuộc nội dung (PTNN-PTND); Kết quả các thử nghiệm được trình bày ở các mục tiếp theo. 3.2. Trường hợp độc lập người nói, độc lập nội dung Trong nghiên cứu này, ngữ liệu tiếng nói được lựa chọn cho huấn luyện và thử nghiệm nhận dạng độc lập cả về người nói và nội dung. Theo đó, với mỗi phương ngữ trong một giới tính có 25 người nói chọn ra 20 người dùng cho huấn luyện, 5 người còn lại dùng cho thử nghiệm. Tiếng nói dùng cho huấn luyện lấy từ 4 chủ đề (không dùng chủ đề cơ bản), chủ đề còn lại tương ứng 5 người dùng cho huấn luyện. Phương pháp tổ chức dữ liệu cho huấn luyện và thử nghiệm này tạo ra 25 trường hợp khác nhau. Các thử nghiệm được thực hiện theo phương pháp quay vòng. Ngữ liệu của 25 người nói của một phương ngữ được chia làm 5 phần, một phần dùng cho thử nghiệm và 4 phần còn lại dùng cho huấn luyện và xoay vòng. Với 5 chủ để cũng phân chia tương tự, một chủ đề dùng cho nhận dạng, 4 chủ đề còn lại dùng cho huận luyện và quay vòng. Kết quả thử nghiệm được tính bằng trung bình của 25 thử nghiệm. Ma trận sai nhầm tổng hợp và tỷ lệ nhận dạng đúng của 25 thử nghiệm được cho ở bảng 1: Bảng 1. Kết quả nhận dạng độc lập người nói, độc lập nội dung Giới tính PN Bắc Trung Nam Tỷ lệ nhận dạng đúng Bắc 1630 1390 710 52,16 % Nam Trung 1228 1937 551 61,98 % Nam 878 880 1895 60,64 % Bắc 2329 620 350 74,53 % Nữ Trung 719 2174 603 69,57 % Nam 686 1010 1738 55,62 % Bảng 1 cho thấy phương ngữ Bắc có tỷ lệ nhận dạng đúng thấp hơn và số lượng nhận dạng nhầm sang phương ngữ Trung lớn hơn so với trường hợp nhận dạng nhầm sang phương ngữ Nam. Phương ngữ Trung có tỷ lệ nhận dạng đúng cao nhất và có số lượng nhận nhầm sang phương ngữ Bắc cao hơn so với nhầm sang phương ngữ Nam. Với phương ngữ Nam, tỷ lệ nhận dạng nhầm sang hai phương ngữ còn lại tương đối cân bằng. Tỷ lệ nhận dạng đúng trung bình của cả 3 phương ngữ đạt 58,26 % ở giới tính nam và 66,57 % ở giới tính nữ. 3.3. Trường hợp độc lập người nói, phụ thuộc nội dung Trong thử nghiệm này, cách chia nhóm người nói dùng cho huấn luyện và thử nghiệm tương tự như trường hợp độc lập người nói, độc lập nội dung. Riêng việc lựa chọn chủ đề và các câu thì có thay đổi. Cả 5 chủ đề đều được lựa chọn cho huấn luyện và thử nghiệm. Trong đó, mỗi chủ đề chọn 20 câu dùng cho huấn luyện và trong số 20 câu huấn luyện chọn 5 câu dùng cho thử nghiệm nhận dạng. Như vậy nội dung thử nghiệm cũng nằm trong nội dung huấn luyện chỉ khác ở người nói. Thử nghiệm cũng được tiến hành quay vòng với 5 phần theo sự phân chia người nói và 4 phần theo sự phân chia nội dung thử nghiệm, huấn luyện. Như vậy có tổng số 20 thử nghiệm khác nhau trong trường hợp này. Kết quả thử nghiệm được tính theo trung bình của 20 thử nghiệm.
Phạm Ngọc Hưng, Trịnh Văn Loan, Phạm Quốc Hùng 53 Ma trận sai nhầm tổng hợp và tỷ lệ nhận dạng đúng của 20 thử nghiệm được cho ở bảng 2: Bảng 2. Kết quả nhận dạng độc lập người nói, phụ thuộc nội dung Giới tính PN Bắc Trung Nam Tỷ lệ nhận dạng đúng Bắc 1339 1072 593 53,56 % Nam Trung 948 1427 581 57,08 % Nam 812 764 1462 58,48 % Bắc 1863 509 258 74,52 % Nữ Trung 591 1753 461 70,12 % Nam 482 811 1491 59,64 % Bảng 2 cho thấy phương ngữ Bắc vẫn có tỷ lệ nhận dạng đúng thấp hơn so với hai phương ngữ còn lại. Sự chênh lệch tỷ lệ nhận dạng của 3 phương ngữ giảm hơn so với trường hợp DLNN-DLND. Tỷ lệ nhận dạng đúng trung bình chỉ đạt 56,37 % (nam) thấp hơn so với trường hợp DLNN-DLND và 68,09 % (nữ), có phần cao hơn. Tỷ lệ nhận dạng nhầm sang các phương ngữ còn lại vẫn có quy luật tương tự như trường hợp DLNN-DLND. 3.4. Trường hợp phụ thuộc người nói, độc lập nội dung Trong thử nghiệm này, 20 người được chọn để huấn luyện và 5 trong số 20 người đã huấn luyện được chọn để thử nghiệm. Nội dung tiếng nói dùng cho huấn luyện và thử nghiệm là độc lập với nhau. Trong 5 chủ đề, chọn 1 chủ đề dùng cho thử nghiệm và 4 chủ đề còn lại dùng cho huấn luyện. Thử nghiệm được tiến hành quay vòng với 4 phần theo sự phân chia người nói và 5 phần theo sự phân chia nội dung thử nghiệm, huấn luyện. Như vậy có tổng số 20 thử nghiệm khác nhau ở trường hợp này. Kết quả thử nghiệm được tính trung bình của 20 thử nghiệm. Ma trận sai nhầm tổng hợp và tỷ lệ nhận dạng đúng của 20 thử nghiệm được cho ở bảng 3: Bảng 3. Kết quả nhận dạng phụ thuộc người nói, độc lập nội dung Giới tính PN Bắc Trung Nam Tỷ lệ nhận dạng đúng Bắc 2030 760 513 81,20% Nam Trung 634 2286 165 91,44% Nam 335 296 2174 86,96% Bắc 2158 448 212 86,32% Nữ Trung 484 2062 229 82,48% Nam 292 317 2204 88,16% Kết quả nhận dạng cho thấy tỷ lệ nhận dạng đúng ở cả 3 phương ngữ đều tăng đáng kể. Với tỷ lệ nhận dạng đúng trung bình đạt 86,53 %, cao hơn so với trường hợp DLNN-DLND đạt 58,26 % và trường hợp DLNN-PTND đạt 56,37 % (với giới tính nam). Giới tính nữ là 85,65 % so với 66,57 % (DLNN-DLND), 68,09 % (DLNN, PTND). Quy luật nhận dạng nhầm vẫn tương tự như 2 trường hợp thử nghiệm trước. 3.5. Trường hợp phụ thuộc người nói, phụ thuộc nội dung Trong thử nghiệm này, 20 người được chọn để huấn luyện và 5 trong số 20 người đã huấn luyện được chọn để thử nghiệm. Cả 5 chủ đề đều được lựa chọn cho huấn luyện và thử nghiệm. Trong đó, mỗi chủ đề chọn đủ 25 câu dùng cho huấn luyện và trong số 25 câu huấn luyện chọn 5 câu dùng cho thử nghiệm nhận dạng. Thử nghiệm được tiến hành quay vòng với 4 phần theo sự phân chia người nói và 5 phần theo sự phân chia nội dung thử nghiệm, huấn luyện. Như vậy có tổng số 20 thử nghiệm khác nhau ở trường hợp này. Kết quả thử nghiệm được tính trung bình của 20 thử nghiệm. Ma trận sai nhầm tổng hợp và tỷ lệ nhận dạng đúng của 20 thử nghiệm này được cho ở bảng 4: Bảng 4. Kết quả nhận dạng phụ thuộc người nói, phụ thuộc nội dung Giới tính PN Bắc Trung Nam Tỷ lệ nhận dạng đúng Bắc 2032 798 452 81,28 % Nam Trung 658 2283 150 91,32 % Nam 258 282 2155 86,20 % Bắc 2146 436 192 85,84 % Nữ Trung 439 2102 209 84,08 % Nam 257 311 2260 90,40 %
54 ẢNH HƯỞNG CỦA TẦN SỐ CƠ BẢN F0 VÀ CÁC BIẾN THỂ CỦA F0 ĐẾN NHẬN DẠNG PHƯƠNG NGỮ TIẾNG VIỆT Kết quả nhận dạng cho thấy tỷ lệ nhân dạng đúng ở cả 3 phương ngữ đều tăng đáng kể so với trường hợp độc lập người nói. Với tỷ lệ nhận dạng đúng trung bình đạt 86,27 % (giới tính nam), 86,77 % (nữ). Quy luật nhận dạng nhầm vẫn tương tự như 2 trường hợp thử nghiệm trước. So với trường hợp PTNN-DLND với tỷ lệ nhận dạng đúng trung bình đạt 86,53 %, trường hợp này kết quả nhận dạng có phần thấp hơn. Tổng hợp kết quả nhận dạng đúng của cả 4 trường hợp thử nghiệm được trình bày ở bảng 5 và đồ thị hình 1. Bảng 5. Tổng hợp kết quả 4 trường hợp nhận dạng Giới tính PN DLNN-DLND DLNN-PTND PTNN-DLND PTNN-PTND Bắc 52,16 % 53,56 % 81,20 % 81,28 % Trung 61,98 % 57,08 % 91,44 % 91,32 % Nam Nam 60,64 % 58,48 % 86,96 % 86,20 % Trung bình 58,26 % 56,37 % 86,53 % 86,27 % Bắc 74,53 % 74,52 % 86,32 % 85,84 % Trung 69,57 % 70,12 % 82,48 % 84,08 % Nữ Nam 55,62 % 59,64 % 88,16 % 90,40 % Trung bình 66,57 % 68,09 % 85,65 % 86,77 % Trung bình 62,42 % 62,23 % 86,09 % 86,52 % 100% 90% 80% úng 70% đ 60% ng ạ Bắc 50% n d ậ Trung 40% nh Nam ệ l 30% ỷ T All 20% 10% 0% DLNN-DLND DLNN-PTND PTNN-DLND PTNN-PTND Trường hợp thử nghiệm Hình 1. So sánh kết quả 4 trường hợp nhận dạng (giọng nam) 100% 90% 80% 70% 60% Bắc 50% Trung 40% Nam 30% Tỷ lệ nhận dạng đúng dạng nhận Tỷ lệ All 20% 10% 0% DLNN-DLND DLNN-PTND PTNN-DLND PTNN-PTND Trường hợp thử nghiệm Hình 2. So sánh kết quả 4 trường hợp nhận dạng (giọng nữ)
Phạm Ngọc Hưng, Trịnh Văn Loan, Phạm Quốc Hùng 55 100% 90% 80% 70% 60% Bắc 50% Trung 40% Nam 30% Tỷ lệ nhận dạng đ dạng nhận Tỷ lệ All 20% 10% 0% DLNN-DLND DLNN-PTND PTNN-DLND PTNN-PTND Trường hợp thử nghiệm Hình 3. So sánh kết quả 4 trường hợp nhận dạng lấy trung bình cho giọng nam và giọng nữ Số liệu tổng hợp ở bảng 5 và đồ thị hình 1 cho thấy, nhìn chung tỷ lệ nhận dạng đúng tăng lên đáng kể đối với trường hợp phụ thuộc người nói với tỷ lệ nhận dạng đúng trung bình cả 4 trường hợp thử nghiệm đạt 74,32 %. Như vậy đặc trưng về giọng nói của mỗi người thể hiện qua MFCC, tần số cơ bản F0 (biến thể F0 chuẩn hóa theo trung bình F0) có vai trò quan trọng giúp tăng tỷ lệ nhận dạng đúng phương ngữ tiếng Việt trên bộ ngữ liệu VDSPEC. Nội dung tiếng nói không có ý nghĩa gia tăng tỷ lệ nhận dạng đúng ở các thử nghiệm này. IV. KẾT LUẬN Bài báo đã trình bày kết quả nghiên cứu nhận dạng phương ngữ tiếng Việt sử dụng mô hình GMM với bộ tham số lựa chọn bao gồm 13 hệ số MFCC và F0 chuẩn hóa theo trung bình F0 của mỗi câu đồng thời thử nghiệm trên bộ ngữ liệu VDSPEC gồm ba phương ngữ Bắc, Trung, Nam với 4 trường hợp: độc lập người nói, độc lập nội dung; độc lập người nói, phụ thuộc nội dung; phụ thuộc người nói, độc lập nội dung và phụ thuộc người nói, phụ thuộc nội dung. Hai trường hợp thử nghiệm nhận dạng phương ngữ với ngữ liệu phụ thuộc người nói đều cho kết quả nhận dạng đúng cao hơn so các trường hợp độc lập người nói. Trong khi đó, các trường hợp phụ thuộc nội dung không giúp cải thiện tỷ lệ nhận dạng đúng phương ngữ. Như vậy, thông tin mang tính chất đặc trưng của giọng nói, phương thức phát âm cho mỗi phương ngữ thể hiện qua các tham số MFCC, F0 chuẩn hóa theo trung bình của F0 mỗi câu có ý nghĩa quan trọng giúp tăng tỷ lệ nhận dạng đúng phương ngữ. Còn nội dung của tiếng nói không có nhiều ý nghĩa trong phân biệt phương ngữ xét về mặt xử lý tín hiệu. V. LỜI CẢM ƠN Nghiên cứu này được tài trợ bởi Trung tâm Nghiên cứu Ứng dụng Khoa học và Công nghệ, Trường Đại học Sư phạm Kỹ thuật Hưng Yên, đề tài mã số UTEHY.T027.P1718.05. Nhóm tác giả xin chân thành cảm ơn Trung tâm về sự hỗ trợ này. VI. TÀI LIỆU THAM KHẢO [1] Hoàng Thị Châu. Phương ngữ học tiếng Việt. NXB Đại học Quốc gia Hà Nội, 2009. [2] Phạm Ngọc Hưng, Trịnh Văn Loan, Nguyễn Hồng Quang, Phạm Quốc Hùng. Nhận dạng phương ngữ tiếng Việt sử dụng mô hình Gauss hỗn hợp. Kỷ yếu Hội nghị Khoa học Công nghệ Quốc gia lần thứ 6 FAIR, 20-21 tháng 6, 2014, ISBN 978-604-913-165-3, pp 449-452, 2014. [3] Phạm Ngọc Hưng, Trịnh Văn Loan, Nguyễn Hồng Quang. Nhận dạng phương ngữ tiếng Việt sử dụng MFCC và tần số cơ bản. Kỷ yếu Hội nghị Quốc gia lần thứ VIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR) - Hà Nội, 09-10/7/2015, ISBN: 978-604-913-397-8, trang 523-528, 2015. [4] Jean-Franҫois Bonastre, Frédéric Wils. ALIZE, A FREE TOOLKIT FOR SPEAKER RECOGNITION”. IEEE International Conference , pp. I 737 - I 740, 2005. [5] Torres-Carrasquillo, P. A., Gleason, T. P., and Reynolds, D. A “Dialect Identification Using Gaussian Mixture Models”. In Proc. Odyssey: The Speaker and Language Recognition Workshop in Toledo, Spain, ISCA, pp. 297- 300, 31 May - 3 June 2004.
56 ẢNH HƯỞNG CỦA TẦN SỐ CƠ BẢN F0 VÀ CÁC BIẾN THỂ CỦA F0 ĐẾN NHẬN DẠNG PHƯƠNG NGỮ TIẾNG VIỆT [6] Bin M. A., Donglai ZHU and Rong TONG. “Chinese Dialect Identification Using Tone Features Based On Pitch”, ICASSP 2006. [7] Sittichok Aunkaew, Montri Karnjanadecha, Chai Wutiwiwatchai. “Development of a Corpus for Southern Thai Dialect Speech Recognition: Design and Text Preparation”. The 10th International Symposium on Natural Language Processing, October 28-30, 2013, Phuket, Thailand . [8] Shweta Sinha, Aruna Jain, S. S. Agrawal. “Acoustic-Phonetic Feature Based Dialect Identification in Hindi Speech”. International Journal on Smart Sensing and Intelligent Systems Vol. 8, No. 1, March 2015, pp 235-254. [9] Torres-Carrasquillo P. A., Singer E., Kohler M. A., Greene R. J., Reynolds D. A., and Deller Jr. J. R “Approaches to Language Identification Using Gaussian Mixture Models and Shifted Delta Cepstral Features”. In Proc. International Conference on Spoken Language Processing in Denver, CO, ISCA, pp. 33-36, 82-92 September 2002. [10] Campbell W. M., Singer E., Torres-Carrasquillo P. A., and Reynolds D. A “Language Recognition with Support Vector Machines”. In Proc. Odyssey: The Speaker and Language Recognition Workshop in Toledo, Spain, ISCA, pp. 41-44, 31 May - 3 June 2004. [11] Phạm Ngọc Hưng, Trịnh Văn Loan, Nguyễn Hồng Quang, Trần Vũ Duy (2016). “Cải thiện hiệu năng hệ thống nhận dạng tiếng việt với thông tin về phương ngữ”. Kỷ yếu Hội nghị Quốc gia lần thứ IX về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR) - Cần Thơ, 4-5/8/2016. ISBN: 978-604-913-472-2, trang 63-69 [12] Pham Ngoc Hung, Trinh Van Loan, Nguyen Hong Quang (2016). “Automatic identification of Vietnamese dialects”. Journal of Computer Science and Cybernetics, V.32, N.1 (2016), 18-29, DOI: 10.15625/1813- 9663/32/1/7905. EFFECT OF FREQUENCY F0 AND ITS VARIANTS TO VIETNAMESE DIALECT RECOGNITION Pham Ngoc Hung, Trinh Van Loan, Pham Quoc Hung ABSTRACT: Dialect is a special phenomenon of many languages including Vietnamese. The dialect of Vietnamese is very diverse, rich with many differences. The difference between the dialects constitutes a barrier to communication between people using different dialects. The distinction and identifying the dialect of the Vietnamese language is important for the understanding of information transmitted through speech more accurately, especially the automatic speech recognition system. If we know the dialect of a language to recognize the content, we can adjust the identification parameters in accordance with the dialect to improve the efficiency of recognition. Proper recognition of the dialect of the speech also poses many challenges, especially when recognition is based only on phonetic features. There are many features that can be used for automatic dialect recognition. In Vietnamese, in addition to MFCC features, frequency F0 is an important feature that has an effect on the recognition result. Vietnamese is a tonal language. The difference between the tones is shown by the variation of F0. Thus, the using of F0 in dialect identification is grounded. In addition to F0, the variants of F0 such as the derivative F0, F0 are normalized to a mean, LogF0, also have a certain role and a significant effect on the efficiency of the Vietnamese dialect recognition. This paper presents the results of studies on the effects of F0 and the variants of F0 on Vietnamese dialect recognition in various contexts including speaker-dependent, speaker-independent, content-dependent and content-independent. The research has experimented on the VDSPEC corpus, which included voices for the three major dialects of Vietnamese, the North dialect, the Central dialect and the Southern dialect.