Nhận dạng giọng chữ cái tiếng việt sử dụng deep boltzmann machines
Bạn đang xem tài liệu "Nhận dạng giọng chữ cái tiếng việt sử dụng deep boltzmann machines", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
Tài liệu đính kèm:
- nhan_dang_giong_chu_cai_tieng_viet_su_dung_deep_boltzmann_ma.pdf
Nội dung text: Nhận dạng giọng chữ cái tiếng việt sử dụng deep boltzmann machines
- Vietnam J. Agri. Sci. 2021, Vol. 19, No. 4: 435-442 Tạp chí Khoa học Nông nghiệp Việt Nam 2021, 19(4): 435-442 www.vnua.edu.vn NHẬN DẠNG GIỌNG CHỮ CÁI TIẾNG VIỆT SỬ DỤNG DEEP BOLTZMANN MACHINES Hoàng Thị Thanh Giang, Nguyễn Thị Thúy Hạnh*, Nguyễn Trọng Kương Khoa Công nghệ thông tin, Học viện Nông nghiệp Việt Nam *Tác giả liên hệ: ntthuyhanh@vnua.edu.vn Ngày nhận bài: 30.12.2019 Ngày chấp nhận đăng: 26.09.2020 TÓM TẮT Nhận diện giọng nói là một bài toán thu hút được quan tâm rộng rãi của nhiều nhà nghiên cứu trong lĩnh vực trí tuệ nhân tạo trong những năm gần đây. Chẳng hạn như bài toán xây dựng chương trình để robot có khả năng nhận biết giọng nói của con người, hay các thiết bị có thể hiểu và đối thoại trực tiếp với người cùng nói chuyện. Trong nghiên cứu này, 37 sinh viên của Học viện Nông nghiệp Việt Nam tham gia để thu thập dữ liệu phát âm liên tục 29 chữ cái trong bảng chữ cái tiếng Việt. Qua bước tiền xử lý dữ liệu để trích xuất ra các mẫu âm thanh thuộc tính cho phân lớp, phương pháp nhận dạng chúng tôi sử dụng để nhận diện các mẫu giọng nói là deep Boltzmann machine (DBM), một mạng có khả năng học sâu với kiến trúc nhiều tầng ẩn. Để đánh giá khả năng nhận dạng của phương pháp đề xuất, chúng tôi so sánh DBM với mạng nơron truyền thống (NN) có cùng kiến trúc số tầng ẩn. Kết quả cho thấy khả năng nhận dạng các mẫu âm thanh chữ cái tốt hơn của DBM với khả năng học cho độ chính xác trung bình là 68% trên dữ liệu đào tạo và 51% khi thử với dữ liệu test, trong khi kết quả này của NN là 61% và 48% tương ứng. Từ khóa: Trí tuệ nhân tạo, học máy, mạng nơron, máy Boltzmann, học sâu. Speech Recognition of Vietnamese Alphabet using Deep Boltzmann Machines ABSTRACT Speech recognition has been attracting many researchers in the field of artificial intelligence recently. For example, the problem of implementing a program for robots to recognize human speech, thereby robots can understand, learn and talk with human. In this study, 37 students from Vietnam National University of Agriculture were involved to acquire speech data of 29 letters in Vietnamese alphabet. The data were preprocessed to extract featured voice chunks for the classification. We then used the deep Boltzmann machine (DBM) as a deep network with stacked hidden layers. To evaluate the proposed method, we compared the learning performance of DBM to a neural network (NN) with the same network structure configuration. The results showed that DBM performed better with accuracies of 68% on the training dataset and 51% on the test dataset, while the respective figures for NN were 61% of training and 48%. Keywords: Artificial intelligence, machine learning, neural network, Boltzmann machine, deep learning. học ngôn ngĂ đò cò thêm nhiều tiện ích trong 1. ĐẶT VẤN ĐỀ rèn luyện cách phát âm và nhên biết âm chuèn. Nhên diện giọng nói là một bài toán thu hút Tuy nhiên ngôn ngĂ và giọng nói có yếu tố vùng đþĉc quan tâm rộng rãi cûa nhiều nhà nghiên miền. Vì vêy, để một chþĄng trình máy tính cĀu trong lïnh văc trí tuệ nhân täo chîng hän nhên biết đþĉc să đa däng cách phát âm cûa nhþ bài toán xåy dăng chþĄng trình để robot một ngôn ngĂ thống nhçt cüng là một bài toán biết nhên biết giọng nói cûa con ngþąi, tÿ đò cæn giâi quyết khâ nëng nhên däng âm và giọng phát triển để robot có thể hiểu và đối thoäi vĆi nói mà ć đò độ chính xác phý thuộc vào khâ ngþąi cùng nói chuyện (Kazuhiro & cs., 2010). nëng phån lĆp vĆi dĂ liệu đæy đû nhçt có thể. Hay trong công nghệ giáo dýc, việc nhên biết Rõ ràng, việc tiếp nhên ngôn ngĂ vĆi con chính xác cách phát âm cûa một tÿ cüng là một ngþąi là một quá trình học và lïnh hội tÿng việc làm cæn thiết để trĉ giúp cho ngþąi bít đæu bþĆc. Điều này càng thể hiện chi tiết hĄn vĆi 435
- Nhận dạng giọng chữ cái tiếng Việt sử dụng deep Boltzmann machines việc học một ngoäi ngĂ nào đò hoðc vĆi trẻ em Schmidhuber, 2015). VĆi nhĂng thuêt toán hiệu bít đæu đi học. Cý thể, để học nòi đþĉc hoðc quâ đþĉc trang bð cho việc xây dăng các mäng phân biệt tÿng chĂ cái trong một tÿ thì ngþąi nhiều tæng, qua đò nång cao khâ nëng biểu diễn học tÿng bþĆc học cách phát âm cûa tÿng chĂ và nhên biết thuộc tính cûa dĂ liệu thông qua cái đò hoðc học cách phát âm câ cým cûa một tÿ. học không giám sát chîng hän nhþ CD-k VĆi một tÿ điển điện tā thì cách phát âm cûa (Hilton, 2012). Trong nghiên cĀu trþĆc đåy, một tÿ, một chĂ cái đều lçy cách phát âm ć một chúng tôi đã sā dýng phþĄng pháp cûa học máy vùng nào đò làm chuèn. VĆi ngĂ giọng khác để nhên biết các méu sóng siêu âm về động nhau thì să phát âm cûa ngþąi học so vĆi một mäch vành tim ngþąi (Kuong & cs., 2017; âm chuèn có să thay đổi ć mỗi ngþąi về âm 2018a; 2018b). Cý thể, chúng tôi đã sā dýng lþĉng, ngĂ điệu, tæn số. DBM trong các nghiên cĀu đò. Các kết quâ Āng Về Āng dýng nhên biết cách phát âm tÿ, dýng khâ nëng học cûa DBM là cĄ sć cho chúng trong một nghiên cĀu gæn đåy (Samuel & cs., tôi sā dýng để giâi quyết cho bài toán nhên diện giọng nói trong nghiên cĀu này. 2018) nhóm tác giâ đã nghiên cĀu một mô hình mà robot có thể nhên biết cách phát âm cûa trẻ và đþa ra trĉ giúp cho đĀa trẻ rèn luyện đþĉc kỹ 2. PHƯƠNG PHÁP NGHIÊN CỨU nëng nòi. Về mðt kỹ thuêt, quá trình này gồm 2.1. Thu thập dữ liệu việc nhên biết âm thanh giọng nói và nhên biết ngĂ nghïa cûa ngôn ngĂ nhên đþĉc. DĂ liệu đþĉc sā dýng trong nghiên cĀu này dăa trên să tham gia cûa nhóm gồm 37 sinh VĆi ý tþćng tþĄng tă cho tiếng Việt, một viên tình nguyện (19 nĂ, 18 nam) khoa Công ngôn ngĂ có nhiều giọng điệu khác nhau giĂa nghệ thông tin, Học viện Nông nghiệp Việt hai miền Bíc và Nam (James & cs., 2010; Nam, họ đã đồng ý tham gia cho thu âm giọng Hoàng Thð Châu, 1999; Phuong & cs., 2008), nói cûa mình. Trong khâu thu thêp dĂ liệu, mýc đích cûa nghiên cĀu này nhìm xây dăng chúng tôi dăa trên các bþĆc sau: tÿng bþĆc một chþĄng trình máy tính cò thể BþĆc 1: Thiết kế bâng thu thêp dĂ liệu bao nhên biết chĂ cái thông qua nhiều giọng phát gồm thông tin về dă án nghiên cĀu, mýc đích âm khác nhau, dæn tÿng bþĆc phát triển lên nghiên cĀu, các thóa thuên xin dĂ liệu, cam kết nhên biết tÿ, câu trong tiếng Việt, cüng nhþ sā dýng dĂ liệu và thông tin ngþąi phý trách. phát triển chþĄng trình trĉ giúp ngþąi học phát Mỗi cá nhân tham gia quá trình thu méu hoàn âm tiếng Việt trong tþĄng lai. toàn đþĉc phổ biến các thông tin này và ký thóa Việc triển khai các Āng dýng cûa trí tuệ thuên tă nguyện cüng nhþ tinh thæn sïn sàng nhân täo vào nhên diện các hoät động cûa con trĉ giúp cho nghiên cĀu. ngþąi đã và đang thu hút rçt nhiều nhóm BþĆc 2: Tìm hiểu thiết bð thu âm thanh. nghiên cĀu. Chîng hän nhþ nhòm nghiên cĀu Dăa trên điều kiện vêt chçt và tìm hiểu các cûa Thinh & cs. (2018), hay nghiên cĀu cûa phæn mềm thu âm. Cçu hình cách đðt thiết bð Orken & cs. (2019) cho thçy nhĂng nghiên cĀu thu âm, chîng hän nhþ, tæn số lçy méu, cçu triển khai Āng dýng cûa thð giác máy tính và trúc tệp âm thanh thu đþĉc. Chúng tôi đi đến sā học sâu vào nhên diện hoät động cûa con ngþąi. dýng phæn mềm windows recorder, đþĉc xem là Các nghiên cĀu đò đòng gòp thêm vào khâ nëng thuên tiện triển khai vĆi nhóm nghiên cĀu. Āng dýng đa däng cûa trí tuệ nhân täo trong BþĆc 3: Lên qui trình và têp huçn lçy méu thăc tế. gồm: (i) phổ biến cho ngþąi tham gia lçy méu về Gæn đåy, các phþĄng pháp cûa học såu đã mýc đích và cam kết đâm bâo thông tin, (ii) têp chĀng tó khâ nëng Āng dýng cao vào các bài huçn cho ngþąi phý trách thu âm về qui trình toán phân tích dĂ liệu lĆn và nò đang cuốn hút này, và (iii) tiến hành thu âm sau khi đã liên läc nhiều quan tâm (Lecun & cs., 2015; vĆi các sinh viên tình nguyện. 436
- Hoàng Thị Thanh Giang, Nguyễn Thị Thúy Hạnh, Nguyễn Trọng Kương 0,4 0,2 0,0 -0,2 -0,4 0,4 0,2 0,0 -0,2 -0,4 Hình 6. Biểu diễn sóng âm của hai mẫu âm thanh Kết quâ các méu åm thanh thu đþĉc là 37 khoâng thąi gian cho các vùng đò khoâng 0,7 tệp âm thanh cûa 37 sinh viên tình nguyện, giåy, nghïa là cò kích thþĆc bìng 0,7*FS. trong đò mỗi tệp là giọng phát âm liên tiếp cûa Để xác đðnh các vùng âm thanh tþĄng Āng 29 chĂ cái trong bâng chĂ cái tiếng Việt dăa vĆi nhãn là các chĂ cái, trþĆc hết chúng tôi dăa theo tÿ điển tiếng Việt cûa Hoàng Phê (2010). vào các điểm đînh (peak points) ć đò theo tốc độ Biểu diễn däng sóng cûa một tệp âm thanh đþĉc phát âm trung bình là 0,7*FS cho mỗi chĂ cái mình họa ć hình 1. nên các điểm đînh phâi cách nhau tþĄng tă là 0,7*FS. Vùng âm thanh thuộc tính quan tâm sẽ 2.2. Xử lý và trích xuất đoạn âm thanh đþĉc trích ra xung quanh các điểm đînh. Mỗi thuộc tính vùng sóng âm tþĄng Āng vĆi mỗi chĂ cái cho Để tiền xā lý, chuèn hóa dĂ liệu và trích thçy biên độ ć vùng đò đþĉc dao động mänh hĄn xuçt đoän âm thanh thuộc tính phýc vý cho học nhþ đþĉc thể hiện ć hình 2. và phân lĆp (mäng phân lĆp đþĉc trình bày Khi vùng åm thanh đþĉc xác đðnh, lçy điểm trong mýc 2.3), trþĆc hết tæn số lçy méu đþĉc trung vð chia đôi nëng lþĉng sóng âm cûa vùng chúng tôi lçy chuèn là FS = 22.050 méu/giây. đò làm tåm, đoän âm thanh thuộc tính cò độ dài Thông thþąng, dĂ liệu chúng tôi thu âm có 2 là 0,7*FS lçy trung vð làm điểm giĂa đþĉc xác mĀc tæn số lçy méu là 44.100 méu/giây và đðnh là đoän âm thanh thuộc tính tþĄng Āng vĆi 22.050 méu/giây. mỗi chĂ cái. Mô tâ sóng âm cûa một chĂ cái và Quan sát ć hình 1, dễ thçy rìng dăa vào điểm trung vð đþĉc thể hiện ć hình 3. biên độ dao động cho ta xác đðnh vùng tþĄng Āng vĆi giọng phát âm cûa một chĂ cái nào đò. 2.3. Mạng deep Boltzmann machine Khi thiết lêp một ngþĈng ngít cûa biên độ thì 2.3.1. Mạng restricted Boltzmann machine cho phép ta tách các vùng tþĄng Āng vĆi mỗi nhãn là các chĂ cái tþĄng Āng, đò là các vùng (RBM) chuẩn quan tâm (ROI) cho việc trích ra các đoän âm Mäng restricted Boltzmann machine (RBM) thanh thuộc tính phýc vý cho việc phân lĆp. Khi là một kiểu mäng nĄron học phân bố xác suçt thống kê tÿ dĂ liệu chúng tôi cò đþĉc trung bình cûa dĂ liệu đæu vào, ć đò về kiến trúc, nó sā 437
- Nhận dạng giọng chữ cái tiếng Việt sử dụng deep Boltzmann machines dýng các biến trong tæng èn h = (h1, h2,„, hH) để Ex,h wxh bx ch (1) ij i j i i j j học phân phối cûa các biến biểu diễn dĂ liệu cæn i,j i j học hay dĂ liệu input x = (x1, x2,„, xN). Mỗi đĄn Phân phối đồng thąi P(x, h) cûa và đþĉc xác vð xi có să kết nối vĆi trọng số wij tĆi mỗi đĄn vð đðnh bći phþĄng trình (2) sau: h . Không có să kết nối giĂa các đĄn vð trong j exp E x,h cùng tæng èn hay cùng tæng dĂ liệu. Các trọng P x,h (2) Z số bi và cj phân ánh mĀc độ tác động cûa mỗi đĄn vð xi và hj tþĄng Āng trong mäng. Mäng ć đò Z là hìng số chuèn hóa. Xác suçt có RBM học thông qua việc điều chînh hàm nëng điều kiện cho các đĄn vð hj và xi đþĉc xác đðnh lþĉng xác đðnh bći công thĀc (1): dăa theo phân phối Boltzmann bći (3) và (4): 1,0 0,5 0,0 -0,5 -1,0 1,0 0,5 0,0 -0,5 -1,0 Hình 7. Trích xuất vùng sóng âm tương ứng với nhãn dựa vào các điểm đînh 0,2 0,1 0,0 -0,1 -0,2 Hình 8. Xác định đoạn sóng âm thuộc tính cho phân lớp dựa vào trung vị 438
- Hoàng Thị Thanh Giang, Nguyễn Thị Thúy Hạnh, Nguyễn Trọng Kương Hình 9. Mô hình RBM chuẩn với tầng input x và tầng ẩn h Hình 10. Mô hình mạng classRBM Hình 11. Mô hình mạng DBM còn läi bìng 0. Khi đò tþĄng tă nhþ mäng RBM P h x sigm w x c (3) j ij i j chuèn, hàm nëng lþĉng đþĉc cho bći các phþĄng i trình (5) dþĆi đåy: và Ex,h,y wxh bx k ij i j i i P x h sigm w h b (4) i,j i i ij j i (5) j c h U xh d j j kj j k jj 1 ć đò sigm x là hàm sigmoid. x 1e ć đò Ukj. dk là các trọng số kết nối vĆi các Mäng RBM chuèn đþĉc mô tâ nhþ ć hình 4. đĄn vð èn và trọng số cûa đĄn vð nhãn tþĄng Mäng RBM chuèn đþĉc trang bð thuêt toán Āng. Không có kết nối giĂa các đĄn vð nhãn vĆi CD-k (Hilton, 2012), nó cho phép mäng có thể các đĄn vð input. Phân phối đồng thąi cûa các học không giám sát (unsupervised learning) đĄn vð đþĉc xác đðnh bći: phân phối đồng thąi giĂa các đĄn vð tæng èn và exp E x,h,y tæng input. Ở một nghïa nào đò, tæng èn tham P x,h,y (6) gia vào học phân phối cûa input và đòng vai trñ Z làm rút ngín số chiều cûa tæng input. ć đò Z là hìng số chuèn hóa. Các xác suçt có điều kiện đþĉc xác đðnh bći: 2.3.2. Mạng restricted Boltzmann machine phân lớp P h x,y sigm w x U c (7) j k ij i kj j i Mäng RBM phân lĆp (classification restricted Boltzmann machine - classRBM) là và một trþąng hĉp mć rộng cûa RBM bìng cách P x h sigm w h b (8) thêm các đĄn vð mã hòa cho nhãn tþĄng Āng vĆi i ij j i các input (Hugo & cs., 2012). Cý thể, nếu các j input x có nhãn là k trong số K lĆp cûa dĂ liệu exp U h d j kj j k P y h (9) thì lĆp cho nhãn gồm K đĄn vð xác đðnh bći qui k exp U h d ljlj j l tíc “one-hot”, hay đĄn vð thĀ k có giá trð bìng 1 439
- Nhận dạng giọng chữ cái tiếng Việt sử dụng deep Boltzmann machines Xác suçt hêu nghiệm cho việc xác đðnh Cçu hình cho mäng DBM trong nghiên cĀu phân lĆp là: này là 700 × 150, tĀc là ć tæng èn thĀ nhçt có exp d f w x U c 700 nĄron tham gia và tæng èn thĀ 2 có 150 kji ij i kj j P y h nĄron tham gia. GiĂa tæng input x và tæng èn h1 k exp d f w x U c yl l j i ij i lj j là mäng RBM đþĉc đào täo bći thuêt toán CD-1 nhþ giĆi thiệu bći Hilton (2012). GiĂa tæng èn (10) h1 và tæng èn h2 có să tham gia cûa lĆp nhãn ć đò f(x) = log(1 + exp(x)) là hàm softplus. hay là mäng classRBM và đþĉc đào täo bći Mô hình classRBM đþĉc minh họa ć hình 5. thuêt toán học có giám sát cûa classRBM đþĉc Nhþ vêy khi trang bð thêm tæng nhãn thì trình bày bći Hugo & cs. (2012). Các tham số W, mäng classRBM phýc vý cho việc học có giám U, b, c, d ban đæu đþĉc sinh ngéu nhiên và nhó sát (supervise learning). ClassRBM đã đþĉc trong giĆi hän [-10-3, 10-3]. chĀng tó khâ nëng đào täo hiệu quâ vĆi các thuêt toán đþĉc trang bð nhþ đã đþĉc trình bày Để đánh giá khâ nëng học cûa DBM, chúng bći Hugo & cs. (2012). tôi so sánh kết quâ cûa DBM vĆi mäng nĄron truyền thống thông thþąng (NN) trong cùng cçu 2.3.3. Mạng deep Bolzmann machine và trúc kích thþĆc cûa mäng, nghïa là mäng nĄron học sâu đþĉc sā dýng có 2 tæng èn cò kích thþĆc læn lþĉt Mäng deep Boltzmann machine (DBM) là là 700 và 150, và các tham số cûa mäng NN să xếp chồng cûa nhiều RBMs (Lecun & cs., cüng đþĉc thiết lêp tþĄng tă nhþ DBM. Thống 2015). VĆi thuêt toán hiệu quâ CD-k, nó cho kê về độ chính xác cûa phân lĆp ć một trþąng phép tæng èn h tham gia vào học phân phối cûa hĉp tốt nhçt cûa DBM và NN trong đào täo và input, đồng thąi tæng èn läi tham gia nhþ là một test đþĉc thể hiện ć bâng 1. input cho tæng èn tiếp theo. Đò là cĄ sć đèy Để thçy đþĉc quá trình đào täo cûa mäng mänh să phát triển mäng học sâu. Trong nghiên qua tÿng bþĆc học và cêp nhêt tham số, sau mỗi cĀu này chúng tôi sā dýng mäng DBM vĆi 2 bþĆc độ chính xác cûa phân lĆp đþĉc kiểm tra và tæng èn ć đò tæng èn thĀ hai có să tham gia cûa tính. Việc này đþĉc thể hiện ć hình 7. Ở đåy mäng classRBM, nghïa là, việc đào täo ć mäng chúng tôi tiến hành thăc hiện đào täo mäng ć thĀ 2 là học có giám sát kết hĉp vĆi nhãn để 100 bþĆc, mỗi bþĆc cêp nhêt tham số läi thăc nhên diện các đoän méu âm. Mô hình mäng hiện đánh giá khâ nëng nhên däng các méu cho DBM đþĉc sā dýng trong nghiên cĀu này đþĉc học và méu cho test lçy kết quâ. mô tâ ć hình 6. 3. KẾT LUẬN 2.4. Kết quâ phân lớp Nghiên cĀu này đã thu thêp đþĉc bộ dĂ liệu Bìng phþĄng pháp trích xuçt tă động nhþ đþĉc trình bày trong phæn 2.2, chúng tôi tiến méu phát âm bâng chĂ cái tiếng Việt tÿ 37 sinh hành kiểm tra läi và loäi bó các đoän có nhiễu âm viên tình nguyện trong Học viện Nông nghiệp hoðc các giọng phát âm không thăc să chính xác. Việt Nam. Mðc dù dĂ liệu chúng tôi thu đþĉc Cuối cùng, chúng tôi thu đþĉc 817 méu âm cûa chþa đû lĆn, và chþa thể đæy đû so vĆi să đa 29 chĂ cái theo cách phát âm dăa cûa tÿ điển cûa däng cûa giọng phát âm tiếng Việt nói chung, Hoàng Phê (2010). DĂ liệu cho đào täo (training nghiên cĀu cüng gòp phæn bổ sung thêm cĄ sć data) và kiểm tra (test data) đþĉc chúng tôi chia và dĂ liệu cæn thiết cho các nghiên cĀu såu hĄn ngéu nhiên theo tî lệ 4:1 tþĄng Āng. trong lïnh văc này. Bâng 1. Kết quâ so sánh độ chính xác trong đào tạo và test của DBM và NN DBM NN Độ chính xác với dữ liệu đào tạo 68% 61% Độ chính xác với dữ liệu test 51% 48% 440
- Hoàng Thị Thanh Giang, Nguyễn Thị Thúy Hạnh, Nguyễn Trọng Kương 0,7 0,6 0,5 0,4 0,3 0,2 0,1 Hình 7. Độ chính xác nhận dạng của DBM và NN qua các bước Sā dýng mäng DBM trong nghiên cĀu này in Computer Science, Springer Berlin. 7700: 599-619. cüng đã chĀng tó đþĉc khâ nëng nhên däng Hoàng Thị Châu (1999). Tiếng Việt trên các miền đất méu âm thanh và nó cho thçy Āng dýng cûa học nước (Phương ngữ học). Nhà xuất bản Khoa học sâu trong nhiều lïnh văc tính toán nói chung và Xã hội, Hà nội. nhên diện giọng nói nói chung. Cho dù vêy, việc Hoàng Phê (2010). Từ điển tiếng Việt. Nhà xuất bản câi thiện khâ nëng học cûa mäng DBM cüng cæn Đà Nẵng. xem xét hĄn nĂa sau này. Cçu hình và thiết lêp Hugo L., Michael M., Razvan P. & Yoshua B. (2012). các tham số tối þu Āng vĆi dĂ liệu cò đþĉc cüng Learning algorithms for the classification restricted Boltzmann machine. Machine Learning Research. cæn cò đánh giá thêm. 13(1): 643-669. James K. (2010). Dialect experience in Vietnamese LỜI CẢM ƠN tone perception. The Journal of the Acoustical Society of America. 127(6): 3749-3757. Nghiên cĀu này đþĉc thăc hiện tÿ nguồn Kazuhiro N., Toru T., Hiroshi G.O., Hirofumi N., Yuji kinh phí cûa đề tài: “Nhên diện chĂ cái tiếng H. & Hiroshi T. (2010). Design and Việt qua dĂ liệu phát âm cûa một nhóm sinh implementation of robot audition system HARK - viên Học viện Nông nghiệp Việt Nam”, mã số: open source software for listening to three simultaneous speakers. Advanced Robotics. T2019-10-55, cçp bći Học viện Nông nghiệp 24(5): 739-761. Việt Nam. Chúng tôi cüng xin câm Ąn nhòm Kuong N.T., Uchino E. & Suetake N. (2017). IVUS sinh viên Khoa Công nghệ thông tin đã tham tissue characterization of coronary plaque by gia tình nguyện trĉ giúp cho việc thu thêp dĂ classification restricted Boltzmann machine. liệu phýc vý cho nghiên cĀu này. Journal of Advanced Computational Intelligence and Intelligent Informatics. 21(1): 67-73. Kuong N.T., Uchino E. & Suetake N. (2018a). TÀI LIỆU THAM KHẢO Recognition of coronary atherosclerotic plaque tissue on intravascular ultrasound images by using Dhar V. (2015). Data science and prediction. misclassification sensitive training of Communications of the ACM, 56 (12): 64-73. discriminative restricted boltzmann machine. Hilton E.G. (2012). A practical guide to training Journal of Biomimetics, Biomaterials and restricted Boltzmann machines. Lecture Notes Biomedical Engineering. 37: 85-93. 441
- Nhận dạng giọng chữ cái tiếng Việt sử dụng deep Boltzmann machines Kuong N.T., Uchino E. & Suetake N. (2018b). Samuel S., Huili C., Safinah A., Michael K. & Coronary plaque classification with accumulative Cynthia B. (2018). A social robot system for training of deep Boltzmann machines. ICIC modeling children's Word pronunciation: socially Express Letters. 12(9): 881-886. interactive agents track. Proceedings of the 17th Lecun Y., Yoshua B. & Hinton E.G. (2015). Deep international conference on autonomous agents learning. Nature. 521(7553): 436-444. and multi-agent systems. pp. 1658-1666. Orken M., Nurbapa M., Mussa T., Nurzhamal O., Schmidhuber J. (2015). Deep Learning in neural Tolga I.M. & Aigerim Y. (2019). Voice networks: an overview. Neural Networks. identification using classification algorithms. 61: 85-117. Intelligent system and computing. Book chapter, Thinh D.B, Dat T.T., Thuy T.N., Long Q.T. & Van InTechOpen. D.N. (2018). Aerial Image Semantic Phuong P.A., Tao N.Q. & Mai L.C. (2008). An efficient Segmentation using Neural Search Network model for isolated Vietnamese handwritten Architecture. In Proceedings of Multi- recognition. Proceedings of 2008 international Disciplinary International Conference on conference on intelligent information hiding and Artificial Intelligence (MIWAI), Lecture Notes in multimedia signal processing. pp. 358-361. Artificial Intelligence, Springer. 442