Ứng dụng các kỹ thuật phân lớp dữ liệu cho bài toán khai thác dữ liệu tiếng dân tộc thiểu số phục vụ xử lý ngôn ngữ tự nhiên
Bạn đang xem tài liệu "Ứng dụng các kỹ thuật phân lớp dữ liệu cho bài toán khai thác dữ liệu tiếng dân tộc thiểu số phục vụ xử lý ngôn ngữ tự nhiên", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
Tài liệu đính kèm:
- ung_dung_cac_ky_thuat_phan_lop_du_lieu_cho_bai_toan_khai_tha.pdf
Nội dung text: Ứng dụng các kỹ thuật phân lớp dữ liệu cho bài toán khai thác dữ liệu tiếng dân tộc thiểu số phục vụ xử lý ngôn ngữ tự nhiên
- Đinh Thị Mỹ Hạnh 237 Ứng dụng các kỹ thuật phân lớp dữ liệu cho bài toán khai thác dữ liệu tiếng dân tộc thiểu số phục vụ xử lý ngôn ngữ tự nhiên Đinh Thị Mỹ Hạnh Đại học Đà Nẵng, 41 Lê Duẩn, Hải Châu, Đà Nẵng dtmhanh@ac.udn.vn Tóm tắt. Nghiên cứu này phân tích vai trò, thực trạng của kho ngữ liệu phục vụ xử lý ngôn ngữ tự nhiên (XLNNTN), xử lý tiếng Việt (XLTV) nói chung và tiếng dân tộc thiểu số (DTTS) nói riêng. Trên cơ sở mô hình tổng quan của bài toán XLNNTN, tác giả tập trung nghiên cứu bài toán phân lớp dữ liệu. Nghiên cứu đã trình bày những nét chính về mặt ý tưởng, giải thuật; ưu, nhược điểm của một số giải thuật phân lớp dữ liệu được sử dụng phổ biến trong xử lý tiếng Việt như SVM, cây quyết định, giải thuật Bayes Tuy nhiên, đối với việc xử lý tiếng DTTS thì còn hạn chế do nhiều nguyên nhân khác nhau. Tác giả lựa chọn giải thuật SVM để phân lớp văn bản tiếng DTTS trên tập dữ liệu thử nghiệm, từ đó đánh giá hiệu quả thực hiện và đưa ra những đề xuất liên quan đến bài toán phân lớp dữ liệu trên văn bản tiếng DTTS. Từ khóa: tiếng dân tộc thiểu số; phân lớp văn bản; SVM; kho ngữ liệu; xử lý tiếng Việt. 1 Đặt vấn đề Trong bối cảnh Công nghệ Thông tin (CNTT) ngày càng phát triển mạnh mẽ và có ảnh hưởng trong hầu hết các mặt của đời sống xã hội, việc ứng dụng CNTT vào các vấn đề của XLNNTN nói chung, XLTV nói riêng, trong đó có tiếng DTTS đã và đang nhận được sự quan tâm từ các chuyên gia cũng như xã hội. Tuy nhiên, do nhiều nguyên nhân khác nhau mà việc xử lý tiếng DTTS nói chung và xử lý văn bản tiếng DTTS nói riêng còn rất nhiều hạn chế, chưa có nhiều giải thuật được triển khai trên các ngôn ngữ này. Đây cũng là một trong những nguyên nhân khiến cho lĩnh vực xử lý, khai thác tiếng DTTS chưa đạt được nhiều kết quả như kỳ vọng. Hiện nay, dù đã có một số kho ngữ liệu chung của một vài tiếng DTTS phổ biến (trong đó chủ yếu là từ điển tiếng Việt - tiếng DTTS) nhưng chưa có nhiều các từ điển dành cho lĩnh vực hẹp. Điều này gây khó khăn cho việc nghiên cứu và phát triển các hệ thống dịch tự động, khai phá dữ liệu liên quan đến tiếng DTTS. Với ý nghĩa đó, trên cơ sở nghiên cứu những thuật toán về phân lớp văn bản được sử dụng phổ biến đối với tiếng Việt hiện nay, tác giả đề xuất áp dụng giải thuật Suport Vector Machine (SVM) để phân lớp văn bản tiếng DTTS thuộc vài lĩnh vực hẹp, làm tiền đề để nghiên cứu sâu hơn về XLTV nói chung và xử lý, khai thác tiếng DTTS nói riêng. 2 Nghiên cứu tổng quan 2.1 Xử lý ngôn ngữ tự nhiên Xử lý ngôn ngữ tự nhiên (natural language processing - NLP) là một nhánh của trí tuệ nhân tạo tập trung vào các ứng dụng trên ngôn ngữ của con người.
- 238 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2017 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC” Các ứng dụng của XLNNTN hiện nay[13]: Chế tạo các hệ thống máy dịch; Xử lý văn bản và ngôn ngữ; Tìm kiếm thông tin; Chiết suất thông tin; Tóm tắt văn bản; Phân loại văn bản; Data mining, web mining Đối với một bài toán liên quan đến XLNNTN nói chung, mô hình tổng quan gồm 03 bước (xem Hình 1). Kết quả Internet (1) (2) (3) trích rút Kho dữ liệu thô Hình 1. Mô hình tổng quan của bài toán xử lý ngôn ngữ tự nhiên Trong đó: (1) Thu thập/ nhận biết ngôn ngữ: Từ nhiều nguồn khác nhau (chủ yếu từ Internet), dữ liệu được thu thập và tổng hợp vào kho dữ liệu thô. (2) Xử lý ngôn ngữ tự nhiên bao gồm hiểu ngôn ngữ tự nhiên (Natural Language Understanding - NLU) và sinh ngôn ngữ tự nhiên (Natural Language Generation - NLG). Trong đó: Hiểu ngôn ngữ tự nhiên (NLU) bao gồm 4 bước chính sau đây: + Phân tích hình vị; + Phân tích cú pháp; + Phân tích ngữ nghĩa; + Phân tích diễn ngôn. Sinh ngôn ngữ tự nhiên (NLG) đóng vai trò quan trọng trong rất nhiều ứng dụng NLP, bao gồm sinh hội thoại, tương tác người - máy, dịch thuật máy và tóm tắt văn bản tự động. (3) Trích rút thông tin: thông tin được trích xuất theo các yêu cầu khác nhau. Tại bước (2), một trong những bài toán quan trọng được sử dụng rộng rãi là phân lớp văn bản (PLVB). Trong phạm vi nghiên cứu này, tác giả tập trung và đề xuất giải pháp thực hiện bước PLVB. 2.2 Bài toán phân lớp văn bản PLVB là một bài toán xử lí văn bản cổ điển, đó là ánh xạ một văn bản vào một chủ đề đã biết trong một tập hữu hạn các chủ đề dựa trên ngữ nghĩa của văn bản. Đặc điểm nổi bật của bài toán này là sự đa dạng của chủ đề văn bản và tính đa chủ đề của văn bản. Tình hình nghiên cứu trong nước và trên thế giới. Trên thế giới đã có nhiều công trình nghiên cứu về ứng dụng của phân lớp văn bản đạt những kết quả khả quan, nhất là đối với phân loại văn bản tiếng Anh. Các nghiên cứu và ứng dụng đối với văn bản tiếng Việt còn nhiều hạn chế do khó khăn về tách từ và câu. Có thể liệt kê một số công trình nghiên cứu trong nước với các hướng tiếp cận khác nhau cho bài toán phân loại văn bản, bao gồm: phân loại với máy học vectơ hỗ trợ [6], cách tiếp cận sử dụng lý thuyết tập thô, cách tiếp cận thống kê hình vị [7], cách
- Đinh Thị Mỹ Hạnh 239 tiếp cận sử dụng phương pháp học không giám sát và đánh chỉ mục [8], cách tiếp cận theo luật kết hợp [2] và nhiều công trình khác. Theo các kết quả trình bày trong các công trình đó thì những cách tiếp cận nêu trên đều cho kết quả khá tốt. Tuy nhiên, khó có thể so sánh các kết quả ở trên với nhau vì tập dữ liệu thực nghiệm của mỗi phương pháp là khác nhau. Các phương pháp PLVB được ứng dụng rộng rãi trong nhiều lĩnh vực khác nhau, như phân tích dữ liệu các lĩnh vực tài chính ngân hàng, quản lý tội phạm, phân loại nội dung tài liệu web, tin tức điện tử, xây dựng bộ lọc email Đa số các bài toán đã triển khai thuộc các dự án, các đề tài nghiên cứu cấp Nhà nước, Bộ, ngành hoặc thuộc các trung tâm, viện nghiên cứu, các trường đại học ; các đề tài, Luận văn cao học, Luận án tiến sĩ; Tuỳ mức độ của công trình nghiên cứu mà tính khả thi khi triển khai thực tế sẽ có những mức độ khác nhau. Một số thuật toán PLVB phổ biến Thuật toán Suport Vector Machine (SVM). Thuật toán SVM ban đầu được tìm ra bởi Vladimir N. Vapnik và dạng chuẩn hiện nay sử dụng lề mềm được tìm ra bởi Vapnik và Corinna Cortes năm 1995. Xét bài toán phân lớp đơn giản nhất - phân lớp hai lớp với tập dữ liệu mẫu: {(xi, yi) | i = 1, 2, , N, xi ∈ Rm} (1) Trong đó mẫu là các vector đối tượng được phân lớp thành các mẫu dương và mẫu âm (xem Hình 2): - Các mẫu dương là các mẫu xi thuộc lĩnh vực quan tâm và được gán nhãn yi = 1. - Các mẫu âm là các mẫu xi không thuộc lĩnh vực quan tâm và được gán yi = -1. Hình 2. Mặt siêu phẳng tách các mẫu dương khỏi các mẫu âm Trong trường hợp này, bộ phân loại SVM là mặt siêu phẳng phân tách các mẫu dương khỏi các mẫu âm với độ chênh lệch cực đại, trong đó độ chênh lệch - còn gọi là lề (margin) xác định bằng khoảng cách giữa các mẫu dương và các mẫu âm gần mặt siêu phẳng nhất (Hình 2). Mặt siêu phẳng này được gọi là mặt siêu phẳng lề tối ưu. Các mặt siêu phẳng trong không gian đối tượng có phương trình là: C + w1x1 + w2x2 + + wnxn = 0 (2) Tương đương với công thức: C + ∑wixi = 0 với i = 1, ,n (3)
- 240 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2017 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC” Với w = w1 + w2 + + wn là bộ hệ số siêu phẳng hay là vector trọng số, C là độ dịch. Khi thay đổi w và C thì hướng và khoảng cách từ gốc toạ độ đến mặt siêu phẳng thay đổi. Bộ phân loại SVM được định nghĩa như sau: f(x) = sign(C + ∑wixi) (4) Trong đó: - sign(z) = +1 nếu z ≥ 0, - sign(z) = -1 nếu z < 0. Nếu f(x) = +1 thì x thuộc về lớp dương (lĩnh vực được quan tâm), và ngược lại, nếu f(x) = -1 thì x thuộc về lớp âm (các lĩnh vực khác). Máy học SVM là một họ các mặt siêu phẳng phụ thuộc vào các tham số w và C. Mục tiêu của phương pháp SVM là ước lượng w và b để cực đại hóa lề giữa các lớp dữ liệu dương và âm. Các giá trị khác nhau của lề cho ta các họ mặt siêu phẳng khác nhau, và lề càng lớn thì năng lực của máy học càng giảm. Như vậy, cực đại hóa lề thực chất là việc tìm một máy học có năng lực nhỏ nhất. Quá trình phân loại là tối ưu khi sai số phân loại là cực tiểu. Giải phương trình sau: N 1 2 C w (5) i 1 i 2 Tìm ra được vector trọng số w và sai số của mỗi điểm trong tập huấn luyện là ,với C là tham số cho trước, từ đó ta có phương trình tổng quát của siêu phẳng tìm ra được bởi thuật toán SVM là: (x1, x2, , xn) = C + ∑wixi (6) Với i = 1, , n. Trong đó n là số dữ liệu huấn luyện. Sau khi đã tìm được phương trình của siêu phẳng bằng thuật toán SVM, sử dụng công thức này để tìm ra nhãn lớp cho các dữ liệu mới. Thuật toán Bayes. Giả sử x là một văn bản chứa các từ thuộc từ điển gồm D từ, đánh số từ 1 tới D. Khi đó ta có thể biểu diễn x bởi vector nhị phân: x = (x1, x2, , xD), xj {0,1} (7) Trong đó: 1, nÕu tõ thø j xuÊt hiÖn trong x x 0, nÕu tõ thø j kh«ng xuÊt hiÖn trong x Trong mô hình Bayes đơn giản (neive Bayes - NB), ta giả định các đặc trưng xj {0,1} và độc lập với nhau đối với từng loại y. Từ đó: P x, y ; P x| y ; P y ; D (8) = P ( xj y;)(;P y ) j 1 Các tham số của mô hình:
- Đinh Thị Mỹ Hạnh 241 k P( y k ), k 1,2, , K j k P( x 1 y k ), j 1,2, , D ; k 1,2, , K Với mỗi văn bản x, gọi V là tập từ thuộc x. Thuật toán phân loại x trong mô hình Bayes đơn giản như sau: Data: x, k , j k ,k 1,2, , K ; j 1,2, , D for k 1,2, , K do s[k] = logk ; for j V do s[k] = s[k] + logk ; return arg maxk s[k] Luật kết hợp. Luật kết hợp là tìm các mẫu phổ biến, sự kết hợp, sự tương quan hay các cấu trúc nhân quả giữa các tập đối tượng trong các cơ sở dữ liệu giao tác, cơ sở dữ liệu quan hệ và những kho thông tin khác để đưa ra các mỗi liên kết giữa các phần tử dữ liệu. * Định nghĩa Luật kết hợp: Cho một tập I = {I1, I2, , Im} là tập các thuộc tính riêng biệt, mỗi thuộc tính gọi là một mục. Gọi D là một cơ sở dữ liệu chứa n giao dịch, trong đó mỗi bản ghi T là một giao dịch và chứa các tập mục, XI. T được gán nhãn với một định danh duy nhất. Ta nói rằng, một giao dịch T D hỗ trợ một tập XI nếu nó chứa tất cả các mục của X. Một tập X được gọi là tập mục k phần tử (k-itemset) nếu lực lược của X bằng k (tức là |X|=k). - Định nghĩa 1: Độ hỗ trợ của X, ký hiệu là support(X), là tỉ lệ phần trăm của các giao dịch hỗ trợ X trên tổng các giao dịch D, nghĩa là: TDXT Support() X (9) D - Định nghĩa 2: Một luật kết hợp có dạng R:X=>Y, trong đó X,Y là tập các mục, X,Y I và XY = X được gọi là tiên đề, Y được gọi là hệ quả của luật. Hai thông số quan trọng của luật kết hợp là độ hỗ trợ (support) và độ tin cậy (confidence). - Định nghĩa 3: Độ hỗ trợ (support) của luật kết hợp X=>Y là tỉ lệ phần trăm giữa số lượng các giao dịch chứa cả X và Y (X∩Y) với tổng số các giao dịch có trong cơ sở dữ liệu. Đơn vị tính %. Tæng s¶n lîng giao dÞch hç trî X Y Support (10) Tæng sè giao dÞch - Định nghĩa 4: Độ tin cậy (confidence) là tỉ lệ phần trăm giữa số lượng các giao dịch chứa cả X và Y (XY) với số giao dịch có chứa X. Đơn vị tính %.
- 242 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2017 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC” Tæng sè lîng giao dÞch hç trî X Y Confidence (11) Tæng sè giao dÞch hç trî X 3 Đề xuất giải pháp PLVB cho tiếng DTTS Việt Nam Trong nghiên cứu này, tác giả chọn thuật toán SVM để giải quyết vấn đề vì: - SVM được đánh giá là bộ phân lớp chính xác nhất cho bài toán phân lớp văn bản, bởi vì đó là bộ phân lớp tốc độ rất nhanh và hiệu quả đối với bài toán phân lớp văn bản[13]. - Khi sử dụng các phương pháp chọn đặc trưng, ta có thể loại bỏ đi nhiều từ quan trọng, dẫn đến mất mát nhiều thông tin, điều đó làm cho độ chính xác phân loại sẽ giảm đi đáng kể. Giải thuật SVM có khả năng điều chỉnh năng lực phân loại tự động đảm bảo hiệu suất tổng quát hóa tốt, thậm chí cả trong không gian dữ liệu có số chiều cao (số đặc trưng rất lớn) và lượng tài liệu mẫu là có hạn. - Các thư viện cài đặt sẵn SVM rất phong phú như scikit-learn [14], matlab [15] và libsvm [16]. - Nhiều công trình nghiên cứu về PLVB tiếng Việt sử dụng SVM đã được triển khai và mang lại hiệu quả khá cao[6]. Quá trình thực hiện. - Đầu vào: văn bản tiếng DTTS được thu thập từ nguồn Internet như trang (VOV - Hệ phát thanh tiếng dân tộc VOV4), lựa chọn các văn bản thuộc 1 số chủ đề giới hạn (kinh tế - xã hội, khoa học giáo dục ) - Xử lý: Phân lớp văn bản bằng giải thuật SVM, gồm các bước: Tiền xử lý Trích chọn vector đặc trưng Biểu diễn vector Dữ liệu huấn luyện Mô hình Huấn luyện Hình 3. Quy trình tổng quát quá trình phân lớp văn bản - Tiền xử lý văn bản: loại bỏ các thẻ HTML, dấu câu, chính tả, ký tự lỗi, loại bỏ càng nhiều các tốt các dữ liệu nhiễu, không giúp cho việc phân loại. - Biểu diễn văn bản dưới dạng vector (thường gọi là mô hình hóa văn bản, vector hóa văn bản), thường phải làm các công việc như sau: Tách từ (tiếng Việt có thư viện vnTokenizer), lọc bỏ stopwords (thì, là, nên, ). Vector hóa văn bản (feature vector): sử dụng các kỹ thuật TF-IDF (Term Frequency - Inverse Document Frequency) (tham khảo thêm [6]). - Phân lớp văn bản sau khi văn bản được vector hóa, bước này ta chọn một mô hình, thuật toán phân lớp SVM. Bước này bao gồm:
- Đinh Thị Mỹ Hạnh 243 Train và Evaluate mô hình: chia dữ liệu thành 2 tập train và test để đánh giá mô hình. Thử, thay đổi mô hình, tham số và đánh giá, đến khi nào được kết quả tối ưu, gọi là model selection. Việc đánh giá mô hình có thể sử dụng: ROC Curve, Precision/Recall, Lift, - Deploy. - Đầu ra: Các văn bản được phân lớp. 4 Kết luận 4.1 Kết quả đạt được Nghiên cứu đã đưa ra một giải pháp tổng thể cũng như đề xuất giải pháp kỹ thuật cho bài toán phân lớp đối văn bản tiếng DTTS. Về mặt lý thuyết, tác giả đã nghiên cứu tổng quan về XLNNTN, XLTV nói chung; tình hình nghiên cứu trong nước và thế giới về vấn đề này. Đối với bài toán PLVB, tác giả đã tìm hiểu những thuật toán phổ biến hiện nay nhằm giải quyết việc PLVB nói chung và đề xuất giải pháp sử dụng thuật toán SVM để giải quyết bài toán đặt ra. 4.2 Hạn chế Giới hạn phạm vi bài toán. 54 dân tộc sinh sống trên đất nước Việt Nam có ngôn ngữ riêng và nền văn hóa truyền thống đặc sắc của mình. 24 dân tộc có chữ viết riêng như tiếng Thái, Mông, Tày, Nùng, Khmer, Gia Rai, Ê đê, Hoa, Chăm Tuy tất cả ngôn ngữ các dân tộc đều thuộc loại hình ngôn ngữ đơn lập, song không có nghĩa là giống nhau và có rất nhiều loại chữ. Do đó, bài toán chỉ giới hạn lại cho những chữ viết của các dân tộc có đặc điểm tương đồng với tiếng Việt như sử dụng ký tự Latinh để tạo âm tiết, sử dụng khoảng trống để phân tách âm tiết. Nghiên cứu chưa đề xuất được một ngôn ngữ cụ thể sẽ dung để triển khai thực nghiệm. Nghiên cứu dừng lại ở mức độ đề xuất giải pháp, ý tưởng áp dụng thuật toán SVM để PLVB tiếng DTTS chưa được triển khai thực nghiệm cụ thể. Khi triển khai thực tế sẽ phải giải quyết một số khó khăn sau đây: - Lựa chọn dữ liệu mẫu là văn bản tiếng DTTS có đặc điểm cấu trúc gần với tiếng Việt nhất; - Xây dựng kho ngữ liệu thử nghiệm và giải pháp tách từ. 4.3 Hướng phát triển Tác giả sẽ triển khai việc thực nghiệm bài toán bằng các bước sau: - Ngắn hạn: Nghiên cứu và lựa chọn 1 tiếng DTTS phù hợp để triển khai; Thu thập dữ liệu mẫu (các văn bản tiếng DTTS thuộc 2 đến 3 lĩnh vực); Cài đặt thử nghiệm và đánh giá. - Dài hạn: Xây dựng các công cụ, hệ thống xử lý văn bản tiếng DTTS. Tài liệu tham khảo Tiếng Việt 1. Đinh Điền, Hồ Hải Thuỵ, Ngôn ngữ học máy tính và việc xây dựng từ điển, Tạp chí Từ điển học & Bách khoa thư, số 4 (2011).
- 244 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2017 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC” 2. Đỗ Phúc, Nghiên cứu ứng dụng tập phổ biến và luật kết hợp vào bài toán phân loại văn bản tiếng Việt có xem xét ngữ nghĩa, Tạp chí phát triển KH&CN, tập 9, số 2, trang 23-32, năm 2006. 3. Hồ Quốc Bảo, Đinh Điền, Đặng Bác Văn, Lương Vỹ Minh, Phạm Đào Duy Vũ, Xây dựng kho ngữ liệu song ngữ Anh - Việt, Báo cáo kỹ thuật (Đề tài nhánh SP.74). 4. Hồ Tú Bảo, Lương Chi Mai, Xử lý tiếng Việt trong Công nghệ Thông tin, Viện Công nghệ Thông tin, Viện Khoa học Tiên tiến Nhật Bản (2008). 5. Huỳnh Công Pháp, Đặng Đại Thọ, Nguyễn Văn Bình, Cải tiến chất lượng dịch tự động bằng giải pháp mở rộng kho ngữ liệu, Kỷ yếu Hội nghị Quốc gia lần thứ VIII về Nghiên cứu cơ bản và ứng dụng Công nghệ Thông tin (FAIR), Hà Nội (2015). 6. Nguyễn Linh Giang, Nguyễn Mạnh Hiển, Phân loại văn bản tiếng Việt với bộ phân loại vectơ hỗ trợ SVM, Tạp chí CNTT&TT (6-2006). 7. Nguyễn Linh Giang, Nguyễn Duy Hải, Mô hình thống kê hình vị tiếng Việt và ứng dụng, Chuyên san Các công trình nghiên cứu, triển khai Công nghệ Thông tin và Viễn thông, Tạp chí Bưu chính Viễn thông, số 1, trang 61-67 (1-1999). 8. Huỳnh Quyết Thắng, Đinh Thị Thu Phương, Tiếp cận phương pháp học không giám sát trong học có giám sát với bài toán phân lớp văn bản tiếng Việt và đề xuất cải tiến công thức tính độ liên quan giữa hai văn bản trong mô hình vectơ, Kỷ yếu Hội thảo ICT.rda’04, trang 251-261, Hà Nội (2005). 9. Nguyễn Trọng Báu, Dân tộc và Thời đại, số 76, tr 2 - 4 (3/2005). 10. Phùng Đức Tùng, Nguyễn Việt Cường, Nguyễn Cao Thịnh, Nguyễn Thị Nhung, Tạ Thị Khánh Vân, Tổng quan thực trạng kinh tế - xã hội của 53 dân tộc thiểu số, Tiểu Dự án hỗ trợ giảm nghèo PRPP - Uỷ ban Dân tộc (do UNDP và Irish Aid tài trợ), Hà Nội, (5-2017). 11. Tạ Văn Thông, PGS.TS, Viện Từ điển học và bách khoa thư Việt Nam, Bảo tồn ngôn ngữ các dân tộc thiểu số Việt Nam trước nguy cơ tiêu vong, Ngôn ngữ và đời sống, Số 03 (185), (2011). 12. Trần Cao Đệ, Phạm Nguyên Khang, Phân loại văn bản với máy học vector hỗ trợ và cây quyết định, Tạp chí Khoa học Công nghệ Đại học Cần Thơ, 21a, 52-63 (2012). Website: 13. Lưu Tuấn Anh. Natural Language Processing. 14. 15. classification.html?requestedDomain=www.mathworks.com 16.