Xây dựng mô hình và thuật toán hợp nhất dữ liệu từ điển phục vụ xử lý ngôn ngữ tự nhiên
Bạn đang xem tài liệu "Xây dựng mô hình và thuật toán hợp nhất dữ liệu từ điển phục vụ xử lý ngôn ngữ tự nhiên", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
Tài liệu đính kèm:
- xay_dung_mo_hinh_va_thuat_toan_hop_nhat_du_lieu_tu_dien_phuc.pdf
Nội dung text: Xây dựng mô hình và thuật toán hợp nhất dữ liệu từ điển phục vụ xử lý ngôn ngữ tự nhiên
- Huỳnh Cơng Pháp, Cao Xuân Tuấn, Nguyễn Văn Bình và Đinh Thị Mỹ Hạnh 215 Xây dựng mơ hình và thuật tốn hợp nhất dữ liệu từ điển phục vụ xử lý ngơn ngữ tự nhiên Huỳnh Cơng Pháp, Cao Xuân Tuấn, Nguyễn Văn Bình, và Đinh Thị Mỹ Hạnh Khoa Cơng nghệ thơng tin và Truyền thơng – Đại học Đà Nẵng hcphap@sict.udn.vn, nvbinh@sict.udn.vn, cxtuan@sict.udn.vn, dtmhanh@ac.udn.vn Tĩm tắt. Dữ liệu từ điển cĩ vai trị quan trọng và được ứng dụng cho nhiều bài tốn khác nhau trong lĩnh vực xử lý ngơn ngữ tự nhiên như: dịch máy, tìm kiếm, tách từ, giĩng hàng Tuy nhiên, một trong những thực trạng hiện nay là các từ điển đang tồn tại rãi rác, riêng biệt, cấu trúc dữ liệu đa dạng, kích thức nhỏ và số cặp ngơn ngữ hạn chế. Theo đĩ, việc khai thác và sử dụng các từ điển hiện nay là chưa hiệu quả và cịn gặp rất nhiều khĩ khăn. Người dùng cĩ thể phải truy xuất nhiều từ điển đồng thời để cĩ thể tra cứu cùng một từ hoặc tập hợp từ ở các lĩnh vực khác nhau. Trong bài báo này, chúng tơi đề xuất giải pháp khai phá các nguồn dữ liệu từ điển đang tồn tại để xây dựng nguồn dữ liệu từ điển đồng nhất, cĩ kích thước và số cặp ngơn ngữ lớn hơn nhằm phục vụ khai thác và sử dụng hiệu quả hơn. Giải pháp chúng tơi đề xuất trong phạm vi bài báo này dừng lại ở đề xuất mơ hình tốn học và thuật tốn hợp nhất các từ điển để tạo nguồn dữ liệu từ điển lớn hơn về kích thước, đầy đủ hơn về nghĩa diễn giải và nhiều hơn về số cặp ngơn ngữ. Từ khĩa: Hợp nhất dữ liệu; mơ hình; thuật tốn hợp nhất dữ liệu; từ điển đa ngữ; hợp nhất từ điển; khai phá dữ liệu văn bản. 1 Giới thiệu Dữ liệu luơn đĩng vai trị quyết định đến chất lượng hoạt động của các cơng cụ và hệ thống xử lý ngơn ngữ tự nhiên. Dữ liệu trong lĩnh vực xử lý ngơn ngữ tự nhiên bao gồm các loại phổ biến như các kho ngữ liệu, treebanks, từ điển. Trong đĩ, dữ liệu từ điển cĩ vai trị rất quan trọng để phục vụ dịch tự động và phát triển các cơng cụ xử lý ngơn ngữ tự nhiên, chẳng hạn như các cơng cụ hỗ trợ học tập, tra cứu, các cơng cụ tách từ dựa trên thuật tốn maximum matching, các cơng cụ giĩng hàng Với tính chất quan trọng như vậy nên dữ liệu từ điển đã được xây dựng và phát triển rất mạnh, tồn tại ở nhiều dạng khác nhau như từ điển giấy, máy từ điển, từ điển trên máy tính. Trong đĩ, dữ liệu từ điển trên máy tính là dạng được phát triển mạnh và phổ biến nhất hiện nay. Mặc dù vậy, nếu xét từng từ điển riêng lẻ, kích thước và số cặp ngơn ngữ vẫn cịn hạn chế so với yêu cầu sử dụng thực tế và yêu cầu để xây dựng các hệ thống xử lý ngơn ngữ tự nhiên chất lượng và hiệu quả. Thật vậy, ngay cả các từ điển đa ngữ được xem là lớn nhất hiện nay như Gregg Cox cũng chỉ chứa khoảng 5 triệu từ với 225 ngơn ngữ, hay từ điển trực tuyến Logos chứa khoảng 8 triệu từ với 250 ngơn ngữ [8]. Trong khi đĩ, số lượng ngơn ngữ nĩi trên thế giới hiện nay ước tính khoảng 6500 ngơn ngữ cũng như nhu cầu sử dụng dữ liệu của các hệ thống xử lý ngơn ngữ tự nhiên như dịch tự động thống kê cũng vượt xa rất nhiều con số của các từ điển kể trên [2]. Hơn nữa, mỗi loại từ điển được xây dựng với cấu trúc dữ liệu, định dạng dữ liệu, lĩnh vực từ vựng và nội dung giải nghĩa khác nhau. Do đĩ, vấn đề đặt ra là làm thế nào để cĩ thể khai thác
- 216 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2018 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC và sử dụng hiệu quả các nguồn dữ liệu từ điển đang tồn tại nhằm phục vụ tốt hơn nhu cầu của người sử dụng và yêu cầu xây dựng các hệ thống xử lý ngơn ngữ tự nhiên chất lượng. Giải pháp chúng tơi đề xuất trong bài báo này là tìm cách hợp nhất các nguồn dữ liệu từ điển đang tồn tại để tạo nguồn dữ liệu từ điển lớn hơn về kích thước, về số cặp ngơn ngữ, đầy đủ hơn về lĩnh vực, nội dung giải nghĩa, đồng thời cĩ cấu trúc và định dạng chuẩn và đồng nhất nhằm phục vụ tốt hơn cho việc khai thác và sử dụng của người sử dụng và các hệ thống xử lý ngơn ngữ tự nhiên. Giải pháp hợp nhất các nguồn dữ liệu từ điển bao gồm các khía cạnh: hợp nhất về mặt cấu trúc và định dạng dữ liệu; hợp nhất về mặt dữ liệu và ngơn ngữ. Trong đĩ, hợp nhất về mặt cấu trúc và định dạng là đề xuất một cấu trúc dữ liệu và định dạng lưu trữ tối ưu, chuẩn cho phép chuyển đổi các nguồn dữ liệu khác nhau để xây dựng một nguồn dữ liệu cĩ cấu trúc và định dạng đồng nhất cho phép khai thác hiệu quả và thuận lợi. Hợp nhất về mặt dữ liệu và cặp ngơn ngữ là quá trình trộn, liên kết các nguồn dữ liệu để xây dựng nguồn dữ liệu lớn hơn về kích thước, đầy đủ hơn về nghĩa diễn giải và nhiều hơn về số cặp ngơn ngữ. 2 Tổng quan về từ điển và xây dựng tài nguyên dữ liệu lớn 2.1 Tổng quan về từ điển và dữ liệu từ điển Từ điển được xem là một trong những cơng cụ xử lý ngơn ngữ tự nhiên phổ biến và hữu dụng nhất đối với con người trong việc hỗ trợ tra cứu và học ngoại ngữ. Đối với nhiều hệ thống xử lý ngơn ngữ tự nhiên như hệ thống dịch, tách từ, giĩng hàng, dữ liệu từ điển đĩng vai trị vơ cùng quan trọng, quyết định đến chất lượng và hiệu quả hoạt động của chúng. Từ điển cĩ thể được phân loại theo nhiều cách khác nhau. Xét về phương diện phiên bản tồn tại, từ điển được phân thành hai loại chính như sau: từ điển giấy và từ điển điện tử. Từ điển giấy chủ yếu phục vụ cho con người trong việc tra cứu và học tập, nhược điểm của nĩ là việc tra cứu từ sẽ mất rất nhiều thời gian tìm kiếm do người học phải làm thủ cơng. Trong khi đĩ, từ điển điện tử, đa số ở dạng phần mềm máy tính rất phổ biến hiện nay và cĩ nhiều ưu điểm hơn từ điển giấy. Từ điển máy tính khơng chỉ phục vụ cho con người tra cứu mà cịn được sử dụng cho nhiều mục đích khác nhau trong lĩnh vực xử lý ngơn ngữ tự nhiên. Xét về khía cạnh ngơn ngữ, từ điển cĩ thể được chia thành các loại từ điển đơn ngữ (monolingual), từ điển song ngữ (bilingual) và từ điển đa ngữ (multilingual). Trong đĩ, các từ điển đơn ngữ lớn nhất hiện nay như: từ điển tiếng Hà Lan Woordenboek der Nederlandsche Taal được xem như từ điển đơn ngữ lớn nhất hiện, được xây dựng trong 134 năm (từ 1864 đến 1998) với 40 tập chứa hàng triệu từ; từ điển tiếng Đức Deutsches Wưrterbuch, từ điển tiếng Anh Oxford English Dictionary chứa khoảng 600.000 từ. Các từ điển song ngữ lớn nhất phải kể đến như từ điển tiếng Anh-Đức xuất bản bởi Langenscheidt chứa khoảng 400.000 từ và giải nghĩa, từ điển Dai Kan-Wa jiten tiếng Trung – Nhật cĩ hơn 50.000 ký tự và 500.000 từ ghép. Các từ điển đa ngữ lớn nhất hiện nay như Gregg Cox chứa trên 5.000.000 từ ở 225 ngơn ngữ hoặc từ điển trực tuyến Logos chứa trên 8.000.000 từ ở 250 ngơn ngữ [8]. Đối với tiếng Việt, hiện nay cĩ các phần mềm từ điển phổ biến như: Lạc Việt từ điển: được xem là từ điển phổ biến nhất đối với cộng đồng người Việt. Hiện nay, Lạc Việt từ điển khơng chỉ là phiên bản máy tính mà cịn cĩ phiên bản ứng dụng điện thoại di động. Lạc Việt từ điển cĩ 3 bộ gồm Anh – Việt, Việt – Anh và Việt – Việt với số lượng hơn 400.000 từ và cụm từ [9]. Từ điển Tflat: là một trong số những ứng dụng từ điển được sử dụng nhiều nhất hiện nay. Tflat được xây dựng cho cả phiên bản online và offline, bao gồm nhiều chức năng như tra cứu, sao lưu, dịch câu văn, tra cứu nhanh, phát âm Tflat chứa hơn 400.000 từ Anh-Việt, 150.000 từ Việt-Anh [10].
- Huỳnh Cơng Pháp, Cao Xuân Tuấn, Nguyễn Văn Bình và Đinh Thị Mỹ Hạnh 217 Từ điển Vlook: là bộ từ điển Anh – Việt phổ biến hiện nay, Vlook cĩ giao diện đơn giản và hỗ trợ tra từ khơng cần kết nối internet với gần 60,000 từ trong đĩ cĩ hơn 40,000 từ cĩ phiên âm và khoảng 3,000 từ thơng dụng của từ điển Oxford. Từ điển Vdict: là từ điển phổ biến và cĩ giao diện đơn giản, bao gồm các bộ từ điển: Anh – Việt, Việt – Anh, Việt – Việt, Pháp – Việt, Việt – Pháp và Anh – Anh. Từ điển Vdict chứa 450.000 từ và cụm từ. Ngồi ra cịn cĩ một số phần mềm từ điển thương mại nổi tiếng hiện nay như Evatran 2.0, English study 4.0, Babylon. 2.2 Tổng quan về xây dựng tài nguyên dữ liệu lớn Tài nguyên dữ liệu phục vụ ngơn ngữ tự nhiên bao gồm nhiều loại, trong đĩ bao gồm các loại chính là dữ liệu từ điển, các kho ngữ liệu, treebanks. Việc nghiên cứu và xây dụng các nguồn tài nguyên lớn phục vụ xử lý ngơn ngữ tự nhiên được thực hiện rất phổ biến. Cho đến nay, đã cĩ nhiều giải pháp được nghiên cứu và triển khai, trong đĩ các giải pháp chính và phổ biến gồm: Xây dựng từ điển và các kho ngữ liệu đa ngữ bằng cách trích rút dữ liệu từ các các nguồn tài nguyên đa ngữ như website đa ngữ, các văn bản đa ngữ [1][3][4][5][6]. Xây dựng kho ngữ liệu bằng cách gọi các hệ thống dịch tự động để dịch dữ liệu hiện cĩ của kho ngữ liệu sang các ngơn ngữ mới, sau đĩ đề xuất giải pháp cho các chuyên gia xem, chỉnh sửa để thu được dữ liệu cĩ chất lượng trong ngơn ngữ mới tương đồng với dữ liệu gốc [1][2]. Các giải pháp trên đã cho phép tạo ra được các từ điển, các kho ngữ liệu tương đối lớn như các từ điển German dictionary Deutsches Wưrterbuch, Oxford English Dictionar, Gregg Cox; các kho ngữ liệu British National Corpus, EuroParl, BTEC, ANC, ICE. Tuy nhiên, như đề cập ở trên, các nguồn tài nguyên này vẫn cịn hạn chế về độ lớn và độ bao phủ so với yêu cầu thực tế. 3 Giải pháp xây dựng từ điển lớn và đồng nhất Như đề cập ở trên, hiện nay đã cĩ nhiều từ điển lớn đã được xây dựng và được sử dụng phổ biến. Tuy nhiên, nếu xét về nhu cầu sử dụng thực tế, số lượng ngơn ngữ (khoảng 6500 ngơn ngữ) và sự đa dạng về lĩnh vực của cuộc sống thì các từ điển này quá nhỏ để cĩ thể khai thác và xây dựng được các hệ thống xử lý ngơn ngữ tự nhiên lớn và đầy đủ. Hơn nữa, nguồn tài nguyên này lại tồn tại riêng rẻ, rãi rác nên việc khai thác, sử dụng và chia sẽ dùng chung trở nên rất khĩ. Do đĩ, các nguồn tài nguyên dữ liệu từ điển sẽ hữu ích và giá trị hơn nếu chúng được hợp nhất lại và tạo thành một nguồn tài nguyên đồng nhất về định dạng và cấu trúc. Trong bài báo này, chúng tơi đề xuất giải pháp hợp nhất các từ điển đang tồn tại để xây dựng từ điển lớn hơn về kích thước, đa dạng về cặp ngơn ngữ và lĩnh vực với các khía cạnh hợp nhất: dữ liệu, ngơn ngữ và cấu trúc/định dạng. Liên quan đến vấn đề hợp nhất các nguồn tài nguyên dữ liệu từ điển, cho đến nay chưa cĩ cơng trình nào đề xuất giải pháp liên quan đến vấn đề xây dựng nguồn dữ liệu từ điển lớn bằng cách hợp nhất các nguồn dữ liệu từ điển đang tồn tại. Bởi lẽ, việc hợp nhất các nguồn dữ liệu từ điển là vấn đề khĩ vì cấu trúc và định dạng của các từ điển và nguồn tài nguyên xử lý ngơn ngữ tự nhiên rất đa dạng và phức tạp [4], cũng như liên quan đến nhiều khía cạnh nghiên cứu khác
- 218 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2018 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC nhau như giĩng từ, câu văn bản, hợp nhất dữ liệu cùng ngơn ngữ, chuyển đổi cấu trúc và định dạng dữ liệu. Fig. 1. Mơ tả hợp nhất từ điển Do đĩ, trong bài báo này chúng tơi tập trung vào 2 nhĩm giải pháp liên quan đến vấn đề hợp nhất nguồn tài nguyên dữ liệu từ điển: Giải pháp về cấu trúc và định dạng lưu trữ dữ liệu từ điển lớn, đồng nhất. Giải pháp về hợp nhất dữ liệu. 3.1 Đề xuất cấu trúc và định dạng dữ liệu từ điển lớn và đồng nhất Dữ liệu được xem là thành phần quan trọng nhất của một từ điển. Dữ liệu từ điển được đánh giá cĩ chất lượng tốt nếu cĩ số lượng từ vựng lớn, cĩ diễn giải nghĩa đầy đủ, rõ ràng và cĩ hỗ trợ nhiều cặp ngơn ngữ. Bên cạnh chất lượng dữ liệu, tốc độ xử lý và tra cứu từ vựng của phần mềm từ điển cũng được xem là yếu tố quan trọng quyết định đến chất lượng và hiệu năng của phần mềm từ điển. Do đĩ, cách thức tổ chức dữ liệu cũng như cấu trúc và định dạng lưu trữ dữ liệu từ điển là rất quan trọng ảnh hưởng rất lớn đến tốc độ của quá trình truy xuất và thao tác của từ điển, đặc biệt đối với các từ điển cĩ kích thước và số từ vựng lớn. Cấu trúc và định dạng dữ liệu từ điển được xây dựng tốt cũng cịn là yếu tố quan trọng quyết định đến khả năng bảo trì và mở rộng dữ liệu từ điển trong tương lai. Do đĩ, vấn đề quan trọng đặt ra đối với bài tốn xây dựng dữ liệu từ điển lớn bao gồm hai khía cạnh: một là, giải pháp thu thập dữ liệu; hai là, cách thức tổ chức dữ liệu từ điển lớn phục vụ hiệu quả quá trình truy xuất và khai thác chúng. Do đĩ, nghiên cứu cách thức tổ chức cũng như cấu trúc và định dạng dữ liệu của các từ điển đang tồn tại để làm cơ sở đề xuất cấu trúc và định dạng dữ liệu phù hợp nhất cho việc tổ chức và lưu trữ dữ liệu từ điển lớn và hợp nhất là mục tiêu mà bài báo đang hướng đến. 3.1.1 Cấu trúc và định dạng dict.tab Dict.tab là cấu trúc và định dạng dữ liệu chuẩn của từ điển Startdict, được phát triển bởi Hu Zheng và các cộng sự [11]. Stardict là từ điển nguồn mở miễn phí cĩ thể chạy trên nhiều nền tảng khác nhau. Nhiều nhà phát triển từ điển đã sử dụng cấu trúc và định dạng dict.tab cũng như dữ liệu, mã nguồn của Stardict để xây dựng từ điển cho riêng mình. Dict.tab thực chất là tệp văn bản cĩ định dạng dữ liệu được tổ chức dạng như sau: headword1 1\n2\n3
- Huỳnh Cơng Pháp, Cao Xuân Tuấn, Nguyễn Văn Bình và Đinh Thị Mỹ Hạnh 219 headword2 4\\5\n6 headword3 789 Theo định dạng trên, dữ liệu từ điển với cấu trúc và định dạng dict.tab được biểu diễn gồm các hàng, mỗi hàng biểu diễn một từ gốc (headword) và định nghĩa của từ gốc (definition) cách nhau bởi dấu tab. Định nghĩa từ cĩ thể chứa các ký tự đặc biệt như \n (sang dịng mới), \\ (biểu diễn dấu \). Định dạng và cấu trúc dict.tab rất dễ tổ chức nhưng cịn rất hạn chế về tốc độ truy xuất dữ liệu. Thật vậy, khi thực hiện thao tác tím kiếm một từ và nghĩa nào đĩ, quá trình tìm kiếm sẽ thực hiện duyệt danh sách từ đầu đến cuối tập tin sẽ rất tốn kém thời gian và tài nguyên hệ thống. 3.1.2 Cấu trúc và định dạng dict.org Dict.org là cấu trúc và định dạng dữ liệu từ điển chuẩn khá phổ biến hiện nay được nhiều tổ chức và cá nhân sử dụng để xây dựng các từ điển lớn [12]. Cấu trúc của dict.org được tổ chức thành 2 tệp tin gồm tệp tin chỉ mục và tệp tin chứa nghĩa của từ. So với các tổ chức dữ liệu dạng dict.tab, cách tổ chức dạng dữ liệu dạng dict.org sẽ giúp tốc độ tra cứu từ điển nhanh hơn và đây là một trong những yếu tố cực kỳ quan trọng khi thiết kế cơ sở dữ liệu cho từ điển. Cấu trúc tập tin chỉ mục: Tập tin chỉ mục bao gồm tên từ, vị trí bắt đầu nghĩa của từ trong tập tin chứa nghĩa và độ dài của nghĩa. Mỗi dịng trong tập tin chỉ mục chứa dữ liệu của một từ và các dịng phân cách nhau bởi ký tự xuống dịng. Cấu trúc cĩ định dạng như sau: headword1{tab}offset1{tab}len1 headword2{tab}offset2{tab}len2 Trong đĩ: ─ headword: là từ gốc ─ {tab}: là khoảng trống một tab ─ offset: vị trí bắt đầu nghĩa của từ trong tập tin chứa nghĩa ─ len: độ dài nghĩa giải thích của từ trong tập tin chứa nghĩa Với, offset và len được mã hĩa sử dụng 64 ký tự (hệ cơ số 64) như sau: ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/ Cấu trúc và định dạng tệp tin chứa nghĩa: Cấu trúc và định dạng tệp tin chứa nghĩa được biểu diễn như sau: @headword ─ Từ loại (danh từ, động từ, ) o Định nghĩa 1 o Định nghĩa 2 ─ Từ loại o Định nghĩa 3 Trong đĩ, headword là từ gốc và theo sau là loại từ và các giải nghĩa tương ứng. Một từ cĩ thể thuộc nhiều từ loại khác nhau. Ví dụ từ like cĩ thể là ngoại động từ, tính từ, danh từ, phĩ từ.
- 220 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2018 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC 3.1.3 Đề xuất cấu trúc và định dạng đối với từ điển hợp nhất và lớn Như đề cập ở trên, vấn đề quan trọng và then chốt đối với các từ điển lớn khơng chỉ ở chất lượng nội dung dữ liệu, mà chính là cấu trúc định dạng lưu trữ dữ liệu. Nếu cấu trúc và định dạng dữ liệu từ điển được xây dựng tốt thì tốc độ truy xuất, khả năng khai thác dữ liệu sẽ hiệu quả và đảm bảo. Trong số hai cấu trúc và định dạng dữ liệu từ điển được đề xuất ở trên thì cấu trúc và định dạng dict.org tối ưu và phù hợp hơn so với dict.tab. Do đĩ, chúng tơi đề xuất sử dụng cấu trúc và định dạng dict.org như là cấu trúc và định dạng chuẩn cho giải pháp từ điển lớn và đồng nhất. Với cách chọn một cấu trúc và định dạng chuẩn đã được sử dụng phổ biến sẽ mang lại hiệu quả và tối ưu bởi lẽ chúng ta kế thừa và đồng nhất dễ dàng những từ điển đã cĩ. 3.2 Giải pháp hợp nhất nội dung dữ liệu từ điển 3.2.1 Giải pháp hợp nhất dữ liệu đối với các từ điển cùng cặp ngơn ngữ Giả sử chúng ta cĩ từ điển A và B cĩ cùng cặp ngơn ngữ X-Y, A cĩ n cặp từ, B cĩ m cặp từ, được biểu diễn như sau: 푛 A = {( 𝑖, 𝑖)}𝑖=1, B = {( 𝑖, 𝑖)}𝑖=1 Trong đĩ, xi là tập các từ nguồn trong ngơn ngữ tiếng X; yi là tập hợp các nghĩa trong ngơn ngữ tiếng Y. Kết quả hợp nhất hai từ điển A và B sẽ là từ điển C với cặp ngơn ngữ X-Yđược biểu diển như sau: C = A U B = {( 𝑖, 𝑖)}𝑖=1, với k ≤ 푛 + Đối với trường hợp này, chúng ta cần giải quyết các khả năng đặt ra: Các cặp từ của hai từ điển trùng nhau hồn tồn về nội dung: ∃( , )| (x, ) ∈ and (x, y) ∈ Đối với trường hợp này, cặp từ đích sẽ là cặp từ của từ điển A hoặc từ điển B. Các cặp từ của hai từ điển trùng nhau về từ gốc ở ngơn ngữ X: ∃(x, y) | x ∈ and x ∈ Đối với trường hợp này, cặp từ đích sẽ được xây dựng bao gồm: từ gốc sẽ là từ gốc của A hoặc của B; phần giải nghĩa sẽ là giao của giải nghĩa tương ứng của A và B, được biểu diễn: (x, y) = (xA, yA U yB) | xA, yA ∈ and y ∈ Các cặp từ của hai từ điển hồn tồn khác nhau ( , )| (x, ) ∈ and (x, y) ∉ Đối với trường hợp này, các cặp từ đích sẽ được xây dựng bao gồm hợp của các cặp từ của A và B, được biểu diễn: C = {(xA, yA), (xB, yB)} | (xA, yA) ∈ and (xB, yB) ∈
- Huỳnh Cơng Pháp, Cao Xuân Tuấn, Nguyễn Văn Bình và Đinh Thị Mỹ Hạnh 221 3.2.2 Giải pháp hợp nhất dữ liệu từ điển khác cặp ngơn ngữ Giả sử chúng ta cĩ từ điển A cĩ n cặp từ trong ngơn ngữ X-Y và từ điển B cĩ m cặp từ trong ngơn ngữ W-Z: 푛 A = {( 𝑖, 𝑖)}𝑖=1, B = {(푤𝑖, 𝑖)}𝑖=1 Trong đĩ, xi là tập các từ nguồn trong ngơn ngữ tiếng X; yi là tập hợp các nghĩa trong ngơn ngữ tiếng Y; wi là tập các từ nguồn trong ngơn ngữ tiếng W; zi là tập hợp các nghĩa trong ngơn ngữ tiếng Z. Kết quả hợp nhất hai từ điển A và B sẽ là từ điển đa ngữ C với tập hợp cặp ngơn ngữ X-Y, W-Z, X-W, X-Z, Y-W, Y-Z được biểu diển như sau: 푛 C= {{( 𝑖, 𝑖)}𝑖=1, {(푤𝑖, 𝑖)}𝑖=1, {( 𝑖, 푤𝑖)}𝑖=1, ℎ 푞 {( 𝑖, 𝑖)}𝑖=1}, {( 𝑖, 푤𝑖)}𝑖=1}, {( 𝑖, 𝑖)}𝑖=1}} Như vậy đối với việc hợp nhất từ điển đối với trường hợp này phúc tạp hơn nhiều so với trường hợp hai từ điển cĩ cùng cặp ngơn ngữ. Đối với việc xây dựng dữ liệu đích ở các cặp ngơn ngữ X-Y và W-Z, giải pháp đơn giản là chọn tất cả các cặp từ của các cặp ngơn ngữ X-Y và W-Z. 3.3 Đề xuất thuật tốn hợp nhất dữ liệu từ điển Từ các mơ hình tốn học hợp nhất dữ liệu từ điển ở trên, chúng tơi đã đề xuất thuật tốn tổng quát cho bài tốn hợp nhất từ điển như trình bày dưới đây: 1: Input: A = ( 𝑖 푛, 𝑖 푛), B = (푤𝑖 , 𝑖 ) 2: Output: C = A U B 3: foreach ( 𝑖, 𝑖) ∈ do 4: for j : 1→ m do 5: if ( 𝑖 = wj) and (yi =zj) then 6: C (xi, yi) 7: else 8: if ( 𝑖 = wj) and (yi ≠ zj) then 9: C (xi, yi U zj) 10: else 11: if ( 𝑖 ≠ wj) then 12: { 13: C (xi, yi) 14: C (wj, zj) 15: } Trên đây là đề xuất thuật tốn hợp nhất từ điển dạng tổng quát, trong đĩ A, B là các từ điển nguồn, C là từ điển đích xây dựng được từ sự hợp nhất các từ điển nguồn A và B. Thuật tốn này cĩ thể áp dụng cho việc hợp nhất N từ điển nguồn để tạo nên từ điển đích bằng cách chia cặp các từ điển nguồn.
- 222 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2018 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC 4 Kết luận Ứng dụng dữ liệu từ điển trong lĩnh vực xử lý tự nhiên rất phổ biến và đa dạng như: tra cứu, dịch máy, tìm kiếm, tách từ, giĩng hàng Tuy nhiên, dữ liệu từ điển hiện nay rất hạn chế về chất lượng và kích thước, nhất là đối với các ngơn ngữ ít được phổ biến như tiếng Việt và tiếng các dân tộc thiểu số. Hiện nay đã cĩ nhiều nghiên cứu khác nhau nhằm thu thập và xây dựng dữ liệu từ điển như trích rút dữ liệu từ website, kho ngữ liệu, văn bản đa ngữ đã mang lại rất nhiều thành cơng và đã tạo ra được nhiều từ điển đa dạng. Mặc dù vậy, một thực trạng đang tồn tại là các từ điển này khơng cĩ sự gắn kết với nhau mà chúng đang nằm riêng rẽ, tách biệt nên việc khai thác và sử dụng các từ điển hiện nay là chưa hiệu quả và cịn gặp rất nhiều khĩ khăn. Trong phạm vi của bài báo và hội thảo này, chúng tơi đã đề xuất mơ hình và thuật tốn nhằm hợp nhất các từ điển đang tồn tại để xây dựng nguồn dữ liệu từ điển lớn hơn và đồng nhất về cấu trúc, định dạng nhằm phục vụ tốt hơn trong lĩnh vực xử lý ngơn ngữ tự nhiên. Mơ hình và thuật tốn tổng quát này cĩ vai trị rất quan trọng, tạo tiền đề cho sự phát triển và nghiên cứu tiếp theo để xây dựng và thử nghiệm chương trình hồn chỉnh hợp nhất từ điển. Tài liệu tham khảo [1] Koehn Ph.: Europarl: A Parallel Corpus for Statistical Machine Translation. In Proc. of the 10th Machine Translation Summit, Phuket, Thạland, pp. 79–86 (2005). [2] Huynh C-P.: Des suites de test pour la TA à un système d’exploitation de corpus alignés de documents et métadocuments multilingues, multiannotés et multimedia. PhD thesis-National Polytechnic Institute of Grenoble, 228 p. (2010). [3] Nikos M., Papavassiliou V.: Automatic acquisition of bilingual language resources. Proceedings of the 10th International Conference of Greek Linguistics, Komotini, Greece (2011). [4] Huynh C-P: New approach for collecting high quality parallel corpora from multilingual Websites. iiWAS11 Conference. Proceedings of the 13th International Conference on Information Integration and Web-based Applications & Services (2011). [5] Dosam H.: A Dictionary Development System based on Web. International Information Institute (Tokyo). Information 14.11 (2011). [6] Amel F., Paroubek P.: Twitter as a comparable corpus to build multilingual affective lexicons. The 7th Workshop on Building and Using Comparable Corpora (2014). [7] Huynh C-P: Solutions of Creating Large Data Resources in Natural Language Processing. ACIIDS Conference (2016). [8] [9] [10] [11] [12] www.dict.org