Phương pháp mã hóa văn bản thành chuỗi số DNA để đánh giá mức độ giống nhau của văn bản

pdf 7 trang Gia Huy 3770
Bạn đang xem tài liệu "Phương pháp mã hóa văn bản thành chuỗi số DNA để đánh giá mức độ giống nhau của văn bản", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfphuong_phap_ma_hoa_van_ban_thanh_chuoi_so_dna_de_danh_gia_mu.pdf

Nội dung text: Phương pháp mã hóa văn bản thành chuỗi số DNA để đánh giá mức độ giống nhau của văn bản

  1. Hồ Phan Hiếu, Nguyễn Thị Ngọc Anh và Võ Trung Hùng 223 Phương pháp mã hóa văn bản thành chuỗi số DNA để đánh giá mức độ giống nhau của văn bản Hồ Phan Hiếu, Nguyễn Thị Ngọc Anh và Võ Trung Hùng The University of Danang, 41 Leduan St., Danang City, Vietnam hophanhieu@ac.udn.vn, ngocanhnt@ued.udn.vn, vthung@dut.udn.vn Tóm tắt. Trong bài báo này, chúng tôi trình bày phương pháp mã hóa văn bản thành các chuỗi số duy nhất, được gọi tên là chuỗi DNA nhằm giải quyết bài toán đánh giá mức độ giống nhau của một văn bản với tập văn bản khác có trong kho dữ liệu để ứng dụng trong phát hiện sao chép văn bản. Chúng tôi thực nghiệm trên bộ dữ liệu của PAN với các mức ngưỡng từ ε = 10-5 đến ε = 10-10 và cho thấy khi lựa chọn ngưỡng ε = 10-10 cho kết quả có độ chính xác prec trên 98% và rec gần 97% trong việc phát hiện sự giống nhau của văn bản. Kết quả thực nghiệm cho thấy phương pháp đề xuất có độ chính xác rất cao và có thể triển khai vào thực tế tại Đại học Đà Nẵng. Từ khóa: Mã hóa văn bản, chuỗi DNA, độ tương đồng, phát hiện sao chép. 1 Giới thiệu Trên thế giới, các kết quả nghiên cứu về đánh giá độ tương đồng (mức độ giống nhau) trong văn bản tiếng Anh đã có nhiều công trình nghiên cứu và nhiều ứng dụng hữu ích, trong đó có bài toán phát hiện “sao chép” hay “đạo văn” [1-3]. Tuy nhiên, vấn đề này vẫn còn nhiều thách thức cần được nghiên cứu. Tuy đã có nhiều nghiên cứu và hệ thống phát hiện sao chép văn bản, nhưng đến này vẫn chưa có cơ sở chung nào để đánh giá hiệu quả của chúng. Trong khi đó, ở Việt Nam cũng mới bắt đầu có các nhóm nghiên cứu về lĩnh vực này [4, 5] và cũng có rất ít nhóm xây dựng hệ thống ứng dụng vào thực tiễn hoặc thương mại hóa. Bên cạnh đó, các vấn đề trong xử lý ngôn ngữ tự nhiên, tìm kiếm và so khớp nội dung tài liệu văn bản là lĩnh vực đang được cộng đồng khoa học trong và ngoài nước quan tâm. Đối với các bài toán xử lý văn bản, việc biểu diễn văn bản là một bước tiền xử lý rất quan trọng. Mô hình biểu diễn văn bản truyền thống như mô hình túi từ và không gian vectơ là các mô hình được sử dụng phổ biến nhất [6, 7]. Qua nghiên cứu, chúng tôi đã thực nghiệm phương pháp đánh trọng số và biểu diễn văn bản dựa trên mô hình vector ứng dụng trong bài toán phát hiện sao chép văn bản [8, 9]. Mặc dù, các phương pháp dựa trên mô hình vector đã được ứng dụng để phát hiện sao chép văn bản. Tuy nhiên, phương pháp biểu diễn theo vector vẫn còn hạn chế về số chiều biểu diễn cho tập văn bản sẽ rất lớn nên tốn không gian lưu trữ, độ phức tạp của thuật toán khi so sánh tăng và làm giảm tốc độ tính toán. Chính vì vậy, chúng tôi đã nghiên cứu và đề ra giải pháp mới để giải quyết bài toán này tối ưu hơn, đó là chuyển từ văn bản sang chuỗi số để tận dụng những ưu điểm về số trong xử lý dữ liệu lớn, tìm kiếm nhanh và độ chính xác cao. Chúng tôi đề xuất hướng giải quyết bài toán dựa trên phép biến đổi Wavelet rời rạc (DWT) và sử dụng bộ lọc Haar [10, 11]. Trong bài báo này, chúng tôi tập trung trình bày cách mã hóa văn bản thành các chuỗi số riêng biệt, được gọi tên là chuỗi DNA và thực nghiệm trên bộ dữ liệu thực tế của PAN với các mức ngưỡng lựa chọn ε = 10-5 đến ε = 10-10 đánh giá kết quả đạt được và ứng dụng để phát triển hệ thống thử nghiệm.
  2. 224 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2018 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC 2 Cơ sở lý thuyết liên quan 2.1 Biến đổi Wavelet rời rạc (DWT) Phương pháp biến đổi Wavelet rời rạc (Discrete Wavelet Transform - DWT) mã hóa đơn giản và nhanh nên được sử dụng rất hiệu quả trong xử lý tín hiệu số. DWT cho tín hiệu một chiều được mô tả sơ lược như sau: Tín hiệu được chia thành hai phần, đó là phần tần số cao và phần tần số thấp; thành phần tần số thấp lại được chia tiếp thành hai phần có tần số cao và thấp; các bước như vậy gọi là lấy mẫu giảm xuống. Bên cạnh đó, độ phức tạp của mã hóa là tuyến tính và hỗ trợ nhiều mức phân giải. Phân tích đa phân giải sử dụng các kỹ thuật lọc tín hiệu số trong quá trình phân tích để lọc nhiễu và xác định tín hiệu bất thường [12, 13]. Phân tích đa phân giải có khả năng như hai bộ lọc tín hiệu, trong đó mỗi một tín hiệu được phân tích thành hai thành phần gồm: Thành phần xấp xỉ A tương ứng với thành phần tần số thấp và thành phần chi tiết D tương ứng với thành phần tần số cao, thông qua hai bộ lọc thông thấp sử dụng hàm tỉ lệ Φ(x) và bộ lọc thông cao sử dụng hàm Wavelet ψ(x). Mối quan hệ giữa hàm tỉ lệ và hàm Wavelet được cho bởi: N 1 (x ) C . (2x k ) (1)  k k 0 N 1 (x ) ( 1)k C . (2x + k N 1) (2)  k k 0 trong đó, Ck là chỉ số vô hướng nhằm xác định các hệ số tỷ lệ. Các phép lọc được tiến hành với nhiều tầng khác nhau và để giảm khối lượng tính toán, khi qua mỗi bộ lọc, tín hiệu được lấy mẫu giảm xuống hai lần. Ứng với mỗi tầng, tín hiệu có độ phân giải khác nhau nên DWT được gọi là phân tích đa phân giải. Tại mỗi tầng, biểu thức của phép lọc được cho bởi công thức sau: y( n ) S ( n ). g (2 k n ) (3) high  n y( n ) S ( n ). h (2 k n ) (4) low  n trong đó, S(n) là tín hiệu; h(n) là đáp ứng xung của các bộ lọc thông thấp tương ứng với hàm tỉ lệ Φ(n); g(n) là đáp ứng xung của các bộ lọc thông cao tương ứng với hàm Wavelet ψ(n). Hai bộ lọc này liên hệ nhau theo hệ thức: h( N 1 n ) ( 1)n g ( n ) (5) trong đó: N là số mẫu trong tín hiệu. Với ưu điểm trên của phương pháp DWT, chúng tôi ứng dụng để mã hoá văn bản nhưng vẫn hoàn toàn giữ nguyên được thông tin của từ được mã hoá. 2.2 Bộ lọc Haar Trong biến đổi Wavelet rời rạc, đường Haar Wavalet hay được gọi là bộ lọc Haar được sử dụng phổ biến trong khai phá dữ liệu chuỗi thời gian và lập chỉ mục. Đường Haar Wavalet là một trong những ví dụ đầu tiên của sự chuyển đổi Wavelet dạng sóng nhỏ và trực giao [14]. Đường Haar Wavalet có hai hàm là hàm tỉ lệ và hàm Wavelet được định nghĩa theo các công thức sau: j j j  (2xi )i 0, , 2 1 (6) i 1 víi 0 t 0.5 víi (tt ) 1 víi 0.5 1 (7) 0 víi c¸c tr­êng hîp kh¸c Do ưu điểm về đặc tính khả năng tính toán thấp, bộ lọc Haar đã được sử dụng chủ yếu để nhận dạng mẫu, xử lý ảnh, xử lý tín hiệu số, Tốc độ vận hành của bộ lọc Haar hoạt động nhanh nhất trong tất cả các sóng Wavelet vì hệ số của hàm Haar nhận được là 1 hoặc -1. Bộ lọc Haar có thể phân rã tín hiệu
  3. Hồ Phan Hiếu, Nguyễn Thị Ngọc Anh và Võ Trung Hùng 225 thành các thành phần khác nhau của miền tần số. Sự biến đổi Wavelet rời rạc một chiều (1-D DWT) phân tách một dãy tín hiệu đầu vào thành hai thành phần (đó là thành phần trung bình và thành phần chi tiết) bằng phép tính với bộ lọc thông thấp và bộ lọc thông cao [15]. Với dữ liệu đầu vào là một chuỗi các số, sau khi biến đổi qua bộ lọc Haar sẽ tạo thành dãy các giá trị riêng biệt được gọi là các DNA. 2.3 Chuỗi DNA DNA (DeoxyriboNucleic Acid) là thuật ngữ trong sinh học, nó là phân tử mang thông tin di truyền mã hóa cho hoạt động sinh trưởng và phát triển của các dạng sống bao gồm cả virus. DNA trong lĩnh vực tin sinh học bao gồm các kỹ thuật lưu trữ, khai phá dữ liệu, tìm kiếm và thao tác với dữ liệu sinh học. Các kỹ thuật này mang đến những ứng dụng rộng rãi trong ngành khoa học máy tính, đặc biệt là các thuật toán tìm kiếm chuỗi, học máy và lý thuyết cơ sở dữ liệu. Trong đó, thuật toán tìm kiếm chuỗi hay so khớp để tìm sự xuất hiện của một dãy các ký tự trong một dãy các ký tự lớn hơn được ứng dụng nhiều và giải quyết tốt các bài toán xử lý dữ liệu lớn trong tin sinh học [16]. Chuỗi DNA đại diện cho sự riêng biệt, vì thế trong nghiên cứu của mình, chúng tôi mô tả các chuỗi số mang thông tin đặc trưng có thể phân biệt được mức độ khác nhau giữa chúng được gọi là các chuỗi DNA. 3 Phương pháp đề xuất Qua nghiên cứu về DWT và bộ lọc Haar, chúng tôi đề xuất ý tưởng nhằm chuyển đổi nội dung văn bản thành dạng chuỗi thời gian thực (thông qua bộ số hóa) và sử dụng bộ lọc Haar trong DWT để phát hiện ra các mẫu bất thường, dữ liệu văn bản được chuyển đổi và biểu diễn thành những dãy số thực DNA được biểu diễn bởi x = [x1 x 2 x N ]. Để đánh giá mức độ giống nhau của văn bản, chúng tôi đề xuất một phương pháp hoàn toàn mới để phát hiện sự giống nhau của văn bản dựa trên DWT. Phương pháp thực hiện qua các bước chính như: (1) Chuyển các tài liệu gốc sẵn có thành một tập các chuỗi tín hiệu số được gọi là các DNA nguồn; (2) Văn bản cần kiểm tra cũng được tạo ra thành DNA và tính toán khoảng cách Euclid nhỏ nhất từ DNA này đến các DNA nguồn; (3) So sánh với một mức ngưỡng thích hợp để đưa ra sự giống nhau giữa văn bản được kiểm tra với văn bản nguồn trong kho dữ liệu. 3.1 Quy trình mã hóa văn bản thành DNA Dữ liệu văn bản được chuyển đổi và biểu diễn thành những dãy số thực (T = t1, t2, , tn). Để xác định mức độ giống nhau giữa hai chuỗi số X = x1, x2, , xn và Y = y1, y2, , yn cần tính độ tương tự Sim (X, Y) của hai chuỗi số thực này. Chúng tôi đề xuất quy trình mã hóa văn bản thành các chuỗi DNA như Hình 1. Hình 1. Quy trình mã hóa văn bản thành các chuỗi DNA Trong bài báo này, chúng tôi tập trung trình bày nội dung mã hóa dữ liệu văn bản thành các DNA phục vụ đánh giá mức độ giống nhau của văn bản. Trước tiên, các tài liệu sẵn có được thu thập lại, đồng thời quá trình tiền xử lý sẽ loại bỏ các dấu câu, ký tự đặc biệt và lưu trữ dưới dạng dữ liệu thô. Để thuận tiện cho quá trình xử lý chính, trong giai đoạn tiền xử lý, văn bản thu thập sẽ được phân đoạn và lấy mẫu sao cho các mẫu có độ dài bằng nhau. Sau đó, các phân đoạn này được lưu trữ như là dữ liệu thô nhằm mục đích trích xuất các đoạn văn bản giống nhau (nếu có) tại đầu ra kết quả đánh giá. Trong giai đoạn xử lý chính, các văn bản sẽ được số hóa thành tập chuỗi số và cho qua bộ lọc Haar để thu được dữ liệu cho chuỗi số DNA.
  4. 226 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2018 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC Thuật toán: Quy trình mã hóa văn bản thành các chuỗi DNA Input: Văn bản. Output: Chuỗi số DNA. 1: Mã hóa văn bản thành chuỗi tín hiệu số 2: Tiền xử lý (loại bỏ các dấu câu, ký tự đặc biệt, đánh chỉ mục và lưu trữ dữ liệu thô, ) 3: Số hóa nhằm chuyển dữ liệu thô thành dạng chuỗi số 4: Xử lý qua bộ lọc Haar để mã hóa thành các DNA Tổ chức dữ liệu cho bộ DNA nguồn: Sau khi thực hiện các bước ở quy trình số hóa cho tập các văn bản trong kho dữ liệu, chúng ta sẽ có được một bộ DNA nguồn. Chúng tôi sắp xếp bộ DNA theo giá trị đầu tiên (gọi là giá trị khóa) của DNA theo thứ tự tăng dần. Mục đích của việc sắp xếp là để hệ thống có thể thực hiện việc tìm kiếm nhị phân để xác định DNA giống với DNA của một mẫu thuộc phân đoạn nào đó trong văn bản đánh giá. Điều này cho phép cải thiện được độ phức tạp của thuật toán đánh giá văn bản. Vì vậy, tại vị trí khóa nếu giá trị của hai mẫu DNA (một mẫu thuộc văn bản nguồn và một mẫu văn bản đánh giá) giống nhau thì hai mẫu văn bản tương ứng với hai DNA này sẽ giống nhau. 3.2 Tính khoảng cách Euclid để đánh giá mức độ giống nhau Sau khi thực hiện quy trình mã hóa văn bản đánh giá như đã trình bày ở phần trên, chúng tôi sẽ so sánh từng nhóm DNA của các phân đoạn với các DNA nguồn được lưu trữ sẵn. Đối với mỗi mẫu DNA trong nhóm DNA đưa vào khâu so sánh, chúng tôi sẽ tìm kiếm nhị phân trong kho dữ liệu để xác định DNA nguồn nào có giá trị đầu tiên giống với DNA đang xét nhất. Tiếp theo, khoảng cách Euclid giữa hai DNA được tính rất đơn giản theo công thức sau: d x, y x y 2 (8) 2 trong đó, x 1 N và y 1 N lần lượt là vector DNA nguồn và vector DNA đang xét. Khoảng cách Euclid này sẽ được so sánh với một mức ngưỡng ε. Nếu d(x, y)< ε, hai DNA được xem là giống nhau và vị trí tương ứng với DNA đang xét được đánh dấu lại để hệ thống đưa ra quyết định sau khi tổng hợp tất cả các mẫu DNA của phân đoạn. 3.3 So sánh với các mức ngưỡng khác nhau Để kiểm tra kết quả của giải thuật đề xuất, chúng tôi sử dụng các phép đo trong PAN [17] để tính các giá trị prec và rec. Một cách cụ thể, chúng tôi gọi tập các chuỗi ký tự bị sao chép và tập chuỗi ký tự được phát hiện lần lượt như sau: S S (9) D D (10) trong đó, S và D lần lượt là các chuỗi văn bản nguồn bị sao chép và các chuỗi văn bản đánh giá được phát hiện là giống với các chuỗi trong văn bản nguồn; với việc tính và nhằm đưa ra tỉ lệ giống nhau của văn bản đánh giá so với các văn bản nguồn bị sao chép. Các giá trị prec và rec được xác định bởi các công thức theo [17], đó là: DS 1 S S prec  (11) D D D D SD 1 D D rec  (12) ||S S S S trong đó, S và D lần lượt là số phần tử trong tập hợp và , và lần lượt là độ dài của chuỗi S S và D D .
  5. Hồ Phan Hiếu, Nguyễn Thị Ngọc Anh và Võ Trung Hùng 227 4 Kết quả thực nghiệm Chúng tôi thực nghiệm trên bộ dữ liệu huấn luyện của PAN 2009 với mỗi lần đánh giá 100 văn bản nghi ngờ hoàn toàn khác với văn bản trong kho dữ liệu, lựa chọn các giá trị ngưỡng từ ε = 10-5 đến ε = 10- 10 để đánh giá độ chính xác dựa trên kết quả prec và rec. Dưới đây là kết quả đạt được của hai giá trị prec và rec với ngưỡng khác nhau. Giá trị prec và rec qua các mức ngưỡng khác nhau 100 98 96 94 92 90 prec Percentage (%) Percentage 88 rec 86 K = -5 -6 -7 -8 -9 -10 K Ngưỡng ε = 10 Hình 2. Giá trị prec và rec qua các mức ngưỡng khác nhau Chúng ta nhận thấy, với kết quả đạt được ở các mức ngưỡng ε = 10-7 đến ε = 10-10 cho thấy giá trị prec và rec đạt được rất cao và ổn định ở mức xấp xỉ từ 97% đến hơn 98%. Bảng dưới là kết quả qua 10 lần -10 thử nghiệm với mức ngưỡng ε = 10 . Bảng 1. Kết quả qua 10 lần thử nghiệm với ngưỡng ε = 10-10 S D Lần thử nghiệm prec (%) rec (%) 1 6066 5999 98.25 97.16 2 5385 5310 98.14 96.77 3 9372 9304 98.25 97.54 4 6578 6447 98.15 96.20 5 8143 8029 97.93 96.56 6 6998 6957 97.77 97.20 7 6543 6453 97.95 96.61 8 5661 5593 98.25 97.07 9 6581 6502 98.09 96.92 10 6100 6000 98.17 96.56 Giá trị trung bình 6742.7 6659.4 98.10 96.86 Với kết quả đạt được qua các lần thử nghiệm ở mức ngưỡng lựa chọn ε = 10-10 như trên, chúng ta thấy rằng với số lượng phần tử trong hai tập S và D khác nhau (từ 5310 đến 9372 phần tử), thuật toán do chúng tôi đề xuất cho kết quả với độ chính xác rất cao, prec trên 98% và rec gần 97%.
  6. 228 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2018 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC Kết quả thực nghiệm với ngưỡng ε = 10-10 100 99 98 97 96 prec 95 rec Tỉ lệ giống (%) nhau giống lệ Tỉ 94 1 2 3 4 5 6 7 8 9 10 Giá trị trung Lần thử nghiệm bình Hình 3. Kết quả giá trị prec và rec đạt được với ngưỡng ε = 10-10 -10 Hình 4. Một kết quả đạt được với ngưỡng ε = 10 So sánh với kết quả tại PAN 2009: Nhiệm vụ phát hiện sao chép trong một tài liệu văn bản bằng cách tìm sự tương đồng giữa nó với các tài liệu khác trong kho dữ liệu (External Plagiarism Detection - EPD) là đề tài chính được bàn luận, nghiên cứu và triển khai thông qua cuộc thi PAN 2009. Phần lớn các hệ thống tham gia cuộc thi sử dụng kỹ thuật so khớp Brute-Force, n-gram để phát hiện sự giống nhau và kết quả đạt được của các hệ thống qua đánh giá của cuộc thi lần này cao nhất theo độ đo prec là 74.73% và rec là 69.67% [17]. Với phương pháp đề xuất của chúng tôi cho thấy hiệu quả và độ chính xác đạt được cao hơn rất nhiều so với các phương pháp khác tại PAN. Việc thực nghiệm trên bộ dữ liệu chuẩn của PAN được rất nhiều nhóm nghiên cứu và các phòng thí nghiệm trên thế giới sử dụng để đánh giá các phương pháp phát hiện sao chép cũng như sử dụng các độ đo dùng để đánh giá trong các cuộc thi của PAN cho thấy kết quả đạt được hoàn toàn tin cậy để đánh giá các thuật toán, hướng tiếp cận mới cũng như thuật toán do chúng tôi đề xuất. 5 Kết luận Trong bài báo này, chúng tôi đã đề xuất thuật toán để chuyển đổi được văn bản thành dạng tín hiệu số là các chuỗi số thực DNA, đảm bảo được tính duy nhất và toàn vẹn của thông tin. Với phương pháp đề xuất này, chúng tôi đã xây dựng các module xử lý, trong đó có mã hóa các văn bản nguồn thành bộ DNA nguồn và tổ chức lưu trữ theo các lớp thông qua các giá trị khóa nên tốc độ tính toán của hệ thống nhanh và độ chính xác cao.
  7. Hồ Phan Hiếu, Nguyễn Thị Ngọc Anh và Võ Trung Hùng 229 Trong thời gian đến, chúng tôi sẽ tiếp tục nghiên cứu để sắp xếp lưu trữ dữ liệu được tối ưu hơn và phát triển hệ thống phát hiện sao chép văn bản hoàn chỉnh ứng dụng vào thực tiễn để góp phần nâng cao chất lượng đào tạo và nghiên cứu khoa học. Lời cảm ơn Nghiên cứu này được tài trợ bởi Quỹ Phát triển KHCN Đại học Đà Nẵng trong đề tài mã số B2017- ĐN01-07. Tài liệu tham khảo 1. Meuschke, N., Gipp, B.: State-of-the-art in detecting academic plagiarism. International Journal for Educational Integrity 9(1), 50-71 (2013). 2. Gomaa, W.H. and A.A. Fahmy: A survey of text similarity approaches. International Journal of Computer Applications 68(13), 13-18 (2013). 3. Hourrane, O., Benlahmar, E. H.: Survey of Plagiarism Detection Approaches and Big data Techniques related to Plagiarism Candidate Retrieval. In: Proceedings of the 2nd International Conference on Big Data, Cloud and Applications, ACM (2017). 4. T. C. De, et al: Developing Plagiarism Detection System for Vietnamese University, 12th Vietnam - Japan International Joint Symposium, Can tho (2014). 5. L. T. Nguyen, N. X. Toan, D. Dien: Vietnamese plagiarism detection method. In: Proceedings of the 7th Symposium on Information and Communication Technology, 44-51 (2016). 6. Hourrane, Oumaima, and El Habib Benlahmar: Survey of Plagiarism Detection Approaches and Big data Techniques related to Plagiarism Candidate Retrieval. Proceedings of the 2nd international Conference on Big Data, Cloud and Applications. ACM (2017). 7. Raghavan, V.V. and S.M. Wong: A critical analysis of vector space model for information retrieval. Journal of the American Society for information Science 37(5), 279-187, (1986). 8. Hung Vo Trung, Ngoc Anh Nguyen, Hieu Ho Phan, Thi Dung Dang: Comparison of the Documents Based On Vector Model: A Case Study of Vietnamese Documents. American Journal of Engineering Research (AJER) 6(7), 251-256 (2017). 9. Hồ Phan Hiếu, Võ Trung Hùng, Nguyễn Thị Ngọc Anh: Một số phương pháp tính độ tương đồng văn bản dựa trên mô hình vector. Tạp chí Khoa học và Công nghệ ĐHĐN 11(120), 112-117 (2017). 10. Phan Hieu Ho, Ngoc Anh Thi Nguyen and Trung Hung Vo: DNA Sequences Representation Derived from Discrete Wavelet Transformation for Text Similarity Recognition. In Springer SCI Book, Modern Approaches for Intelligent Information and Database Systems, 75-85 (2018). 11. Hồ Phan Hiếu, Nguyễn Thị Ngọc Anh, Nguyễn Văn Hiếu, Đặng Thiên Bình, Võ Trung Hùng: Một cách tiếp cận mới để phát hiện sự giống nhau của văn bản dựa trên phép biến đổi wavelet rời rạc. Kỷ yếu Hội nghị Khoa học Công nghệ Quốc gia lần thứ X (Fair’10), lĩnh vực Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin, pp. 479- 487 (2017). 12. D. J. D. P. Taufin M Jeeralbhavi, Shivananda V. Seeri: Text Extraction and Localization From Captured Images. International Journal on Recent and Innovation Trends in Computing and Communication (IJRITCC) 4, 119-121 (2016). 13. S. G. Mallat: A theory for multiresolution signal decomposition: the wavelet representation. IEEE transactions on pattern analysis and machine intelligence 11, 674-693 (1989). 14. R. S. Stanković and B. J. Falkowski: The Haar wavelet transform: its status and achievements. Computers & Electrical Engineering 29, 25-44 (2003). 15. C.-W. Liang and P.-Y. Chen: DWT based text localization. International Journal of Applied Science and Engineering 2, 105-116 (2004). 16. P. Baldi and S. Brunak: Bioinformatics: the machine learning approach, MIT press (2001). 17. Potthast, M., et al: Overview of the 1st International Competition on Plagiarism Detection. In Stein, B., et al (Ed), PAN’09, 1-9 (2009).