Ứng dụng thuật toán mạng neural tích chập để nhận dạng bìa sách

pdf 8 trang Gia Huy 17/05/2022 3090
Bạn đang xem tài liệu "Ứng dụng thuật toán mạng neural tích chập để nhận dạng bìa sách", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfung_dung_thuat_toan_mang_neural_tich_chap_de_nhan_dang_bia_s.pdf

Nội dung text: Ứng dụng thuật toán mạng neural tích chập để nhận dạng bìa sách

  1. TRƯỜNG ĐẠI HỌC SÀI GÒN SAIGON UNIVERSITY TẠP CHÍ KHOA HỌC SCIENTIFIC JOURNAL ĐẠI HỌC SÀI GÒN OF SAIGON UNIVERSITY Số 75 (03/2021) No. 75 (03/2021) Email: tcdhsg@sgu.edu.vn ; Website: ỨNG DỤNG THUẬT TOÁN MẠNG NEURAL TÍCH CHẬP ĐỂ NHẬN DẠNG BÌA SÁCH Application of convolutional neural network algorithm to recognize a complex book cover ThS. Trần Hoàn(1), ThS. Hồ Nhựt Minh(2), TS. Văn Tấn Lượng(3) (1),(3)Trường Đại học Công nghiệp thực phẩm TP.HCM (2)Học viện Bưu chính Viễn thông, cơ sở tại TP.HCM TÓM TẮT Vấn đề lưu trữ thông tin số trong các thư viện sách hiện nay rất được quan tâm. Do số lượng đầu sách nhiều nên khi cần tra cứu cùng lúc sẽ gặp khó khăn. Do vậy, nếu có một chương trình tự động nhận dạng thông tin sách sẽ giúp người quản lý rất nhiều trong việc sắp xếp, quản lý sách thích hợp, cũng như giúp người đọc có thể tìm đến quyển sách một cách nhanh chóng. Nghiên cứu này đã đề xuất một phương pháp để trích xuất văn bản tự động từ bìa màu dựa trên các thuật toán tiền xử lý và thuật toán CNN. Kết quả cho thấy phương pháp đề xuất có thể phát hiện chính xác 97% văn bản đối với ảnh bìa có nền phức tạp hoặc màu kí tự gần trùng với màu nền. Phương pháp trên có tiềm năng cao trong việc ứng dụng lưu trữ thông tin sách tự động ở các thư viện sách hiện nay. Từ khóa: bìa sách, mạng neural tích chập (CNN), nhận dạng kí tự, trích xuất vùng kí tự ABSTRACT Nowadays, the issue of storing digital information in the book libraries is much-paid attention. It is challenging to lot people search at the same time since there are so many books in the library. Thus, if there is an automatic program to identify the book's information, this study could suggest an excellent way to manage the books appropriately in a library, as well as improve the readers to find the books quickly. In this study, a method to extract the text automatically from colourful covers is proposed according to pre-processing algorithms and convolutional neural network (CNN) algorithms. The effectiveness of the proposed method was verified by accurately detection capacity (approximately 97%) of the text for the cover images with their complex backgrounds or character colours. These methods are very potential to improve the automatic detection system in the library. Keywords: book cover, convolutional neural network (CNN), optical character recognition (OCR), text region extraction 1. Giới thiệu màu xen lẫn hoặc ảnh nền phức tạp làm Ngày nay, sự tăng trưởng nhanh chóng cho việc tự động truy xuất thông tin liên về số lượng tài liệu trong các thư viện sách quan từ các bìa tài liệu như tên tài liệu, tác làm cho việc tìm kiếm ngày càng khó khăn giả, số chỉ mục, v.v. là một nhiệm vụ đầy hơn. Sự phức tạp của bìa tài liệu như màu thách thức. Ngoài ra, các yếu tố văn bản chữ gần trùng với màu nền, các họa tiết cũng gây thêm khó khăn không chỉ về màu Email: luongvt@hufi.edu.vn 72
  2. TRẦN HOÀN - HỒ NHỰT MINH - VĂN TẤN LƯỢNG TẠP CHÍ KHOA HỌC ĐẠI HỌC SÀI GÒN sắc, phông chữ và kích thước, mà còn ở sự vùng mà trong đó văn bản và nền có màu liên kết và định hướng. Vì thế việc hướng tương tự hoặc văn bản nằm trong một nền tới phát triển một ứng dụng tự động nhận phức tạp khó chuyển đổi ảnh hưởng đến dạng tiêu đề sách để xây dựng kho dữ liệu hiệu quả của giải thuật. Ngoài ra, một hệ thông tin số về nguồn tài liệu ở các thư thống sử dụng Modest AdaBoost không viện sách được nhanh chóng và tiện lợi là đối xứng để phát hiện văn bản trong cảnh một việc rất cần thiết. tự nhiên cũng được đề xuất [7]. Trong đó, Có rất nhiều phương pháp nhận dạng 59 đặc trưng trên 16 thang không gian đã bìa sách đã được công bố. Các phương được trích xuất để tạo CART như một bộ pháp nhị phân ảnh khác nhau đã được áp phân loại yếu của Modest AdaBoost, nhờ dụng để có được hình ảnh nhị phân đưa đó nâng cao kết quả nhận dạng văn bản. trực tiếp vào bộ nhận dạng ký tự quang học Bên cạnh đó, một phương pháp phân tách (OCR) có sẵn [1-3]. Tuy nhiên, do sự khác cảnh tự nhiên thành các thành phần nền và biệt nhiều về độ phân giải, điều kiện chiếu văn bản bằng cách sử dụng phân tích thành sáng, kích thước và kiểu phông chữ giữa phần hình thái (MCA) được đề xuất [9]. văn bản trong hình ảnh tự nhiên và văn bản Điều này sẽ làm giảm các tác động bất lợi trong tài liệu được scan thông thường nên của nền phức tạp lên kết quả phát hiện. kết quả nhị phân ảnh thường khó nhận Ngoài ra, một mạng thần kinh đệ quy với dạng được ký tự. Ngoài ra, việc mất thông mô hình chú ý (R2AM) được đề xuất để tin trong quá trình nhị phân ảnh là gần như nhận dạng văn bản trong cảnh tự nhiên không thể phục hồi. Do đó, nếu kết quả nhị [10]. Tuy nhiên, những giải thuật này đều phân ảnh quá kém thì khả năng phát hiện đòi hỏi một quá trình huấn luyện với lượng chính xác văn bản là rất nhỏ. lớn bộ nhớ [8-10]. Bên cạnh đó, thuật toán SIFT được đề Trong bài báo này, các thuật toán tiền xuất để trích xuất các đặc trưng quan trọng xử lý ảnh được đề xuất để làm tăng độ từ ảnh chụp biển số xe hay thuật toán chính xác khi tách các phần ảnh chứa kí tự, Maximally Stable Extremal Region loại bỏ ảnh hưởng của màu nền bìa sách (MSER) được sử dụng với ảnh chụp cảnh phức tạp hoặc màu nền bìa trùng với màu tự nhiên [4, 5]. Hai giải thuật này đều sử kí tự. Sau đó kết hợp thuật toán CNN phân dụng ảnh đầu vào chụp từ điện thoại và đạt loại và nhận dạng các kí tự quang học để được độ chính xác cao với ảnh có nền đơn trích xuất thông tin cần thiết trên ảnh chụp hoặc màu kí tự khác biệt với màu nền. Tuy bìa sách. Ngoài ra, giải thuật này cũng sẽ nhiên với ảnh có nền phức tạp hoặc có màu không bị hạn chế nhiều về tốc độ xử lý, kí tự gần trùng với màu nền thì kết quả bị hay đòi hỏi bộ nhớ lớn khi huấn luyện. giảm độ chính xác rất nhiều. 2. Giải thuật đề xuất Một giải thuật nhận dạng kí tự trong Lưu đồ giải thuật nhận dạng bìa sách hình ảnh cảnh tự nhiên như ảnh bìa sách, được thể hiện trong Hình 1. Đầu tiên, bìa biển báo đường, biển quảng cáo và hộp sách được scan hoặc chụp lại từ camera để đóng gói đã được đề xuất [6]. Với giải làm ảnh đầu vào. Tiếp theo, ảnh bìa sách thuật này, các kí tự được trích xuất tốt bằng được hiệu chỉnh độ nghiêng để đảm bảo các phương pháp trích xuất và chọn thành phần hàng chữ không bị lệch so với lề chuẩn một được kết nối. Tuy nhiên, còn tồn tại một số góc bất kì. Sau đó, giải thuật tiền xử lý ảnh 73
  3. SCIENTIFIC JOURNAL OF SAIGON UNIVERSITY No. 75 (03/2021) và MSER được áp dụng để phân đoạn vùng hiệu chỉnh góc nghiêng của đoạn thẳng dài chứa thông tin sách như tựa sách, tên tác nhất được tìm thấy trong ảnh, thường là giả Cuối cùng, vùng kí tự này được tách gáy sách hoặc một phần cạnh gáy sách, thành những kí tự riêng lẻ và đem đi phân cạnh của chữ hoặc cạnh của họa tiết trên loại với thuật toán CNN để thu được thông bìa sách. Giải thuật được đề xuất ở Hình 2 tin bìa sách. có thể giải quyết vấn đề về hiệu chỉnh sai lệch góc nghiêng với độ chính xác 90%. Ảnh bìa sách Chuyển ảnh màu RGB sang ảnh xám Hiệu chỉnh góc nghiêng Phát hiện cạnh Phân đoạn vùng Phát hiện đoạn thẳng chứa văn bản Tìm đoạn thẳng dài nhất Phân loại CNN Tìm góc của đoạn thẳng Hình 1. Lưu đồ giải thuật nhận dạng Tìm góc cần xoay bìa sách 2.1. Ảnh bìa sách Xoay ảnh Giải thuật đề xuất được thực hiện trên Hình 2. Lưu đồ giải thuật hiệu chỉnh góc Python 3.7.4. Ảnh bìa sách đầu vào là ảnh nghiêng được tải lên từ cơ sở dữ liệu trong máy, hoặc là ảnh được chụp trực tiếp từ camera 2.3. Phân đoạn vùng chứa văn bản trong môi trường tự nhiên. Trong cả hai Thuật toán MSER trong [5] được đề trường hợp, ảnh đầu vào đều là ảnh màu xuất để phân đoạn vùng chứa văn bản trên RGB và được resize lại với chiều cao là ảnh bìa sách đã hiệu chỉnh góc nghiêng. Về 1000 pixel để tăng tốc độ xử lý. cơ bản, MSER sẽ trích xuất các vùng có 2.2. Hiệu chỉnh góc nghiêng màu sắc nhất quán và độ tương phản cao. Do bìa sách khi scan không cẩn thận Tuy nhiên, thuật toán này chỉ chính xác khi hoặc do góc nghiêng khi chụp ảnh, các màu kí tự khác biệt với màu nền hoặc màu hàng chữ có thể bị lệch so với lề chuẩn một họa tiết gần quanh kí tự. Do đó, để cải góc bất kỳ. Điều này gây khó khăn trong thiện kết quả, chúng tôi đề xuất sử dụng việc tách chữ và nhận dạng chữ, đôi khi các thuật toán tiền xử lý ảnh để loại bỏ ảnh không thể tách được hoặc không nhận dạng hưởng của màu sắc trên ảnh, với mục tiêu được. Vì vậy, bước đầu tiên sau khi chọn hướng tới là biến ảnh bìa sách thành ảnh ảnh đầu vào là hiệu chỉnh góc nghiêng. trắng đen gồm các vùng trắng là vùng chứa Đối với bìa sách, chữ in trên đó chữ hoặc họa tiết kín, còn vùng đen là vùng thường có phương thẳng đứng, tức là cùng chứa nền và các họa tiết hở. Quá trình phân phương với gáy sách. Do đó, để hiệu chỉnh đoạn ảnh được mô tả trong lưu đồ giải góc nghiêng của chữ, chúng tôi đề xuất thuật ở Hình 3. 74
  4. TRẦN HOÀN - HỒ NHỰT MINH - VĂN TẤN LƯỢNG TẠP CHÍ KHOA HỌC ĐẠI HỌC SÀI GÒN Ch uyể n ảnh m àu Mạng neural tích chập (CNN) điển sa ng ản h xám hình bao gồm một hoặc nhiều khối lớp lấy mẫu (sampling layer), kèm theo sau đó là Ph át hiệ n cạn h một hoặc nhiều lớp kết nối đầy đủ (fully connected layer) và một lớp đầu ra (output Ph ép hì nh thá i học layer) như trong Hình 4. M SER Input Output Pooling Pooling Pooling Convolution Convolution Bộ l ọc hìn h thá i h ọc Convolution FullyConnected Hình 4. Sơ đồ khối của một mạng CNN Nố i các k hun g bao điển hình Hình 3. Lưu đồ giải thuật phân đoạn vùng Lớp tích chập (convolutional layer) là chứa văn bản phần trung tâm của mạng CNN. Đối với Trong thực tế, ngoài tựa sách và tên ảnh tĩnh, sự tổ chức ở một phần bất kì của tác giả, bìa sách còn chứa thông tin của nhà ảnh cũng giống như ở bất kì phần nào còn xuất bản, số tái bản, các giải thưởng và lại trên ảnh. Do đó, đặc trưng học được ở nhận xét.v.v. Những thông tin này không một khu vực ảnh có thể phù hợp với đặc cần thiết đối với mục tiêu trích xuất thông trưng ở những khu vực còn lại. Trong một tin bìa sách để lập mục lục sách. Do đó, ảnh lớn, chúng tôi lấy một phần nhỏ và một bộ lọc dựa trên vị trí và kích thước của dịch chuyển nó qua tất cả các điểm trong kí tự được chúng tôi đề xuất để loại bỏ các ảnh lớn (đầu vào). Khi vượt qua bất kỳ một vùng chứa thông tin không cần thiết trên. điểm nào, việc kết hợp chúng vào một vị trí Để tăng cường độ chính xác khi nhận duy nhất (đầu ra) đã được thực hiện. Mỗi dạng kí tự, một thuật toán tách các kí tự phần nhỏ của hình ảnh đi qua hình ảnh lớn nằm trên cùng một dòng trong khung giới được gọi là bộ lọc (kernel). Các bộ lọc sau hạn ở bước trên thành các kí tự riêng lẻ đó được cấu hình dựa trên kỹ thuật lan được đề xuất [8]. Sau đó, mỗi kí tự này truyền ngược. được đặt ở trung tâm của khung vuông giới hạn nhỏ nhất, được chuyển thành ảnh xám và thay đổi kích thước về 28x28 pixel. Ảnh này được sử dụng làm đầu vào cho bộ phân loại CNN đã được huấn luyện nhận dạng để tìm ra kết quả nhận dạng kí tự cuối cùng. 2.4. Phân loại CNN Bước cuối cùng là nhận dạng kí tự. Hình 5. Lớp tích chập (convolutional layer) Trong bài báo này, thuật toán CNN được Lớp tổng hợp (pooling layer) làm giảm đề xuất sử dụng vì nó là một trong những mô hình Deep Learning tiên tiến giúp cho số lượng tham số được tính. Có nhiều kỹ thuật gộp khác nhau như gộp tối đa (max chúng ta xây dựng được những hệ thống thông minh với độ chính xác cao như hiện pooling), gộp chung (mean pooling), gộp trung bình (average pooling), v.v. Gộp tối nay. 75
  5. SCIENTIFIC JOURNAL OF SAIGON UNIVERSITY No. 75 (03/2021) đa (max pooling) chiếm giá trị pixel lớn (fully connected layer) tiêu chuẩn. Sau đó, nhất của một vùng như trong Hình 6. mạng có một lớp kết nối đầy đủ (fully connected layer) với 128 node và dùng hàm ReLU để kích hoạt. Cuối cùng là lớp đầu ra (output layer) với 62 node sử dụng hàm softmax để chuyển sang xác suất. CONV 3*3 POOL 2*2 CONV 3*3 POOL 2*2 FLATT EN FC 1: 128 FC2: 62 Output Hình 6. Phép gộp tối đa (max pooling) 28*28 28*28*32 14*14*32 14*14*32 7*7*32 Phần cuối của mạng CNN về cơ bản là Hình 8. Kiến trúc end-to-end cho cơ sở các lớp kết nối đầy đủ (fully connected nhận dạng kí tự trên CNN layer) như mô tả trong Hình 7. Lớp này lấy 3. Kết quả mô phỏng đầu vào từ tất cả các neural ở lớp trước và 3.1. Hiệu chỉnh góc nghiêng thực hiện hoạt động với từng neural riêng Trong Bảng 1, một tập dữ liệu bao lẻ trong lớp hiện tại để tạo đầu ra. gồm 100 ảnh bìa sách với các góc quay khác nhau (từ -450 đến +450) được tạo ra. Với thuật toán được đề xuất, kết quả hiệu chỉnh góc nghiêng chính xác là 97/100 (97%) hình ảnh. Bảng 1. Kết quả hiệu chỉnh góc nghiêng Thành Độ chính Mẫu Thất bại công xác (%) 100 97 3 97 Lý do chính của các trường hợp không thành công là do màu nền hoặc chất lượng Hình 7. Lớp kết nối đầy đủ ảnh và độ tương phản của ảnh kém. Do đó, (fully connected layer) thuật toán không thể phát hiện chính xác Mô hình mạng CNN được chúng tôi đề đường dài nhất, thường là mép bìa sách. xuất như trong Hình 8, bao gồm hai lớp 3.2. Phân đoạn vùng chứa văn bản tích chập (convolutional layer), hai lớp So sánh với các nghiên cứu trước đó, tổng hợp (pooling layer), và hai lớp kết nối phương pháp được đề xuất có thể phân đầy đủ (fully connected layer). Các lớp lớp đoạn vùng chứa văn bản chính xác hơn [4], tích chập (convolutional layer) có 32 bộ lọc [5] và [6] trong trường hợp nền phức tạp (kernel) với kích thước 3x3, sử dụng hàm hoặc màu nền gần trùng với màu văn bản. ReLU để kích hoạt các trọng số trong các Kết quả phân đoạn vùng chứa thông node. Các lớp tổng hợp (pooling layer) có tin sách trong trường hợp nền đơn sắc, nền kích thước cửa sổ là 2x2. Lớp flatten phức tạp và màu chữ gần trùng với màu chuyển từ tensor sang vector, cho phép đầu nền lần lượt được thể hiện trong Hình 9, ra được xử lý bởi các lớp kết nối đầy đủ Hình 10 và Hình 11. 76
  6. TRẦN HOÀN - HỒ NHỰT MINH - VĂN TẤN LƯỢNG TẠP CHÍ KHOA HỌC ĐẠI HỌC SÀI GÒN Ở Bảng 2, một tập dữ liệu 100 ảnh scan bìa sách bao gồm 50 bìa có nền đơn sắc, 50 bìa có nền phức tạp và bìa có màu nền gần trùng với màu văn bản để tính toán độ chính xác của thuật toán đã được tạo ra. Kết quả được chia thành 5 mức độ: • Mức 1: các vùng chứa tựa sách và tên tác giả được phát hiện. • Mức 2: vùng chứa tựa sách được phát (a) (b) hiện. Hình 9. Phân đoạn vùng chứa văn bản • Mức 3: vùng chứa tên tác giả được trong trường hợp nền đơn sắc phát hiện. (a) Ảnh màu bìa sách • Mức 4: không thể phát hiện vùng (b) Phân đoạn vùng chứa thông tin sách chứa tựa sách và tên tác giả. Bảng 2. Kết quả phân đoạn vùng chứa văn bản Mức Độ chính xác (%) Mức 1 92% Mức 2 4% Mức 3 3% Mức 4 1% (a) (b) Độ chính xác 92% Hình 10. Phân đoạn vùng chứa văn bản trong trường hợp nền phức tạp Các trường hợp không thành công rơi (a) Ảnh màu bìa sách vào các ảnh scan bìa sách có nền phức tạp, (b) Phân đoạn vùng chứa thông tin sách trong đó vùng nền xung quanh vùng văn bản chứa các họa tiết phức tạp xen lẫn vào chữ như Hình 12. (a) (b) Hình 11. Phân đoạn vùng chứa văn bản trong trường hợp màu nền gần trùng với màu văn bản (a) Ảnh màu bìa sách Hình 12. Ảnh không phân đoạn được vùng (b) Phân đoạn vùng chứa thông tin sách chứa thông tin sách 77
  7. SCIENTIFIC JOURNAL OF SAIGON UNIVERSITY No. 75 (03/2021) 3.3. Phân loại CNN Bảng 3. Cấu tạo của mạng CNN Do không có cơ sở dữ liệu chữ đánh máy có sẵn, chúng tôi thực hiện thu thập Lớp Kiểu Mạng một tập hợp các kí tự gồm 44640 mẫu từ 720 font thuộc 5 nhóm font chữ thường 0 input 28x28 gặp và được sử dụng nhiều trong in ấn, đó là nhóm Geometric Sans, nhóm Humanist 1 convolutional 32@3x3 San, nhóm Old Style, nhóm Transitional Modern và nhóm Slab Serifs. 2 maxpool 2x2 Mỗi bộ kí tự của một font chữ có 62 3 convolutional 32@3x3 mẫu, bao gồm 10 chữ số, 26 chữ viết hoa và 26 chữ viết thường như trong Hình 13. 4 maxpool 2x2 Để kiểm tra mô hình đề xuất, cơ sở dữ liệu kí tự được chia thành hai phần. 37200 mẫu 5 fully connected 128 được sử dụng cho giai đoạn huấn luyện và 7440 mẫu được sử dụng cho giai đoạn thử 6 fully connected 62 nghiệm. Quá trình huấn luyện mô hình CNN đề xuất như trong Bảng 3 tốn khoảng 4. Kết luận 4 tiếng trên máy tính xách tay cấu hình CPU i7-4600U, Ram 8GB, ko có GPU. Kết Bài báo này đề xuất một phương pháp quả huấn luyện đạt độ chính xác 97.69%. phân loại nhận dạng kí tự dựa trên cơ sở kết hợp thuật toán tiền xử lý ảnh và thuật toán CNN trong trường hợp nền phức tạp hoặc màu kí tự gần trùng với màu nền. Tính khả thi của phương pháp đề xuất được xác minh bằng kết quả mà có thể phát hiện chính xác 97% văn bản của những ảnh bìa có nền phức tạp. Hình 13. 62 mẫu thu thập từ font chữ Verdana TÀI LIỆU THAM KHẢO [1] Xiangrong Chen and Alan L. Yuille (2004), “Detecting and reading text in natural scenes”, Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pages 366-373 [2] Minoru Yokobayashi and Toru Wakahara (2005), “Segmentation and recognition of characters in scene images using selective binarization in color space and gat correlation”, Eighth International Conference on Document Analysis and Recognition (ICDAR'05), pp. 167-171. [3] Lukás Neumann and Jiri Matas (2012), “Real-time scene text localization and recognition”, 2012 IEEE Conference on Computer Vision and Pattern Recognition, pages 3538-3545. 78
  8. TRẦN HOÀN - HỒ NHỰT MINH - VĂN TẤN LƯỢNG TẠP CHÍ KHOA HỌC ĐẠI HỌC SÀI GÒN [4] Wing Teng Ho, Hao Wooi Lim, and Yong Haur Tay (2009), “Two-stage license plate detection using gentle Adaboost and SIFT-SVM”, 2009 First Asian Conference on Intelligent Information and Database Systems, pages 109-114. [5] Huizhong Chen, Sam S. Tsai, Georg Schroth, David Chen, Radek Grzeszczuk, Bernd Girod (2011), “Robust text detection in natural images with edge-enhanced maximally stable extremal regions”, 2011 18th IEEE International Conference on Image Processing, pages 2609-2612. [6] Wai-Lin Chan and Chi-Man Pun (2011), “Robust Character Recognition Using Connected-Component Extraction”, 2011 Seventh International Conference on Intelligent Information Hiding and Multimedia Signal Processing, pages 310-313. [7] Jung-Jin Lee, Pyoung-Hean Lee, Seong-Whan Lee, Alan Yuille and Christof Koch (2011), “AdaBoost for Text Detection in Natural Scene”, 2011 International Conference on Document Analysis and Recognition, pages 429-434. [8] Amit Choudharya, Rahul Rishib and Savita Ahlawat (2013), “A New Approach to Detect and Extract Characters from Off-Line Printed Images and Text”, Procedia Computer Science, volume 17, pages 434–440. [9] Shuping Liu, Yantuan Xian, Huafeng Li and Zhengtao Yu (2017), “Text detection in natural scene images using morphological component analysis and Laplacian dictionary”, IEEE/CAA Journal of Automatica Sinica, Volume 7, Issue 1, pages 214- 222. [10] Chen-Yu Lee and Simon Osindero (2016), “Recursive Recurrent Nets with Attention Modeling for OCR in the Wild”, 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 2231-2239. Ngày nhận bài: 23/9/2019 Biên tập xong: 15/3/2021 Duyệt đăng: 20/3/2021 79