Tìm kiếm ảnh theo nội dung dựa trên mạng nơron tích chập và phương pháp sinh mã nhị phân

10 trang Gia Huy 5510

Download

Bạn đang xem tài liệu "Tìm kiếm ảnh theo nội dung dựa trên mạng nơron tích chập và phương pháp sinh mã nhị phân", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

tim_kiem_anh_theo_noi_dung_dua_tren_mang_noron_tich_chap_va.pdf

Nội dung text: Tìm kiếm ảnh theo nội dung dựa trên mạng nơron tích chập và phương pháp sinh mã nhị phân

Vietnam J. Agri. Sci. 2021, Vol. 19, No. 4: 497-506 Tạp chí Khoa học Nông nghiệp Việt Nam 2021, 19(4): 497-506 www.vnua.edu.vn TÌM KIẾM ẢNH THEO NỘI DUNG DỰA TRÊN MẠNG NƠRON TÍCH CHẬP VÀ PHƯƠNG PHÁP SINH MÃ NHỊ PHÂN Nguyễn Thị Huyền*, Trần Thị Thu Huyền, Vũ Thị Lưu Khoa Công nghệ thông tin, Học viện Nông nghiệp Việt Nam *Tác giả liên hệ: nthuyen@vnua.edu.vn Ngày nhận bài: 20.07.2020 Ngày chấp nhận đăng: 02.09.2020 TÓM TẮT Tìm kiếm ảnh theo nội dung là hướng nghiên cứu đang được quan tâm trong những năm gần đây vì phương pháp tìm kiếm này có thể khắc phục nhược điểm của phương pháp tìm kiếm dựa trên văn bản mô tả là không bị ảnh hưởng bởi sự thiếu hoặc sai của văn bản kèm theo ảnh. Bên cạnh đó, các phương pháp học sâu như mạng nơron tích chập đã chứng minh được khả năng xử lý dữ liệu lớn đặc biệt trong lĩnh vực thị giác máy tính và xử lý ảnh. Mục tiêu của nghiên cứu này là giải bài toán tìm kiếm ảnh theo nội dung và phương pháp để giảm thời gian truy vấn ảnh sử dụng mạng nơtron tích chập. Đồng thời, chúng tôi kết hợp phương pháp này với phương pháp sinh mã nhị phân để cải thiện thời gian truy vấn ảnh. Kết quả thực nghiệm trên hai bộ dữ liệu cifar-10 và mnist cho thấy việc sử dụng mạng nơron tích chập kết hợp phương pháp sinh mã nhị phân trong tìm kiếm ảnh đạt độ chính xác xấp xỉ 89% và 98% và cải thiện đáng kể thời gian truy vấn ảnh. Từ khóa: Tìm kiếm ảnh theo nội dung, mạng nơron tích chập, sinh mã nhị phân. Content-based Image Retrieval with Convolutional Neural Networks and Binary Hashing Method ABSTRACT Content-based image retrieval has received great attention in recent years because this method overcomes the disadvantages of the text-based image retrieval that is not affected by the lack of or wrong of the text attached to the image. In addition, deep learning methods such as convolutional neural networks have demonstrated their ability to process large-sized data, especially computer vision and image processing. The aims of this study was develop a content-based image retrieval program and method to reduce image query time using the convolutional neural network (CNN). Also, we combined CNN with a binary hashing method to improve image retrieval time. The experimental results on CIFAR-10 and MNIST data sets showed that combining CNN with the binary hashing method for content-based image retrieval achieved an accuracy of approximately 89% on CIFAR-10, 98% on MNIST and significantly improved retrieval time. Keywords: Content-based image retrieval, CBIR, convolutional neural networks, CNN, binary hashing. của Tập đoàn dữ liệu thế giới IDC năm 2016, 1. ĐẶT VẤN ĐỀ thế giới đã tạo ra 1.138 nghìn tỷ hình ảnh, gấp hơn 700 lần so với năm 2015 (Photoindustrie- Ngày nay, với sự phát triển vượt trội của Verband e.V, 2016). Theo báo cáo về chia sẻ ảnh công nghệ kỹ thuật số và sự phổ biến rộng rãi trên toàn cầu, Brandwatch đã tính toán rằng các thiết bị quay phim, chụp ảnh dẫn đến kho mỗi ngày có 350 triệu hình ảnh được chia sẻ qua dữ liệu hình ảnh về nhiều lĩnh vực khác nhau Facebook, 95 triệu hình ảnh được chia sẻ qua như: y khoa, hệ thống thông tin địa lý, thư viện Instagram, 400 triệu trên Snapchat và 1,6 tỷ số, giáo dục đào tạo, giải trí, mạng xã hội„ cũng hình ảnh trên WhatsApp (Văn Thế Thành & Lê tăng theo một cách nhanh chóng. Theo báo cáo Mạnh Thạnh, 2016). 497
Tìm kiếm ảnh theo nội dung dựa trên mạng nơron tích chập và phương pháp sinh mã nhị phân Vì vậy, nhu cầu tìm kiếm ảnh hay truy xuất định và chọn ra được những đặc trưng đại diện dữ liệu ảnh là một nhu cầu tất yếu, và là một cho ảnh để việc tìm kiếm đạt kết quả tốt. trong những lĩnh vực nghiên cứu thu hút sự Những năm gần đây, các phương pháp học quan tâm nhất hiện nay. Tìm kiếm ảnh hiểu sâu (Deep Learning) trong đó có mạng nơron một cách cơ bản là tìm những ảnh trong cơ sở dữ tích chập (CNN) đã đạt được thành công to lớn liệu ảnh có liên quan đến một ảnh truy vấn trong xử lý dữ liệu kích thước lớn. Nó đã được (query) cụ thể. Hình 1 mô tả sơ lược quá trình chứng minh là rất hiệu quả trong lĩnh vực thị tìm kiếm ảnh. Bài toán tìm kiếm ảnh được chia giác máy tính và xử lý ảnh như: phát hiện người thành hai lớp chính (Văn Thế Thành, 2017): đi bộ (Luo và cộng sự, 2014), phát hiện khuôn Thứ nhất là tìm kiếm ảnh dựa trên văn bản mặt (Li & cs., 2015), phân loại hình ảnh TBIR (Text-Based Image Retrieval). Phương (Ciressan & cs., 2012), tự động tô màu hình ảnh pháp này mất nhiều thời gian để mô tả chỉ mục (Cheng, 2015)„ và gần đây các phương pháp của hình ảnh dưới dạng văn bản, có nhiều hạn dựa trên Deep Learning như CNN đã được áp chế vì tính chủ quan của con người và kết quả dụng vào bài toán tìm kiếm ảnh. Lecun & cs. tìm kiếm sẽ không chính xác khi các mô tả này (1998) đã đề xuất mạng nơron tích chập LeNet- bị sai sót hoặc không tồn tại. Ví dụ, Google 5 sử dụng để nhận biết các chữ cái viết tay, và Images Search là một trong các công cụ tìm đã cho thấy đó là một thuật toán rất thành kiếm ảnh được sử dụng phổ biến nhất hiện nay. công. Sau đó, Krizhevsky & cs. (2012) đã cải Công cụ này cho phép người sử dụng nhập các thiện thuật toán mạng nơron tích chập, sử dụng từ khóa liên quan đến ảnh cần tìm và thực hiện đầu ra của lớp thứ 7 làm đặc trưng để truy vấn việc tìm kiếm thông qua việc phân tích các hình ảnh và đã đạt được kết quả tốt trên tập dữ meta-data và văn bản đi kèm với ảnh. Phương liệu ImageNet. Babenko & cs. (2014) đã nghiên pháp này cho kết quả tương đối tốt, đáp ứng cứu phương pháp cải thiện hiệu suất truy vấn nhu cầu cơ bản của người sử dụng. Tuy nhiên, ảnh bằng cách sử dụng PCA để nén các đặc các kết quả trả về sẽ không đúng với yêu cầu trưng được trích chọn nhờ CNN. Mặc dù các đặt ra khi các meta-data đi kèm với ảnh bị công trình của Krizhevsky & cs. (2012) và thiếu hoặc sai sót và khi những từ khóa truy Babenko & cs. (2014) cho thấy khi sử dụng CNN vấn mang ý nghĩa nhập nhằng (Lê Minh Phúc & vào việc truy vấn ảnh cho độ chính xác cao Trần Công Án, 2017). Thứ hai là tìm kiếm ảnh nhưng việc đối sánh các ảnh được thực hiện dựa trên nội dung CBIR (Content-Based Image trong không gian Euclide dẫn đến chưa hiệu Retrieval), tức là tìm tập hình ảnh có nội dung quả về thời gian tính toán, trong khi yêu cầu tương tự với hình ảnh cho trước. Phương pháp đặt ra với một hệ thống tìm kiếm ảnh là phải CBIR thực hiện tìm kiếm dựa trên đặc trưng thị đưa ra kết quả nhanh chóng. giác của hình ảnh, do đó vượt qua được hạn chế Xuất phát từ những vấn đề nêu trên, trong của phương pháp tìm kiếm TBIR. Với phương bài báo này, chúng tôi sẽ giới thiệu về mạng pháp CBIR, cả hai vấn đề trích xuất tự động các nơron tích chập (CNN) và phương pháp dựa đặc trưng thị giác và phương pháp đánh giá độ trên mạng nơron tích chập để trích chọn đặc tương tự giữa hai ảnh đều đóng vai trò quan trưng ảnh (gọi là đặc trưng CNN) sau đó tiếp trọng, quyết định hiệu quả tìm kiếm. Về vấn đề tục thực hiện việc sinh mã nhị phân (binary thứ nhất, phương pháp tìm kiếm ảnh theo nội hashing) để biến các đặc trưng này thành 1 dung “truyền thống” thường dựa vào các đặc véctơ nhị phân có độ dài nhỏ, véctơ này được trưng trực quan như màu sắc, kết cấu, hình gọi là mã nhị phân (hash code). Sau khi có dạng, đặc trưng cục bộ được rút trích từ ảnh; do được mã nhị phân cho từng bức ảnh, việc tính đó rất nhiều hệ thống truy vấn ảnh dựa trên nội toán sự tương đồng giữa các bức ảnh sẽ trở nên dung đã ra đời như: QBIC, VisualSeek, đơn giản hơn vì số chiều thấp hơn và chỉ phải WebSeek và BlobWorld (Văn Thế Thành, làm việc với các toán tử nhị phân đơn giản, từ 2017). Phương pháp này có hạn chế là khó xác đó cải thiện được tốc độ tìm kiếm. 498
Nguyễn Thị Huyền, Trần Thị Thu Huyền, Vũ Thị Lưu Lấy các ảnh được tra cứu tương ứng từ CSDL ảnh CSDL ảnh Sắp xếp độ tương tự Trích chọn theo chiều giảm dần đặc trung Ảnh truy vấn Xác định độ tương tự giữa ảnh truy vấn và Trích chọn CSDL các ảnh trong CSDL đặc trung đặc trưng ảnh dựa trên đặc trưng ảnh Ghi chú: CSDL: Cơ sở dữ liệu. Hình 1. Quá trình tìm kiếm ảnh Hình 2. Hình ảnh minh họa bộ dữ liệu CIFAR-10 2. PHƯƠNG PHÁP NGHIÊN CỨU còn lại được dùng cho kiểm tra (test). Đây là một bộ cơ sở dữ liệu tương đối khó vì ảnh nhỏ và đối 2.1. Vật liệu tượng trong cùng một lớp cũng biến đổi rất nhiều 2.1.1. Dữ liệu ảnh về màu sắc, hình dáng, kích thước. Bộ dữ liệu CIFAR-10 do Krizhevsky & cs. Bộ dữ liệu MNIST do Lecun & cs. (1998) xây (2009) thu thập gồm 10 lớp đối tượng: plane, car, dựng là cơ sở dữ liệu bao gồm các ảnh đa mức bird, cat, deer, dog, frog, horse, ship và truck, xám của 10 chữ số viết tay từ 0 đến 9 đã được mỗi lớp gồm 6.000 ảnh màu có kích thước 32 × 32 chuẩn hóa về kích thước 28 × 28 pixel. Bộ ảnh pixel. Tổng số có 60.000 ảnh trong đó 50.000 ảnh gồm 60.000 ảnh dùng để huấn luyện (train), và được sử dụng cho huấn luyện (train), 10.000 ảnh 10.000 ảnh còn lại được dùng cho kiểm tra (test). 499
Tìm kiếm ảnh theo nội dung dựa trên mạng nơron tích chập và phương pháp sinh mã nhị phân Hình 3. Hình ảnh minh họa bộ dữ liệu MNIST 2.1.2. Công cụ đủ (Fully connected). Sự sắp xếp về số lượng và thứ tự giữa các lớp này sẽ tạo ra những mô hình Chúng tôi sử dụng máy tính cài hệ điều khác nhau phù hợp cho các bài toán khác nhau. hành Windows 64-bit, Intel, Core™ i5-5200U, CPU@2.20GHz, ngôn ngữ lập trình a. Lớp Convolution Matlab2016a, thư viện Caffe CNN (Jia, 2014). Lớp Convolution (Conv) là lớp quan trọng nhất trong cấu trúc của CNN. Hình 4 mô tả lý 2.2. Phương pháp nghiên cứu thuyết và cách thức Conv hoạt động trên một dữ 2.2.1. Mạng nơron tích chập liệu đầu vào được biểu diễn bằng một ma trận hai chiều. Phép tính này được thực hiện bằng Với mạng nơron truyền thẳng (ANN) thông cách dịch chuyển một cửa sổ mà ta gọi là bộ lọc thường: nhận đầu vào là một véctơ và chuyển (hay kernel) trên ma trận đầu vào, trong đó kết đổi nó thông qua một loạt các lớp ẩn. Mỗi lớp ẩn quả mỗi lần dịch chuyển được tính bằng tổng bao gồm một tập các nơ-ron, trong đó mỗi nơron tích chập (tích của các giá trị giữa 2 ma trận tại được kết nối đầy đủ với tất cả các nơron trong vị trí tương ứng), trong hình 4 là giá trị đầu ra lớp trước và các nơron trong một lớp không có khi dịch chuyển bộ lọc có kích thước [3 × 3] trên bất kỳ kết nối nào với nhau. Lớp được kết nối toàn bộ ma trận đầu vào có kích thước [7 × 7]. đầy đủ cuối cùng được gọi là lớp đầu ra. Như vậy, với tập dữ liệu gồm các hình ảnh có kích Trong trường hợp tổng quát, hình ảnh có thước [200 × 200 × 3], mỗi nơron trong lớp ẩn kích thước [W1 × H1 × D1], sử dụng K bộ lọc có đầu tiên của mạng sẽ có 200 × 200 × 3 = 120.000 kích thước [F × F], trong quá trình xử lý sẽ dịch chuyển các bộ lọc trên toàn bộ ảnh với bước dịch trọng số kết nối. Điều này gây khó khăn cho việc chuyển (stride) S (S được tính bằng pixel). huấn luyện ANN trên cả hai yếu tố: chi phí để Trong một số trường hợp để cân bằng giữa số xây dựng dữ liệu huấn luyện lớn và thời gian bước dịch chuyển và kích thước của ảnh người ta huấn luyện lâu. có thể chèn thêm P pixel với một giá trị cho Từ thực tế đó, mạng CNN ra đời với ý tưởng trước (thường là 0) xung quanh viền của ảnh khi chính là mỗi nơron chỉ cần kết nối tới một vùng đó ta được ma trận đầu ra (feature map) là cục bộ của ảnh thay vì trên toàn bộ ảnh. Về cơ [W2 × H2 × D2] trong đó: bản CNN là một kiểu mạng ANN truyền thẳng, W2 = (W1 – F + 2P)/S + 1 trong đó kiến trúc chính gồm nhiều thành phần được ghép nối với nhau theo cấu trúc nhiều lớp H2 = (H1 – F + 2P)/S + 1 đó là: Convolution, ReLU, Pooling và liên kết đầy D2 = K 500
Nguyễn Thị Huyền, Trần Thị Thu Huyền, Vũ Thị Lưu Hình 4. Minh hoa phép nhân chập Hình 5. Lớp nhân chập thực hiện nhân chập ảnh đầu vào có kích thước [227×227×3] với 96 bộ lọc có kích thước [11×11×3], bước dịch chuyển S = 4 pixel và P = 0. Tương ứng với mỗi bộ lọc sẽ cho một feature map có kích thước là W2 = H2 = (227 – 11)/4 +1 = 55 ở kết quả đầu ra Lược đồ chia sẻ tham số được sử dụng trong lớp Conv trong ví dụ của chúng ta bây giờ chỉ có các lớp tích chập để kiểm soát số lượng tham số. 96 bộ trọng số, với tổng số 96 × 11 × 11 × 3 = Ví dụ trong lớp tích chập ở hình 3, có 55 × 55 × 34,848 hoặc 34.944 tham số (96 bias). 96 = 290.400 nơron, mỗi nơron có 11 × 11 × 3 = b. Lớp ReLU 363 trọng số kết nối và 1 bias. Như vậy có 290.400 × 364 = 105.705.600 tham số. Rõ ràng, Lớp ReLU thường được cài đặt ngay sau lớp con số này rất lớn. Chúng ta có thể giảm đáng Conv. Lớp này sử dụng hàm kích hoạt f(x) = kể số lượng tham số bằng cách sử dụng cùng bộ max(0,x). Nói một cách đơn giản, lớp này có trọng số và bias cho các nơron trong cùng nhiệm vụ chuyển toàn bộ giá trị âm trong kết feature map. Với lược đồ chia sẻ tham số này, quả lấy từ lớp Conv thành giá trị 0. Ý nghĩa của 501
Tìm kiếm ảnh theo nội dung dựa trên mạng nơron tích chập và phương pháp sinh mã nhị phân cách cài đặt này chính là tạo nên tính phi tuyến d. Lớp liên kết đầy đủ cho mô hình. Có rất nhiều cách để khiến mô Liên kết đầy đủ là cách kết nối các nơron ở hình trở nên phi tuyến như sử dụng các hai lớp với nhau trong đó lớp phía sau kết nối hàm kích hoạt sigmoid, tanh,„ nhưng hàm đầy đủ với các nơron ở lớp phía trước nó. Đây f(x) = max(0,x) dễ cài đặt, tính toán nhanh mà cũng là dạng kết nối thường thấy ở ANN, trong vẫn hiệu quả (Krizhevsky & cs., 2012). CNN lớp này thường được sử dụng ở các lớp c. Lớp Pooling phía cuối của kiến trúc mạng. Lớp này sử dụng một cửa sổ trượt quét qua 2.2.2. Ứng dụng mạng nơron tích chập vào toàn bộ ảnh, mỗi lần trượt theo một bước dịch bài toán tìm kiếm ảnh chuyển cho trước. Khác với lớp Conv, lớp Pooling Như đã đề cập ở trên, phương pháp tìm không tính tích chập mà thực hiện lấy mẫu. Khi kiếm ảnh theo nội dung “truyền thống” thường cửa sổ trượt trên ảnh, chỉ có một giá trị được dựa vào các đặc trưng trực quan như màu sắc, xem là giá trị đại diện cho thông tin ảnh tại kết cấu, hình dạng, đặc trưng cục bộ được rút vùng đó (giá trị mẫu) được giữ lại. Các phương trích từ ảnh và thường không hiệu quả trong thức lấy mẫu phổ biến trong lớp Pooling là một số trường hợp. Ví dụ, lược đồ màu có thể MaxPooling (lấy giá trị lớn nhất), MinPooling được dùng để miêu tả đặc trưng màu của một (lấy giá trị nhỏ nhất) và AveragePooling (lấy giá ảnh. Tuy nhiên, hạn chế chính của lược đồ màu trị trung bình). là chưa tận dụng được thông tin không gian của Với ma trận đầu vào có kích thước [W1 × H1 các vùng ảnh. Điều này có thể dẫn đến các sai số × D1], thực hiện toán tử pooling trên cửa sổ có không mong muốn như minh họa trong hình 7, kích thước [F×F] với bước dịch chuyển S pixel ta hai ảnh có cấu trúc khác nhau nhưng có lược đồ được ma trận đầu ra [W2 × H2 × D2] trong đó: màu giống nhau, hoặc trong trường hợp ảnh bị W2 = (W1– F)/S + 1 lệch như minh họa trong hình 8. H2 = (H1 – F)/S + 1 Trong khi đó sử dụng đặc trưng được trích chọn bởi CNN có thể khắc phục được những hạn D2 = D1 chế nêu trên do sử dụng các bộ lọc với kích thước Hình 6 là ví dụ minh họa về sử dụng toán khác nhau trượt trên ảnh, do đó tạo ra được tử pooling. Trong đó, hình 6(a) phía bên trái là nhiều dữ liệu hơn. cách thức lớp pooling xử lý đối với một đầu vào có kích [224 × 224 × 64], cửa sổ có kích thước [2 a. Kiến trúc mạng CNN × 2], bước dịch chuyển S = 2 khi đó đầu ra thu Chúng tôi sử dụng mô hình CNN do được có kích thước [112 × 112 × 64]. Hình 6(b) Krizhevsky & cs. (2012) đề xuất, mô hình này phía bên phải mô tả chi tiết cách thức hoạt động được cung cấp sẵn trong thư viện Caffe CNN của max-pooling với F = 2, S = 2. (Jia, 2014). Hình 6. Ví dụ về sử dụng toán tử pooling 502
Nguyễn Thị Huyền, Trần Thị Thu Huyền, Vũ Thị Lưu Nguồn: Văn Thế Thành, 2017. Hình 7. Hai ảnh khác nhau nhưng có cùng lược đồ màu Hình 8. Số 8 ở các vị trí khác nhau trong ảnh Hình 9. Mô hình mạng CNN do Krizhevsky và các cộng sự (2012) đề xuất Trong kiến trúc trên, lớp nhân chập thứ là khoảng cách Euclidean giữa hai véctơ đặc nhất thực hiện lọc ảnh đầu vào có kích thước trưng tương ứng của chúng. [227 × 227 × 3] bởi 96 bộ lọc có kích thước [11 × SVV P (1) 11 × 3] với bước dịch chuyển S = 4 pixel, P = 0 i q i kết quả thu được đầu ra có kích thước [55 × 55 × Khoảng cách Euclidean càng nhỏ thì mức 96]. Lớp nhân chập thứ hai thực hiện lọc đầu độ giống nhau của hai ảnh càng cao. Dựa vào vào có kích thước [55 × 55 × 96] bởi 256 bộ lọc có khoảng cách này có thể xác định được top k hình kích thước [5 × 5 × 96] với bước dịch chuyển ảnh giống với ảnh truy vấn nhất. S = 1 pixel, P = 2 và thu được đầu ra có kích b. Nâng cao hiệu quả tìm kiếm ảnh thước [27 × 27 × 256]. Tương tự với các lớp nhân Việc sử dụng đầu ra của lớp FC7 làm véctơ chập khác. Các lớp pooling sử dụng toán tử đặc trưng cho thấy kết quả tìm kiếm ảnh tốt. maxpooling với cửa sổ có kích thước [3 × 3] và Tuy nhiên, nó không hiệu quả trong hệ thống bước dịch chuyển S = 2. tìm kiếm ảnh với cơ sở dữ liệu lớn do việc tính Sau khi mạng được huấn luyện, đầu ra của khoảng cách Euclidean trên các véctơ chiều cao lớp FC7 được sử dụng như véctơ đặc trưng của mất nhiều thời gian. Để cải thiện thời gian truy ảnh và được sử dụng cho bài toán tìm kiếm ảnh. xuất hình ảnh, một cách đơn giản là chuyển đổi i Với ảnh truy vấn Iq và tập cơ sở dữ liệu ảnh P, các vectơ đặc trưng của ảnh thành dạng nhị gọi V và VP tương ứng là các véctơ đặc trưng q i phân. Khi đó việc so sánh độ giống nhau của hai của ảnh truy vấn Iq và của ảnh Ii trong tập P. hình ảnh có thể được thực hiện nhanh chóng Chúng tôi xác định mức độ tương tự giữa Iq và Ii bằng cách sử dụng khoảng cách Hamming. 503
Tìm kiếm ảnh theo nội dung dựa trên mạng nơron tích chập và phương pháp sinh mã nhị phân Hình 10. Mô hình mạng CNN sau khi chèn lớp ẩn H Để thực hiện ý tưởng này, chúng tôi chèn và từng ảnh trong tập train, sau đó lấy ra 1.000 thêm một lớp ẩn H sau lớp FC7 và lớp ra FC8 là ảnh có độ đo tương tự cao nhất để đánh giá độ phân loại softmax ứng với 10 lớp dữ liệu để phù chính xác của việc tìm kiếm bằng một độ đo hợp với các bộ dữ liệu mà chúng tôi sử dụng để Precision như sau: thực nghiệm. Các nơron trong lớp H được kết 1.000 nối đầy đủ với các nơron ở lớp trước và lớp sau  Rel i i1 và được kích hoạt bởi hàm truyền sigmoid. Các Precision (3) 1.000 trọng số liên kết từ lớp thứ nhất đến lớp FC7 được lấy từ mạng CNN đã được huấn luyện Trong đó Rel(i) biểu thị sự liên quan giữa ảnh truy vấn q và ảnh được xếp thứ hạng i trước đó, trọng số kết nối từ lớp FC7 tới lớp H và trong số 1.000 ảnh được lấy ra. Ở đây, chúng tôi từ lớp H đến lớp FC8 ban đầu được khởi tạo sử dụng nhãn lớp của ảnh để đo mức độ liên ngẫu nhiên và được cập nhật trong quá trình quan. Rel(i) = 1 nếu ảnh truy vấn q và ảnh thứ i huấn luyện mạng. thuộc cùng một lớp và bằng 0 nếu ngược lại. Do các nơron trong lớp H sử dụng hàm Thời gian truy vấn là thời gian trung bình truyền sigmoid nên đầu ra của lớp H ký hiệu là để tính độ đo tương tự giữa ảnh truy vấn và O(H) là các giá trị trong khoảng {0,1}, để đưa về từng ảnh trong tập train. dạng mã nhị phân chúng tôi thực hiện phân ngưỡng cho mỗi bit j = 1,„, h (với h là số nơron 2.3.2. Kết quả thực nghiệm trong lớp H) như sau: Chúng tôi thực nghiệm các trường hợp: (1) 1 nếu Oj(H) 0,5 Sử dụng đầu ra của lớp FC7 làm đặc trưng ảnh, Hj (2) khi đó, mỗi ảnh sẽ được biểu diễn bằng véctơ có 0 nếu ngược lại độ dài 4096 và sử dụng khoảng cách Euclidean Gọi P = {I1, I2, , In} là tập cơ sở dữ liệu để đo độ tương tự giữa hai ảnh; (2) sử dụng ảnh bao gồm n ảnh, mã nhị phân tương ứng phương pháp sinh mã nhị phân với số nơron trong lớp ẩn H lần lượt là 16, 32, 48, 64 và 128 của tập ảnh được ký hiệu là PH = {H1, H2,„, h chính là độ dài của vec-tơ đặc trưng (hash code), Hn} với Hi {0, 1} . Cho một hình ảnh truy trong trường hợp này, chúng tôi sử dụng khoảng vấn Iq với mã nhị phân tương ứng là Hq. cách Hamming để đo độ tương tự giữa hai ảnh. Chúng tôi xác định mức độ tương tự giữa Iq và Ij Kết quả thực nghiệm được cho trong bảng 1. là khoảng cách Haming giữa Hq và Hj. Kết quả thực nghiệm cho thấy việc sử dụng 2.3. Kết quả thực nghiệm mạng CNN vào bài toán tìm kiếm ảnh theo nội dung cho kết quả tìm kiếm với độ chính xác cao, 2.3.1. Phương pháp đánh giá tuy nhiên thời gian truy vấn khá lâu. Việc áp Với mỗi bộ dữ liệu, chúng tôi sử dụng dụng mạng CNN kết hợp với phương pháp sinh 10.000 ảnh trong tập test làm ảnh truy vấn. Với mã nhị phân không những làm tăng hiệu suất một ảnh truy vấn q và một phép đo độ tương tự, tìm kiếm mà còn cải thiện rất nhiều về thời gian chúng tôi tính độ đo tương tự giữa ảnh truy vấn truy vấn ảnh. 504
Nguyễn Thị Huyền, Trần Thị Thu Huyền, Vũ Thị Lưu Bảng 1. Kết quả thực nghiệm Bộ dữ liệu Độ dài véctơ đặc trưng Độ đo Độ chính xác (%) Thời gian truy vấn (giây) CIFAR-10 4096 Euclidean 87,48 17,43 16 (bit) Hamming 89,77 0,02 32 (bit) Hamming 89,72 0,04 48 (bit) Hamming 89,74 0,06 64 (bit) Hamming 89,79 0,07 128 (bit) Hamming 89,79 0,13 MNIST 4096 Euclidean 98,12 15,32 48 (bit) Hamming 98,31 0,05 128 (bit) Hamming 98,43 0,11 Ảnh truy vấn 4096 16 bit 16 32 bit 32 48 bit 48 64 bit 64 128 bit 128 Hình 11. Top 10 ảnh kết quả tìm kiếm ảnh trên bộ dữ liệu CIFAR-10 Hình 12. Top 10 ảnh kết quả tìm kiếm ảnh trên bộ dữ liệu MNIST 505
Tìm kiếm ảnh theo nội dung dựa trên mạng nơron tích chập và phương pháp sinh mã nhị phân Krizhevsky A., Nair V., & Hinton G. (2009). CIFAR- 3. KẾT LUẬN 10 and CIFAR-100 dataset. Retrieved from on Khi sử dụng mạng CNN trên tập hai tập dữ May 12, 2018. liệu CIFAR-10 và MNIST cho kết quả tìm kiếm Krizhevsky A., Sutskever I. & E. Hinton G. (2012). với độ chính xác cao (~ 87% trên bộ dữ liệu ImageNet Classification with Deep Convolutional CIFAR-10 và (~ 98% trên bộ dữ liệu MNIST) Neural Networks. In Proc. NIPS. nhưng thời gian truy vấn lâu (trên 10 giây). Lecun Y., Cortes C., Burges C. (1998). MNIST Thực hiện sinh mã nhị phân bằng cách chèn handwritten digit database. Retrieved from thêm một lớp ẩn vào mạng CNN cho thấy thời on May gian truy vấn đã giảm đáng kể còn chưa đến 1 12, 2018. giây. Nghiên cứu này đã cho thấy việc áp dụng Lecun Y., Bottou L., Bengio Y. & Haffner P. (1998). mạng CNN và phương pháp sinh mã nhị phân Gradient-based learning applied to document đáng được quan tâm để góp phần nâng cao hiệu recognition. Proceedings of the IEEE. quả cho các hệ thống tìm kiếm ảnh. Li H., Lin Z., Shen X., Brandt J. & Hua G. (2015). A Convolutional Neural Network Cascade for Face Detection. Proceedings of the IEEE Conference on TÀI LIỆU THAM KHẢO Computer Vision and Pattern Recognition. Babenko A., Slesarev A., Chigorin A. & Lempitsky V. pp. 5325-5334. (2014). Neural codes for image retrieval. Lecture Luo P., Tian, Y., Wang X. & Tang X. (2014). Notes in Computer Science (Including Subseries Switchable Deep Network for Pedestrian Detection Lecture Notes in Artificial Intelligence and Lecture Ping. Computer Vision Fundation. Notes in Bioinformatics), 8689 LNCS(PART 1). pp. 584-599. Lê Minh Phúc & Trần Công Án (2017). Tìm kiếm ảnh theo nội dung và ngữ nghĩa. Tạp chí Khoa Cheng Z., Yang Q. & Sheng B. (2015). Deep Colorization. Proceedings of the IEEE học, Trường Đại học Cần Thơ. Số chuyên đề: International Conference on Computer Vision. Công nghệ thông tin. tr. 58-64. pp. 415-423. Photoindustrie-Verband e.V. (2016). Photo and Ciressan D., Meier U. & Schmidhuber J. (2012). Multi- imaging market: Trend report. p. 63. column Deep Neural Networks for Image Văn Thế Thành (2017). Tìm kiếm ảnh dựa trên đồ thị Classification. Proceedings of the IEEE chữ ký nhị phân. Luận án tiến sĩ khoa học máy Conference on Computer Vision and Pattern tính. Đại học Huế. Recognition. Jia Y., Shelhamer E., Donahue J., Karayev S., Long J., Văn Thế Thành & Lê Mạnh Thạnh (2016). Một số cải Girshick R., Guadarame S. & Darrell T. (2014). tiến cho hệ truy vấn ảnh dựa trên cây S-Tree. Kỷ Caffe: Convolutional Architecture for Fast Feature yếu hội nghị khoa học quốc gia lần thứ IX - Embedding. UC Berkeley EECS, Berkeley, Nghiên cứu cơ bản và ứng dụng công nghệ thông CA 94702 tin (FAIR’9). 506