Nhận dạng ngôn ngữ ký hiệu tiếng Việt trong video bằng lstm và i3d đa khối

pdf 9 trang Gia Huy 17/05/2022 5450
Bạn đang xem tài liệu "Nhận dạng ngôn ngữ ký hiệu tiếng Việt trong video bằng lstm và i3d đa khối", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfnhan_dang_ngon_ngu_ky_hieu_tieng_viet_trong_video_bang_lstm.pdf

Nội dung text: Nhận dạng ngôn ngữ ký hiệu tiếng Việt trong video bằng lstm và i3d đa khối

  1. NHẬN DẠNG NGÔN NGỮ KÝ HIỆU TIẾNG VIỆT TRONG VIDEO BẰNG LSTM VÀ I3D ĐA KHỐI Vũ Hoài Nam∗, Hoàng Mậu Trung∗, Phạm Văn Cường∗ ∗Học Viện Công Nghệ Bưu Chính Viễn Thông Tóm tắt—Ngôn ngữ ký hiệu là một trong những tại mỗi khu vực, vùng, miền lại có một bộ ngôn ngữ phương tiện không thể thay thế trong giao tiếp hằng ký hiệu khác nhau. Chẳng hạn Việt Nam có 3 nhóm ngày của cộng đồng người câm điếc. Ngôn ngữ ký ngôn ngữ ký hiệu chính, đó là: ngôn ngữ ký hiệu hiệu được biểu diễn bằng cử chỉ phần thân trên của Hải Phòng, Hà Nội, Thành phố Hồ Chí Minh. Tại người thể hiện ngôn ngôn ngữ. Với sự phát triển vượt Việt Nam cộng đồng người khiếm thính chiếm tổng bậc của các công nghệ cao trong lĩnh vực học sâu và thị giác máy tính, hệ thống nhận dạng ngôn ngữ ký số 4-5% dân số của cả nước. Bên cạnh đó, hầu hết hiệu trở thành một cầu nối hiệu quả giữa cộng đồng họ không biết sử dụng ngôn ngữ ký hiệu trong cuộc người câm điếc và thế giới bên ngoài. Nhận dạng ngôn sống hàng ngày, do đó điều này trở thành rào cản ngữ ký hiệu tiếng Việt (VSLR) là một nhánh của bài để họ giao tiếp với thế giới bên ngoài. Do đó, việc toán nhận dạng ngôn ngữ ký hiệu nói chung được sử tất yếu của việc phát triển tập dữ liệu ngôn ngữ kí dụng trong cộng đồng người câm điếc Việt Nam. VSLR hiệu tiêu chuẩn và hoàn thiện một hệ thống hỗ trợ hướng đến thông dịch từ cử chỉ của người thực hiện giao tiếp cho người khiếm thính tại Việt Nam. Hệ ngôn ngữ ký hiệu sang thành văn bản. Trong bài báo thống nhận dạng ngôn ngữ ký hiệu tự động không này, chúng tôi đề xuất một phương pháp nhận dạng chỉ là một cầu nối giữa cộng đồng khiếm thính và ngôn ngữ ký hiệu tiếng Việt từ video dựa trên mô hình học sâu. Phương pháp đề xuất bao gồm hai phần chính thế giới bên ngoài mà chúng còn có vai trò quan là mô hình hai luồng mạng nơ ron tích chập (CNN) trọng trong ứng dụng về rô bốt và hệ thống tương cho đặc trưng không gian và mạng bộ nhớ dài ngắn tác người và máy tính. Hơn thế nữa việc hoàn thành (Long-Short Term Memory - LSTM) cho đặc trưng nhận dạng ngôn ngữ ký hiệu cũng giúp trẻ em khiếm thời gian. Chúng tôi đánh giá mô hình đề xuất với bộ thính có thể học về nhận thức, xã hội, cảm xúc và dữ liệu chúng tôi thu thập bao gồm 29 ký tự trong ngôn ngữ. Hệ thống nhận dạng ngôn ngữ kí hiệu ghi bảng chữ cái tiếng Việt. Thực nghiệm đạt được với độ nhận sự chuyển chộng và phân tích chuyển động của chính xác 95% chứng minh tính hiệu quả và thực tế phần trên cơ thể con người. Bởi vậy, có 2 giải pháp của phương pháp đề xuất trong việc nhận dạng ngôn chính cho vấn đề trên: tiếp cận theo hướng thị giác ngữ ký hiệu tiếng Việt. máy tính và tiếp cận theo hướng sử dụng cảm biến Từ khóa—Học sâu, nhận dạng, ngôn ngữ ký hiệu. chuyển động. Phương pháp dựa trên thị giác máy tính sử dụng đầu vào là video, trong khi đó phương pháp I. GIỚI THIỆU còn lại sử dụng tín hiệu thu được từ cảm biến. Trong số hai hướng tiếp cận này, cách tiếp cận dựa trên thị Ngôn ngữ ký hiệu là một ngôn ngữ được phát triển giác máy tính chứng tỏ sự thuận tiện và tự nhiên hơn bởi nhu cầu cần thiết trong việc giao tiếp của cộng vì chúng không yêu cầu người khiếm thính phải đeo đồng người khiếm thính. Một quan điểm sai lầm là thiết bị có chứa cảm biến gây khó chịu khi giao tiếp. ngôn ngữ ký hiệu đồng nhất trên toàn thế giới. Trên Cách tiếp cận dựa trên thị giác lấy đầu vào là một thực tế tại mỗi quốc gia khác nhau có một bộ ngôn loạt các khung hình và phân loại tập các khung hình ngữ khác nhau, thậm chí trong cùng một quốc gia này thành các từ hoặc ký tự ngôn ngữ ký hiệu tương ứng, tương tự như vấn đề nhận dạng hoạt động video. Tác giả liên hệ: Vũ Hoài Nam, email: namvh@ptit.edu.vn Đến tòa soạn: 20/08/2020, chỉnh sửa: 23/10/2020, chấp nhận Các mô hình học sâu gần đây đã được áp dụng để đăng: 26/10/2020. giải quyết hiệu quả các vấn đề nhận dạng hoạt động
  2. NHẬN DẠNG NGÔN NGỮ KÝ HIỆU TIẾNG VIỆT TRONG VIDEO BẰNG LSTM VÀ I3D ĐA KHỐI trong video [1], [2], [3]. Đề xuất của chúng tôi tận nhưng hệ thống trở nên bất tiện hơn cho người thực dụng lợi thế của các cấu trúc mạng học sâu bởi sự kết hiện ngôn ngữ ký hiệu vì họ phải đeo nhiều thiết bị hợp của I3D [1] và LSTM [4] cho nhận dạng ngôn hơn. Hơn thế nữa, cách tiếp cận này không thể nắm ngữ ký hiệu tiếng Việt. I3D module được sử dụng để bắt được toàn bộ sự thay đổi về hình dạng và chuyển nắm bắt thông tin không gian của chuyển động, còn động tương đối của các bộ phận cơ thể. LSTM module thì lại nắm bắt đặc trưng chuyển động theo theo thời gian. Để xuất của chúng tôi chia tập B. Phương pháp dựa trên thị giác máy tính khung hình đầu vào thành các khối khung hình nhỏ Với phương pháp tiếp cận này máy thu hình được hơn và đưa vào I3D module. Việc chia này dựa trên sử dụng là công cụ chính giúp ghi lại dữ liệu đầu quan sát hành động mô tả ngôn ngữ ký hiệu trong vào. Lợi thế của sử dụng máy thu hình đó là không video được cấu thành bởi nhiều các hành động con cần đeo một thiết bị nào cả và giúp giảm chi phí rời rạc bao gồm kí tự và dấu thanh. Do đó, việc chia giá thành của thệ thống. Hơn thế nữa giới hạn góc đầu vào thành khối khung hình nhỏ giúp cải thiện nhìn của máy thu hình rất lớn giúp cho có thể thu độ chính xác của hệ thống. được đồng thời nhiều người trong cuộc hội thoại. Bên cạnh đó ngày này các điện thoại thông minh đều được II. NGHIÊN CỨU LIÊN QUAN trang bị máy thu hình với độ phân giải cao đó có thể Nhận dạng ngôn ngữ ký hiệu được chia làm hai là một tiềm năng lớn cho dữ liệu đầu vào của hệ loại chính: dựa trên dữ liệu cảm biến (sensor-based) thống nhận dạng. Vì thế các tiếp cận dự trên thị giác và dựa trên thị giác máy tính (vision-based). máy tính cho hệ thống nhận dạng ngôn ngữ kí hiệu khiến cho việc giao tiếp hằng ngày của người khiếm thính tự nhiên hơn và thuật tiện hơn khi sử dụng. A. Phương pháp dựa trên dữ liệu cảm biến Do những lợi ích được đề cập trên, đã có nhiều nhà Người khiếm thính phải đeo một hoặc một số thiết nghiên cứu tập trung vào đề xuất nhận dạng ngôn bị có gắn các cảm biến khi mô tả các từ ngôn ngữ ngữ ký hiệu dựa trên thị giác bằng nhiều ngôn ngữ ký hiệu trong suốt cuộc hội thoại của họ. Bằng cách khác nhau như ngôn ngữ ký hiệu của Mỹ [9], [10], sử dụng dữ liệu cảm biến này, có thể giúp đơn giản [11], ngôn ngữ ký hiệu Trung Quốc [12], ký hiệu hóa công việc tiền xử lý dữ liệu bởi khả năng lọc Hàn Quốc ngôn ngữ [13] và ngôn ngữ ký hiệu Việt nhiễu, và yếu tố phức tạp của môi trường. Bên cạnh Nam [14], [15]. Trong [11], tác giả đã nghiên cứu đó chuyển động của người khiếm thính không bị giới hai kỹ thuật trích xuất tính năng mới của Combined hạn bởi một ngữ cảnh cụ thể nào như đứng trước một Orient Histogram and Statistical and Wavelet feature máy thu hình. Trong cách tiếp cận này, tín hiệu từ để nhận dạng ngôn ngữ kí hiệu Mỹ các số từ 0-9. các cảm biến được truyền không dây đến một thiết bị Các đặc trưng được kết hợp lại và được đưa vào một từ xa để xử lý nhận dạng [5], [6]. Tuy nhiên, với sự mạng nơ ron để huấn luyện. Tác giả của [12] triển phát triển khả năng tính toán của các thiết bị nhúng, thực hiện nắm bắt thông tin cả 2 chiều không gian một vài hệ thống nhận dạng ngôn ngữ kí hiệu đơn và thời gian trong mô hình phân loại ngôn ngữ kí giản có thể chạy trực tiếp trên các thiết bị này chẳng hiệu Trung Quốc. Đầu tiên một mô hình trích đặc hạn như găng tay điện tử hoặc vòng đeo tay thông trưng của ngôn ngữ kí hiệu được thực hiện, các đặc minh [7]. Cải tiến này có thể làm cho cách tiếp cận trưng là đầu vào của bộ phân loại SVM để nhận dạng dựa trên cảm biến phù hợp hơn trong các ứng dụng 30 loại của bảng chữ cái Trung Quốc. Kết quả của thực tế. Trong một số bài báo, có một số cách tiếp họ cho thấy Linear kernel SVM là bộ phân loại phù cận được đề xuất để tận dụng nhiều cảm biến để hợp nhất với nhận dạng ngôn ngữ kí hiệu. Để nhận nhận dạng ngôn ngữ ký hiệu. Nhóm tác giả trong [8] dạng ngôn ngữ kí hiệu Việt Nam, tác giả của [14] đề xuất một phương pháp sử dụng kết hợp các cảm được sử dụng mô tả địa phương. Trong mô đun trích biến gia tốc và cảm biến điện cơ. Các tín hiệu đến chọn đặc trưng, họ trích xuất đặc trưng không gian từ các cảm biến gia tốc và điện cơ được xử lý trước và đặc trưng ngữ cảnh để mô tả từ ngữ trong ngôn khi đưa vào bộ phân loại SVM. Theo đề xuất của ngữ ký hiệu. Sau đó một tập các đặc trưng được học họ, hệ thống nhận dạng ngôn ngữ kí hiệu có thể đạt bởi bộ phân loại SVM. Đánh giá trên tập dữ liệu của được độ chính xác 96,16% trên bộ dữ liệu tự thu thập họ cho kết quả đạt được độ chính xác là 86,61%. Từ của họ. Mặc dù các phương pháp tiếp cận dựa trên cách tiếp cận thị giác máy tính, nhận dạng ngôn ngữ nhiều cảm biến có thể đạt được độ chính xác tốt hơn ký hiệu được xem là một nhánh của nhận dạng hành
  3. Vũ Hoài Nam, Hoàng Mậu Trung, Phạm Văn Cường động với hạn chế chuyển động của một số bộ phận các video của những nhóm khác khi người đó thực trên cơ thể. Có một xu hướng trong cộng đồng nhận hiện từ khác. Do vậy, lấy động lực từ phương pháp dạng ngôn ngữ ký hiệu trong đó các nhà nghiên cứu túi từ (Bag of word), nhóm nghiên cứu đề xuất có thể đang cố gắng thay thế các đặc trưng thủ công bằng chia video của từng từ trong ngôn ngữ ký hiệu thành mô hình học sâu để cải thiện độ chính xác và độ các video nhỏ hơn để có thể áp dụng hiệu quả trong tin cậy. [15] đã sử dụng CNN-LSTM cho nhận dạng bài toán nhận dạng ngôn ngữ ký hiệu này. Mỗi hành ngôn ngữ kí hiệu Việt Nam. Kết quả của họ đã cho động Đầu ra của mô đun I3D là vector đặc trưng thấy rằng phương pháp học sâu có kết quả vượt trội 1024 chiều, sau đó được đưa qua các lớp LSTM để so với phương pháp truyền thống. Tác giả [13] đã phân loại thành các nhóm ngôn ngữ kí hiệu. phát triển một hệ thống nhận dạng ngôn ngữ kí hiệu Hàn Quốc dựa trên mạng nơ-ron tích chập CNN từ A. I3D đầu vào là các video. Tập dữ liệu của họ bao gồm 10 từ được chọn trong ngôn ngữ kí hiệu Hàn Quốc. I3D được đề xuất để giải quyết vấn đề cho nhận Phương pháp của họ đạt độ chính xác 84,5% Tắc giả dạng hành động con người (Human Activity Recog- của [16] đã xuất một phướng pháp kết hợp hai kĩ nition - HAR). I3D sử dụng Inception V1 được đào thuật mạnh nhất của học sâu là CNN trích đặc trưng tạo trước để thực hiện học tập chuyển đổi từ bộ dữ không gian và LSTM trích đặc trưng thời gian. Kết liệu ImageNet sang bộ dữ liệu video hoạt động của quả hệ thống của họ được đánh giá trên tập dữ liệu con người. Các hạt nhân của mạng Inception V1 [20] gồm 40 từ vựng thông dụng hằng ngày. Đánh giá của truyền thống được mở rộng thành các hình dạng 3 họ chỉ ra rằng mô hình dựa trên CNN-LSTM có thể chiều (3D) để phù hợp với dữ liệu đầu vào của chuỗi được thực thi trong thời gian thực cho các ứng dụng khung. Thành công của mô hình I3D dựa trên quan thực tế. Trong [17], việc nhúng CNN từ đầu đến cuối sát rằng không có bộ dữ liệu HAR nào có sẵn lớn vào mô hình Markov ẩn (HMM) đã được giới thiệu. như ImageNet. Trong tài liệu, các mô hình mạng nơ CNN-HMM lai tận dụng khả năng phân biệt đối xử ron nhân chập 3 chiều (3DCNN) được sử dụng cho mạnh mẽ của CNN và khả năng mô hình hóa trình các vấn đề phân loại video là các mô hình nông vì tự của HMM. Phương pháp được đề xuất của họ có thiếu dữ liệu. Mô hình của chúng tôi sử dụng mô thể nhận ra ngôn ngữ ký hiệu liên tục đạt tỷ lệ lỗi hình I3D được đào tạo trước để tinh chỉnh với tập dữ lần lượt là 30% và 32,5% trên bộ dữ liệu Phoenix liệu của chúng tôi. Mô hình I3D được đào tạo trước 2012 [18] và bộ dữ liệu Phoenix 2014 [19]. phù hợp với các vấn đề phân loại video HAR ngắn vì nó không chỉ nắm bắt thông tin không gian một III. PHƯƠNG PHÁP ĐỀ XUẤT cách hoàn hảo mà còn tìm hiểu các đặc điểm tạm thời của các hoạt động cục bộ. Tuy nhiên, áp dụng Đề xuất của chúng tôi được mô tả trong Hình 1 mô hình I3D trực tiếp vào bộ dữ liệu ngôn ngữ ký bao gồm 2 phần chính: mô hình I3D để trích rút đặc hiệu là không hiệu quả vì video ngôn ngữ ký hiệu trưng về mặt không gian và mô hình LSTM để trích chứa một số hành động phụ trong video thời lượng rút đặc trưng về mặt thời gian. Đầu vào là từng khung dài. Do đó, thay vì áp dụng I3D trực tiếp để nhận hình được lấy ra từ video, chúng tôi chia tập khung dạng ngôn ngữ ký hiệu, chúng tôi chia khung đầu hình thành các khối con. Sau đó với mỗi khối sẽ trở vào thành các khối phụ để lấy đầu vào cho lớp I3D. thành đầu vào của một mô đun I3D, số lượng mô Sau đó, đầu ra của lớp I3D được chuyển cho các lớp đun I3D bằng số lượng khối khung hình con. Trong LSTM để khai phá các đặc trưng toàn cục. bài báo này chúng tôi tối ưu số lượng các khối con đầu vào dựa trên kết quả thực nghiệm trên các bộ cơ sở dữ liệu. Độ dài của mỗi khối video con sẽ B. LSTM ảnh hưởng đến số lượng của các khối sau khi được LSTM là một trong những biến thể nổi tiếng nhất cắt nhỏ. Trong thực tế, nếu mô hình này được đưa của mô hình mạng thần kinh hồi quy ( Recurrent ra để nhận dạng hành động trong video nói chung Neural Network - RNN) để giải quyết vấn đề của thì sẽ cho độ hiệu quả không cao. Tuy nhiên với bài mô hình dữ liệu biến đổi theo thời gian. Ý tưởng toán nhận dạng ngôn ngữ ký hiệu, các hành động của chính chính của RNN là sử dụng trực tiếp thông tin người thực hiện ngôn ngữ ký hiệu là tập hợp của rất tuần tự. Mô hình RNN thực hiện cùng một nhiệm vụ nhiều hành động nhỏ của tay và cảm xúc trên khuôn cho mọi phần tử của chuỗi, với đầu ra phụ thuộc vào mặt, những hành động nhỏ này sẽ xuất hiện trong các tính toán trước đó. Ngoài ra, mô hình RNN có
  4. NHẬN DẠNG NGÔN NGỮ KÝ HIỆU TIẾNG VIỆT TRONG VIDEO BẰNG LSTM VÀ I3D ĐA KHỐI Hình 1. Sơ đồ khối phương pháp đề xuất. thể nắm bắt thứ tự dữ liệu chuỗi thời gian để dự đoán chính xác đầu ra. Tuy nhiên RNN gặp phải hai vấn 1 sigmoid(x) = (1) đề đó là vanishing gradient và exploding gradient. 1 + e−x Vanishing gradient xảy ta khi sự đóng góp không đáng kể thông tin cho gradient của các bước thời gian e2x − 1 xảy ra trước đó. Do đó mô hình càng sâu thì càng tanh(x) = 2x (2) khó đào tạo. Exploding gradient xảy ra khi bùng nổ e + 1 thông tin của các bước thời gian trước đó dẫn đến sự tích lũy gradient, dẫn đến cập nhật rất lớn cho trọng số của mô hình trong quá trình huấn luyện. LSTM là ft = sigmoid(Uf ∗ xt + Wf ∗ ht−1 + bf ) (3) một trong những đề xuất được đưa ra để giải quyết các nhược điểm của RNN. Một tế bào LSTM được mổ tả trong Hình 2 bao gồm cổng đầu vào it cổng đầu ra ot, và cổng quên ft. Với thiết kế gồm 3 cổng it = sigmoid(Ui ∗ xt + Wi ∗ ht−1 + bi) (4) như vậy LSTM có khả năng giải quyết vấn đề phụ thuộc dài hạn mà mô hình RNN không thể học được. Trong một bài viết, LSTM vượt trội hơn RNN trong vấn đề liên quna đến dữ liệu thay đổi theo chuỗi thời ot = sigmoid(Uo ∗ xt + Wo ∗ ht−1 + bo) (5) gian. Đạo hàm công thức cụ thể của LSTM được minh họa trong Công thức (1) - (11). Trong phương pháp đề xuất của chúng tôi, lớp LSTM được xếp chồng lên nhau sau các mô-đun I3D để tìm hiểu mối ct = ft ∗ct−1 +it ∗tanh(Uc ∗xt +Wc ∗ht−1 +bc) (6) quan hệ giữa hành động phụ trong các video ngôn ngữ ký hiệu. Đầu ra của các tế bào LSTM là trạng c h thái của tế bào đó ( t) và trạng thái ẩn ( t). Đầu vào ht = ot ∗ tanh(ct) (7) của các tế bào LSTM là trạng thái tế bào trước đó (c ), trạng thái ẩn trước đó (h ) và đầu vào của t−1 t−1 Trong đó Uf , Ui, Uo, Uc lần lượt là các tham số trạng thái thứ i (x ). t đầu vào ; Wf , Wi, Wo, Wc lần lượt là các tham số hồi quy; bf , bi, bo, bc lần lượt là các tham số độ lệch;
  5. Vũ Hoài Nam, Hoàng Mậu Trung, Phạm Văn Cường Hình 2. Kiến trúc của LSTM. Hình 3. Phân bố mẫu huấn luyện. C. Chiến lược chia khối con. Đặc điểm khác biệt của phương pháp chúng tôi đề xuất là phương pháp phân chia khối con. Phương pháp này được bắt nguồn từ việc quan sát rằng mỗi ký tự trong ngôn ngữ ký hiệu được biểu diễn đã kết hợp một loạt các hành động con. Do đó việc phân đoạn video thành các đoạn nhỏ cho kết quả tốt hơn, khi mà, mô hình có khả năng tìm hiểu và mô hình hóa mối quan hệ giữa các hành động phụ với nhau. Do đó, chúng tôi chia đầu vào video thành các khối con kích thước bằng nhau. Sau đó, các khối con này là đầu vào của I3D và LSTM như trong Hình 1. Độ dài của khối con là một tham số quan trọng cần được chọn cẩn thận. Sự lựa chọn sai của tham số này có thể làm giảm đáng kể độ chính xác của phương pháp được đề xuất. Tuy nhiên, kích thước các khối con được cố định để áp dụng vào trong các trường hợp Hình 4. Phân bố mẫu kiểm tra. thức tế. Trong phần kết quả thử nghiệm, chúng tôi đã triển khai hệ thống với các độ dài khác nhau để có được độ dài tối ưu. thu thập dữ liệu này, người tham gia được yêu cầu thực hiện các cử chỉ ngôn ngữ ký hiệu trước máy thu D. VSLB-C: Bộ dữ liệu ngôn ngữ ký hiệu tiếng Việt hình. Bên cạnh đó, người tham gia được tự do mặc ở mức độ ký tự các loại quần áo khác nhau như trong Hình 5 . Mỗi Hệ thống bảng chữ cái tiếng Việt giống với hệ người tham gia được yêu cầu thực hiện đầy đủ 29 ký thống bảng chữ cái tiếng Anh hơn là bảng chữ cái tự trong bảng chữ cái ngôn ngữ ký hiệu tiếng Việt. như hệ thống ký hiệu của Trung Quốc, Nhật Bản và Mỗi người thực hiện được ghi lại nhiều lần với các Hàn Quốc. Tuy nhiên Tiếng Việt thậm chí còn phức góc và khoảng cách khác nhau từ người tham gia và tạp hơn tiếng Anh vì đặc điểm âm sắc của chúng bao máy thu hình. Kết quả là bộ dữ liệu này bao gồm tổng gồm sáu âm khác nhau và ba dấu phụ. Do đó, việc cộng 3248 video. Chúng tôi chia dữ liệu thành phần xây dựng bộ dữ liệu mới là cần thiết để nghiên cứu huẩn luyện và phần thử nghiệm. Tổng số video cho việc nhận dạng ngôn ngữ ký hiệu tiếng Việt trong mỗi phần được chi tiết trong Hình 3 và Hình 4. Tổng video. Trong bài báo này, chúng tôi đã thu thập một số video cho mỗi người tham gia trong phần huẩn bộ dữ liệu bao gồm tất cả chữ cái tiếng Việt trong từ luyện gần như bằng nhau. Trong khi tổng số video vựng ngôn ngữ ký hiệu tiếng Việt. Trong quy trình cho mỗi người tham gia trong phần thử nghiệm là
  6. NHẬN DẠNG NGÔN NGỮ KÝ HIỆU TIẾNG VIỆT TRONG VIDEO BẰNG LSTM VÀ I3D ĐA KHỐI Hình 5. Ảnh mẫu từ tập dữ liệu video. Bảng II khác nhau đáng kể. Chiến lược chia tách này làm SỐ LƯỢNG TRỌNG SỐ HUẤN LUYỆN ĐƯỢC CỦA MÔ HÌNH ĐỀ cho quá trình huẩn luyện hiệu quả hơn nhưng đảm XUẤT bảo tính khách quan của hệ thống. Các tham số huẩn luyện của phương pháp đề xuất của chúng tôi được Layer Output shape No. of param Time distributed (None, 5, 1024) 13,344,144 thể hiện trong Bảng I và Bảng II. Tổng số tham số có LSTM (None, 5, 512) 3,147,776 thể huấn luyện là khoảng 17 triệu. Để với quá trình LSTM (None, 128) 328,192 huấn luyện hiệu quả, tỷ lệ học của chúng tôi được Dropout (None, 128) điều chỉnh ở số lượng epoch khác nhau. Trình tối Dense (None, 29) 3,741 Total Params: 16,823,853 ưu hóa của chúng tôi sử dụng là Stochastic Gradient Descent, trong khi hàm mất mát là cross entropy. Bảng I dần dần trong những epoch sau này. Nếu độ mất mát CÁC THAM SỐ CỦA MÔ HÌNH ĐỀ XUẤT và độ chính xác không ổn định trong quá trình huấn luyện, điều này cho thấy không có dấu hiệu hội tụ, Parameters Value Notes thì mô hình đề xuất không phù hợp với tập dữ liệu. 5 blocks x Input shape 8 frames x RGB image Mô hình đề xuất của chúng tôi có xu hướng hội tụ 224 x 224 x 3 đến giá trị tối ưu sau 20 epoch. Kết quả này cũng Output I3D 1024 dimensions cho thấy mô hình hoạt động hiệu quả trên bộ dữ liệu Output model 29 classes kiểm tra và xác nhận hợp lệ. Quá trình huấn luyện Epoch 40 Batch size 16 của chúng tôi dừng lại sau 40 epoch. Learning rate 1e-2 Epoch = 20 Optimizer SGD Decay = 1e-6 A. Đánh giá độ chính xác Loss function Cross entropy Đối với 29 ký tự, cách tiếp cận của chúng tôi phải phân loại các video đầu vào thành 29 nhãn khác Kết quả của quá trình huấn luyện được thể hiện nhau. Chúng tôi đánh giá các mô hình bằng cách trong Hình 6 và Hình 7. Giá trị mất mát và độ chính sử dụng độ đo F1, xem xét phân loại chính xác của xác của quá trình huấn luyện có xu hướng dao động từng lớp quan trọng như nhau. Chiến lược chia tách mạnh trong những epoch đầu tiên, sau đó ổn định theo khối được mô tả trong phần trước. Từ kết quả
  7. Vũ Hoài Nam, Hoàng Mậu Trung, Phạm Văn Cường thể đều có thể được phân loại chính xác, ngoại trừ một vài ký tự rất giống nhau trong biểu diễn ngôn ngữ ký hiệu như u và ô, m và n, l và đ. Bảng III KẾT QUẢ SO SÁNH Method F1 score Standard I3D 89.2 CNN1D+LSTM 87.6 3DCNN 86.2 Our proposed method 92.3 B. Thử nghiệm thực tế Trong thực nghiệm này, chúng tôi cũng tích hợp Hình 6. Biến đổi độ chính xác trong quá trình huấn luyện mô hình vào ứng dụng trong thế giới thực khi một cá nhân muốn giao tiếp với người câm điếc. Họ thực hiện các hoạt động ngôn ngữ ký hiệu trước một máy thu hình. Trong tiếng Việt, giống như các ngôn ngữ Latinh khác, một từ là sự kết hợp một tập hợp các ký tự. Từ quan điểm này, chúng tôi xây dựng một ứng dụng dựa trên web để người dùng nhập một loạt ký tự ngôn ngữ ký hiệu. Nếu người dùng muốn nói "tôi". họ sẽ nhập t, oo, i bằng tiếng Việt theo thứ tự (tôi). Các thí nghiệm cũng cho thấy hệ thống có thể hoạt động trong miền thời gian thực. Thời gian xử lý để xác định một ký tự riêng lẻ là khoảng 200 mili giây với cạc màn hình GTX 1070 TI . V. KẾT LUẬN Bằng cách so sánh độ chính xác của mô hình được đề xuất với I3D tiêu chuẩn, mô hình của chúng tôi Hình 7. Biến đổi hàm mất mát trong quá trình huấn luyện cho kết quả cao hơn, nhưng độ phức tạp tính toán tương tự như I3D tiêu chuẩn. Để mô hình được triển khai trong thực tế, bộ sưu tập cơ sở dữ liệu cần thêm trong Bảng III, chúng ta có thể thấy rằng phương một số ký tự n Unicode để mã hóa sáu âm và ba dấu pháp được đề xuất của chúng tôi đạt được chỉ số F1 phụ trong ngôn ngữ ký hiệu tiếng Việt. Nếu một ký cao hơn so với phương pháp cơ sở sử dụng mạng tự được đặt thành chuyển đổi câu là cần thiết, ký tự I3D tiêu chuẩn là phương pháp tốt nhất hiện tại và "khoảng trắng" cũng phải được thêm vào cơ sở dữ các phương pháp khác như CNN1D kết hợp LSTM liệu. Vào thời điểm đó, nhóm nghiên cứu của chúng và 3DCNN. Kết quả này có thể được giải thích bởi tôi sẽ tham khảo ý kiến các chuyên gia ngôn ngữ ký thực tế là mỗi hoạt động từ video đầu vào bao gồm hiệu của Việt Nam để liên kết hoạt động ngôn ngữ một vài hoạt động phụ. Do đó, mô hình của chúng ký hiệu liên quan đến kí hiệu "khoảng trắng". Mô tôi tìm ra được cơ chế phân chia theo khối hiệu quả hình đề xuất có thể được sử dụng để xây dựng một cho thấy hiệu suất tốt hơn. Do đó, điểm F1 cho việc từ điển cho cả cộng đồng người câm điếc và những sử dụng mạng I3D chỉ là 89,2% trong khi con số người khác. Một thử nghiệm thực nghiệm được tiến này cho phương pháp được đề xuất của chúng tôi đạt hành để xác minh phương pháp được đề xuất của 92,3%. Ma trận sai số chi tiết của mô hình phân loại chúng tôi, dựa trên cơ sở dữ liệu VSLB-C. Kết quả được đề xuất được đưa ra trong Hình 8. Như được đánh giá đã chứng minh tính khả thi của việc nhận hiển thị trong ma trận sai số, hầu hết các ký tự cụ biết ngôn ngữ ký hiệu tiếng Việt. Công việc trong
  8. NHẬN DẠNG NGÔN NGỮ KÝ HIỆU TIẾNG VIỆT TRONG VIDEO BẰNG LSTM VÀ I3D ĐA KHỐI Hình 8. Ma trận sai số của phương pháp đề xuất. tương lai nên điều tra các mô hình phân cấp sâu để [6] Praveen, Nikhita, Naveen Karanth, and M. S. Megha. "Sign học tập hiệu quả hơn và xây dựng cơ sở dữ liệu ngôn language interpreter using a smart glove." In 2014 Interna- tional Conference on Advances in Electronics Computers ngữ ký hiệu dựa trên tiếng Việt để giao tiếp thuận and Communications, pp. 1-5. IEEE, 2014. tiện hơn giữa người câm điếc và người khác. [7] Dai, Qian, Jiahui Hou, Panlong Yang, Xiangyang Li, Fei Wang, and Xumiao Zhang. "The sound of silence: end- LỜI CẢM ƠN to-end sign language recognition using smartwatch." In Proceedings of the 23rd Annual International Conference Nghiên cứu này được tài trợ bởi chương trình học on Mobile Computing and Networking, pp. 462-464. 2017. bổng trong nước của Quỹ đổi mới của tập đoàn [8] Wu, Jian, Lu Sun, and Roozbeh Jafari. "A wearable system VinGroup mã số: VINIF.2019.TS.41. for recognizing American sign language in real-time using IMU and surface EMG sensors." IEEE journal of biomed- TÀI LIỆU THAM KHẢO ical and health informatics 20, no. 5 (2016): 1281-1290. [9] Starner, Thad, Joshua Weaver, and Alex Pentland. "Real- [1] Carreira, Joao, and Andrew Zisserman. "Quo vadis, action time american sign language recognition using desk and recognition? a new model and the kinetics dataset." In wearable computer based video." IEEE Transactions on proceedings of the IEEE Conference on Computer Vision pattern analysis and machine intelligence 20, no. 12 (1998): and Pattern Recognition, pp. 6299-6308. 2017. 1371-1375. [2] Hong, Jongkwang, Bora Cho, Yong Won Hong, and Hy- [10] Zafrulla, Zahoor, Helene Brashear, Thad Starner, Harley eran Byun. "Contextual Action Cues from Camera Sensor Hamilton, and Peter Presti. "American sign language recog- for Multi-Stream Action Recognition." Sensors 19, no. 6 nition with the kinect." In Proceedings of the 13th inter- (2019): 1382. national conference on multimodal interfaces, pp. 279-286. [3] Wang, Xianyuan, Zhenjiang Miao, Ruyi Zhang, and Shan- 2011. shan Hao. "I3D-LSTM: A New Model for Human Action [11] Thalange, Asha, and S. K. Dixit. "COHST and wavelet Recognition." In IOP Conference Series: Materials Science features based Static ASL numbers recognition." Procedia and Engineering, vol. 569, no. 3, p. 032035. IOP Publish- Computer Science 92 (2016): 455-460. ing, 2019. [12] Yang, Quan. "Chinese sign language recognition based on [4] Gers, Felix A., Jurgen¨ Schmidhuber, and Fred Cummins. video sequence appearance modeling." In 2010 5th IEEE "Learning to forget: Continual prediction with LSTM." Conference on Industrial Electronics and Applications, pp. (1999): 850-855. 1537-1542. IEEE, 2010. [5] Das, Abhinandan, Lavish Yadav, Mayank Singhal, Raman [13] Shin, Hyojoo, Woo Je Kim, and Kyoung-ae Jang. "Korean Sachan, Hemang Goyal, Keshav Taparia, Raghav Gulati, sign language recognition based on image and convolution Ankit Singh, and Gaurav Trivedi. "Smart glove for Sign neural network." In Proceedings of the 2nd International Language communications." In 2016 International Confer- Conference on Image and Graphics Processing, pp. 52-55. ence on Accessibility to Digital World (ICADW), pp. 27- 2019. 31. IEEE, 2016.
  9. Vũ Hoài Nam, Hoàng Mậu Trung, Phạm Văn Cường [14] Vo, Anh H., Nhu TQ Nguyen, Ngan TB Nguyen, Van-Huy streams convolutional neural network (CNN) for the Pham, Ta Van Giap, and Bao T. Nguyen. "Video-Based spatial features and long-short term memory (LSTM) Vietnamese Sign Language Recognition Using Local De- scriptors." In Asian Conference on Intelligent Information network for the temporal features. We evaluated the and Database Systems, pp. 680-693. Springer, Cham, 2019. framework with our acquired dataset including 29 [15] Vo, Anh H., Van-Huy Pham, and Bao T. Nguyen. "Deep Vietnamese alphabets, 5 tone marks, and a space Learning for Vietnamese Sign Language Recognition in symbol. The experiments achieved satisfactory re- Video Sequence."International Journal of Machine Learn- sults of 95% F1 score which proves the feasibility ing and Computing 9, no. 4 (2019). [16] Yang, Su, and Qing Zhu. "Continuous Chinese sign lan- and applicability of the proposed approach. guage recognition with CNN-LSTM." In Ninth Interna- Keywords: Vietnamese sign language, video recog- tional Conference on Digital Image Processing (ICDIP nition, deep learning 2017), vol. 10420, p. 104200F. International Society for Optics and Photonics, 2017. [17] Koller, Oscar, Sepehr Zargaran, Hermann Ney, and Richard Bowden. "Deep sign: enabling robust statistical continuous sign language recognition via hybrid CNN-HMMs." Inter- Vu Hoai Nam nhận bằng kỹ sư Điện tử national Journal of Computer Vision 126, no. 12 (2018): Viễn thông tại Đại học Bách Khoa Hà Nội 1311-1325. năm 2013 và bằng thạc sỹ Khoa học Máy [18] Forster, Jens, Christoph Schmidt, Thomas Hoyoux, Oscar tính tại Đại học Quốc gia Chonnam, Hàn Koller, Uwe Zelle, Justus H. Piater, and Hermann Ney. Quốc năm 2015. Hiện tại, Thạc sỹ Nam "RWTH-PHOENIX-Weather: A Large Vocabulary Sign đang là nghiên cứu sinh nghành Khoa học Language Recognition and Translation Corpus." In LREC, Máy tính tại Học viện Công nghệ Bưu vol. 9, pp. 3785-3789. 2012. chính Viễn thông. Từ năm 2016, thạc sỹ [19] Cihan Camgoz, Necati, Simon Hadfield, Oscar Koller, Nam là giảng viên bộ môn Khoa học máy Hermann Ney, and Richard Bowden. "Neural sign language tính, Học viện Công nghệ Bưu chính Viễn thông. Hướng nghiên translation." In Proceedings of the IEEE Conference on cưu của thạc sỹ Nam bao gồm xử lý ảnh UAV, học máy, và học Computer Vision and Pattern Recognition, pp. 7784-7793. sâu. 2018. [20] Szegedy, Christian, Wei Liu, Yangqing Jia, Pierre Ser- manet, Scott Reed, Dragomir Anguelov, Dumitru Er- han, Vincent Vanhoucke, and Andrew Rabinovich. "Going deeper with convolutions." In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. Hoang Mau Trung là sinh viên đại học 1-9. 2015. nghành Khoa học máy tính, Học viện Công nghệ Bưu chính Viễn thông. Hướng VIETNAMESE SIGN LANGUAGE nghiên cứu chính của Trung là xử lý ảnh RECOGNITION IN VIDEO BY và học sâu. MULTI-BLOCK I3D AND LSTM Abstract: Sign language is an irreplaceable means in the daily communication of the deaf-mute com- munity. Sign language is represented by the gesture of the upper body part. With the development of advanced technology, the Sign language recognition Pham Van Cuong là Phó giáo sư nghành Khoa học máy tính tại Học viện Công system has become an effective bridge between the nghệ Bưu chính Viễn thông (PTIT). Trước deaf-mute community with the outside world. Viet- khi tham gia giảng dạy tại Học viện, Phó namese sign language recognition (VSLR) is a branch giáo sư Cường là nghiên cứu viên chính tại trung tâm nghiên cứu phát triển của of sign language recognition used by the community Philips tại Hà Lan. Phó giáo sư Cường of Vietnamese deaf-mute people. VSLR aims to nhận bằng cử nhân Khoa học máy tính tại correctly interpret the gestures in sign language into Đại học Quốc gia Hà Nội năm 1998, và their corresponding text. In this paper, we propose nhận bằng Thạc sỹ nghành Khoa học máy tính tại Đại học New Mexico, Mỹ năm 2005. Phó giáo sư Cường nhận bằng Tiến sỹ a method for identifying sign language from videos tại Đại học Newcastle, Anh năm 2012. Hướng nghiên cứu chính based on deep learning framework. The proposed của Phó giáo sư Cường là tính toán khắp nơi, tính toán trên các method includes two main parts which are two thiết bị đeo dán, nhận dạng hoạt động người và học sâu.