Nghiên cứu giải thuật khử méo dạng khối trong hệ thống nén video số

pdf 7 trang Gia Huy 21/05/2022 3270
Bạn đang xem tài liệu "Nghiên cứu giải thuật khử méo dạng khối trong hệ thống nén video số", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfnghien_cuu_giai_thuat_khu_meo_dang_khoi_trong_he_thong_nen_v.pdf

Nội dung text: Nghiên cứu giải thuật khử méo dạng khối trong hệ thống nén video số

  1. NGHIÊN CỨU GIẢI THUẬT KHỬ MÉO DẠNG KHỐI TRONG HỆ THỐNG NÉN VIDEO SỐ Lê Quỳnh Anh, Nguyễn Thanh Bình, Lê Phú Hưng Viện Kỹ thuật HUTECH, Trường Đại học Công nghệ TP. Hồ Chí Minh GVHD: ThS. Phạm Hùng Kim Khánh TÓM TẮT Nén video trong những năm1950 được thực hiện bằng công nghệ tương tự với tỷ số nén thấp. Hiện nay công nghệ nén đã đạt được những thành tựu cao hơn bằng việc chuyển đổi tín hiệu video từ tương tự sang số. Công nghệ nén số (Digital Compression) đòi hỏi năng lực tính toán nhanh, song ngày nay với sự phát triển của các máy tính thì điều này không còn trở ngại. Từ khóa: video, digital, phát triển, xử lý, tín hiệu. 1 GIỚI THIỆU Ý TƯỞNG Như chúng ta biết tín hiệu video có dải phổ từ 0 – 6 MHz, tuy nhiên trong nhiều trường hợp năng lượng phổ chủ yếu tập trung ở miền tần số thấp và chỉ có rất ít thông tin ở miền tần số cao. Đối với tín hiệu video số, số lượng bit được sử dụng để truyền tải thông tin đối với mỗi miền tần số khác nhau, có nghĩa là: miền tần số thấp, nơi chứa đựng nhiều thông tin, được sử dụng số lượng bít lớn hơn và miền tần số cao, nơi chứa đựng ít thông tin, được sử dụng số lượng bít ít hơn. Tổng số bít cần thiết để truyền tải thông tin về hình ảnh sẽ giảm một cách đáng kể và luồng dữ liệu được “nén ” mà chất lượng hình ảnh vẫn đảm bảo. Thực chất của kỹ thuật “nén video số” là loại bỏ đi các thông tin dư thừa. Các thông tin dư thừa trong nén video số thường là: - Độ dư thừa không gian giữa các pixel. - Độ dư thừa thời gian do các ảnh liên tiếp nhau. - Do các thành phần màu biểu diễn từng pixel có độ tương quan cao. - Độ dư thừa thống kê do các kí hiệu xuất hiện trong dòng bít với xác suất xuất hiện không đều nhau. - Độ dư thừa tâm lý thị giác (các thành phần trong tín hiệu video nằm ngoài khả năng cảm nhận của mắt). 2 NHỮNG CÔNG VIỆC LIÊN QUAN Hiện nay trên thế giới có hai tổ chức chịu trách nhiệm chính trong việc đưa ra các chuẩn về nén và giải nén video đó là ITU và ISO. - Tổ chức ITU – International Telecommunications Union chuyên tập trung vào các ứng dụng truyền thông với dòng video chuẩn H.26x, với dung lượng lưu trữ nhỏ và hiệu 212
  2. quả cao trong việc truyền tải trên mạng. Dòng H.26x bao gồm các chuẩn H.261, H.262, H.263 và H.264. - Tổ chức ISO – International Standards Organization đưa ra dòng MPEG chủ yếu tập trung phát triển các ứng dụng đa người dùng (phim, video, ). Dòng MPEG bao gồm các chuẩn MPEG-1, MPEG-2, MPEG-4. Hai tổ chức này cùng nhau lập nên nhóm JVT – Joint Video Team để đưa ra chuẩn H.264 (tổ chức ISO gọi chuẩn này là MPEG-4 Part 10). H.264 là chuẩn nén video mới nhất hiện nay và được xem là dòng nén video thế hệ thứ 3. Hình 1 cho ta thấy quá trình phát triển của các dòng video H26x và MPEG Hình 1. Quá trình phát triển các dòng video H.26x và MPEG 3 GIỚI THIỆU KỸ THUẬT 3.1 Bộ lọc méo khối trong bộ mã H.264/AVC Nhằm nâng cao chất lượng hình ảnh và hiệu suất mã hóa, H.264/AVC sử dụng các bộ lọc trong vòng mã hóa của nó. Hình 2 cho thấy cấu trúc bộ mã hóa H.264/AVC. Theo Hình 3, khung ảnh trước đây được khôi phục đi qua bộ lọc vòng (In-loop filter) trước khi đến khối ước lượng chuyển động. Do khung ảnh được lọc tương tự như khung ảnh gốc nên sẽ có vector chuyển động với độ chính xác cao hơn. Bộ khử méo khối của H26/AVC thích ứng theo ba mức độ: 1. Mức slice: mức độ lọc toàn bộ có thể được điều chỉnh theo các đặc tính riêng của từng chuỗi video. 2. Mức cạnh khối: mức độ lọc tùy thuộc vào quyết định dự đoán khối ảnh I hay P, sự khác nhau trong chuyển động. 3. Mức các mẫu: các giá trị mẫu và các ngưỡng phụ thuộc vào lượng tử có thể dừng bộ lọc cho từng mẫu riêng biệt. 213
  3. Video Source Intra Coefficient Transform Quantization Inter Scanning Bitstream Motion Motion Inverse Entropy Estimation Compensation Quantization Coding Frame Intra Frame Inverse Buffer Prediction Transform In-Loop Filter Motion Vector Hình 2. Cấu trúc bộ mã hóa của H.264/AVC Vấn đề quan trọng khi khử méo thích nghi là phân biệt được cạnh thật và cạnh bị méo khối do lượng tử. Để trách tác dụng làm mờ ảnh của các bộ lọc, cạnh thật sẽ không được lọc. Để phân biệt hai trường hợp thì các giá trị mẫu phải được phân tích khi đi qua các cạnh. Các giá trị mẫu trong hai khối 4x4 kế cận nhau được ký hiệu lần lượt là p3, p2, p1, p0 | q0, q1, q2, q3 với đường biên hiện diện nằm giữa p0 và q0 như trong Hình 3. Hình 3. Các giá trị mẫu trong hai khối 4x4 kế cận nhau Thông số Bs (Boundary Strength) có giá trị là một số nguyên từ 0 đến 4 nhằm xác định mức độ lọc được thực hiện ở mỗi cạnh của hai khối 4x4 liền kề nhau. Giá trị của Bs tùy thuộc vào chế độ và điều kiện mã hóa của hai khối kề như trong Bảng 1. 214
  4. Bảng 1. Các thông số của Bs Chế độ và điều kiện Bs Một trong số các khối là Intra và cạnh là cạnh của MB 4 Một trong số các khối là Intra 3 Cả hai khối không là Intra; p và q là các hệ số đã được mã 2 P và q có các khung tham chiếu khác nhau; p và q có giá trị 1 của vector chuyển động khác nhau Các trường hợp khác 0 Giá trị Bs đối với các cạnh của khối chrominace không được tính riêng mà sử dụng chung kết quả với các cạnh của khối luma tương ứng. Theo Bảng 1 nếu giá trị Bs = 0 thì không thực hiện quá trình lọc. Đối với các cạnh có giá trị Bs khác không thì sử dụng một cặp thông số và  phụ thuộc vào quá trình lượng tử để xác định tập các mẫu (các pixel) được lọc. Quá trình lọc các mẫu (các pixel) trên cùng một hàng được thực hiện nếu thỏa ba điều kiện sau: | | (1) | | (2) | | (3) Theo chuẩn H264, giá trị Index phục thuộc vào tham số lượng tử hóa được sử dụng trong quá trình mã hóa (Quantization Parameter – QP): (4) (5) Dãy các giá trị của QP nằm trong khoảng từ 0 – 51. Các giá trị và  được xác định theo công thức: ( ⁄ ) (6) (7) Ở mức Slice bộ mã hóa đưa ra các giá trị OffsetA và OffsetB để điều chỉnh giá trị của và  nhằm tăng hoặc giảm mức độ lọc. Các giá trị này được truyền đi trong phần header của slice. Đối với MB của tín hiệu chói (luminance) thì cạnh bên trái ngoài cùng sẽ được thực hiện lọc trước tiên sau đó là 3 cạnh tiếp theo từ trái sang phải. Tương tự cạnh trên cùng của MB được thực hiện trước khi thực hiện lọc theo chiều ngang. Việc lọc tín hiệu chrominance cũng tương tự với 1 cạnh bên ngoài và 1 cạnh bên trong đối với MB 8x8. Dựa vào giá trị Bs có thể định nghĩa hai mức độ lọc: với Bs= 4 là chế độ lọc mạnh hơn so với Bs = 1, 2, 3. Trong cả hai mode lọc này thì giá trị ngưỡng  được dùng để đánh giá hai điều kiện: 215
  5. | | (8) | | (9) 3.2 Giải thuật Weight Sums of Symmetrically Aligned Pixels Giải thuật được Averbuch và cộng sự [7] đề nghị sử dụng các pixel đối xứng qua các đường biên của khối và được viết tắt là giải thuật WSSAP. Ảnh có kích thước R x C được biểu diễn như sau: (10) Tiếp theo là chia ảnh thành từng khối 8 × 8 ký hiệu là (11) Ta định nghĩa khung khử méo khối B(Sf )r,c có kích thước . ̃ (12) Với ̃ Hình 4 minh họa (12) với Sf = 4 và 8. 0,0 0,2 0,1 Brc, Brc, Brc, Brc, 2,0 2,2 Brc, Brc, 1,0 1,1 Brc, Brc, (a) Sf = 4 (b) Sf = 8 Hình 4. Hai ví dụ về các khung . Để đơn giản, 8r+( m-(1/2)) và 8c+(n-(1/2)) trong (12) được bỏ qua, và được viết lại như (13). ̃ where (13) Các điểm ảnh được sử dụng lọc được ký hiệu là , và các điểm ảnh được lọc được định nghĩa trong (14). Các điểm ảnh và nằm đối xứng , và điểm ảnh nằm đối xứng tương ứng với tâm của khung khử méo khối. Bốn trọng số , , , là các hệ số bộ lọc. (14) Các hệ số của bộ lọc có thể được xác định trong trường hợp 1 chiều (1D) và mở rộng cho cả 2 chiều (2D) được cho trong [7]. 216
  6. 4 KẾT QUẢ MÔ PHỎNG Trước tiên áp dụng giải thuật khử méo cho ảnh tĩnh (các ảnh I trong luồng MPEG) với các thông số ngưỡng T1 = 5, T2 = 4 và QP = 50. Các thông số ngưỡng trên được lựa chọn vì có giá trị gần như tối ưu cho ảnh Lena và đã được chứng minh ở kết quả mô phỏng sau đây. Sử dụng tỷ số tín hiệu đỉnh trên nhiễu (PSNR) để đánh giá chất lượng ảnh, chúng ta có PSNR bằng 16.24dB đối với ảnh nén không sử dụng giải thuật khử méo và 32.16 dB khi sử dụng giải thuật khử méo Offset and shift. Khi sử dụng giải thuật khử méo với các vector chuyển động, tỷ lệ PSNR tăng lên tới 33.45dB. Hình 5a,b,c,d minh họa kết quả này. Hình 5a. Ảnh gốc Lena Hình 5b. Ảnh Lena sau khi giải nén Hình 5c. Giải thuật khử méo Offset và shift Hình 5d. Sử dụng vector chuyển động TÀI LIỆU THAM KHẢO [1] Seung-Ho Shin, Young-Joon Chai, Kyu-Sik Jang, Tae-Yong Kim, “ ariable Block- Based Deblocking Filter for H.264/A C” IEEE International Conference on Multimedia and Expo., p.p 436 – 439, 2007. [2] Dong-Hwan Kim, Hwa-Yong Oh, O˘guzhan Urhan, Sarp Ertürk and Tae-Gyu Chang, “Optimal Post-Process/In-Loop Filtering for Improved Video Compression Performance”, IEEE Trans. on Consumer Electronics, vol. 53, no. 4, Nov. 2007. [3] Palaparthi, R. Srivastava V.K., “A simple deblocking method for reduction of blocking artifacts”, IEEE Students' Conference on Electrical, Electronics and Computer Science (SCEECS), p.p 1 – 4, 2012. [4] Taehwan Lim, Jiman Ryu, Jongho Kim, Jechang Jeong, “Adaptive deblocking method using a transform table of different dimension DCT”, IEEE Transactions on Consumer Electronics, Volume: 54 , Issue: 4, p.p 1988 – 1995, 2008. 217
  7. [5] Renqi Zhang, Wanli Ouyang, Wai-Kuen Cham, “Image deblocking using dual adaptive FIR Wiener filter in the DCT transform domain”, IEEE International Conference on Acoustics, Speech and Signal Processing, p.p 1181 – 1184, 2009. [6] Michielin F., Calvagno G. Sartor P., Erdler, O., “A wavelets based deblocking technique for DCT based compressed materials”, 2012 IEEE International Conference on Consumer Electronics, p.p 314 – 318, 2012. [7] A. Z. Averbuch, A. Schclar and D. L. Donoho, “Deblocking of block-transform compressed images using weighted sums of symmetrically aligned pixels,” IEEE Trans. on Circuits Syst. Video Technology, vol.14, pp.200-212, Feb. 2005. 218