Luận văn Xử lí âm thanh và hình ảnh hoàn chỉnh

98 trang hoanguyen 8771

Download

Bạn đang xem 20 trang mẫu của tài liệu "Luận văn Xử lí âm thanh và hình ảnh hoàn chỉnh", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

luan_van_xu_li_am_thanh_va_hinh_anh_hoan_chinh.doc

Nội dung text: Luận văn Xử lí âm thanh và hình ảnh hoàn chỉnh

Luận văn Xử lí âm thanh và hình ảnh hoàn chỉnh 1
MỤC LỤC DANH MỤC HÌNH VẼ, BẢNG BIỂU 5 CÁC THUẬT NGỮ VIẾT TẮT 7 CHƯƠNG I: GIỚI THIỆU 11 1.1. Nhu cầu cần thiết của việc nén hình ảnh và video: 12 1.2. Tính khả thi của việc nén hình ảnh và video: 13 1.2.1. Dư thừa thống kê: 13 1.2.1.1. Không gian Redundancy 13 1.2.1.2 Thời gian dự phòng 15 1.2.1.3. Mã hóa Dự phòng. 19 1.2.2. Dự phòng PSYCHOVISUAL 21 1.2.2.1. Mặt nạ chói 22 1.2.2.2. Kết cấu mặt nạ 25 1.2.2.3 Tần số mặt nạ 27 1.2.2.4 Mặt nạ thời gian 29 1.2.2.5 Mặt nạ màu 29 1.2.2.6. Chắn màu và ứng dụng của nó trong việc nén Video 32 1.2.2.7. Tóm tắt: Độ nhạy vi phân 33 1.3. Đo lường chất lượng hình ảnh 34 1.3.1 Đo lường chất lượng chủ quan 35 1.3.2. Mục tiêu chất lượng đo lường: 37 1.3.2.2 Mục tiêu đo lường chất lượng: 39 2
1.4 Kết quả lý thuyết thông tin 42 1.4.1 Dữ liệu ngẫu nhiên (ENTROPY) 43 1.4.1.1 Biện pháp thông tin 43 1.4.1.1. Đơn vị đo lường thông tin 43 1.4.1.2 Thông tin trung bình trong mỗi kí hiệu 44 1.4.2 Thuyết mã hóa nguồn Shannon 44 1.4.3 Mã hóa định kênh nhiễu của shannon 45 1.4.4. Định lý mã hóa nguồn của shannon 46 1.4.5 Định lý truyền tải thông tin 47 1.5 TÓM TẮT 47 1.6. Các bài tập 48 CHƯƠNG 11: KHỐI KẾT HỢP 50 11.1. Không chồng chéo, cách đều nhau, kích thước cố định, khối kết hợp nhỏ hình chữ nhật 50 11.2. Tiêu chí kết hợp 52 11.3. Thủ tục tìm kiếm 54 11.3.1. Tìm kiếm đầy đủ. 55 11.3.2. Tìm kiếm Logarít. 55 11.3.3. Ba bước tìm kiếm đơn giản. 57 11.3.4. Hướng tìm kiếm liên hợp 57 11.3.5. Lấy mẫu con trong cửa sổ tương quan. 59 11.3.6. Đa phân giải khối kết hợp. 59 11.3.7. Ngưỡng phù hợp với nhiều độ phân giải. 61 3
11.4. Kết hợp chính xác 70 11.5 Giới hạn với kỹ thuật kết hợp khối 71 11.6. Những cải tiến mới 73 11.6.1. Cấu trúc khối kết hợp 73 11.6.2. Khớp khối đa lưới 77 11.6.3 Đoán trước sự thay đổi lĩnh vực chia nhỏ gói dữ liệu 84 11.6.4. Sự thích ứng vùng phủ các khối 88 11.7 Tổng kết 90 11.8 - Bài tập 93 4
DANH MỤC HÌNH VẼ, BẢNG BIỂU Hình 1.1: Hình ảnh và video nén để truyền hình ảnh và lưu trữ. 12 Hình 1.3: Tự tương quan theo chiều ngang đối với một số hình ảnh.(Sau khi Kretzmer, 1952.) 17 Hình 1.4: Phổ công suất điển hình của một tín hiệu phát sóng truyền hình 18 Hình 1.5: (a) khung 21, và (b) khung hình 22 "Hoa hậu Mỹ" 19 Hình 1.6 Mô hình hai đơn vị xếp tầng của hệ thống thị giác của con người (HVS) 21 Hình 1.7: Một đối tượng thống nhất với màu xám mức I1 với nền tảng là màu xám ở mức I2 23 Hình 1.8 Cầu Burrard ở Vancouver. (a) hình ảnh gốc (lịch sự Shi của Minhuai). (b) Hình ảnh đồng nhất bị hỏng bởi nhiễu phụ trắng Gaussian.25 Hình 1.9 Giáng sinh tại Winorlia. (a) Bản gốc. (b)-bit lượng tử hóa. (c) Cải thiện lượng IGS với bốn bit 26 Hình 1.10: Mức độ nhạy cảm so với tần số không gian. (Sửa đổi từ Van Ness và Bouman[1967] và Mullen[1985].) 34 Hình 1.11. Hệ thống xử lý âm thanh hình ảnh 37 Hình 11.1. Khối kết hợp. 51 Hình 11.2. Cửa sổ tìm kiếm và cửa sổ tương quan 53 Hình 11.3: (a) 2-D lôgarít tìm kiếm thủ tục. tại điểm (j, k+2), (j+2, k+2), (j+2, k+4), và (j+1, k+4). Được tìm thấy để cung cấp cho sự khác nhau tối thiểu trong các bước 1, 2, 3, và 4, tương ứng lôgarít tìm kiếm thủ tục. (b) A 2-D lôgarít tìm kiếm thủ tục tại điểm (j, k-2), (j +2, k-2), và (j +2, k-1) được tìm thấy để cung cấp cho sự khác nhau tối thiểu trong các bước 1, 2, 3, và 4, tương ứng 56 Hình 11.4 thủ tục tìm kiếm ba bước. Điểm (j +4, k-4), (j +4, k-6), và (j +5,k-7) cung cấp cho tối thiểu sự khác nhau trong các bước 1, 2 và 3, tương ứng 57 5
Hình 11.5: Hướng tìm kiếm liên hợp 58 Hình 11.6: một ví dụ về lấy mẫu con 2 x 2 trong khối ban đầu và cửa sổ tương quan cho tìm kiếm một cách nhanh chóng . 60 Hình 11.7 Gaussian cấu trúc kim tự tháp. 61 Hình 11.8: Sơ đồ chặn cho phù hợp với ngưỡng ba cấp độ phân giải 64 Bảng 11.1: Các tham số được sử dụng trong những thí nghiệm này 64 Hình 11.10: Khung thứ 20 của chuỗi “Tàu hỏa” 68 Hình 11.11: Khung thứ 20 của chuỗi “Bóng đá” 68 Bảng 11.2: Kết quả thí nghiệm 69 Hình 11.12. Khung 21 tái tạo của "Hoa hậu Mỹ" trình tự bằng cách sử dụngmột cách giải mã H.263 72 Hình 11.13: Kết hợp khối phân cấp 74 Bảng 11.3: Các Kết quả thí nghiệm (II) 74 Bảng 11.4: Các tham số được sử dụng trong khớp khối theo thứ tự 3 mức 76 Hình 11.14: Một phần của bức ảnh với các điểm ảnh được xử lý trong cả 3 mức 77 Hình 11.15: Cấu trúc phân cấp 3 mức khác nhau 78 Hinh 11.16 : Sơ đồ của nhiều khối kết hợp 80 Hình 11.18 : Khung hình thứ 20 của chuỗi “ vườn hoa” 84 Hình 11.20: Khung hình thứ 20 của sự phối hợp chuỗi “bàn đánh bóng bàn” 87 Hình 11.21: Sự chổng chéo của các khối thích ứng 89 6
CÁC THUẬT NGỮ VIẾT TẮT Từ viết tắt Nghĩa Tiếng Anh Nghĩa Tiếng Việt MAD Mean Administrative Delay (Series E) Thời gian trễ quản MSE Maintenance Sub-Entities (Series M) Các thực thể bảo PSNR Peak Signal to Noise Ratio Tỉ số tín hiệu đỉnh trên nhiễu ITU-T International Telecommunication Ban tiêu chuẩn hóa viễn Union Telecommunication thông trong Liên minh Standardization Bureau viễn thông quốc tế SNR signal-to-noise ratio Nhiễu tạp âm HDTV High-definition television Truyền hình độ nét cao VLSI Very Large Scale Integration Tích hợp quy mô rất lớn ATSC Australian Telecommunications Ủy ban tiêu chuẩn hóa Úc Standardisation Committee FCC Federal Communications Commission Hội Đồng Truyền Thông Liên Bang DTV Digital Television Truyền hình số DBS Direct Broadcast Satellite Vệ tinh quảng bá trực tiếp VOD Video on Demand Video theo yêu cầu 7
CD Call Deflection Đổi hướng cuộc gọi TV Television Truyền hình WWW World Wide Web Internet IEEE Institute of Electrical and Electronic Viện kỹ thuật điện và điện Engineers tử CRC Cyclic redundancy check Mã phát hiện lỗi LLC logical link control Điều khiển liên kết logic MPEG Motion Picture Experts Nhóm các chuyên gia về Group(ISO/IEC) hình ảnh động PCM Pulse-code modulation Điều xung mã DPCM Differential pulse-code modulation Điều chế xung mã vi phân DM Delta modulation Điều chế delta DCT Data Calling Tone Âm báo cuộc gọi dữ liệu JPEG Joint Photographic Experts Group Nhóm liên hợp các chuyên (ISO) gia đồ họa RL Return Loss Suy hao quay trở về WT Working Text (DSL Forum) Đề mục làm việc (diễn đàn DSL DFD Displaced Frame Difference Sự khác nhau về khung 8
thay thế SNHC Synthetic-Natural Hybrid Coding Mã hoá lai nhân tạo - tự nhiên CIF Common Intermediate Format Dạng trung gian chung HVS Human visual system Hệ Thống Hình Ảnh Của Con Người AWGN Additive white gaussian noise Nhiễu trắng Gauss bổ sung IGS Identify Graphic Subrepertoire (Series Nhận dạng siêu danh mục T, X) đồ họa RGB Red-green-blue Mô Hình Màu CRT Cathode Ray Tube Ống tia cathode NTSC National Television System Uỷ ban hệ thống truyền Committee hình quốc gia SECAM système electronique couleur avec Tiêu chuẩn tín hiệu truyền memoire hình (625 dòng, 50 Hz, 220 V) dùng ở Pháp, các nước đông Âu, Liên xô cũ và một số nước Châu Phi. CCIR International Radio Consultative Tiền thân của tổ chức ITU- Committee T 9
RMSE Root mean square Error (Series E) Lỗi trung bình toàn phương 10
CHƯƠNG I: GIỚI THIỆU Nén dữ liệu hình ảnh và video đề cập đến một quá trình mà trong đó lượng dữ liệu sử dụng mà tiêu biểu là hình ảnh và video được nén xuống để đáp ứng yêu cầu về tốc độ bít (thấp hơn hoặc bằng giá trị tốc độ bít tối đa), trong khi chất lượng của tái tạo hình ảnh và video đáp ứng 1 yêu cầu dành cho 1 ứng dụng nào đó và độ phức tạp tính toán ở mức phải chăng dành cho 1 ứng dụng. Các sơ đồ khối trong hình 1.1 mô tả các chức năng của nén dữ liệu hình ảnh và video trong truyền dẫn hình ảnh và lưu trữ. Việc nén dữ liệu ảnh và video được tìm thấy được cho là cần thiết dành cho các ứng dụng quan trọng bởi vì 1 lượng lớn dữ liệu sẽ làm phức tạp hóa cho các ứng dụng này và các ứng dụng khác mà nó rất thường xuyên rất lớn và vượt quá khả năng của phần cứng ngày nay bất chấp những tiến bộ nhanh chóng trong lĩnh vực chất bán dẫn, máy tính và các ngành công nghiệp liên quan khác. Cần phải chú ý là thông tin và dữ liệu là 2 khái niệm rất gần nhau nhưng lại khác nhau. Mô tả dữ liệu thông tin và có thể đo được số lượng. Trong bối cảnh của hình ảnh số và video, dữ liệu thường được đo bằng số lượng các đơn vị nhị phân (bits). Trông tin được định nghĩa như là kiến thức (sự hiểu biết), các sự kiện và các tin tức theo từ điển tiếng Anh quốc tế Cambridge. Trong khi dữ liệu là sự biểu thị của kiến thức, các sự kiện và các tin tức thì thông tin là kiến thức, sự kiện và tin tức. Tuy nhiên, thông tin cũng có thể đo lường, định lượng. Tỷ lệ bít (tốc độ mã hóa), là 1 tham số quan trọng trong nén hình ảnh và video và thường được thể hiện theo 1 đơn vị là bits/sec, điều này rất tiện dụng trong truyền thông hình ảnh. Trong thực tế, ví dụ như trong mục 1.1 về việc giả video (1 trường hợp của truyền hình ảnh) sử dụng tốc độ bít trong thuật ngữ bits/sec hoặc bps. Trong ứng dụng lưu trữ hình ảnh, tốc độ bít thường được biểu diễn bằng 1 đơn vị là bits/pixel (bpp). Thuật ngữ pixel là 1 từ viết tắt của các phần tử ảnh và đôi khi được gọi là PEL. Trong mã hóa nguồn thông tin, tốc độ bít đôi khi được thể hiện bằng 1 đơn vị là bit/symbol (bit/ký tự). Trong mục 1.4.2, khi thảo luận về định lý mã hóa nguồn không nhiễu, chúng ta xem xét tốc độ bít trên phương diện độ dài trung bình của các từ mã theo đơn vị bit/symbol. Yêu cầu về chất lượng của việc tái tạo hình ảnh và video phụ thuộc vào từng ứng dụng. Trong chẩn đoán y học và 1 số đo lường khoa học, chúng ta có thể cần việc tái tạo hình ảnh và video để nhân bản hình ảnh và video gốc. Nói theo cách khác, cơ chế bảo quản thông tin được cho phép. Đây là kỹ thuật nén không tổn thất. Trong các ứng dụng như ảnh động và ti vi, cho phép có 1 lượng thông tin nhât định bị mất mát . Đây là kỹ thuật nén có tổn thất. Từ định nghĩa, người ta có thể thấy nén dữ liệu hình ảnh và âm thanh bao gồm 1 số khái niệm cơ bản như thông tin, dữ 11
liệu, chất lượng hình ảnh của hình ảnh và video và độ phức tạp tính toán. Chương này đề cập đến 1 số khái niệm cơ bản trong nén hình ảnh và video. Đầu tiên, thảo luận về sự cần thiết cũng như tính khả thi của nén dữ liệu hình ảnh và video. Việc thảo luận xung quanh việc sử dụng 1 số dư thừa tồn tại trong dữ liệu hình ảnh và video, và nhận thức trực quan về cơ quan thị giác của con người. Từ đó chất lượng của việc tái tạo hình ảnh và video là 1 trong những mối quan tâm chính, để các biện pháp chủ quan cũng như khách quan về chất lượng hình ảnh được giải quyết. Từ đó, chúng ta trình bày 1 số kết quả lý thuyết thông tin cơ bản để thấy rằng nó đóng vai trò chủ chốt trong nén hình ảnh và video. Hình 1.1: Hình ảnh và video nén để truyền hình ảnh và lưu trữ. 1.1. Nhu cầu cần thiết của việc nén hình ảnh và video: Không cần phải nói, thị giác đóng tầm quan trọng sống còn giúp con người nhận thức, nhận biết, và hiểu thế giới xung quanh. Với sự tiến bộ to lớn của công nghệ tiên tiến, đặc biệt là ở quy mô sự tích hợp mạch cỡ lớn (VLSI), và hơn bao giờ hết video được sử dụng rộng rãi trong cuộc sống hàng ngày. Ví dụ như videophony, hội nghị truyền hình, truyền hình độ nét cao (HDTV), và đĩa video kỹ thuật số (DVD) Video như là một chuỗi các khung hình video, tuy nhiên, liên quan đến một số lượng lớn dữ liệu. Chúng ta hãy xem xét một ví dụ minh họa. Giả sử hiện nay việc chuyển đổi modem mạng điện thoại (PSTN) có thể hoạt động với tốc độ bit tối đa là 56.600 bit mỗi giây. Giả sử mỗi khung hình video có độ phân giải là 288 và 352 (288 dòng và 352 điểm ảnh trên mỗi dòng), đó là so sánh với một hình ảnh truyền hình bình thường và được gọi là định dạng trung gian phổ biến (CIF). Ba màu cơ bản RGB (đỏ, xanh lá cây, xanh dương) được đại diện cho 1 pixel với 8 bit, và tỷ số khung hình trong truyền tải là 30 khung hình mỗi giây để cung cấp một đoạn video chuyển động liên tục. Sau đó tỷ số bit yêu cầu là 288 x 352 x 8 x 3 x 30 = 72.990.720 bps. Do đó, tỷ số giữa tỷ số bit yêu cầu và tốc độ bit lớn nhất có thể là khoảng 1289. Nghĩa là chúng 12
ta phải nén dữ liệu video ít nhất 1289 lần để thực hiện việc truyền tải được mô tả trong ví dụ này. Với các dịch vụ video ngày càng phức tạp như phim 3D, trò chơi 3D và video chất lượng cao như HDTV, việc nén dữ liệu video là cần thiết. Nó trở thành một công nghệ cho phép thu hẹp khoảng cách giữa số lượng lớn yêu cầu của dữ liệu video và khả năng hạn chế của phần cứng. 1.2. Tính khả thi của việc nén hình ảnh và video: Trong phần này chúng ta sẽ thấy rằng việc nén hình ảnh và video không chỉ là một điều cần thiết cho sự phát triển nhanh chóng của truyền thông hình ảnh kỹ thuật số, mà nó cũng khả thi. Tính khả thi của nó thuộc về hai kiểu dư thừa, ví dụ, dư thừa thống kê và dư thừa tâm lí thị giác. Bằng cách loại bỏ các dư thừa, chúng ta có thể nén hình ảnh và video. 1.2.1. Dư thừa thống kê: Dư thừa thống kê có thể được phân loại thành hai loại: dư thừa interpixel và dư thừa mã hóa. Dư thừa interpixel nghĩa là điểm ảnh của một khung hình ảnh và các điểm ảnh của một nhóm các hình ảnh kế tiếp hoặc khung video không phải là thống kê độc lập. Ngược lại, chúng là tương quan với mức độ khác nhau.(Lưu ý rằng sự khác biệt và mối quan hệ giữa hình ảnh và chuỗi video được thảo luận trong Chương 10, khi chúng ta bắt đầu thảo luận về nén video). Mối tương quan interpixel được gọi là dư thừa interpixel( trong điểm ảnh ). Dư thừa Interpixel có thể được chia thành hai loại, dư thừa không gian và dư thừa thời gian. Bằng cách mã hóa dư thừa, dư thừa thống kê liên quan đến kỹ thuật mã hóa. 1.2.1.1. Không gian Redundancy Không gian dự phòng đại diện cho mối tương quan thống kê giữa các điểm ảnh trong một khung hình ảnh. Do đó nó còn được gọi là intraframe dự phòng. Nó cũng được biết rằng đối với hầu hết đúng mẫu TV tín hiệu tự tương quan bình thường hệ số cùng một hàng (hoặc một cột) với một sự thay đổi một điểm ảnh là rất gần với giá trị tối đa là 1. Đó là, các giá trị cường độ của các điểm ảnh cùng một hàng (hoặc một cột) có tự tương quan rất cao (Gần với tự tương tối đa) với những điểm ảnh dọc theo cùng một hàng (hoặc tương tự cột), nhưng thay đổi bởi một điểm ảnh. Điều này không có gì đáng ngạc nhiên bởi vì cường độ giá trị thay đổi liên tục từ điểm ảnh cho điểm ảnh trong một khung hình ảnh ngoại trừ các khu vực cạnh. Điều này được thể hiện trong hình 1.2. Hình 1.2 (a) là một hình ảnh bình thường - một cậu bé và một cô gái trong 13
công viên, và có độ phân giải 883 x 710. Cường độ hồ sơ dọc theo dòng 318 và 262 cột được mô tả trong hình 1.2 (b) và (c), tương ứng. Để tham khảo dễ dàng, vị trí của các 318 dòng và 262 cột hình ảnh được hiển thị trong hình 1.2 (d). Đó là, trục thẳng đứng đại diện cho giá trị cường độ, trong khi trục ngang cho biết vị trí pixel trong hàng hoặc cột. Hai lô (thể hiện trong hình 1.2 (b) và 1.2 (c)) chỉ ra các giá trị cường độ thường xuyên thay đổi dần dần từ một trong những điểm ảnh khác dọc theo hàng một và cùng một cột. Nghiên cứu về các tính chất thống kê của tín hiệu video có thể được truy trở lại những năm 1950. Biết Kretzmer thiết kế mà chúng ta phải nghiên cứu và hiểu dự phòng để loại bỏ sự dư thừa, một số thiết bị thử nghiệm như một autocorrelator hình ảnh và một probabiloscope để đo lường một số thống kê số lượng tín hiệu truyền hình và xuất bản tác phẩm xuất sắc của mình (Kretzmer, 1952). Ông thấy rằng tự tương trong cả hai hướng ngang và thẳng đứng trưng bày các hành vi tương tự, như thể hiện trong hình 1.3. Tự tương quan chức năng của một số hình ảnh phức tạp khác nhau được đo. Nó được tìm thấy rằng các hình ảnh, hình dạng của tự tương quan đường cong dao động từ nhiều tuyến tính để phần nào theo cấp số nhân.Đối xứng trung tâm đối với các trục thẳng đứng và phân phối hình chuông, tuy nhiên, vẫn giống nhau. Khi các điểm ảnh thay đổi trở nên nhỏ, nó đã được tìm thấy rằng tự tương quan cao. Tự tương quan này "địa phương" có thể cao 0,97-0,99 cho một hoặc hai điểm ảnh thay đổi.Đối với hình ảnh rất chi tiết, nó có thể được từ 0,43 đến 0,75. Nó cũng được tìm thấy rằng tự tương quan không có hướng ưa thích. Biến đổi Fourier của tự tương quan, quang phổ điện, được biết đến như một quan trọng chức năng trong nghiên cứu hành vi thống kê. Hình 1.4 cho thấy một quang phổ năng lượng điển hình của truyền hình tín hiệu (Fink, 1957; Connor và cộng sự, 1972). Đó là thông báo rằng quang phổ khá bằng phẳng cho đến khi 30 kHz cho một tín hiệu truyền hình phát sóng. Ngoài phổ tần số dòng này bắt đầu giảm với tốc độ khoảng 6 dB cho mỗi quãng tám. Điều này cho thấy nồng độ nặng của các tín hiệu video tần số thấp, xem xét danh nghĩa của một băng thông 5 MHz. Không gian dư thừa hàm ý rằng giá trị cường độ của một điểm ảnh có thể được đoán tối đa láng giềng pixels. Nói cách khác, nó không phải là cần thiết để đại diện cho mỗi điểm ảnh trong một khung hình ảnh độc lập. Thay vào đó, người ta có thể dự đoán một điểm ảnh từ các nước láng giềng. Đoán trước mã hóa, cũng được biết đến như mã hóa khác biệt, dựa trên quan sát này và được thảo luận trong Chương 3. Trực tiếp hậu quả của sự công nhận của sự dư thừa không gian là bằng cách loại bỏ một số lượng lớn dự phòng (hoặc sử dụng các mối tương quan cao) trong một khung hình ảnh, chúng tôi có thể tiết kiệm rất nhiều dữ liệu đại diện cho khung, do đó đạt được nén dữ liệu. 14
1.2.1.2 Thời gian dự phòng Thời gian dự phòng là có liên quan với mối tương quan thống kê giữa các điểm ảnh từ tiếp khung hình trong một hình ảnh thời gian hoặc chuỗi video. Vì vậy, nó cũng được gọi là interframe dự phòng. Hãy xem xét một chuỗi hình ảnh thời gian. Đó là, một máy ảnh là cố định trong thế giới 3-D và phải mất hình ảnh của một cảnh như thời gian trôi qua. Miễn là khoảng thời gian giữa hai hình ảnh liên tiếp là đủ ngắn, tức là, những hình ảnh được đông đủ, chúng ta có thể tưởng tượng rằng sự giống nhau giữa hai khung hình láng giềng mạnh mẽ. Hình 1.5 (a) và (b) chương trình, tương ứng, 21 và 22 khung hình của "Hoa hậu Mỹ" trình tự. 15
Hình 1.2 : (a) Một bức ảnh của "Boy và Girl," hồ sơ cá nhân Cường độ (b) cùng hàng 318, (c) Cường độ hồ sơ dọc theo cột 262, (d) Vị trí của dòng 318 và 262 cột. 16
Hình 1.2: (tiếp theo) Hình 1.3: Tự tương quan theo chiều ngang đối với một số hình ảnh.(Sau khi Kretzmer, 1952.) 17
Trình tự 21 và 22 khung hình của "Hoa hậu Mỹ". Các khung hình có độ phân giải 176x 144. Trong số tổng cộng 25.344 điểm ảnh, chỉ có 3,4% thay đổi giá trị màu xám của nó hơn 1% giá trị màu xám tối đa (255trong trường hợp này) từ khung 21 đến khung 22. Điều này khẳng định một sự quan sát được thực hiện trong (Mounts, 1969). Cho một tín hiệu điện thoại truyền hình giống như với chuyển động trung bình trong cảnh, trung bình, ít hơn 10% các điểm ảnh thay đổi giá trịmàu xám của nó giữa hai khung hình liên tiếp bởi một số lượng 1% tín hiệu cao điểm. Tương quan interframe cao đã được báo cáo (Kretzmer, năm 1952). Có, tự tương quan giữa hai khung liền kề được đo trong hai bộ phim hình ảnh chuyển động điển hình. Các mối tương quan tự động đo là 0,80 và 0,86. Tóm lại, điểm ảnh trong khung hình kế tiếp thường phải chịu một sự tương đồng hoặc tương quan mạnh mẽ. Kết quả là, chúng ta có thể dự đoán một khung từ khung lân cận dọc theo chiều thời gian. Điều này được gọi là interframe mã hóa dự đoán và được thảo luận trong Chương 3. Do đó, chính xác hơn hiệu quả hơn interframe dự đoán mã hóa đề án, đã được phát triển từ Hình 1.4: Phổ công suất điển hình của một tín hiệu phát sóng truyền hình. (Phỏng Fink, D.G., Cẩm nang kỹ thuật tivi, McGraw-Hill, New York, 1957.) 18
Hình 1.5: (a) khung 21, và (b) khung hình 22 "Hoa hậu Mỹ" năm 1980, sử dụng phân tích chuyển động.Nghĩa là, nó cho rằng những thay đổi từmột khung hình tiếp theo chủ yếu là do chuyển động của một số đối tượng trong khung hình. Lấy thông tin chuyển động này,vào xem xét, chúng tôi đề cập đến phương pháp như chuyển động bồi thường mã hóa tiên đoán. Chèn cả tương quan và chuyển động bù vào mã hóa tiên đoán được đề cập chi tiết trong Chương 10. Loại bỏ một số lượng lớn của sự dư thừa theo thời gian dẫn đến một lượng lớn dữ liệu được nén. Hiện nay tất cả các tiêu chuẩn video quốc tế mã hóa đã thông qua chuyển bù dự báo mã hóa, mà đã là một yếu tố quan trọng để tăng cường sử dụng video số trong các phương tiện truyền thông kỹ thuật số. 1.2.1.3. Mã hóa Dự phòng. Như chúng ta đã thảo luận, dự phòng interpixel là có liên quan với mối tương quan giữa các điểm ảnh. Đó là, một số thông tin liên kết với các điểm ảnh là không cần thiết. Psychovisual dự phòng , được thảo luận trong phần tiếp theo, liên quan đến các thông tin đó là psychovisually dự phòng, nghĩa là, mà HVS không phải là độ nhạy. Do đó, nó cho thấy rằng cả hai dư thừa interpixel và psychovisual bằng cách nào đó liên kết với một số thông tin chứa trong hình ảnh và video. Loại bỏ những dư thừa, hoặc sử dụng những mối tương quan này bằng cách sử dụng các bit ít hơn để miêu tả cho thông tin kết quả trong hình ảnh và video nén dữ liệu. Nó có nghĩa là, sự thừa mã hóa là khác nhau. Nó không có gì để làm với khả năng dự phòng thông tin, nhưng với các đại diện tức là, thông tin, mã hóa riêng của mình. Để xem điều này, chúng ta hãy xem ví dụ sau đây. 19
Một ví dụ minh họa được cho bởi trong Bảng 1.1.Cột đầu tiên liệt kê các biểu tượng riêng biệt mà cần phải được mã hóa. Cột thứ hai có xác suất xuất hiện của 5 ký hiệu.Cột thứ ba danh sách mã số 1, một bộ các Từ mã thu được bằng cách sử dụng đồng hình có độ dài từ mã dài. (Mã này được gọi là các mã nhị phân ngẫu nhiên.) Cột thứ 4 cho thấy 2 mã, trong đó mỗi từ mã có chiều dài thay đổi.Vì vậy,mã 2 được gọi là mã có độ dài thay đổi. Lưu ý rằng các ký hiệu với một xác suất xảy ra cao hơn được mã hóa với chiều dài ngắn hơn. Đó là, chúng tôi sẽ khảo sát mà một trong những cung cấp một chiều dài trung bình ngắn hơn từ mã.Rõ ràng là chiều dài trung bình của từ mã trong mã 1 Lavg,1 , Ba bit. Chiều dài trung bình của Từ mã trong mã 2, Lavg, 2 , Có thể được tính toán như sau. Vì vậy, kết quả là mã 2 với mã hóa biến chiều dài là hữu hiệu hơn mã số 1 với mã hóa nhị phân tự nhiên. Từ ví dụ này, chúng ta có thể thấy rằng đối với cùng một bộ các ký hiệu mã số khác nhau có thể thực hiện khác nhau. Một số có thể có hiệu quả hơn hơn những người khác. Đối với cùng một lượng thông tin, mã 1 có chứa số dự phòng. Đó là, một số thông tin trong mã 1 là không cần thiết và có thể được loại bỏ mà không có bất kỳ ảnh hưởng nào. Mã hóa Huffman và mã hóa số học, kỹ thuật mã hóa độ dài thay đổi sẽ được thảo luận trong chương 5 Từ việc nghiên cứu mã hóa dự phòng, nó là rõ ràng rằng chúng ta nên tìm cách để hiệu quả hơn kỹ thuật mã hóa để nén các dữ liệu hình ảnh và video. 20
1.2.2. Dự phòng PSYCHOVISUAL Trong khi dự phòng interpixel vốn đã nằm trong dữ liệu ảnh và video, dự phòng psychovisual xuất phát từ các đặc tính của hệ thống thị giác của con người (HVS). Được biết, HVS cảm nhận thế giới bên ngoài một cách khá phức tạp.Phản ứng của nó để kích thích thị giác không phải là một hàm tuyến tính về cường độ của một số thuộc tính kích thích của các yếu tố vật lý, chẳng hạn như cường độ và màu sắc. HVS cảm nhận được sự khác nhau từ các cảm biến máy ảnh. Trong HVS, thông tin thị giác không được biết giống nhau, một số thông tin có thể quan trọng hơn so với các thông tin khác. Điều này chỉ ra rằng nếu chúng ta áp dụng dữ liệu ít hơn để đại diện cho sự cảm nhận kém quan trọng hơn sẽ không bị ảnh hưởng tới thông tin thị giác. Trong ý nghĩa này, chúng ta thấy rằng một số thông tin hình ảnh là dư thừa psychovisually. Việc loại bỏ các loại dự phòng psychovisual là để nén dữ liệu Để hiểu kiểu loại dự phòng này, chúng ta hãy nghiên cứu một số đặc tính của HVS. Chúng tôi có thể mô hình hóa hệ thống thị giác của con người như một dòng thác của hai đơn vị (Lim, 1990), như mô tả trong hình 1.6 Hình 1.6 Mô hình hai đơn vị xếp tầng của hệ thống thị giác của con người (HVS). Đầu tiên là đơn vị xử lý mức thấp chuyển đổi ánh sáng tới thành tín hiệu trung tính. Thứ hai là một đơn vị xử lý mức cao, mở rộng thông tin từ tín hiệu trung tính. Trong khi nhiều nghiên cứu đã được khám phá ở mức xử lý thấp và mức xử lý cao vẫn còn đang được mở rộng. Đơn vị xử lý mức thấp được biết là một hệ thống phi tuyến (khoảng chừng logarit như hình dưới đây). Trong một phần chính của một vấn để tồn tại, chúng tôi sẽ hạn chế thảo luận, chủ yếu liên quan đến kết quả nén video. Đó là, một khía cạnh của HVS liên quan chặt chẽ đến nén ảnh và video được thảo luận trong 21
mục này. Đó là mặt nạ chói, mặt nạ kết cấu, mặt nạ tần số, mặt nạ thời gian và mặt nạ màu sắc. Liên quan đến chúng trong việc nén ảnh và video là địa chỉ. Cuối cùng, một kết luận là nó cung cấp, nhấn mạnh là tất cả các tính năng của chúng có thể thống nhất như một: độ nhạy khác nhau. Điều này có vẻ là tính năng quan trọng nhất của nhận thức thị giác của con người 1.2.2.1. Mặt nạ chói Mặt nạ chói có liên quan đến việc nhận thức độ chói của HVS. Cơ bản nhất nằm trong 5 khía cạnh được thảo luận ở đây. Mặt nạ chói cũng được coi như là sự phụ thuộc chói (Connor er al.,1972), và mặt nạ tương phản (Legge and Foley, 1980, Watson, 1987). As pointed in (Legge and Foley, 1980), thuật ngữ mặt nạ thường được dùng để chỉ một sự tương tác phá hoại hoặc can thiệp giữa các kích thích được gắn kết trong thời gian hoặc không gian. Điều này có thể đẫn đến thất bại trong việc phát hiện hoặc những sai sót trong nhìn nhận. Ở đây chúng ta chủ yếu quan tâm đến việc phát hiện tác nhân kích thích khi có một tác nhận kích thích khác có mặt đồng thời. Hiệu quả của một kích thích trên một phát hiện khác, tuy nhiên, nó không làm giảm đi sự phát hiện. Thật vậy, trong một số trường hợp độ tương phản thấp làm tăng sự nhận nhận biết của tín hiệu. Điều này đôi khi là một điều kiện thuận lợi. Nhưng trong bài viết này chúng ta chỉ sử dụng thuật ngữ mặt nạ. Quan sát hình ảnh đơn sắc trong hình 1.7. Tại đó, một vật thể đồng dạng hình đĩa với mức xám( giá trị cường độ) I1 được xác định dựa trên phông nên đồng dạng với mứa xám I2. Bây giờ câu hỏi được đưa ra là trong trường hợp nào một vật thể hình đĩa có thể được phân biệt với phông nền bởi HVS? Chúng ta muốn tìm hiểu tác động của một động lực/ một tác nhân khác (trong trường hợp này là “ mặt nạ”. Hai trường hợp là rõ rang. Đó là, nếu sự khác biệt giữa 2 mức xám là khá lớn,HVS không có vấn đề với sự tách lọc, hoặc một từ khác trong HVS chú ý đến đối tượng từ phông nền. Ở mặt khác, hai mức là như nhau, HVS không thể xác định sự tồn tại của đối tượng. Điều mà chúng ta quan tâm đến ở đây là ngưỡng tới hạn trong sự khác nhau giữa các mức xám cho sự tách lọc diễn ra. Nếu chúng ta xác định mức ngưỡng DI là sự chênh lệch DI= I1- I2 thì đối tượng không thể được xác định được trong HVS với 50% kênh. Chúng ta dựa vào mối quan hệ sau đó là độ nhạy tương phản, dựa theo quy tắc Weber’s: 22
(1.2) Hình 1.7: Một đối tượng thống nhất với màu xám mức I1 với nền tảng là màu xám ở mức I2 Nơi mà có giá trị không đổi bằng 0.02. Định luật trạng thái của Weber cho biết độ rộng của cường độ âm thanh I, phân biệt ngưỡng ∆ I, tỷ lệ thuận với I. Việc này dẫn đến kết quả ta thu được nền sáng chói, ở mức xám hệ thống thị giác của con người ( HSV ) phân biệt các đối tượng dễ dàng hơn.Mặt khác sự chênh lệch về cường độ sáng có thể nhỏ hơn, nếu như nền là tối.Chú ý rằng, phương trình 1.2 là phương trình Loga của phản ứng của hệ thống thị giác của con người, và các giác quan khác của con người cũng tuân theo định luật này. Hơn nữa,thực tế nghiên cứu đã chỉ ra rằng ngưỡng ∆ I tăng chậm hơn so với dự đoán từ định luật Weber.Một số chức năng độ nhạy tương phản chính xác hơn đã được trình bày trong tài liệu.( Legge and Foley ,1980),cho biết rằng phương trình hàm số mũ 23
đã được thay thế bới phương trình tuyến tính trong định luật Weber. Phương trình hàm mũ được biểu diễn như sau (Watson,1987) Trong đó, I0 là cường độ sáng khi mức xám có giá trị bằng 0,tức là I =0 , và α có giá trị không đổi, và băng khoảng 0.07 Hình 1.8, biểu diễn sự ảnh hưởng của tạp âm trắng cộng (AWGN).Việc nhận biết ảnh hưởng của tạp âm này trong vùng tối thì dễ dàng hơn quan sát trong vùng sáng.Ví dụ như,một vùng tối và một vúng sáng của chiếc cầu. Điều này cho thấy rằng , việc lọc nhiễu trong vùng tối là cần thiết hơn trong vùng sáng. Ở các vùng sáng hơn có thể được điều tiết nhiễu phù hợp trước khi các nhiễu này có thể nhận biết được. Đặc tính này được ứng dụng trong phương pháp thủy ấn hay còn gọi là nhúng thủy vân ( Huang and Shi 1998 ). Sự va chạm trực tiếp của mặt nạ cường độ sáng trong nén ảnh và nén video có liên quan đến lượng tử hóa, nó sẽ được trình bày chi tiết trong chương tiếp theo. Lượng tử hóa là quá trình biến đổi liên tục các mức lượng tử vào một tập hữu hạn các mực lượng tử riêng biệt. Các số của mức lượng tử riêng biệt còn được gọi là cấp độ lượng tử hóa. Nó là chìa khóa trong thiết kế bộ lượng tử hóa. Nó ảnh hưởng đáng kêt đến tốc độ bít và chất lượng nén hình ảnh và video. Việc lượng tử hóa hiệu quả giúp giảm thiểu khả năng hiển thị của lỗi. Chức năng độ nhạy tương phản cho phép ta phân tích sự hiển thị của lỗi trong quá trình lượng tử hóa.Vì thế, nó được ứng dụng trong thiết kệ bộ lượng tử hóa. Mặt nạ cường độ sáng cho ta giản đồ về quá trình lượng tử hóa không đều được xem xét đưa vào chức năng độ nhạy tương phản. 24
Hình 1.8 Cầu Burrard ở Vancouver. (a) hình ảnh gốc (lịch sự Shi của Minhuai). (b) Hình ảnh đồng nhất bị hỏng bởi nhiễu phụ trắng Gaussian. 1.2.2.2. Kết cấu mặt nạ Mặt nạ kết cấu đôi khi còn được gọi là sự phụ thuộc chi tiết (Connor và các cộng sự, 1972), mặt nạ không gian (Netravali và Presada, 1977; Lim, 1990,) hoặc mặt nạ hoạt tính (Mitchell và các cộng sự, 1997). Nó khẳng định rằng ngưỡng phân biệt làm tăng với các chi tiết hình ảnh ngày càng tăng. Đó là, kết cấu, ngưỡng phân biệt . Trong hình 1.8, nếu so sánh chúng ta có thể được quan sát thấy rằng tiếng ồn phụ gia ngẫu nhiên ít rõ ràng hơn trong khu vực kết cấu mạnh mẽ hơn trong khu vực trơn , Ví dụ, phần tối của đám mây (góc trên bên phải của hình ảnh) với các khu vực nước (góc dưới bên phải của hình ảnh). Đây là một xác nhận của mặt nạ kết cấu.Trong hình 1.9 (b), số lượng mức lượng tử hóa giảm từ 256, như ở hình 1.9 (a), 16. Đó là, chúng tôi sử dụng chỉ có bốn bit thay vì tám bit để đại diện cho giá trị cường độ cho mỗi điểm ảnh 25
Hình 1.9 Giáng sinh tại Winorlia. (a) Bản gốc. (b)-bit lượng tử hóa. (c) Cải thiện lượng IGS với bốn bit. So với hình 1.9 (a) Các đường đồng mức không tự nhiên do lượng tử hóa thô có thể được nhận thấy ở các khu vực tương đối đồng đều. Hiện tượng này lần đầu tiên 26
được ghi nhận trong (Goodall, 1951) và được gọi là đường mức giả (Gonzalez và Woods, 1992). Bây giờ chúng ta thấy rằng các đường mức giả có thể được giải thích bằng việc sử dụng kết cấu mặt nạ, kể từ khi mặt nạ kết cấu chỉ ra rằng mắt người nhạy cảm hơn với khu vực mịn hơn là khu vực kết cấu, cường độ biểu hiện một biến thể cao. Một tác động trực tiếp nén hình ảnh và video rằng số lượng các mức lượng tử hóa, ảnh hưởng đến tốc độ bitđáng kể, nên được điều chỉnh theo sự biến đổi cường độ của các vùng hình ảnh. 1.2.2.3 Tần số mặt nạ Kết cấu mặt nạ đôi khi còn được gọi là chi tiết phụ thuộc (Connor và cộng sự, 1972), không gian mặt nạ (Netravali và Presada, 1977; Lim, 1990), hoặc mặt nạ hoạt động (Mitchell et al,1997.).Nó khẳng định rằng ngưỡng phân biệt đối xử làm tăng với các chi tiết hình ảnh ngày càng tăng.Đó là, kết cấu mạnh mẽ hơn, lớn hơn ngưỡng phân biệt. Trong hình 1.8,nó có thể được quan sát thấy rằng lỗi phụ ngẫu nhiên là ít rõ ràng hơn trong khu vực kết cấu mạnh mẽ hơn trong khu vực trơn tru nếu so sánh, ví dụ, phần tối của đám mây (góc trên bên phải của hình ảnh) với cácdiện tích mặt nước (góc dưới bên phải của hình ảnh).Đây là một xác nhận của mặt nạ kết cấu. Trong hình 1.9 (b), số lượng mức lượng tử hóa giảm từ 256, như ở hình 1.9 (a), đến 16. Đó là, chúng tôi sử dụng chỉ có bốn bit thay vì tám bit để đại diện cho giá trị cường độ cho mỗi điểm ảnh. 27
Hình 1.9: (tiếp) Lớp tần số có thể được minh họa sử dụng trong hình 1.9 trên. Trong hình 1.9c tiếng ồn ngẫu nhiên của tần số cao đã được thêm vào ảnh trước khi lượng tử hóa. Phương pháp này được gọi là sự lượng tử cải thiện tỷ lệ (IGS) xám (Gonzalez and Woods), 1992. Với mức lượng tử giống như nhau, 16 như trong hình 1.9b, chất lượng hình ảnh của hình 1.9c cải thiện đáng kể so với hình 1.9b: các lỗi phiền nhiễu xung quanh có biến mất mặc dầu tăng ở gốc có nghĩa là giá trị bình phương của tổng số tiếng ồn ở hình 1.9c. Điều này thực tế là thấp- lỗi lượng tử tần số được chuyển thành tiếng ồn tần số cao. Và các HVS thì ít nhạy cảm với các nội dung số cao. Như vậy chúng ta thấy, như đã chỉ ra ở trong( Connor, 1972), chức năng mắt của con người chúng ta giống với những bộ lọc thông thấp. Do mặt nạ tần số trong miền biến đổi, nói đến, miền biến đổi cosi rời rạc( DTC). Chúng ta có thể thả một vài hệ số tần số cao nào đó với độ lớn nhỏ để đạt được dữ liệu 28
nén mà không ảnh hưởng tới sự nhận biết của HVS. Điều này dẫn đến những gì được gọi là biến đổi mã hóa. Điều mà được thảo luận trong chương 4. 1.2.2.4 Mặt nạ thời gian Mặt nạ thời gian là một tính năng hình ảnh độc lập của HVS. Điều đó khẳng định rằng phải mất một thời gian cho HVS để thích nghi với chính nó trong hoàn cảnh khi hoàn cảnh có những thay đổi đột ngột. Trong quá trình chuyển đổi này HVS không nhạy cảm 1 cách chi tiết. Mặt nạ này diễn ra cả trước và sau khi có sự thay đổi đột ngột. Điều đó được gọi là chuyển tiếp mặt nạ thời gian. Nếu điều này sảy ra sau khi hoàn cảnh thay đổi. Nếu không, nó được gọi quay trở lại mặt nạ thời gian ( Mitchell et al .,1997). Điều này muốn nói rằng nên dùng mặt nạ thời gian để xem xét khi phân bổ dữ liệu trong mã hóa hình ảnh và video. 1.2.2.5 Mặt nạ màu Việc xử lý ảnh màu số đang ngày càng phổ biến do các ứng dụng rộng rãi của hình ảnh màu trong cuộc sống hiện đại. Như đã đề cập ở đầu cuộc thảo luận về dự phòng tính trực quan tâm lý. Chúng ta sẽ không bao gồm tất cả các khía cạnh nhận biết của HVS, Thay vào đó, Chúng ta chỉ bao gồm những khía cạnh lien quan tới dự phòng trực quan tâm lý, trong việc nén hình ảnh và video, Do vậy thảo luận của chúng ta ở đây về nhận thức màu sắc là không có nghĩa đầy đủ. Trong vật lý. Nó được biết rằng bất kỳ ánh sang nhìn thấy được tương ứng với một phân phối quang phổ điện từ. Do đó một màu sắc như là một cảm giác của ánh sáng nhìn thấy, là một năng lượng và cường độ tốt như một tập hợp các bước sóng liên kết với các quang phổ điện từ. Rõ ràng cường độ là một thuộc tính của ánh sáng nhìn thấy, các thành phần của bước sóng là một thuộc tính độ màu, có hai yếu tố trong thuộc tính “chrominance”: màu sắc và độ bão hòa. Màu sắc của hue thì đặc trưng bởi bước sóng chiếm ưu thế trong thành phần như là thước đo về độ tinh khiết của màu sắc. Độ tinh khiết của màu sắc có độ bão hòa là 100%. Những vùng ánh sáng trắng có độ bão hòa là 0. Mô hình RGB – Màu đỏ- xanh lá cây- xanh lam( RGB) Hệ thống mầu cơ bản tốt nhất được biết đến trong một vài hệ thống màu. Đây là do tính năng nhận thức về màu sắc của loài người. Những vùng cảm nhận màu sắc trong HVS bao gồm ba thiết lập khác nhau của tế bào hình nón và mỗi thiết lập thì nhạy cảm với ánh sáng của một trong ba 29
màu cơ bản: đỏ- xanh lá cây và xanh lam. Do đó, bất kỳ cảm nhận màu sắc nào của HVS được xem như là sự kết hợp đặc biệt của ba màu cơ bản. Nhiều nghiên cứu thì có sẵn, CIE(Commission Internationale de l’Eclairage) sơ đồ kết tủa là một ví dụ nổi tiếng. Những kết quả này sẽ dễ dàng tìm thấy trong quang học cổ điển và các văn bản sử lý hình ảnh kỹ thuật số Mẫu RGB được sử dụng chính trong việc hiển thị và ghi lại những ảnh màu. Trong việc sử lý những tín hiệu màu bao gồm nén video và hình ảnh, tuy nhiên, hệ thống độ chói và tín hiệu màu sắc sẽ hiệu quả hơn,, do đó được sử dụng rộng rãi. Điều đó có cái gì để làm với sự nhận biết màu sắc của HVS. Nó được biết rằng HVS thì nhạy cảm màu xanh lá cây hỏn so với màu đỏ, và nhạy cảm ít nhất so với màu xanh lam. Một sự trình bày bằng nhau của màu đỏ, xanh lục, xanh lam dẫn tới việc trình bày dữ liệu một cách hiệu quả khi HVS là người xem cuối cùng. Việc phân bổ dữ liệu để những thông tin mà HVS có thể cảm nhận được, mặt khác, có thể làm việc mã hóa hiệu quả hơn. Độ sáng là thì liên quan tới độ cảm nhận ánh sáng. Trong khi đó thành phần màu sắc của video thì liên quan tới sự cảm nhận màu của màu sắc và độ bão hòa. Nói rõ ràng, Thành phần màu sắc và độ sáng hiển thị đông ý với cảm nhận màu sắc của HVS. Tính năng này làm cho các mô hình màu độ sáng, độ màu phù hợp hơn cho việc sử lý hình ảnh màu. Một ví dụ tốt nhất được giới thiệu trong (Gonzalez and Woods, 1992). Do việc phức tạp này, mô hình HIS không được sử dụng trong những hệ thống TV. YUV model- Trong mô hình này, Y đặc trưng cho thành phần độ sáng, và U và V được hai thành phần độ màu. Độ sáng Y có thể được xác định từ mô hình RGB thông qua mối quan hệ sau. Cần chú ý rằng trọng lượng kết hợp với ba màu cơ bản, R, G, và B, là không giống nhau. Sự khác biệt lớn này phản ánh sự phản ứng khác nhau của HVS với các màu cơ bản. Thay vào đó mối lien quan trực tiếp tới “màu sắc và độ bão hòa”, Hai thành phần độ màu khác U và V được định nghĩa như màu khác như sau. 30
Trong cách này, Mô hình YUV có độ tính toán phức tạp thấp hơn. Nó được sử dụng trong PAL(Phase Alternating Line) trong hệ thống TV. Chú ý rằng PAL là một tiêu chuẩn TV màu phức hợp tương tự và được sử dụng ở hầu hết các nước châu âu, và một số nước châu Á và Úc. Bởi hệ thống phức hợp, có nghĩa là cả độ sáng và độ màu lien kết trong tín hiệu TV được ghép trong cùng một kênh. Theo tính chất đầy đủ, một cách biểu đạt của YUV trong điều khoản của RGB được liệt kê dưới đây. Mô Hình YIQ- Không gian màu này được tận dụng trong NTSC (National Television Systems Committee) hệ thống TV được sử dụng nhiều năm. Chú ý rằng NTSC là tiêu chuẩn TV màu theo tín hiệu tương tự và được sử dụng ở Bắc Mỹ và nhật bản. Thành phần Y vẫn có độ sáng. Hai thành phần độ màu là biến đổi tuyến tính của thành phần U và V đã định nghĩa trong mô hình YUV.Một cách cụ thể, Việc thay thế U và V được cụ thể trong phương trình 1.4 và 1.5 sang 2 phương trình trên, chúng ta có thể YIQ trực tiếp trong điều khoản của RGB. Đó là Có nghĩa là: 31
Mô hình YCbCr- Theo như trên ta có thể thấy thành phần mầu U và V có sự khác biệt giữa màu hiệu chỉnh gama B và độ sáng chói Y, và hiệu chỉnh gama R và độ chói Y một cách tương ứng. Cặp thành phần màu I và Q cùng với Db và Dr đều là biến đổi tuyến tính của U và V. Do đó, chúng liên hệ mật thiết với nhau. Cần chú ý rằng U và V có thể mang giá trị âm. Để tạo ra các thành phần màu không âm thì Y, U và V được đo lường và hoán đổi để cho ra mô hình YCbCr vốn dĩ được dùng nhiều trong tiêu chuẩn mã hóa quốc tế JPEG và MPEG (Hai tiêu chuẩn này được trình bày tương ứng trong chương 7 và chương 16) 1.2.2.6. Chắn màu và ứng dụng của nó trong việc nén Video Ta biết rằng HVS nhạy cảm với thành phần độ sáng hơn là với thành phần sắc độ. Theo sau Van Ness và Bouman (1967) cùng với Mullen (1985), có 1 biểu đồ trong Mitchell et al (1997) dùng để minh họa về định lượng phần trình bày nêu trên. Một mô hình ngắn gọn được nêu ra trong Hình 1.10. Tại đó, hoành độ biểu thị tần số không gian trong mỗi đơn vị chu trình trên độ (cpd), và tung độ là ngưỡng đối lập đối với những thay đổi có thể nhận ra trong tín hiệu thử hình sin. Hai quan sát được tiến hành theo trình tự. Thứ nhất, đối với mỗi một đường trong 3 đường cong, ví dụ, đối với những đường thành phần độ sáng Y và thành phần màu đối sáng, nói chung độ nhạy tương phản tăng lên khi tần số không gian tăng lên. Điều này hoàn toàn đúng với tần số chắn được nêu ở trên. Thứ hai, đối với cùng một ngưỡng đối lập, ta có thể thấy rằng thành phần độ chói sáng phù hợp với tần số không gian cao hơn. Điều này cho thấy HVS nhạy cảm với độ chói sáng hơn là với sắc độ. Kết luận này có thể dễ dàng được chứng thực bằng cách kiểm tra các tần số không gian này mà tại đó cả 3 đường đều có 32
sẵn dữ kiện. Sau đó, chúng ta có thể thấy rằng ngưỡng đối lập của độ chói sáng thấp hơn nhiều so với những thành phần sắc độ này. Ảnh hưởng trực tiếp của màn che màu lên ảnh và mã hóa video chính là bằng việc sử dụng tính năng tâm lý thị giác chúng ta có thể phân bổ nhiều bit đến thành phần chói sáng hơn là đến thành phần sắc độ. Điều này dẫn đến 1 thực tế phổ biến trong ảnh màu và mã hóa video là: sử dụng giải pháp đầy đủ cho thành phần cường độ này, trong khi đó sử dụng 1 mẫu con tỷ lệ 2:1 đối với cả chiều ngang lẫn chiều dọc cho 2 thành phần sắc độ này. Điều này đã được chấp nhận trong tiêu chuẩn mã hóa thông dụng được đề cập đến trong chương 16. 1.2.2.7. Tóm tắt: Độ nhạy vi phân Trong mục nhỏ này chúng ta bàn về lớp che độ chói, lớp che kết cấu, lớp che tần số, lớp che thời gian, và lớp che màu sắc. Trước khi đi vào phần tiếp theo, chúng ta hãy tóm tắt lại những gì đã nói đến từ trước cho đến giờ. Chúng ta thấy rằng lớp che độ chói, còn được gọi là lớp che tương phản có tầm quan trọng trong một số loại lớp che. Nó chỉ ra rằng sự nhạy cảm của mắt để kích thích phụ thuộc vào cường độ của kích thích khác. Như vậy đó là sự nhạy cảm khác nhau. Cả hai cấu tạo (chi tiết hoặc hoạt động) và tần số của kích thích khác ảnh hưởng đáng kể đến sự nhạy cảm này. Cùng một chi tiết tồn tại trong cảm nhận màu sắc, nơi mà HVS nhạy cảm hơn với độ sáng hơn các thành phần màu. Vì vậy chúng ta kết luận rằng sự khác biệt giữa độ nhạy khác nhau là chìa khóa trong hoạt động nhận thưc của con người. Những chức năng này có thể được sử dụng để loại bỏ sự dư thừa và do đó có thể nén dữ liệu hình ảnh và video. Nó được chú ý biến lượng tử phụ thuộc vào độ sáng ở các vùng khác nhau, có vẻ là hợp lý từ một điểm nén dữ liệu. Áp dụng vào thực tế, tuy nhiên làm cách nào đó để trả lời câu hỏi. Đó là, một số thử nghiệm không hỗ trợ mong đợi (Mitchell et al., 1997). Nó được lưu ý rằng đối với độ nhạy khác nhau của HVS là phổ biến để con người nhận thức. Chứng minh, đó cũng là sự tiến bộ và lạc hậu lớp che thời gian trong nhận thức âm thanh của con người. 33
Hình 1.10: Mức độ nhạy cảm so với tần số không gian. (Sửa đổi từ Van Ness và Bouman[1967] và Mullen[1985].) 1.3. Đo lường chất lượng hình ảnh Như định nghĩa của nén hình ảnh và video chỉ ra, chất lượng hình ảnh và video là chỉ tiêu quan trọng trong xử lý nén hình ảnh và video.Ví dụ, trong việc đánh giá hai phương pháp nén khác nhau chúng ta phải đánh giá căn cứ vào chất lượng một số hình ảnh rõ ràng và video. Khi cả hai phương pháp đạt được cùng một chất lượng trong tái tạo hình ảnh và video, khi đó một yêu cầu ít dữ liệu được xem là tốt hơn so với phương pháp còn lại. Ngoài ra, với cùng một lượng dữ liệu thì phương pháp cung cấp một hình ảnh hoặc video tái tạo có chất lượng cao hơn sẽ được đánh giá là phương 34
pháp tốt hơn. Lưu ý rằng ở đây chúng ta đã không xem xét các tiêu chí hiệu năng khác, chẳng hạn như độ phức tạp tính toán. Tuy nhiên, thật đáng ngạc nhiên, nó lại chỉ ra rằng việc đo lường chất lượng hình ảnh và video không phải là đơn giản. Có 2 phương pháp đánh giá chất lượng hình ảnh. Một là đánh giá khách quan (bằng cách sử dụng các phép đo điện tử) và hai là đánh giá chủ quan (sử dụng các quan sát của con người). Mỗi phương pháp có những ưu và nhược điểm của nó. Một sự kết hợp của hai phương pháp trên được sử dụng rộng rãi trong thực tiễn. Trong phần này trước hết chúng ta thảo luận về đo lường chất lượng hình ảnh chủ quan, tiếp theo là mục tiêu đo lường chất lượng. 1.3.1 Đo lường chất lượng chủ quan Điều tự nhiên là chất lượng hình ảnh của tái tạo khung hình video cần phải được đánh giá bởi người xem nếu họ là người nhận của dữ liệu cuối cùng (xem Hình 1.1). Vì vậy, đo lường chất lượng hình ảnh chủ quan đóng một vai trò quan trọng trong truyền thông hình ảnh. Trong đo lường chất lượng hình ảnh chủ quan, một tập hợp các khung hình video được tạo ra với sự thay đổi các thông số mã hóa. Các quan sát viên được mời để đánh giá chủ quan chất lượng hình ảnh của những khung hình.Cụ thể, các quan sát viên được yêu cầu xếp hạng những hình ảnh dựa theo chất lượng đo kiểm của bức ảnh. Ngoài ra, các nhà quan sát được đề nghị chỉ ra 1 số lỗi suy giảm của hình ảnh. Một hệ thống đánh giá xếp hạng dựa trên 5 thang đo về mức độ suy giảm ,được sử dụng bởi Phòng thí nghiệm Bell, được liệt kê dưới đây (Sakrison, 1979). Nó đã được áp dụng như một tiêu chuẩn trong CCIR khuyến nghị 500-3 (CCIR, 1986). Khuyến nghị). 1. Suy giảm là không đáng kể 2. Suy giảm vừa phải 3. Suy giảm thực sự đáng kể,nhưng chấp nhận được 4. Suy giảm không chấp nhận được 5. Suy giảm rất không chấp nhận được Về đánh giá chủ quan, có một vài điều đáng nói đến. Trong hầu hết các ứng dụng có một mảng hình ảnh khả dụng đồng thời để đánh giá. Những hình ảnh được tạo ra với các thông số mã hóa khác nhau. Bằng cách giữ một số thông số cố định trong 35
khi làm việc với một tham số (hoặc một tập hợp các thông số) đang rỗi để thay đổi, đánh giá chất lượng kết quả có thể được sử dụng để nghiên cứu ảnh hưởng của một số thông số số (hoặc tập hợp các thông số) đối với mã hoá.Một ví dụ về việc sử dụng phương pháp này là để nghiên cứu ảnh hưởng của việc thay đổi số các mức lượng tử hóa về chất lượng hình ảnh có thể được tìm thấy trong (Gonzalez và Woods, 1992). Một cách khác có thể nghiên cứu tác động là xác định hình ảnh với cùng một đo lường chất lượng chủ quan từ các mảng hình ảnh. Từ tập hình ảnh thử nghiệm này, chúng ta có thể sản xuất, mã hóa vùng tham số, mức ưu tiên có thể được sử dụng để nghiên cứu tác động của tham số (s) đang được khảo sát. Một ví dụ về việc sử dụng phương pháp này để nghiên cứu tác động của thay đổi độ phân giải hình ảnh và số lượng mức lượng tử hóa trong chất lượng hình ảnh có thể được tìm thấy trong (Huang, 1965). Trong đánh giá này, một mảng các hình ảnh thường được chia thành các cột, mỗi cột chia sẻ một số điều kiện phổ biến. Đánh giá bắt đầu trong mỗi cột với một so sánh cặp. Điều này là bởi vì một so sánh cặp là tương đối dễ dàng cho đôi mắt. Kết quả là, hình ảnh trong một cột được sắp xếp theo thứ tự theo chất lượng hình ảnh và chất lượng hoặc các biện pháp suy giảm này sau đó được gán cho những hình ảnh trong một cột. Sau khi mỗi cột đã được đánh giá, một sự thống nhất giữa các cột là cần thiết. Đó là, các cột khác nhau cần phải có một đại lượng đo lường chất lượng thống nhất. Như đã chỉ ra trong (Sakrison, 1979), nhiệm vụ này là không dễ dàng vì nó có nghĩa là chúng ta có thể cần phải đánh đồng kết quả suy giảm này từ các loại lỗi khác nhau. Một điều có thể được rút ra từ các cuộc thảo luận ở trên: đánh giá chủ quan chất lượng hình ảnh là tốn kém.Nó cần một số lượng lớn các hình ảnh và quan trắc viên. Việc đánh giá mất một thời gian dài bởi vì mắt người có thể dễ dàng mệt mỏi. Một số biện pháp đặc biệt phải được thực hiện để đi đến đo lường chất lượng chủ quan chính xác. 36
Hình 1.11. Hệ thống xử lý âm thanh hình ảnh Để biết thêm chi tiết về đo lường chất lượng của hình ảnh một cách khách quan, độc giả có thể tham khảo Sakrison (1979), Hidaka và Ozawa (1990) hoặc Webster et al, 1993. 1.3.2. Mục tiêu chất lượng đo lường: Trong mục tiêu này, lần đầu tiên chúng tôi giới thiệu tỷ số tín hiệu trên nhiễu (SNR). Tiếp theo chúng tôi sẽ trình bày mục tiêu chất lượng mới đầy hứa hẹn là chất lượng hình ảnh kỹ thuật đánh giá dựa trên nhận thức bằng thị giác của con người 1.3.2.1. Tỷ số tín hiệu trên nhiễu: Theo dõi hình 1.11, f(x,y) là hình ảnh đầu vào cho hệ thống xử lý, hệ thống có thể là một bộ lọc thông thấp, một bộ lấy mẫu, hoặc một hệ thống nén. Nó thậm chí có thể đại diện cho một quá trình trong đó sử dụng định lý Gauss. g (x,y) là đầu ra, trong đánh giá chất lượng của g(x,y) chúng tôi xác định lỗi e(x,y) là sự chênh lệch giữa đầu ra và đầu vào. e(x, y) = f (x, y) - g(x, y) Các lỗi được định nghĩa Ems: Trong đó m và n là kích thước của hình ảnh theo hướng nằm ngang và thẳng đứng. Lưu ý rằng đôi khi nó được ký hiệu là MSE. Lỗi vuông được định nghĩa là Erms: 37
Nó đôi khi được biểu thị bằng RMSE. Như đã nói ở trên, SNR được sử dụng rộng rãi trong đo lường chất lượng khách quan. Tùy thuộc vào lỗi vuông được sử dụng, SNR có thể được gọi là hình vuông có nghĩa là sighlto. Tỷ lệ tiếng ồn SNRms, hoặc nghĩa gốc là tín hiệu xung vuông. Ta có: Và: (1.19) Trong việc nén dữ liệu hình ảnh và video, bản chất PSNR ( giới hạn tỷ số tín hiệu trên nhiễu) là một phiên bản sửa đổi của , được sử dụng rộng rãi. Nó được định nghĩa như sau: (1.20) Giá trị các SNR lớn hơn SNR ( , , hoặc PSNR) và chất lượng xử lý hình ảnh tốt hơn, g (x,y); nghĩa là, gần hơn với xử lý hình ảnh g (x, y) là hình ảnh ban đầu f (x, y). Điều này có thể chính xác. Tuy nhiên, từ cuộc thảo luận ở trên của chúng 38
tôi về tính năng của HVS, chúng ta biết rằng HVS không đáp ứng với kích thích thị giác một cách đơn giản. Đơn vị xử lý cấp thấp của nó được biết đến là hiện tượng phi tuyến. Một số hiện tượng che chắn tồn tại. Lưu ý rằng sự hiểu biết của chúng ta về các đơn vị xử lý cấp cao của các HVS là hoàn toàn đầy đủ. Vì vậy, có thể hiểu rằng SNR không phải luôn luôn cung cấp cho chúng tôi những đánh giá đáng tin cậy của chất lượng hình ảnh. Một ví dụ được trình bày trong mục 1.2.2.3, trong đó sử dụng các kỹ thuật lượng tử hóa IGS để đạt được nén chất lượng cao (sử dụng chỉ có bốn bit cho lượng tử hóa thay vì tám bit thông thường) mà không cần thêm vào đường ngưỡng vi sai. Trong trường hợp này, chất lượng được cải thiện, và SNR giảm do bổ sung tiếng ồn ngẫu nhiên tần số cao. Một ví dụ khác, được rút ra từ cuộc thảo luận của chúng tôi về các hiện tượng che chắn một số tiếng ồn cộng tính trong vùng sáng hoặc ở các vùng kết cấu cao bị chắn, trong khi một số ở các vùng tối và vùng đều có thể khá khó để bật ra. Trong trường hợp này, SNR có thể không phản ánh chất lượng hình ảnh một cách trung thực. Một mặt, chúng ta thấy rằng mục tiêu đo lường chất lượng không phải luôn luôn cung cấp đánh giá chất lượng hình ảnh đáng tin cậy. Tuy nhiên, mặt khác, việc thực hiện của nó là nhanh hơn nhiều và dễ dàng hơn đo lường chất lượng chủ quan. Hơn nữa, mục tiêu đánh giá là có thể lặp lại. Do những ưu điểm trên, đánh giá chất lượng khách quan vẫn được sử dụng rộng rãi mặc dù chúng có nhiều nhược điểm. 1.3.2.2 Mục tiêu đo lường chất lượng: Giới thiệu ở đây là một phát triển mới trong đánh giá chất lượng hình ảnh,và là một đo lường chất lượng khách quan dựa trên nhận thức thị giác của con người (Webster et al, 1993). Kể từ khi nó được đánh giá khách quan, nó được lặp lại, thực hiện nhanh chóng và dễ dàng. Thị giác đánh giá chất lượng tốt nhất được thực hiện thông qua các phương pháp tiếp cận chủ quan vì trong trường hợp này HVS là người xem cuối cùng. Việc thực hiện đánh giá là chủ quan, tuy nhiên, tốn thời gian, tốn kém, và thiếu lặp lại. Mặt khác, mặc dù không phải luôn luôn chính xác, đánh giá khách quan là nhanh chóng, dễ dàng, và lặp lại. Mục tiêu ở đây là để phát triển một hệ thống chất lượng đo lường khách quan như vậy. Để đạt được mục tiêu này, hệ thống được dựa trên đánh giá chủ quan. Đó là, nó sử dụng đánh giá đạt được thông qua đánh giá chủ quan như là một tiêu chí để tìm kiếm cho các phép đo khách quan mới để có đánh giá khách quan gần giống với một trong những chủ quan nào nhất có thể. 39
Nguồn gốc - Phương pháp đánh giá chất lượng của hệ thống khách quan được thể hiện trong Hình 1.12. Thử nghiệm Video đầu vào đi qua một khối suy giảm. Khối suy giảm, hoặc máy phát điện suy giảm, bao gồm các mã nén video khác nhau (cặp mã-giải mã) với tỷ lệ bit khác nhau, và hoạt động vận hành video từ 56 kb / giây đến 45 Mb / giây. Dưới hình thức một cặp video thử nghiệm, các video đầu vào và video đầu vào suy giảm, được gửi đến một khối đánh giá chủ quan cũng như các khối lựa chọn một tính năng thống kê. Việc đánh giá chủ quan chất lượng hình ảnh thông thường như đã giới thiệu trong phần mục trước được thực hiện trong khối đánh giá chủ quan, trong đó bao gồm một bảng điều khiển lớn của các nhà quan sát, ví dụ như, 48 cộng sự quan sát ở Webster . (1993). Trong khối lựa chọn tính năng thống kê, một loạt các hoạt động thống kê được tiến hành và thống kê tính năng khác nhau được lựa chọn. Ví dụ bao gồm lọc Sobel, nhà điều hành Laplacian, lệnh differencing đầu tiên, tính toán mômen, biến đổi Fourier, v.v đo lường thống kê sau đó được lựa chọn dựa trên các hoạt động thống kê và các tính năng. Đánh giá khách quan được hình thành như sau: = + biểu thị sự đánh giá đầu ra của việc đánh giá đối tượng, hoặc chỉ đơn giản là biện pháp khách quan, mà là một ước lượng tốt về số điểm chủ quan tương ứng. Các , i = 1, , L, l, được lựa chọn các phép đo khách quan. , , i = 1, , L, l là hệ số trong mô hình tuyến tính của việc đánh giá khách quan. Kết quả của việc đánh giá khách quan và đánh giá chủ quan được áp dụng cho một khối phân tích thống kê. Trong khối phân tích thống kê, đánh giá đánh giá khách quan được so sánh với những đánh giá chủ quan. Kết quả so sánh được đưa trở lại vào khối lựa chọn tính năng thống kê. Các phép đo thống kê thu được trong các khối lựa chọn tính năng thống kê được kiểm tra theo hiệu suất của họ trong đánh giá. Một đo lường thống kê được coi là tốt nếu nó có thể giảm một lượng đáng kể sự khác biệt giữa đánh giá khách quan và đánh giá chủ quan. Đo lường tốt nhất được xác định thông qua một tìm kiếm đầy đủ giữa các phép đo khác nhau. Lưu ý rằng các hệ số trong phương trình 1.21 được kiểm tra trong khối phân tích thống kê một cách tương tự như được sử dụng cho các phép đo. 40
Các phép đo và hệ số xác định sau khi lặp lại kết quả trong một đánh giá khách quan tối ưu thông qua phương trình 1.21, cuối cùng nó được đưa vào đâu ra của hệ thống, toàn bộ quá trình đó sẽ trở nên rõ ràng hơn ở bên dưới đây. Kết quả: Kết quả báo cáo bởi Webster (1993) được giới thiệu ở đây. Tính năm thông tin - Như đã đề cập tại mục 1.2.2, sự khác biệt giữa độ nhạy cảm là chìa khóa trong cảm nhận thị giác của con người. Hai tính năng được lựa chọn: đó là nhận biết về thông tin không gian (số lượng không gian chi tiết) và sự cảm nhận thông tin thời gian (số lượng biến đổi độ chói theo thời gian), liên quan đến các điểm ảnh. Thông tin không gian (SI) được định nghĩa như công thức dưới đây SI( fn ) = STDs {Sobel( fn )} (1.22) STDs là viết tắt cho độ lệch tiêu chuẩn trong lĩnh vực không gian, Sobel chỉ rõ hoạt động Sobel, và fn đại diện cho các khung hình video thứ n. Thông tin không gian (TI ) được định nghĩa tương tự: TI(fn)=STDs{∆fn} (1.23) Trong đó: ∆fn= fn- f(n-1) , Tức là, sự chênh lệch giữa các khung hình kế tiếp. Xác định phép đo:L là tham số trong phương trình 1.21 được chọn là ba. Đó là (1.24) L tham số trong phương trình 1.21 được chọn là ba. Đó là các phép đó n 1, n2, n3 được xây dựng dựa trên các tính năng thông tin được xác định, SI và TI, như sau: 1. Phép đo n1 : RMSt là giá trị đại diện cho thư mục gốc có nghĩa là giá trị bình phương được thực hiện trên khung thời gian, ofn và dfn biểu thị khung ban đầu thứ n và khung thứ n bị suy thoái, tương ứng. Nó được quan sát thấy rằng n1 là một biện pháp thay đổi tương đối các thông tin không gian giữa các khung ban đầu và khung bị suy thoái. 2. Phép đo n2: Mà trong đó STDt biểu thị toán tử độ lệch tiêu chuẩn về thời gian, và CONV cho thấy các thao tác tích chập giữa hai đối số của nó. Nó được hiểu là thông tin thời gian, TI, đo sự thay đổi độ chói theo thời gian (thời gian chuyển động) và tích chập đối số [- 41
1,2,-1] tăng cường sự biến đổi do tính chất bộ lọc. Do đó, n 2 đo sự khác biệt của TI giữa các khung hình gốc và chọn lọc khung. 3. Phép đo n3. Trong đó, MAXt chỉ lấy các giá trị tối đa theo thời gian. Do đó, phép đo n 3 đáp ứng tỷ lệ giữa các thông tin thời gian của video bị suy thoái và các bản video gốc. Biến dạng như các tạo tác khối ( được thảo luận trong chương 11) và chuyển động giật lùi ( được thảo luận trong chương 10) xẩy ra trong mã hóa video, sẽ làm cho n 3 rất lớn. Mục đích dự đoán: Lỗi bình phương quy trình được áp dụng để kiểm tra chuỗi video với các phép đo ni, i=1,2,3, được xác định ở trên, để làm giảm sự sai lệch giữa các điểm đánh giá thu được từ việc đánh giá chủ quan và đánh giá mục tiêu. Kết quả là các hệ số ước lượng ao và ai, i=1,2,3. Kết quả, đánh giá khách quan chất lượng của ˆs sẽ trở thành. Báo cáo kết quả thực nghiệm: Nó được ghi nhận rằng hệ số tương quan giữa điểm số đánh giá chủ quan và điểm số đánh giá khách quan ( ước tính số điểm chủ quan ) là trong khoảng 0.92 đến 0.94. Lưu ý là, một tập hợp của 36 cảnh quay thử nghiệm có chứa một lượng thông tin không gian và thời gian khác nhau đã được sử dụng trong các thí nghiệm. Do đó, điều rõ ràng là hiệu suất đạt được khá tốt, mặc dù có chỗ cải tiến hơn, công việc này hiện đã mở ra một cách mới và đầy hứa hẹn để đánh giá chất lượng hình ảnh bằng cách kết hợp nhiều phương pháp tiếp cận khách quan và chủ quan. Vì nó là khách quan, nhanh chóng và dễ dàng; Và bởi vì nó được dựa trên các phép đo lường chủ quan, nó chính xác hơn về mối tương quan cao với nhận thức của con người. Về mặt lý thuyết, các biện pháp thông tin không gian và thời gian quy định trên diffirencing rất quan trọng. Chúng phản ánh các khía cạnh quan trọng nhất trong cảm nhận thị giác của con người. 1.4 Kết quả lý thuyết thông tin Trong phần đầu của chương nay, nó đã lưu ý rằng các thông tin được coi là một trong những khái niệm cơ bản trong việc nén video và hình ảnh. Bây giờ chúng ta sẽ giải quyết một số kết quả lý thuyết thông tin. Trong phần này, biện pháp thông tin và dữ liệu ngẫu nhiên của một nguồn tin được trả lại đầu tiên. Sau đó chung tôi giới thiệu 42
một số định lý mã hóa, nó đóng một vai trò cơ bản trong việc nghiên cứu video và hỉnh ảnh nén. 1.4.1 Dữ liệu ngẫu nhiên (ENTROPY) Entropy là một khái niệm rất quan trọng trong lý thuyết thông tin và truyền thông. Vì vậy trong hình ảnh và video nén. Đầu tiên chúng ta xác định nội dung thông tin của một nguồn biểu tượng. Sau đó chúng ta định nghĩa Entropy là nội dung thông tin trung bình chỗ mỗi một biểu tượng, cho mỗi nguồn rời rạc 1.4.1.1 Biện pháp thông tin Như đã đề cập ở đầu chương này, thông tin được định nghĩa như là kiến trúc, thực tế và tin tức. Nó có thể đo được về mặt số lượng. Các thông tin là những biểu tượng. Hãy xem xét một biểu tượng với 1.4.1.1. Đơn vị đo lường thông tin Như đã nêu ở phần đầu, thông tin đc xác định từ kiến thức đã có kết hợp với thực tế và các tin tức, đc đo lường với 1 số lượng cụ thể. Thông tin đc thể hiện qua các công thức. Xét trường hợp một công thức mà p là xác suất xảy ra thì nội dung của nó ( nghĩa là lượng thông tin chứa trong công thức đó) được thể hiện như sau: Bit là cách viết ngắn gọn của hệ nhị phân. Trong các phương trình trên chúng ta xét hàm loga có cơ số là 2. Tuy nhiên kết quả có thể dễ dàng chuyển đổi trong trường hợp mà cơ số r dùng để mã hóa theo công thức sau đây. Bởi vậy từ thời điểm này chúng ta tập trung thảo luận về vấn đề mã hóa hệ nhị phân. Theo phương trình 1.30, lượng thông tin trong công thức là 1 hàm logarit của xác suất xảy ra của nó. Xác suất càng nhỏ thì lượng thông tin càng lớn Điều này hoàn toàn phù hợp với kiến thức chung. Tính chính xác, không ổn định, không rõ ràng của công thức có liên quan tới xác suất. Xác xuất nhỏ bằng tính chính xác, không ổn định, không rõ ràng càng lớn.? Bằng cách này, ta có thể thấy rằng lượng thông tin chứa trong công thức là về tính chính xác, không ổn định, không rõ ràng của nó. Lưu ý là 43
đơn vị đo lường được xác định ở đây có giá trị cho cả các biểu tượng cân bằng hoặc không cân bằng 1.4.1.2 Thông tin trung bình trong mỗi kí hiệu Xét tới nguồn thông tin rời rạc không nhớ. Rời rạc có nghĩa thông tin là một tập hợp kí hiệu đếm được. Không nhớ có nghĩa trong tập hợp đó sự xuất hiện của 1 kí hiệu ko phụ thuộc vào các kí hiệu có trước nó. Lấy ví dụ về kiểu thông tin này trong đó có thể chứa m kí hiệu: Xác suất xuất hiện tương ứng được biểu hiện bằng Theo như vấn đề được thảo luận ở trên, nội dung thông tin của kí hiệu , bằng với bits. Entropy được định nghĩa là giá trị thông tin trung bình của mỗi kí hiệu. Thực chất, entropy, có thể được biểu hiện như sau Từ định nghĩa này, chúng ta thấy rằng entropy của một nguồn thông tin là một hàm sô xác suất xuất hiện. Có thể dễ thấy entropy lớn nhất khi các kí hiệu trong tập hợp có xác suất bằng nhau 1.4.2 Thuyết mã hóa nguồn Shannon Xét 1 nguồn thông tin rời rạc, không nhớ và không thay đổi. Trong mã hóa nguồn, một từ mã được gán cho mỗi kí hiệu của nguồn. Số lượng bits trong từ mã được gọi là chiều dài của từ mã đó. Chiều dài trung bình của từ mã được gọi là bitrate, thể hiện qua đơn vị bits mỗi kí hiệu. Thuyết mã hóa nguồn Shannon chỉ ra rằng đối với 1 nguồn thông tin rời rạc, không nhớ và không thay đổi, tốc độ bít nhỏ nhất đòi hỏi mã hóa 1 kí hiệu, thông thường nó bằng với entropy của nguồn. Thuyết này cũng cho chúng ta 1 giới hạn thấp hơn trong việc mã hóa nguồn. Cái giới hạn đó có thể đạt được khi mã hóa chậm đạt ngưỡng vô cùng. Chúng ta hiểu mã hóa trễ là người mã hóa chờ đợi cho tới khi có một số lượng kí hiệu nhất định, anh ta sẽ mã hóa chúng. May mắn là với sự có hạn của trễ mã hóa, chúng ta có thể hoàn thành một chiều dài trung bình từ mã là gần các entropy. Đó là, chúng tôi không phải hy sinh tốc độ bit nhiều để tránh sự chậm trễ mã hóa dài, trong đó bao gồm việc tính toán phức tạp cao và một số lượng lớn không gian bộ nhớ. Lưu ý rằng giả định rời rạc là không cần thiết. Chúng tôi giả định một nguồn rời rạc đơn giản chỉ vì hình ảnh kỹ thuật số và video tập trung trong cuốn sách này. Stationarity giả định là cần thiết trong việc phát sinh nguồn không có tiếng ồn mã hóa định lý. Giả định này có thể không được hài lòng trong thực tế. Do đó, định lý 44
Shannon là một hướng dẫn lý thuyết mà thôi. Không có nghi ngờ, tuy nhiên, rằng nó là 1 kết quả lý thuyết cơ bản trong lý thuyết thông tin. Tóm lại, các nguồn không có tiếng ồn mã hóa định lý, định lý 1 Shannon, được xuất bản trong bài báo nổi tiếng của mình (Shannon, 1948), liên quan đến vụ việc mà cả hai kênh và hệ thống mã hóa cả nhiễu. Mục đích trong những trường hợp này được mã hóa chặt. Nhỏ gọn hơn, tốt hơn mã hóa. Định lý này xác định thấp hơn bị ràng buộc, đó là nguồn dữ liệu ngẫu nhiên, và làm thế nào để đạt được thấp hơn ràng buộc. Một cách để đánh giá hiệu quả của một chương trình mã hóa để xác định hiệu quả của nó đối với các ràng buộc thấp hơn, tức là, entropy. H hiệu quả được định nghĩa như sau entropy, H là entropy, và Lavg biểu thị chiều dài trung bình của từ mã trong các mã. Kể từ khi entropy là giới hạn thấp hơn, hiệu quả sử dụng không bao giờ vượt quá sự hiệp nhất, tức là, Cùng một định nghĩa có thể được tổng quát để tính toán hiệu quả tương đối giữa hai mã số. Đó là Nơi Lavg,1 và Lavg,2 đại diện cho chiều dài từ mã trung bình cho mã 1 và mã 2, tương ứng. Chúng tôi thường đặt và được gọi là hiệu quả của mã 2 đối với mã 1. Một thông số bổ sung của mã hóa hiệu quả được mã hóa dư thừa, , được định nghĩa là (1.35) 1.4.3 Mã hóa định kênh nhiễu của shannon Nếu mã có hiệu quả , tức là, nó đạt đến thấp hơn bị ràng buộc mã hóa nguồn, sau đó mã hóa dự phòng là . Bây giờ hãy xem xét một kênh truyền ồn ào. Trong truyền tải những biểu tượng được mã hóa thông qua các kênh ồn ào, các ký hiệu 45
nhận được có thể là sai lầm do thiếu dự phòng. Mặt khác, nó được biết đến bằng cách thêm dự phòng (ví dụ, bit chẵn lẻ kiểm tra) một số lỗi xảy ra trong quá trình truyền trên các kênh ồn ào có thể được sửa chữa hoặc được xác định. Sau này, những biểu tượng được mã hóa sau đó phẫn nộ. Bằng cách này, chúng ta thấy rằng việc thêm dự phòng có thể chống lại tiếng ồn. Kênh ồn ào của Shannon mã hóa Định lý mà nó có thể truyền các ký hiệu trên một kênh ồn ào mà không có lỗi nếu tỷ lệ bit dưới công suất kênh, C. Điều đó được R<C (1.36) trong đó R biểu thị tốc độ bit. Dung lượng kênh được xác định bởi tiếng ồn và nguồn tín hiệu Trong kết luận, định lý mã hóa các kênh ồn ào, định lý thứ hai của Shannon (Shannon, 1948), là có liên quan với một kênh ồn ào memoriless. Memoriless, chúng tôi có nghĩa là đầu ra kênh tương ứng với đầu vào hiện nay là độc lập của các đầu ra tương ứng với biểu tượng đầu vào trước đó. Trong hoàn cảnh này, mục đích là đáng tin cậy thông tin liên lạc. Để có lỗi miễn phí, tốc độ bit không thể vượt quá dung lượng kênh. Đó là, công suất kênh đặt trên ràng buộc về tốc độ bit đó 1.4.4. Định lý mã hóa nguồn của shannon Như đã thấy trong hai phần phụ trước đó, định lý mã hóa các nguồn không ồn xác định tỷ lệ bit thấp nhất có thể cho mã nguồn không ồn và kênh truyền dẫn không ồn, trong khi định lý mã hóa các kênh ồn ào xác định tỷ lệ bit cao nhất có thể mã hóa để truyền lỗi. Vì vậy, cả hai định lý làm việc cho truyền dẫn đáng tin cậy (không có lỗi). Trong tiểu mục này, chúng tôi tiếp tục để giải quyết với các nguồn thông tin rời rạc memoriless, nhưng chúng tôi thảo luận về tình hình mất dữ liệu mã hóa là gặp phải. Kết quả là, sự biến dạng của nguồn thông tin diễn ra. Ví dụ, lượng tử, được bao phủ trong các chương tiếp theo, gây ra mất mát thông tin. Vì vậy, nó được kết luận rằng nếu một quy trình mã hóa liên quan đến lượng tử, sau đó nó được tổn hao mã hóa. Đó là, các lỗi xảy ra trong quá trình mã hóa, mặc dù các kênh là lỗi miễn phí. Chúng tôi muốn tìm giới hạn thấp hơn tỷ lệ bit cho trường hợp này. Nguồn mã hóa định lý (Shannon, 1948) cho một biến dạng D, có tồn tại chức năng biến dạng một tỷ lệ R (D) (Berger, 1971), là tỷ lệ bit tối thiểu cần thiết để truyền tải các nguồn với sự biến dạng nhỏ hơn hoặc bằng D. Đó là, để có sự biến dạng không lớn hơn so với D, tỷ lệ bit R phải đáp ứng các điều kiện sau đây: R ≥RD (1,37) 46
Một cuộc thảo luận chi tiết hơn về định lý và chức năng bóp méo tỷ lệ được đưa ra trong Chương 15, khi chúng tôi giới thiệu mã hóa video. 1.4.5 Định lý truyền tải thông tin Rõ ràng bằng cách kết hợp các định lý mã hóa kênh nhiễu và định lý mã hóa nguồn có thể lấy được các mối quan hệ sau đây: C ≥ R (D) (1,38) Điều này được gọi là định lý việc truyền tải thông tin (Slepian, 1973). Nó nói rằng nếu dung lượng kênh của một kênh ồn ào, C, lớn hơn so với tỷ lệ biến dạng chức năng R (D), sau đó nó có thể để truyền tải một nguồn thông tin với méo D qua một kênh ồn ào. 1.5 TÓM TẮT Trong chương này, chúng tôi đầu tiên thảo luận sự cần thiết cho hình ảnh và nén video. Nó được hiển thị hình ảnh và video nén trở thành một kỹ thuật cho phép trong số bùng nổ của các ứng dụng đa phương tiện kỹ thuật số ngày nay. Sau đó, chúng tôi cho thấy tính khả thi của hình ảnh và video nén nằm trong loại bỏ sự dư thừa. Hai loại dư thừa dự phòng thống kê và dự phòng psychovisual được nghiên cứu. Dự phòng thống kê đến từ interpixel tương quan và mã hóa redun-Dancy. Interpixel tương quan, chúng tôi có nghĩa là mối tương quan giữa các điểm ảnh hoặc nằm trong một khung hình (không gian hoặc intraframe dự phòng) hoặc điểm ảnh nằm trong khung hình kế tiếp (thời gian hoặc interframe dự phòng). Mã hóa dự phòng liên quan đến mã hóa kỹ thuật. Dự phòng Psychovisual được dựa trên các tính năng (một số loại mặt nạ của các hiện tượng) của nhận thức thị giác của con người. Đó là, thông tin hình ảnh không được nhận thức như nhau từ các điểm thị giác của con người xem. Trong ý nghĩa này, một số thông tin là psychovisually dư thừa LLC. Chất lượng tái tạo hình ảnh và video là một tiêu chí quan trọng trong việc đánh giá hiệu suất truyền tải hình ảnh hoặc các hệ thống lưu trữ. Cả hai vấn đề được thảo luận đánh giá một cách khách quan . Kể từ khi kết hợp nó những giá trị của cả hai loại đánh giá chất lượng hình ảnh, nó đạt được hiệu suất khá thỏa đáng. Các tính năng lựa chọn thống kê cho thấy một số cơ chế có thể của nhận thức thị giác của con người. Nghiên cứu Tiếp tục trong lĩnh vực này sẽ có hiệu quả. Trong phần cuối cùng, chúng tôi giới thiệu một số kết quả lý thuyết thông tin cơ bản, liên quan đến nén hình ảnh và video. Các kết quả được giới thiệu bao gồm đo 47
lường thông tin, dữ liệu ngẫu nhiên. Nguồn mã hóa điểm cho rằng entropy của một nguồn thông tin là ranh giới thấp hơn tỷ lệ bit mã hóa một bộ mã hóa nguồn có thể đạt được. Nguồn mã hóa định lý giao dịch với mã hóa lossy áp dụng trong một kênh tiếng miễn phí. Nó nói rằng một biến dạng nhất định D, có một chức năng biến đổi tỷ lệ R (D). Khi tốc độ bit trong nguồn mã hóa lớn hơn R (D), các nguồn tái tạo vào cuối có thể nhận đáp ứng các yêu cầu được xác định bởi D. Định lý Các kênh mã hóa để đạt được hiệu suất lỗi, nguồn mã hóa tỷ lệ bit phải nhỏ hơn dung lượng kênh. Kênh công suất là một chức năng khuếch đại và tín hiệu điện. Định lý truyền tải thông tin kết hợp các kênh định lý mã hóa và định lý mã nguồn. Nó nói rằng nó có thể có một dạng tái tạo sóng nhận được , đáp ứng các yêu cầu cho âm thanh có độ trung thực tương ứng với sự biến dạng D nếu dung lượng kênh C là lớn hơn so với chức năng tỷ lệ R (D). Mặc dù một số các giả định mà trên đó các định lý được phát triển có thể không hợp lệ trong thực tế tình huống phức tạp , những định lý quan trọng quy định giới hạn lý thuyết cho mã hóa hình ảnh và video. họ cũng có thể được sử dụng để đánh giá hiệu suất của các kỹ thuật mã hóa khác nhau. 1.6. Các bài tập 1-1. Sử dụng các ý kiến riêng của bạn, xác định không gian và thời gian dư thừa, và nêu rõ tác động của nó khi có hình ảnh và nén video. 1-2. Tại sao sự khác biệt giữa độ nhạy được coi là tính năng quan trọng nhất trong thị giác của nhận thức con người ? 1-3. Từ các mô tả của kỹ thuật đánh giá khách quan mới được phát triển dựa trên đánh giá chủ quan mà đã được thao luận ở mục 1.3, những điểm nào bạn nghĩ rằng có liên quan đến và trình bày trong bài tập 1-2? 1-4. Giải thích luật pháp Weber sử dụng những ý kiến riêng của bạn. 1-5. Yếu tố(đặc tính) nào được quyết định bởi các kiểu của màu sắc mà khi tách riêng thành phần chiếu sáng từ những thành phần co màu ? 1-6. Tại sao mô hình HIS không được thông qua bất kỳ hệ thống truyền hình? 1-7. Mục tiêu đo lường chất lượng hình ảnh của PSNR có vấn đề gì? Tài liệu tham khảo 48
Berger, T. Lý thuyết Tỷ lệ cong, Englewood Cliffs, NJ, Prentice-Hall, 1971. CCIR khuyến nghị 500-3, Phương pháp đánh giá chủ quan của chất lượng hình ảnh truyền hình, Các khuyến nghị và báo cáo của CCIR các, năm 1986, XVIth toàn thể hội, Volume XI, Phần 1. Connor, DJ, RC Brainard, và JO Limb, Interframe mã hóa để truyền hình ảnh, Proc. IEEE, 60 (7), DG Đài Truyền hình Kỹ thuật Handbook, New York, McGraw-Hill, 1957, phái. 10,7. Goodall, W. M. elevision bởi điều chế xung mã, Bell Syst. Công nghệ cao. J., 33-49, 1951. Gonzalez, RC và RE Woods, xử lý hình ảnh kỹ thuật số, Reading, MA, Addison- Wesley, 1992. 49
CHƯƠNG 11: KHỐI KẾT HỢP Như đã đề cập trong các chương trước, vector đo lường và cách sử dụng nó trong bù chuyển động của quá trình mã hóa cho một tín hiệu truyền hình có thể tìm thấy vào những năm 1970. Netravali và Robbins (1979) đã phát triển một kỹ thuật điểm ảnh đệ quy, trong đó ước tính vector chuyển động cho mỗi điểm ảnh đệ quy từ các điểm ảnh lân cận bằng cách sử dụng một phương pháp tối ưu hóa. Limb và Murphy (1975), Rocca và Zanoletti (1972), Cafforio và Rocca (1976), và Brofferio và Rocca (1977) phát triển kỹ thuật cho các dự toán của vectơ dịch chuyển của một khối các điểm ảnh. Trong cách tiếp cận thứ hai, đầu tiên một hình ảnh được phân đoạn thành các khu vực và các khu vực này có sự đồng nhất với nhau. Sau đó, các vector chuyển động được ước tính cho từng khu vực. Các phân đoạn và dự toán chuyển động liên kết với các khối hình rất khó khăn. Khi có nhiều khu vực di chuyển trong hình ảnh, tình hình trở nên khó khăn hơn. Ngoài ra vectơ chuyển động, hình dạng thông tin của các khu vực này cần phải được mã hóa. Do đó, khi di chuyển các khu vực có nhiều hình dạng phức tạp, phức tạp tính toán và mã hóa tải sẽ tăng đáng kể. Ngược lại, kỹ thuật khối kết hợp, là trọng tâm của chương này rất đơn giản, nhưng rất hiệu quả. Cho đến nay nó đã trở kỹ thuật dự toán phổ biến nhất sử dụng chuyển động trong mã hóa video. Trong thực tế, nó đã được thông qua bởi tất cả các chuẩn quốc tế về mã hóa video như : ISO, MPEG-1 và MPEG-2, và ITU H.261 và H.263. Nó là một kỹ thuật thú vị đáng lưu ý ngay cả khi ngày nay với những tiến bộ to lớn trong kỹ thuật đa phương tiện, dựa trên đối tượng hoặc thao tác dựa trên nội dung của thông tin nghe nhìn vẫn đòi hỏi, đặc biệt là trong lưu trữ dữ liệu nghe nhìn, thu hồi, và phân phối. Các ứng dụng bao gồm thư viện kỹ thuật số, video theo yêu cầu, cơ sở dữ liệu nghe nhìn, cũng đòi hỏi như vậy. Vì vậy, các mã hóa của các đối tượng hình đã thu hút được sự quan tâm nghiên cứu lớn ngày này. Nó bao gồm trong các hoạt động MPEG-4 (Brailean, 1997), và sẽ được thảo luận trong Chương 18. 11.1. Không chồng chéo, cách đều nhau, kích thước cố định, khối kết hợp nhỏ hình chữ nhật Để tránh các khó khăn gặp phải trong dự toán chuyển động và bù chuyển động với các khối hình tùy ý, kỹ thuật khối kết hợp đã được đề xuất bởi Jain và Jain (1981) dựa trên mô hình chuyển động đơn giản sau đây. 50
Một hình ảnh được phân chia thành một tập hợp các khối không chồng chéo nhau, cách đều nhau, kích thước cố định, khối nhỏ hình chữ nhật và chuyển động dịch trong mỗi khối được giả định là thống nhất. Mặc dù mô hình này đơn giản chỉ xem xét chuyển động dịch các loại chuyển động, chẳng hạn như xoay và phóng to các đối tượng, có thể được xếp sát nhau bởi các dịch chuyển của các khối nhỏ cung cấp các khối này là đủ nhỏ. Sự quan sát này, ban đầu được thực hiện bởi Jain và Jain, đã được xác nhận một lần nữa và một lần nữa kể từ đó. Vectơ dịch chuyển cho các khối này được ước tính bằng cách tìm kiếm tốt nhất đối tác của chúng xuất hiện trong khung trước. Theo cách này, dự toán chuyển động dễ dàng hơn đáng kể cho các khối hình tùy ý. Kể từ khi chuyển động của mỗi khối được mô tả bởi một vector chuyển động, thông tin bên trên vectơ chuyển động giảm. Hơn nữa, thông tin dạng hình chữ nhật được biết đến với bộ mã hóa và giải mã, và do đó không cần phải mã hóa nữa. Hình 11.1. Khối kết hợp. Kích thước khối phải được lựa chọn chính xác. Nói chung, nhỏ hơn kích thước khối, chính xác hơn là xấp xỉ. Nó là rõ ràng, tuy nhiên, kích thước khối nhỏ hơn dẫn đến nhiều vectơ chuyển động được ước tính và mã hóa. Như một sự thỏa hiệp, kích thước của 16x16 được coi là một lựa chọn tốt. (Điều này đã được quy định trong các 51
tiêu chuẩn quốc tế về mã hóa video chẳng hạn như H.261, H.263, MPEG-1 và MPEG- 2.) Lưu ý rằng đối với dự toán tốt hơn kích thước khối 8x8 đôi khi được sử dụng. Hình 11.1 được sử dụng để minh họa cho kỹ thuật khối kết hợp. Trong hình 11.1 (a) một khung hình ảnh phổ biến tại thời điểm t n được phân đoạn thành các khối hình chữ nhật không chồng chéo nhau có kích thước pxq. Như đã đề cập ở trên, trong thực tế phổ biến các khối vuông p = q = 16 được sử dụng thường xuyên nhất. Hãy xem xét một trong các khối trung tâm tại (x, y). Người ta cho rằng khối được dịch toàn bộ. Do đó, chỉ có một vectơ ước tính cho khối này. Hình 11.1 (b) hiển thị khung hình trước đó: các khung hình được mở ra trong một khoảnh khắc hình chữ nhật khung tương quan tn-1. Để ước tính vector chuyển,một cửa sổ tìm kiếm hình chữ nhật được mở ra trong khung tn-1 tại trung tâm các điểm ảnh (x,y). Hãy xem xét một điểm ảnh trong cửa sổ tìm kiếm, một cửa sổ tương quan hình chữ nhật giống nhau kích thước pxq để mở ra các điểm ảnh nằm ở trung tâm. Một một số biện pháp tương tự (tương quan) được tính toán. Sau khi quá trình kết hợp này đã được hoàn thành cho tất cả các điểm ảnh ứng cử trong cửa sổ tìm kiếm, các cửa sổ tương quan tương ứng sự giống nhau lớn nhất để phù hợp nhất với các khối đang được xem xét trong khung t n. Vị trí tương đối giữa hai khối (khối và sự phù hợp của nó) cung cấp cho các vectorchuyển động. Được hiển thị trong hinh 11.1b. Kích thước của cửa sổ tìm kiếm được xác định bởi kích thước của cửa sổ tương quan và sự dịch chuyển tối đa có thể theo bốn hướng: lên, xuống, về bên phải và về bên trái. Trong Hình 11.2 bốn số lượng được giả định là như nhau và được ký hiệu là d. Lưu ý rằng d được ước tính từ một kiến thức về chuyển động dịch thuật, trong đó bao gồm tốc độ chuyển động lớn nhất có thể và khoảng thời gian giữa hai khung hình liên tiếp, ví dụ: tn – tn-1. 11.2. Tiêu chí kết hợp Khối kết hợp để kết hợp với hình ảnh có thể xem từ một góc độ rộng hơn. Trong các nhiệm vụ xử lý hình ảnh, chúng ta cần phải xem xét hai hình ảnh hoặc hai phần của hình ảnh trên một điểm ảnh pixel – pixel. 52
Hình 11.2. Cửa sổ tìm kiếm và cửa sổ tương quan. Hai hình ảnh hoặc hai khu vực hình ảnh có thể được lựa chọn từ một chuỗi hình ảnh không gian, tức là, từ hai khung hình cùng một lúc với hai cảm biến khác nhau nhằm cùng một đối tượng, ví dụ: từ hai khung hình chụp tại hai thời điểm khác nhau của cùng một bộ cảm biến. Mục đích của kiểm tra là để xác định sự giống nhau giữa hai hình ảnh hoặc hai phần của hình ảnh, ví dụ về các loại ứng dụng này bao gồm đăng ký hình ảnh (Pratt, 1974) và phù hợp với mẫu (Jain, 1989). Các thỏa thuận trước đây có đăng ký không gian của hình ảnh, trong khi sau đó tách ra và / hoặc công nhận một đối tượng trong một hình ảnh bằng cách kết hợp các mẫu đối tượng và một khu vực nhất định của hình ảnh. Các biện pháp tương tự hoặc biện pháp tương quan là một yếu tố quan trọng trong quá trình phù hợp.Các biện pháp tương tự hoặc tương quan cơ bản giữa hai hình ảnh tn và tn-1, C(s,t) được định nghĩa theo (Anuta, 1969). Điều này được gọi là một chức năng bình thường hóa mối tương quan hai chiều (Musmann et al, 1985.). 53
Thay vì tìm kiếm sự giống nhau tối đa hoặc tương quan, tương đương với việc chưa tính toán một cách hiệu quả kết hợp với khối là để tìm thấy sự khác nhau tối thiểu, hoặc lỗi kết hợp. Sự khác nhau (đôi khi được gọi là lỗi, bóp méo, hoặc khoảng cách) giữa hai hình ảnh tn và tn-1 , D(s,t) được định nghĩa như sau. M (u, v) là một thước đo để đo sự khác nhau giữa hai đối số u và v. D (s, t) cũng được gọi như các tiêu chí kết hợp với các giá trị D. Trong các tài liệu khoa học có một số loại các tiêu chí phù hợp, trong đó có nghĩa là hình vuông lỗi (MSE) (Jain và Jain, 1981) và có nghĩa là sự khác biệt tuyệt đối (MAD) (Koga et al, 1981 ) được sử dụng thường xuyên nhất. Nó được lưu ý rằng tổng của sự khác biệt bình phương (SSD) (Anandan, 1987) hoặc tổng hợp các lỗi bình phương (SSE) (Chan et al, 1990) là cơ bản giống như MSE. Có nghĩa là sự khác biệt tuyệt đối đôi khi được gọi là lỗi tuyệt đối trung bình (MAE) trong tài liệu khoa học (Nogaki và Ohta, 1972) Trong các tiêu chí phù hợp với MSE, sự khác nhau số liệu M (u, v) được định nghĩa như sau M(u,v)=(u-v)2 (11.3) Trong MAD M(u,v)= |u-v| (11.4) Rõ ràng, cả hai tiêu chí đơn giản hơn so với tương quan chéo hai chiều bình thường hóa đo lường quy định trong phương trình 11.1. Trước khi tiến tới phần tiếp theo, một bình luận về việc lựa chọn biện pháp không giống nhau là do. Một nghiên cứu dựa trên các công trình thử nghiệm báo cáo rằng các tiêu chí phù hợp với không ảnh hưởng đến việc tìm kiếm (Srinivasan, 1984). Do đó, MAD được ưa chuộng do sự đơn giản của nó trong việc thực hiện (Musmann et al., 1985). 11.3. Thủ tục tìm kiếm Chiến lược tìm kiếm là một vấn đề quan trọng trong khối kết hợp. Một số chiến lược tìm kiếm được miêu tả dưới đây 54
11.3.1. Tìm kiếm đầy đủ. Hình 11.2 cho thấy một cửa sổ tìm kiếm, một cửa sổ tương quan, và kích thước của chúng. Trong tìm kiếm cho phù hợp nhất, cửa sổ tương quan được chuyển đến từng vị trí ứng cử viên bên trong cửa sổ tìm kiếm. Đó là, có tổng cộng (2d +1)x(2 d +1) vị trí cần phải được kiểm tra. Sự khác nhau tối thiểu cho phù hợp nhất. Rõ ràng, thủ tục tìm kiếm đầy đủ là công cụ tìm kiếm mạnh trong tự nhiên. Để giảm phức tạp tính toán, một số thủ tục tìm kiếm nhanh chóng đã được phát triển. Chúng được giới thiệu dưới đây. 11.3.2. Tìm kiếm Logarít. Jain và Jain (1981) đã phát triển thủ tục tìm kiếm 2-D lôgarít . Dựa trên một thủ tục tìm kiếm 1-D logarit (Knuth, 1973), thủ tục 2-D làm giảm các khu vực tìm kiếm, do đó làm giảm gánh nặng tính toán. Các bước đầu tiên tính toán các tiêu chuẩn kết hợp cho năm điểm trong cửa sổ tìm kiếm. Năm điểm như sau: điểm trung tâm của cửa sổ tìm kiếm và bốn điểm xung quanh nó, với mỗi người là một trung điểm giữa các điểm trung tâm và một trong bốn ranh giới của cửa sổ. Trong số các điểm, tương ứng với sự khác nhau tối thiểu được chọn là người chiến thắng. Trong bước tiếp theo, xung quanh người chiến thắng này, một tập hợp của năm điểm được lựa chọn trong một kiểu tương tự như trong bước đầu tiên, với khoảng cách giữa các điểm còn lại không thay đổi. Trường hợp ngoại lệ xảy ra khi một điểm trung tâm của một tập hợp các điểm hay một điểm ranh giới của cửa sổ tìm kiếm cho một giá trị tối thiểu D. Trong những trường hợp này, khoảng cách giữa các điểm cần phải được giảm. Thủ tục tiếp tục cho đến khi bước cuối cùng, trong đó một tập hợp các điểm ứng cử viên được đặt trong lưới 3x3 2-D. Hình 11.3 (a) cho thấy rằng các giá trị tối thiểu của D diễn ra trên ranh giới, trong khi Hình 11.3 (b) cho thấy giá trị tối thiểu D ở vị trí trung tâm. 55
Hình 11.3: (a) 2-D lôgarít tìm kiếm thủ tục. tại điểm (j, k+2), (j+2, k+2), (j+2, k+4), và (j+1, k+4). Được tìm thấy để cung cấp cho sự khác nhau tối thiểu trong các bước 1, 2, 3, và 4, tương ứng lôgarít tìm kiếm thủ tục. (b) A 2-D lôgarít tìm kiếm thủ tục tại điểm (j, k-2), (j +2, k-2), và (j +2, k-1) được tìm thấy để cung cấp cho sự khác nhau tối thiểu trong các bước 1, 2, 3, và 4, tương ứng. Một bằng chứng hội tụ của các thủ tục được trình bày bởi Jain (1981),theo giả định rằng không giống nhau đơn điệu tăng lên khi các điểm tìm kiếm di chuyển từ điểm tương ứng so với sự khác nhau tối thiểu. 56
Hình 11.4 thủ tục tìm kiếm ba bước. Điểm (j +4, k-4), (j +4, k-6), và (j +5,k-7) cung cấp cho tối thiểu sự khác nhau trong các bước 1, 2 và 3, tương ứng. 11.3.3. Ba bước tìm kiếm đơn giản. Một công việc quan trọng về kỹ thuật khối kết hợp đã được hoàn thành tại thời điểm gần như giống nhau bởi Koga et al. (1981). Một thủ tục đơn giản ba bước được phát triển để tìm kiếm nhanh chóng. Tìm kiếm ba bước là tương tự như tìm kiếm logarit 2-D. Tuy nhiên, sự khác biệt chính giữa hai thủ tục. Đầu tiên, mỗi bước trong việc tìm kiếm ba bước so sánh một tập hợp của chín điểm đã hình thành 3x3 cấu trúc lưới 2-D. Thứ hai, khoảng cách giữa các điểm trong 3x3, cấu trúc lưới 2-D trong giảm tiềm kiếm ba bước đơn điệu trong bước 2 và 3. Thứ ba, tổng cộng chỉ có ba bước được thực hiện. Rõ ràng, ba phần tử là khác nhau từ tìm kiến logarit 2-D được mô tả trong mục 11.3.2. Một ví dụ minh họa của việc tìm kiếm ba bước được thể hiện trong hình 11.4 11.3.4. Hướng tìm kiếm liên hợp. Hướng tìm kiếm liên hợp là một thuật toán tìm kiếm nhanh chóng được phát triển bởi Srinivasan và Rao (1984). Về nguyên tắc, thủ tục bao gồm hai phần. Trong phần đầu tiên, nó tìm thấy sự khác nhau tối thiểu theo hướng ngang với các tọa độ thẳng đứng cố định ở một vị trí ban đầu. Trong phần thứ hai, nó tìm thấy giá trị tối thiểu D theo hướng thẳng đứng với các tọa độ ngang cố định ở vị trí xác định trong 57
phần đầu tiên. Bắt đầu với phương thẳng đứng tiếp theo là chiều ngang, tất nhiên, chức năng tương đương. Nó đã được báo cáo rằng thủ tục tìm kiếm này hoạt động khá hiệu quả (Srinivasan và Rao, 1984). Hình 11.5: Hướng tìm kiếm liên hợp. Hình 11.5 minh họa các nguyên tắc hướng tìm kiếm liên hợp. Trong ví dụ này, mỗi bước liên quan đến việc so sánh giữa ba điểm thử nghiệm. Nếu một điểm giả định giá trị tối thiểu D so với cả hai điểm liên tiếp gần nó (theo một hướng), sau đó nó được coi là phù hợp nhất theo hướng này, và tìm kiếm theo hướng khác được bắt đầu. Cụ thể, thủ tục bắt đầu so sánh các giá trị D cho 3 điểm (j, k-1), (j, k), và (j, k +1). Nếu giá trị điểm (j, k-1) dường như là tối thiểu trong số ba điểm trên, sau đó điểm (j, k-2), (j, k-1), và (j, k) được kiểm tra. Cụ thể, thủ tục bắt đầu so sánh các giá trị D cho 3 điểm (j, k-1), (j, k), và (j, k +1). Nếu giá trị D điểm (j, k- 1) dường như là tối thiểu trong số ba trên, sau đó điểm (j, k-2), (j, k-1), và (j, k) được kiểm tra. Thủ tục tiếp tục, việc tìm kiếm điểm (j, k-3) là phù hợp nhất theo hướng ngang kể từ khi giá trị D của nó là nhỏ hơn so với điểm (j, k-4) và (j, k-2). Sau đó, thủ tục được thực hiện theo hướng thẳng đứng. Trong ví dụ này kết hợp tốt nhất cuối cùng được tìm thấy tại điểm (j +2, k-3). 58
11.3.5. Lấy mẫu con trong cửa sổ tương quan. Trong đánh giá các tiêu chí phù hợp, hoặc MAD hoặc MSE, tất cả các điểm ảnh trong một cửa sổ tương quan khung tn -1 và khối ban đầu tại khung tn được tham gia vào tính toán. Lưu ý rằng các cửa sổ tương quan và khối ban đầu có kích thước tương tự (xem hình 11.1 ). Để giảm quá trình tính toán, lấy mẫu con bên trong cửa sổ và các khối được thực hiện ( Bierling , 1988). Hiệu ứng răng cưa có thể tránh được bằng cách sử dụng qua các bộ lọc thấp. Ví dụ, chỉ có mỗi điểm ảnh thứ hai, cả hai chiều ngang và theo chiều thẳng đứng bên trong cửa sổ và các khối , được đưa vào tài khoản cho việc đánh giá các tiêu chí phù hợp. Rõ ràng, bằng cách sử dụng kỹ thuật lấy mẫu con này, gánh nặng tính toán được giảm một của 4 yếu tố. Từ 3/4 của các điểm ảnh trong cửa sổ và ngăn chặn không tham gia vào việc tính toán phù hợp, tuy nhiên, việc sử dụng của một thủ tục lấy mẫu con như vậy có thể ảnh hưởng đến tính chính xác chuyển động ước tính của các vectơ, đặc biệt là trong trường hợp của kích thước khối nhỏ. Vì vậy, kỹ thuật lấy mẫu con được khuyến cáo chỉ cho những trường hợp với một kích thước khối đủ lớn để tính chính xác phù hợp sẽ không ảnh hưởng nghiêm trọng. Hình 11.6 cho thấy một ví dụ về 2 lấy mẫu con 2x2 áp dụng cho cả khối 1 của gốc16x16 tại khung tn và một cửa sổ tương quan kích thước cùng một lúc các khung tn -1 . 11.3.6. Đa phân giải khối kết hợp. Nó cũng được biết rằng một cấu trúc đa giải pháp, cũng được biết đến như là một cấu trúc kim tự tháp, là một cấu hình tính toán rất mạnh mẽ cho các nhiệmvụ xử lý hình ảnh khác nhau. Để đơn giản tính toán phù hợp với khối, nó là tự nhiên để dúng tới cấu trúc kim tự tháp. Trong thực tế, kỹ thuật đa phân giải đã được coi là một trong những phương pháp hiệu quả nhất trong khối lệnh kết hợp (Tzovaras et al, 1994). trong một kỹ thuật đa phân giải đặt tên từ trên xuống, một Gaussian điển hình kim tự tháp được hình thành đầu tiên. 59
Hình 11.6: một ví dụ về lấy mẫu con 2 x 2 trong khối ban đầu và cửa sổ tương quan cho tìm kiếm một cách nhanh chóng . Trước khi đi sâu vào mô tả thêm chi tiết, chúng ta hãy tạm dừng ở đây để cung cấp cho những độc giả đã không được tiếp xúc với các kim tự tháp Gaussian một giới thiệu ngắn khái niệm này. Đối với những người biết các khái niệm, đoạn này có thể được bỏ qua. Một cách ngắn gọn nói, một kim tự tháp Gaussian có thể được hiểu như là một tập hợp các hình ảnh với độ phân giải khác nhau liên quan đến một hình ảnh ban đầu trong một cách nào đó. Hình ảnh gốc có độ phân giải cao nhất và được coi là cấp thấp nhất, đôi khi gọi là cấp dưới trong bộ này. Từ cấp dưới đến cấp cao nhất, độ phân giải giảm đơn điệu. Cụ thể, giữa hai cấp độ liên tiếp, cấp trên là một nửa lớn như mức độ thấp hơn ở cả hai hướng ngang và dọc. Cấp trên được tạo ra bằng cách áp dụng một bộ lọc thông thấp ( trong đó có một nhóm trọng lượng ) mức độ thấp, tiếp theo là lấy mẫu con 2x2. Đó là, mỗi điểm ảnh ở mức trên trung bình trọng lượng của một số điểm ảnh ở mức thấp hơn. Nói chung, thủ tục này lặp đi lặp lại tạo ra một cấp độ trong thiết lập là tương đương với chập lại một chức năng trọng lượng cụ thể với hình ảnh ban đầu ở cấp dưới tiếp theo là lấy mẫu con thích hợp. Dưới những điều kiện nhất định, các chức năng này trọng lượng có thể gần sát với số hàm mật độ xác suất Gaussian, đó là lý do tại sao kim tự tháp được đặt tên theo Gauss. ( Đối với một cuộc thảo luận chi tiết , độc giả được gọi Burt và Adelson [ 1983, 1984] ). Gaussian cấu trúc kim tự tháp được mô tả trong hình 11.7. Lưu ý rằng kim tự tháp Gaussian mô tả trong hình 11.7 tương tự như cái gọi là quad –tree( cấu trúc cây dữ liệu tứ phân) cấu trúc cây trong đó mỗi nút có bốn nút con. Trong kim tự tháp quad – tree đơn giản, mỗi điểm ảnh trong một cấp trên được gán một giá trị trung bình của bốn điểm ảnh tương ứng của nó ở mức thấp 60
hơn. Bây giờ hãy quay trở lại cuộc thảo luận của chúng tôi về kỹ thuật đa phân giải (multi-resolution) từ trên xuống. Sau một Gaussian kim tự tháp đã được xây dựng, phạm vi chuyển động tìm kiếm được phân bổ giữa các cấp kim tự tháp khác nhau. Kết hợp khối được bắt đầu ở cấp độ phân giải thấp nhất để có được một dự toán ban đầu của vectơ chuyển động. Đây là những vectơ chuyển động tính toán sau đó được tuyên truyền để các cấp độ phân giải cao hơn kế tiếp, nơi mà chúng được sửa chữa và sau đó lan truyền đến cấp độ tiếp theo. Thủ tục này tiếp tục cho đến khi mức độ phân giải cao nhất đạt được. Kết quả là, một số lượng lớn các tính toán có thể được lưu lại. Tzovaras et al. (1994) cho thấy hai cấp Gaussian kim tự tháp hơn so với một kim tự tháp ba cấp. So với kết hợp đầy đủ khối tìm kiếm, tìm kiếm multiresolution khối từ trên xuống, tiết kiệm tới 67 % tính toán mà không ảnh hưởng nghiêm trọng đến chất lượng của các kết luận images. In tái tạo, nó đã được chứng minh rằng đa phân giải (multi-resolution) thực sự là một cấu trúc tính toán hiệu quả trong việc kết hợp khối. Điều này một lần nữa khẳng định hiệu quả cao tính toán của cấu trúc đa phân giải (multi-resolution). Hình 11.7 Gaussian cấu trúc kim tự tháp. 11.3.7. Ngưỡng phù hợp với nhiều độ phân giải. Với kỹ thuật đa phân giải (multi-resolution) thảo luận ở trên các vectơ chuyển động tính toán ở bất cứ cấp kim tự tháp interme - diate được dự báo mức độ phân giải cao hơn kế tiếp. Trong thực tế, một số vectơ chuyển động tính toán ở cấp độ phân giải 61
thấp hơn có thể là không chính xác và có được tinh chế hơn nữa, trong khi những người khác có thể là tương đối chính xác và có thể cung cấp chuyển động bồi thường thỏa đáng cho các khối tương ứng. Từ một quan điểm tính toán tiết kiệm xem, cho các lớp học sau này nó có thể không có giá trị tuyên truyền các vectơ chuyển động với độ phân giải cao hơn kế tiếp để chế biến tiếp. Thúc đẩy bởi sự quan sát trên, một khối multiresolution mới phù hợp với phương pháp với một kỹ thuật ngưỡng được phát triển bởi Shi và Xia ( 1997 ). Các ngưỡng kỹ thuật ngăn chặn các khối, có ước tính vectơ chuyển động cung cấp bồi thường chuyển động đạt yêu cầu, từ chế biến tiếp, do đó tiết kiệm rất nhiều tính toán. Trong những gì sau, kỹ thuật này được trình bày chi tiết để cung cấp cho độc giả với một cái nhìn sâu sắc cho cả hai khối đa phân giải phù hợp và ngưỡng khối đa phân giải kỹ thuật phù hợp. Thuật toán - Hãy fn ( x , y ) là khung của một chuỗi hình ảnh tại n thời điểm hiện tại. Đầu tiên, hai kim tự tháp Gaussian được hình thành, kim tự tháp n và n - 1, từ hình ảnh khung fn ( x , y ) và fn - 1 ( x , y ), tương ứng. Hãy để các cấp độ của các kim tự tháp được ký hiệu là l, l = 0, 1, , L , trong đó 0 là mức độ phân giải thấp nhất ( cấp cao nhất ), L là mức độ phân giải đầy đủ (dưới cấp ), và L +1 là tổng số lớp trong các kim tự tháp. Nếu ( i , j ) là tọa độ góc trên bên trái của một khối tại l cấp của kim tự 1 tháp n, khối được gọi là chặn ( i , j ) n. Các kích thước ngang và dọc của một khối l 1 1 mức độ được biểu hiện bằng b x và b y, tương ứng. Giống như phương pháp thay đổi kích thước khối ( xem Phương pháp 1 trong Tzovaras et al [1994 ] ), Kích thước của khối trong công việc này thay đổi với mức kim tự tháp . Đó là, nếu kích thước của một 1 1 1 khối l cấp b x, sau đó kích thước của khối ở mức l + 1 trở thành 2 b x x 2 b y. Các khối kích thước thay đổi phương pháp được sử dụng bởi vì nó cung cấp cho dự toán chuyển động hiệu quả hơn so với phương pháp cố định kích thước khối. Ở đây, các tiêu chí phù hợp với sử dụng cho dự toán chuyển động là MAD bởi vì nó không đòi hỏi nhân 1 1 và thực hiện tương tự như để MSE. MAD giữa khối (i , j ) b n của khung hình hiện tại 1 1 và khối ( i + vx , j + vy ) b n-1 của khung trước đó ở mức độ l có thể được tính như 1 1 1 V = ( v x , v y ) là một trong những ứng cử viên của vector chuyển động của 1 l l khối (i , j ) n, v x , v y là hai thành phần của vector chuyển động dọc theo sơ đồ x và y 62
hướng dẫn , khối tương ứng. Một thuật toán được thể hiện trong hình 11.8. Ngưỡng vềnhu cầu MAD được xác định trước theo yêu cầu độ chính xác của dự toán chuyển động. Xác định ngưỡng được thảo luận dưới đây trong Phần B của tiểu mục này. Kim tự tháp của Gaussian đang hình thành hai khung hình liên tiếp của một chuỗi hình ảnh mà từ đó ước lượng chuyển động được mong muốn. Phù hợp với khối sau đó được thực hiện ở cấp cao nhất với các đề án tìm kiếm đầy đủ . Các vector chuyển động ước tính được kiểm tra để xem nếu họ cung cấp bồi thường chuyển động đạt yêu cầu. Nếu yêu cầu độ chính xác được đáp ứng , sau đó các vectơ chuyển động sẽ được trực tiếp chuyển đến cấp độ dưới cùng của kim tự tháp. Nếu không, các vectơ chuyển động sẽ được lan truyền đến các cấp độ phân giải cao hơn kế tiếp để nâng cao hơn nữa. Quá trình này ngưỡng được thảo luận dưới đây tại Phần C của tiểu mục này. Thuật toán tiếp tục theo cách này cho đến khi một trong hai ngưỡng đã được thỏa mãn hoặc cấp độ dưới đã được đạt tới. Việc bỏ qua một số tính toán cấp trung gian cung cấp để tiết kiệm tính toán. Làm việc với các thực nghiệm phức tạp chuyển động khá khác nhau cho thấy rằng các thuật toán đề xuất làm giảm thời gian xử lý từ 14 đến 20 % , trong khi vẫn duy trì gần như cùng một chất lượng hình ảnh tái tạo so với các thuật toán nhanh nhất đa phân giải hiện có kết hợp khối ( Tzovaras et al , 1994) . 63
Hình 11.8: Sơ đồ chặn cho phù hợp với ngưỡng ba cấp độ phân giải Bảng 11.1: Các tham số được sử dụng trong những thí nghiệm này Các tham số ở các mức độ Mức độ giải thấp Mức độ giải đầy đủ Hoa hậu Mỹ Chuỗi tìm kiếm 3 x 3 1 x 1 Kích thước khối 4 x 4 8 x 8 Ngưỡng giá trị 2 Không (ko áp dụng) Tàu hỏa Chuỗi tìm kiếm 4 x 4 1 x 1 64
Kích thước khối 4 x 4 8 x 8 Ngưỡng giá trị 3 Không (ko áp dụng) Bóng đá Chuỗi tìm kiếm 4 x 4 1 x 1 Kích thước khối 4 x 4 8 x 8 Ngưỡng giá trị 4 Không (ko áp dụng) Xác định ngưỡng- Tiêu chuẩn chính xác MAD được sử dụng để tiết kiệm việc tính toán. Ngưỡng giá trị này có một ảnh hưởng trực tiếp đối với thuật toán đã nêu. Một ngưỡng giá trị nhỏ có thể cải thiện chất lượng hình ảnh được dựng lại với mức nỗ lực tính toán lớn. Mặt khác, 1 ngưỡng giá trị lớn có thể làm giảm mức độ tính toán phức tạp nhưng chất lượng của bức ảnh được dựng lại này có thể bị giảm. Có khả năng xác định 1 ngưỡng giá trị mà Shi và Xia đã sử dụng trong nhiều thí nghiệm (1997) như sau: Tỷ lệ tín hiệu-nhiễu tột đỉnh (PSNR) được sử dụng chủ yếu trong việc đo lường các hình ảnh được dựng lại. Như đã trình bày trong chương 1, nó được xác định như sau: 2552 PSNR = 10log10 (11.6) MSE Từ PSNR yêu cầu cho trước, ta có thể tìm đc MSE cần thiết. Có thể dùng bình phương của giá trị MSE để làm ngưỡng giá trị áp dụng cho 2 hình ảnh đầu tiên trong chuỗi. Nếu thỏa mãn kết quả PSNR và thời gian xử lý yêu cầu thì có thể áp dụng nó cho phần còn lại của chuỗi. Mặt khác, ngưỡng này có thể được điều chỉnh 1 cách phù hợp và áp dụng cho hình ảnh thứ 2 và thứ 3 để kiểm tra PSNR và thời gian xử lý ảnh. Một loạt các thí nghiệm khác cho thấy ngưỡng giá trị được điều chỉnh này là đủ chính xác và không cần phải điều chỉnh thêm. Như đã trình bày ở bảng 11.1, các ngưỡng giá trị được sử dụng với các chuỗi Hoa hậu Mỹ, Tàu hỏa và chuỗi Bóng đá (3 chuỗi có độ phức tạp về chuyển động rất khác nhau) theo thứ tự là 2, 3 và 4. Tất cả ngưỡng giá trị đều được xác định trong mốt này và đều cho kết quả tốt như được trình bảy trong 3 dòng được đánh dấu tương ứng là “Phương pháp mới (TH=2), “Phương pháp mới (TH=3), “Phương pháp mới (TH=4) trong bảng 11.2. Đó là, những kinh nghiệm PSNR 65
chỉ mất khoảng 0,1 dB và thời gian xử lý giảm 1 cách đáng kể. Trong những thí nghiệm này người ta cũng thử đối với ngưỡng giá trị 3, là giá trị trung bình của 2,3 và 4. Tham khảo 3 dòng đánh dấu “Phương pháp mới (TH=3) trong bảng 11.2. Chú ý rằng ngưỡng giá trị trung bình bằng 3 này thỏa mãn cả 3 chuỗi. Đặc biệt, đối với chuỗi Hoa hậu Mỹ, do tiêu chuẩn này tăng từ 2 lên 3, độ hụt của PSNR tăng lên từ 0.12 lên 0.48 dB và thời gian xử lý tiết kiệm được tăng lên từ 20 tới 38%. Đối với chuỗi bóng đá, do tiêu chuẩn giảm từ 4 xuống 3, độ hụt của PSNR giảm xuống từ 0.08 còn 0.05 dB và thời gian xử lý giảm từ 14% xuống 9%. Rõ ràng là đối với chuỗi “Tàu hỏa”, tiêu chuẩn và công năng là như nhau. Do đó, ta có thể kết luận rằng việc xác định ngưỡng có thể không yêu cầu tính toán gì nhiều. NGƯỠNG- Các vector chuyển động được ước lượng tại mỗi mức kim tự tháp sẽ được kiểm tra để làm sáng tỏ liệu chúng có cho ta mức bù chuyển động thỏa đáng hay t t t không. Gỉa định rằng V (i,j)= (v x , v y ) là vecto chuyển động ước lượng cho khối 1 t (i,j) n ở mức l của kim tự tháp n. Với việc tạo ngưỡng, V (i,j) sẽ được chiếu trực tiếp tới mức đáy của L. Vecto chuyển động tương ứng đối với cùng 1 khối ở đáy kim tự tháp n sẽ là: VL (2(L-t) i,2(L-t) j), và cho ta: VL (2(L-t) i,2(L-t) j) = 2(L-t) Vt(i,j) Độ lệch trung bình tuyệt đối (MAD giữa khối ở mức chân kim tự tháp của ảnh hiện tại và bản sao trong ảnh trước có thể được xác định theo Phương trình 11.5, tại vecto chuyển động V L = VL (2(L-t) i,2(L-t) j). Gía trị MAD đã tính có thể được so sánh với ngưỡng đã xác định trước. Nếu giá trị MAD này nhỏ hơn ngưỡng giá trị thì vecto L (L-t) (L-t) (L-t) (L-t) L chuyển động được ước tính V (2 i,2 j) sẽ được phân bổ tới khối (2 i,2 j) n ở mức L trong hình hiện tại và ước lượng chuyển động cho khối này sẽ bị dừng. Nếu không, vecto chuyển động ước lượng V t (i,j) ở mức l sẽ được truyền đến mức l + 1 để làm cho sáng đẹp hơn. Hình 11.9 minh họa quá trình tạo ngưỡng bên trên. THÍ NGHIỆM- Để làm sáng tỏ hiệu quả của thuật toán đã đề xuất, một loạt thí nghiệm được tiến hành. Công năng của thuật toán mới được đánh giá và so sánh với thuật toán ở Phương pháp 1, một trong những phương pháp khớp khối (Tzovaras et al., 1994) về PSNR, entrôpi lỗi ảnh, entropi vecto chuyển động, rất nhiều khối đứng ở đỉnh so với tổng số khối và thời gian xử lý. Số lượng khối đứng ở đỉnh là số lượng khối được giữ lại từ quá trình xử lý thêm trong khi tổng số khối là số lượng khối tồn tại ở đỉnh. Chú ý tổng số khối ở mỗi mức trong hình kim tự tháp này là như nhau. Thời gian xử lý là tổng số phần thêm vào liên quan đến việc đánh giá MAD và tính toán ngưỡng. 66
Trong những thí nghiệm này, các kim tự tháp 2 bậc được sử dụng vì nó có thể cho kết quả ước lượng chuyển động tốt hơn (Tzovara et al., 1994). Các thuật toán được kiểm tra thử nghiệm trên 3 chuỗi video với các mức độ phức tạp về chuyển động khác nhau, VD: chuỗi “Hoa hậu Mỹ’, chuỗi “Tàu hỏa” và chuỗi “Bóng đá”. Chuỗi “Hoa hậu Mỹ” có 1 hình MC đặt trên 1 nền tĩnh và có ít chuyển động hơn. Chuỗi “Tàu hỏa” có nhiều chi tiết hơn và bao gồm 1 vật thể chuyển động nhanh (đó là tàu hỏa). Hình 11.10 chỉ ra ảnh thứ 20 của chuỗi này. Chuỗi “Bóng đá” có những chuyển động phức tạp nhất so với 2 chuỗi kia. Khung thứ 20 được trình bày trong Hình 11.11. Bảng 11.1 là danh sách các tham số thực thi được sử dụng trong các thí nghiệm. Bảng 11.2 và 11.3 đưa ra đặc trưng của thuật toán đã đề xuất so với Phương pháp 1. Trong cả 3 trường hợp này, việc ước tính chuyển động có độ chính xác lên tới nửa điểm ảnh, điều này sẽ được giải thích rõ ở phần tiếp theo. Việc đo lường công năng được liệt kê ở đây là trung bình của 25 bức ảnh đầu tiên của chuỗi thử nghiệm. Kim tự tháp Kim tự tháp Mức Kim tháp n-1 n Ước lượng vectơ chuyển động Hình chiếu 1 của 1 khối ở mức 1 của khối và vecto chuyển động ước lượng của nó tại mức L Tính toán MAD của khối ở mức L L Hình 11.9: Qúa trình xác định ngưỡng 67