Khảo sát bài toán nhận diện phương tiện và đo tốc độ phương tiện tham gia giao thông

pdf 9 trang Gia Huy 17/05/2022 6130
Bạn đang xem tài liệu "Khảo sát bài toán nhận diện phương tiện và đo tốc độ phương tiện tham gia giao thông", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfkhao_sat_bai_toan_nhan_dien_phuong_tien_va_do_toc_do_phuong.pdf

Nội dung text: Khảo sát bài toán nhận diện phương tiện và đo tốc độ phương tiện tham gia giao thông

  1. Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), Nha Trang, ngày 8-9/10/2020 DOI: 10.15625/vap.2020.00171 KHẢO SÁT BÀI TOÁN NHẬN DIỆN PHƯƠNG TIỆN VÀ ĐO TỐC ĐỘ PHƯƠNG TIỆN THAM GIA GIAO THÔNG Trần Hoàng Lộc, Nguyễn Khắc Ngọc Khôi, Phan Đình Duy, Vũ Đức Lung Trƣờng Đại học Công nghệ thông tin Đại học Quốc gia Thành phố Hồ Chi Minh locth@uit.edu.vn, 15520386@gm.uit.edu.vn, duypd@uit.edu.vn, lungvd@uit.edu.vn TÓM TẮT: Giám sát giao thông là bài toán được quan tâm trong những năm vừa qua. Với tín hiệu báo động từ các vụ tai nạn giao thông và những hành vi phạm tội liên quan đến giao thông, phát triển hệ thống giám sát giao thông thông minh là một trong những nhu cầu cấp thiết hiện nay, trong đó 2 bài toán căn bản của hệ thống này là nhận diện phương tiện tham gia giao thông và đo tốc độ phương tiện tham gia giao thông. Bài báo này được thực hiện nhằm khảo sát và phân loại những phương pháp và hướng tiếp cận phổ biến hiện nay đối với 2 bài toán nhận diện và đo tốc độ phương tiện tham gia giao thông, hướng đến việc xây dựng mô hình giám sát giao thông thông minh trong tương lai. Các bộ dữ liệu thường được sử dụng để huấn luyện và đánh giá hệ thống cũng được tổng hợp để làm cơ sở cho các nhóm nghiên cứu có thể đánh giá công trình nghiên cứu của mình. Từ khóa: Học sâu, nhận diện vật thể, hiệu chuẩn camera, đo tốc độ phương tiện giao thông. I. GIỚI THIỆU Trong những năm vừa qua, một trong những vấn đề xã hội nhức nhối ở Việt Nam chính là tình trạng tai nạn giao thông vẫn đang ở mức cao và gây ra nhiều thiệt hại cả về mặt xã hội và kinh tế. Theo tổng cục thống kê, số lƣợng tai nạn giao thông năm 2019 là 12.626 vụ, trong đó có 22.152 ngƣời bị thƣơng và 7624 ngƣời chết, con số này trong 7 tháng đầu năm năm 2020 lần lƣợt là 7996 vụ tai nạn, 5850 ngƣời bị thƣơng và 3791 ngƣời chết1. Nguyên nhân chính của những vụ tai nạn giao thông này thƣờng là chạy vƣợt quá tốc độ, chạy sai làn đƣờng quy định hoặc vi phạm các quy tắc lƣu thông đƣờng bộ khác. Để khắc phục tình trạng này, nhà nƣớc đã thực hiện nhiều biện pháp khác nhau, trong đó có tăng cƣờng lắp đặt các camera giám sát giao thông với mục đích theo dõi tình trạng giao thông cũng nhƣ xử phạt nguội các trƣờng hợp vi phạm. Bản chất của việc theo dõi tình trạng tham gia giao thông là tận dụng những video thu đƣợc từ các camera và trích xuất các thông tin mà nhận diện các phƣơng tiện tham gia giao thông là yếu tố cốt lõi. Bài toán xác định phƣơng tiện tham gia giao thông không phải là bài toán mới, tuy nhiên vẫn còn đó những thách thức, đặc biệt là đối với tình trạng giao thông phức tạp của Việt Nam nhƣ thành phần tham gia giao thông là xe máy, lƣu lƣợng tham gia giao thông tăng nhanh tại một số thời điểm, điều kiện thời tiết xấu, góc đặt máy quay đa dạng, Bên cạnh đó, để có thể phát hiện những trƣờng hợp chạy vƣợt quá tốc độ quy định, nhiều tuyến đƣờng đã trang bị các máy bắn tốc độ sử dụng laser. Thiết bị này có chi phí rất đắt đỏ và việc trang bị số lƣợng lớn trên nhiều tuyến đƣờng là không khả thi, thay vào đó, tận dụng hình ảnh thu đƣợc từ các video giám sát giao thông từ đó sử dụng các phƣơng pháp xử lý ảnh để phân tích tốc độ xe đang là giải pháp đƣợc nhiều nhà nghiên cứu quan tâm. Tóm lại, để tăng cƣờng khả năng giám sát giao thông qua các camera giám sát đang đƣợc trang bị với số lƣợng lớn trên khắp cả nƣớc, hƣớng tiếp cận sử dụng các kỹ thuật xử lý ảnh để nhận diện và đo tốc độ các phƣơng tiện tham gia giao thông là cần thiết và khả thi với mức chi phí hợp lý. Vấn đề mà bài báo này hƣớng đến đƣợc chia thành hai bài toán nhỏ là: (1) nhận diện phƣơng tiện và (2) đo tốc độ di chuyển của phƣơng tiện. Đầu vào của cả 2 bài toán trên đều là video thu đƣợc từ các camera giám sát. Đầu ra của bài toán (1) là bounding box của phƣơng tiện kèm theo nhãn hay nói cách khác là phƣơng tiện đó thuộc loại gì: xe máy, xe đạp, xe bus, xe tải, xe ô tô con, Nhƣ vậy, bài toán nhận diện phƣơng tiện bao gồm 2 bài toán con đó là bài toán xác định vị trí - localization và bài toán phân loại - classification. Đầu ra của bài toán (2) chính là tốc độ của từng phƣơng tiện trong video. (a) (b) (c) Hình 1. Đầu vào (a) của bài toán nhận diện phƣơng tiện tham gia giao thông là video giám sát giao thông, đầu ra (b) của bài toán là ảnh có các bounding box xác định vị trí, nhãn và độ tin cậy của các phƣơng tiện và đầu ra (c) của bài toán đo tốc độ phƣơng tiện tham gia giao thông là tốc độ của từng phƣơng tiện Trong những năm vừa qua, hƣớng tiếp cận xử lý và phân tích video giám sát giao thông dựa trên các đặc trƣng hình ảnh, video đã thu hút nhiều nhà nghiên cứu cả trong và ngoài nƣớc [1], [2]. Đối với bài toàn nhận diện phƣơng 1
  2. 216 KHẢO SÁT BÀI TOÁN NHẬN DIỆN PHƢƠNG TIỆN VÀ ĐO TỐC ĐỘ PHƢƠNG TIỆN THAM GIA GIAO THÔNG tiện tham gia giao thông, Seenouvong và các đồng nghiệp [3] đã đề xuất mô hình nhận diện phƣơng tiện giới hạn trong một khu vực ảo đƣợc xác định trên không gian ảnh. Phƣơng pháp này bao gồm trích xuất tiền cảnh (foreground), nhận diện, trích xuất đặc trƣng và phân loại phƣơng tiện. Để nhận diện phƣơng tiện, nhóm tác giả [3] đã sử dụng mô hình Gaussian Mixture (GMM), sau đó thực hiện thêm một vài phép tính khác để lấy đƣợc các vật thể chính trong ảnh. Sau cùng, bƣớc phân loại đƣợc thực hiện bằng cách sử dụng bộ phân loại k-nearest neighbor. Audebert và các đồng nghiệp [4] đã đề xuất hƣớng tiếp cận thực hiện phân đoạn trƣớc khi nhận diện phƣơng tiện giao thông sử dụng kỹ thuật học sâu. Các bƣớc xử lý trong hƣớng tiếp cận trên lần lƣợt là phân đoạn, nhận diện và phân loại phƣơng tiện và đƣợc thử nghiệm trên các ảnh viễn thám có độ phân giải cao. Velazquez-Pupo và các đồng nghiệp [5] đã đề xuất mô hình phân tích hình ảnh với một camera giám sát đƣợc gắn cố định với khả năng nhận diện phƣơng tiện tham gia giao thông bao gồm các chức năng xử lý che lấp, đếm phƣơng tiện, theo dõi và phân loại phƣơng tiện. Năm 2019, Fukai Zhang và các đồng nghiệp [6] đã đề xuất mô hình phát hiện phƣơng tiện tham giao thông dựa trên mô hình Single-Shot Multibox Detector (SSD) có khả năng phát hiện nhiều loại phƣơng tiện khác nhau trong thời gian thực. Nhóm tác giả sử dụng nhiều bộ trích xuất đặc trƣng khác nhau cho việc xác định vị trí và phân loại trong cùng một mạng CNN. Để cải thiện chất lƣợng, các đặc trƣng này đƣợc kết hợp với nhau thông qua thao tác deconvolution và pooling. Nhóm tác giả cũng tiến hành điều chỉnh các bounding box theo các tỷ lệ khác nhau để có thể phát hiện các phƣơng tiện có kích thƣớc nhỏ đƣợc chính xác hơn. Nhìn chung, bài toán nhận diện phƣơng tiện giao thông có thể đƣợc chia thành 3 phƣơng pháp tiếp cận chính bao gồm: phƣơng pháp dựa trên các đặc trƣng chuyển động, phƣơng pháp dựa trên các đặc trƣng cấp thấp và phƣơng pháp dựa trên mạng neural. Đối với bài toán đo tốc độ phƣơng tiện tham gia giao thông, phƣơng pháp thƣờng đƣợc sử dụng là hiệu chuẩn camera từ đó tính toán tốc độ dựa trên tỉ lệ giữa hình ảnh trong video và trong thực tế [7]. Trong công bố [8], nhóm tác giả He và Yung đã đề xuất phƣơng pháp để tính xấp xỉ tốc độ của phƣơng tiện giao bằng cách biến đổi ảnh 2D sang tọa độ 3D trong thế giới thực dựa trên việc hiệu chuẩn các tham số của camera. Sau khi đã có đƣợc ảnh trong tọa độ 3D, nhóm tác giả thực hiện tính toán độ lệch giữa 2 khung hình liên tiếp để loại bỏ cảnh nền và ghép các phƣơng tiện trong 2 khung hình và một khung hình duy nhất. Sau cùng, các đặc trƣng khối gần mặt đất nhất đƣợc so khớp để tính xấp xỉ đoạn đƣờng di chuyển và tốc độ của phƣơng tiện. Cũng cùng nhóm tác giả này trong công bố [9] đã đề xuất hƣớng tiếp cận để giải quyết thử thách hiệu chuẩn camera trong thời tiết xấu bằng các sử dụng các vạch kẻ đƣờng. Schoepflin và các đồng nghiệp [10] đã tạo nên một sơ đồ hoạt động bằng cách nhận diện phƣơng tiện dựa trên chuyển động của tiền cảnh. Sử dụng sơ đồ hoạt động này, nhóm tác giả xác định đƣợc đƣờng biên của làn xe từ đó xác định điểm ảo (vanishing point) đầu tiên bằng cách lấy giao điểm của các đƣờng biên này trong ảnh. Điểm ảo thứ hai đƣợc xác định bằng cách lấy giao điểm của các đƣờng thẳng tạo bởi các cạnh dƣới của phƣơng tiện. Sử dụng 2 điểm ảo, nhóm tác giả có thể hiệu chuẩn camera, từ đó với một đoạn độ dài đƣợc đo từ trƣớc, hệ thống này có thể tính tỉ lệ giữa thế giới thực và hình ảnh ghi đƣợc từ camera và tính khoảng cách cũng nhƣ tốc độ của phƣơng tiện giao thông. Năm 2019, Hyung Jun Kim [11] đề xuất một hệ thống giám sát giao thông có khả năng nhận diện, theo dõi và phân loại các loại phƣơng tiện giao thông sử dụng nhiều kỹ thuật xử lý ảnh khác nhau cùng với máy học dựa trên mạng tích chập. Với video đầu vào từ camera giám sát, tác giả sử dụng kỹ thuật tách nền để phát hiện các phƣơng tiện giao thông. Với ảnh nền vừa đƣợc tách ra, mô hình sử dụng bộ nhận diện các cạnh và biến đổi Hough để phát hiện các làn đƣờng, các cột trụ trên đƣờng, từ đó tính giao điểm của chúng để lấy đƣợc các điểm ảo. Bên cạnh đó, để giảm thiểu mức độ tính toán, tác giả cũng tạo ra một vùng giới giới hạn nhất định và chỉ tính toán trong phạm vi đó. Sau cùng, tác giả sử dụng mô hình hình chiếu phối cảnh để tính toán khoảng cảnh thực từ góc quay của camera, từ đó tính đƣợc khoảng cảnh và tốc độ di chuyển của phƣơng tiện. Phƣơng pháp hiệu chuẩn camera có thể đƣợc chia thành 5 hƣớng tiếp cận chính bao gồm: (1) hƣớng tiếp cận từ việc xác định các vạch kẻ đƣờng, (2) hƣớng tiếp cận dựa trên chuyển động của phƣơng tiện, (3) hƣớng tiếp cận đo đạc thủ công, (4) hƣớng tiếp cận tự động hiệu chuẩn dựa trên thống kê các chiều và (5) các hƣớng tiếp cận khác. Bài báo này nhằm khảo sát các phƣơng pháp tiếp cận đối với hai bài toán là nhận diện phƣơng tiện và đo tốc độ phƣơng tiện tham gia giao thông dựa trên hình ảnh thu đƣợc từ camera giám sát. Đóng góp chính của bài báo này bao gồm: (1) Phân loại các hƣớng tiếp cận và khảo sát các công trình nghiên cứu đối với bài toán nhận diện phƣơng tiện tham gia giao thông, (2) Phân loại các hƣớng tiếp cận và khảo sát các công trình nghiên cứu đối với bài toán đo tốc độ phƣơng tiện tham gia giao thông, (3) Tổng hợp một số tập dữ liệu thƣờng đƣợc sử dụng trong hai bài toán nêu trên. Mục tiêu tƣơng lai của nhóm nghiên cứu là dựa trên những khảo sát này, nhóm sẽ tiếp tục nghiên cứu và đề xuất mô hình nhận diện và đo tốc độ phƣơng tiện tham gia giao thông hiệu quả tại Việt Nam. Cấu trúc của bài báo đƣợc tổ chức nhƣ sau. Phần II trình bày khảo sát về bài toán nhận diện phƣơng tiện tham gia giao thông. Các khảo sát về bài toán đo tốc độ phƣơng tiện tham gia giao thông đƣợc trình bày trong phần III. Phần IV sẽ tổng hợp những tập dữ liệu đƣợc sử dụng để huấn luyện và đánh giá trong hai bài toán nêu trên. Cuối cùng, Phần V sẽ đƣa ra kết luận. II. KHẢO SÁT BÀI TOÁN NHẬN DIỆN PHƯƠNG TIỆN GIAO THÔNG Nhƣ đã trình bày ở trên, bài toán nhận diện phƣơng tiện tham gia giao thông bao gồm 2 bài toán con là xác định vị trí của phƣơng tiện - localization và phân loại phƣơng tiện - classification. Nhận diện phƣơng tiện là bƣớc cơ bản để có thể thực hiện những chức năng giám sát nhƣ theo dõi hay phân tích hành vi. Có 2 hƣớng tiếp cận chính trong bài toán này đó là nhận diện dựa trên hình dáng bên ngoài của phƣơng tiện và nhận diện dựa trên chuyển động của tiền cảnh [12]. Hƣớng tiếp cận dựa trên việc trích xuất các đặc trƣng từ kết cấu, màu sắc hay hình dạng của phƣơng tiện là
  3. Trần Hoàng Lộc, Nguyễn Khắc Ngọc Khôi, Phan Đình Duy, Vũ Đức Lung 217 hƣớng tiếp cận từ hình dáng bên ngoài. Ngƣợc lại, việc sử dụng các đặc tính chuyển động của video từ đó tính toán độ lệch giữa các khung hình tiền cảnh (foreground) trên hậu cảnh (background) tĩnh để xác định các phƣơng tiện là hƣớng tiếp cận dựa trên chuyển động. Phƣơng pháp A đƣợc trình bày sau đây là hƣớng tiếp cận dựa trên chuyển động, còn phƣơng pháp B và C sử dụng hƣớng tiếp cận dựa trên hình dáng bên ngoài của phƣơng tiện. A. Phương pháp dựa trên các đặc trưng chuyển động Đặc trƣng của video giám sát giao thông đó là cảnh nền trong video luôn cố định, hay nói cách khác ta có thể xem cảnh nền là một ảnh tĩnh, và đối tƣợng mà bài toán quan tâm chính là các phƣơng tiện chuyển động trên cảnh nền tĩnh đó. Mục tiêu của phƣơng pháp này chính là tách đƣợc các phƣơng tiện đang di chuyển ra khỏi cảnh nền tĩnh, để thực hiện đƣợc điều này, phƣơng pháp này có thể đƣợc tiếp cận theo 3 hƣớng chính sau: (1) hƣớng tiếp cận từ sự khác biệt giữa các khung hình [13] bằng cách tính toán trên 2 hoặc 3 khung hình liên tiếp nhau, (2) hƣớng tiếp cận từ việc tách bỏ ảnh nền [14] bằng cách xây dựng cảnh nền từ các khung hình trƣớc đó và (3) hƣớng tiếp cận từ luồng sáng (optical flow) [15] thông qua tốc độ của các điểm ảnh xuất hiện tức thời. 1. Hƣớng tiếp cận từ sự khác biệt giữa các khung hình Với hƣớng tiếp cận này, sự khác biệt giữa các điểm ảnh sẽ đƣợc tính toán trên 2 khung hình liên tiếp. Các độ sai lệch này sau đó đƣợc so sánh với một mức ngƣỡng để phân biệt tiền cảnh và hậu cảnh. Độ chính xác của phƣơng pháp này có thể đƣợc cải thiện bằng cách so sánh 3 khung hình liên tiếp. Trong [13], tác giả sử dụng tính tƣơng quan giữa không gian và thời gian của phƣơng tiện chuyển động, từ đó đề xuất kết hợp phƣơng pháp tính độ lệch giữa 3 khung hình và ngƣỡng cross-entropy 2 chiều để xác định đối tƣợng chuyển động. 2. Hƣớng tiếp cận từ tách bỏ ảnh nền Đây là hƣớng tiếp cận thƣờng đƣợc sử dụng trong bài toán nhận diện phƣơng tiện giao thông. Hƣớng tiếp cận này sử dụng sự khác nhau của các điểm ảnh giữa ảnh hiện tại và ảnh nền từ đó trích xuất ra các vật thể trong tiền cảnh [14]. Trong [16], ảnh nền đƣợc xây dựng thông qua việc sử dụng một mô hình tính trung bình cảnh nền bằng cách lấy trung bình một chuỗi các ảnh trong video. Tuy nhiên, cảnh nền thƣờng sẽ có sự khác nhau trong các cảnh giao thông thực tế, do đó hƣớng tiếp cận này không phù hợp trong các cảnh giao thông trực tiếp. 3. Hƣớng tiếp cận từ luồng sáng (optical flow) Trong hƣớng tiếp cận này, sự thay đổi nhanh chóng của các điểm ảnh tức thời trên ảnh cũng giống nhƣ sự chuyển động của các vật thể trong không gian 3 chiều. Ý tƣởng cốt lõi của hƣớng tiếp cận này là sử dụng dữ liệu về thời gian và độ dốc để cân bằng các điểm ảnh giữa những khung hình. Trong [15], để thực hiện phân đoạn phƣơng tiện giao thông, các luồng sáng qua khung hình từ môi trƣờng 3 chiều đƣợc sử dụng. Với chi phí tính toán nhiều hơn, mô hình thu đƣợc các vector chuyển động điểm ảnh phụ chính xác từ đặc tính lặp đi lặp lại của việc tính toán các luồng sáng. Kỹ thuật luồng sáng cũng thƣờng đƣợc lựa chọn sử dụng trong bài toán nhận diện phƣơng tiện giao thông bởi kỹ thuật này có thể xử lý vấn đề chồng lấp ở một mức độ nhất định. Nhìn chung, các hƣớng tiếp cận trên đều tận dụng đƣợc thông tin chuyển động của phƣơng tiện giao thông trong video. Ƣu và nhƣợc điểm của các phƣơng pháp trên đƣợc trình bày trong Bảng 1. Bảng 1. Ƣu và nhƣợc điểm các hƣớng tiếp cận dựa trên các đặc trƣng chuyển động Hƣớng tiếp cận Sự khác biệt giữa khung hình Tách bỏ ảnh nền Optical flow - Tốt trong việc theo dõi đối tƣợng. - Dễ triển khai. Ƣu điểm - Có thể xử lý đƣợc trƣờng hợp đối tƣợng - Không tốn nhiều tài nguyên tính toán. bị che khuất. - Không xử lý tốt khi đối tƣợng bị chồng hình. - Đặc trƣng theo dõi có thể khác nhau trên Nhƣợc điểm - Khả năng sai sót cao khi hậu cảnh phức tạp. nhiều phƣơng tiện khác nhau. - Khả năng sai sót xảy ra khi đối tƣợng đứng yên hoặc di chuyển chậm (nhƣ kẹt xe). B. Phương pháp dựa trên đặc điểm hình dáng Trong thực tế, con ngƣời có thể nhận biết các vật thể khác nhau một cách chính xác bằng cách nhìn vào những đặc điểm về hình dáng bên ngoài của chúng. Những đặc điểm này có thể bao gồm màu sắc, kết cấu, hình dạng. Trích xuất những đặc điểm này, các bộ nhận dạng thông qua thị giác máy tính cũng có thể phân biệt và nhận diện đƣợc các vật thể mà ngƣời xây dựng mô hình mong muốn, cụ thể ở đây là phƣơng tiện giao thông. Các mô hình sử dụng phƣơng pháp này thƣờng cần phải chuẩn bị trƣớc một bộ dữ liệu để huấn luyện và đánh giá trƣớc khi đƣa vào sử dụng. Về cơ bản, phƣơng pháp dựa trên đặc điểm hình dáng sẽ so sánh những đặc trƣng trong ảnh 2 chiều với các đặc trƣng trong không gian thực 3 chiều bằng cách sử dụng các bộ trích xuất đặc trƣng. 1. Hƣớng tiếp cận từ đặc điểm từng phần Trong hƣớng tiếp cận này, các phƣơng tiện đƣợc chia thành những phần nhỏ hơn và mô hình nhận diện sẽ đƣợc xây dựa trên các thành phần này. Các phƣơng tiện có thể đƣợc nhận diện dựa trên những khác biệt về mặt không gian giữa các thành phần. Trong [2], để cải thiện đƣợc khả năng nhận diện và xử lý vấn đề chồng lấp, các phƣơng tiện trong
  4. 218 KHẢO SÁT BÀI TOÁN NHẬN DIỆN PHƢƠNG TIỆN VÀ ĐO TỐC ĐỘ PHƢƠNG TIỆN THAM GIA GIAO THÔNG ảnh đƣợc tách thành các phần nhỏ gồm phía trƣớc, phía sau và bên cạnh. Trong [17], để đạt đƣợc khả năng nhận diện tốt, nhóm tác giả đề xuất mô hình tách các đối tƣợng thành những phần cấu tạo nhỏ hơn, sự biến đối về cấu tạo cũng nhƣ mối quan hệ giữa những thành phần này đƣợc mô hình hóa bằng ngữ pháp biểu đồ thuộc tính ngẫu nhiên (stochastic attribute graph grammar). 2. Hƣớng tiếp cận từ đặc trƣng cấp thấp Đặc trƣng cấp thấp là những đặc trƣng chỉ về hình dáng bên ngoài của đối tƣợng nhƣ các cạnh, góc, màu sắc, Hƣớng tiếp cận từ đặc trƣng cấp thấp sẽ sử dụng các bộ trích xuất đặc trƣng khác nhau để mã hóa và biểu diễn các đối tƣợng quan tâm, mà cụ thể ở đây là các phƣơng tiện giao thông nhƣ xe ô tô, xe tải, xe máy, xe đạp, Sajib và các đồng nghiệp [18] đã đề xuất mô hình sử dụng mô hình Bag of Visual Words (BoVW) để xây dựng một bộ từ điển thị giác để biểu diễn phƣơng tiện giao thông sử dụng đặc trƣng SURF. Sau đó, nhóm tác giả sử dụng bộ phân loại đa lớp SVM để phân lớp cho các đối tƣợng. Bên cạnh đặc trƣng SURF còn có các loại đặc trƣng khác cũng có thể đƣợc sử dụng để biểu diễn đối tƣợng trong ảnh nhƣ: Scale Invariant Feature Transformation (SIFT) để nhận diện biển số xe [19], Histogram of Oriented Gradients (HOG) [20], [21] hay Harr-like Feature [22] để nhận diện phƣơng tiện giao thông. Bảng 2 thực hiện so sánh điểm mạnh và điểm yếu của 2 hƣớng tiếp cận trên. Qua đó, ta thấy đƣợc dựa trên việc trích xuất những thông tin trong ảnh, các phƣơng tiện giao thông có thể đƣợc biểu diễn chính xác, từ đó mô hình có thể xác định đƣợc vị trí của phƣơng tiện. Tuy nhiên, với phƣơng pháp này, việc lựa chọn đặc trƣng ảnh hoặc lựa chọn bộ phận của phƣơng tiện để biểu diễn còn khá là khó khăn và rủi ro cao khi thay đổi môi trƣờng thực nghiệm. Bảng 2. Ƣu và nhƣợc điểm của các hƣớng tiếp cận dựa trên đặc điểm về hình dáng Hƣớng tiếp cận Đặc điểm từng phần Đặc trƣng cấp thấp - Có khả năng xử lý đƣợc các tình huống Ƣu điểm - Khả năng nhận dạng tƣơng đối tốt. phƣơng tiện bị che khuất. - Việc biểu diễn thông qua codebook thƣờng - Việc lựa chọn các phần của phƣơng tiện phức đánh mất thông tin về không gian. Nhƣợc điểm tạp và phụ thuộc vào vị trí đặt máy quay. - Hiệu suất phục thuộc vào việc lựa chọn features descriptots. C. Phương pháp dựa trên mạng neural Với sự phát triển trong lĩnh vực trí tuệ nhân tạo nói chung và thị giác máy tính nói riêng, các mô hình mạng neural ngày càng đƣợc sử dụng rộng rãi trong nhiều lĩnh vực khác nhau trong đó có xử lý video giám sát giao thông. Giống với phƣơng pháp nhận diện dựa trên đặc trƣng về hình dáng, các phƣơng pháp dựa trên mạng neural cũng yêu cầu phải có một bộ dữ liệu để huấn luyện và đánh giá trƣớc khi đƣợc sử dụng. Các mô hình mạng đƣợc sử dụng trong phƣơng pháp này có thể đƣợc xây dựng từ đầu hoặc có thể đƣợc huấn luyện chuyển tiếp hoặc đƣợc tinh chỉnh từ những mạng đã có sẵn với một vài thay đổi nhất định trong kiến trúc mạng. Hai hƣớng tiếp cận tiêu biểu trong phƣơng pháp nhận diện phƣơng tiện giao thông dựa trên mạng neural có thể kể đến là hƣớng tiếp cận dựa trên mô hình R-CNN với kỹ thuật xử lý 2 bƣớc và các hƣớng tiếp cận dựa trên kỹ thuật nhìn một lần (single shot) nhƣ SSD hay YOLO [23]. 1. Hƣớng tiếp cận dựa trên mô hình 2-stage Về cơ bản, bài toán nhận diện phƣơng tiện giao thông bao gồm 2 bài toán con đó là xác định vị trí phƣơng tiện và phân lớp cho phƣơng tiện đó. Mô hình R-CNN là kết quả của sự kết hợp 2 thành phần gồm mạng Region Proposal để đề xuất vị trí của vật thể, và một mạng CNN để phân lớp cho các vật thể. Trong [24], Yilmaz và nhóm tác giả đề xuất 6 bƣớc thực hiện nhƣ sau: nạp bộ dữ liệu huấn luyện, thiết kế mô hình mạng neural tích chập, điều chỉnh các thông số huấn luyện, huấn luyện mô hình sử dụng bộ nhận diện vật thể Faster R-CNN và cuối cùng là đánh giá mô hình. Mô hình mạng R- CNN bao gồm nhiều lớp, và biểu diễn hình ảnh dƣới dạng các feature map ở các mức độ khác nhau. Các lớp mạng bên dƣới sẽ dùng để nhận dạng những đặc trƣng đơn giản nhƣ các cạnh, các góc, trong khi đó các lớp mạng ở bên trên sẽ có khả năng nhận dạng các đặc trƣng phức tạp hơn từ việc kết hợp các đặc trƣng ở lớp dƣới [25]. 2. Hƣớng tiếp cận dựa trên kỹ thuật nhìn một lần (single-shot) Các phƣơng pháp dựa trên mô hình R-CNN có một khuyết điểm đó là việc kết hợp 2 mô hình Region Proposal và CNN làm tăng chi phí tính toán từ đó phần nào giảm hiệu suất giám sát. Một hƣớng tiếp cận khác nhằm khắc phục nhƣợc điểm này chính là kỹ thuật nhìn một lần đƣợc áp dụng trên các mô hình SSD [6] và YOLO [26]. Đặc điểm của kỹ thuật nhìn một lần đó mô hình mạng chỉ cần trích xuất ảnh đầu vào qua các lớp mạng một lần duy nhất mà không cần sử dụng thêm một mạng Region Proposal đề xuất vùng quan tâm (Region of Interest - ROI). Để thay thế cho việc dùng Region Proposal Network, SSD và YOLO sử dụng tập các hộp đƣợc định nghĩa trƣớc dựa trên hình dáng của đối tƣợng quan tâm trong groundtruth. Các hộp đƣợc định nghĩa trƣớc này đƣợc gọi là các priors trong mô hình SSD và anchors trong mô hình YOLO. Về cơ bản, các mô hình theo hƣớng tiếp cận này sẽ duyệt qua từng phần tử trên feature map, với mỗi điểm nhƣ vậy, mô hình sẽ thực hiện hồi quy trên các priors - theo mô hình SSD - để xác định vị trí chính xác của đối tƣợng, song song đó là thực hiện phân lớp cho từng prior. Kết quả cuối cùng là các bounding box cho từng đối tƣợng quan tâm mà ở đây là các phƣơng tiện giao thông trong ảnh.
  5. Trần Hoàng Lộc, Nguyễn Khắc Ngọc Khôi, Phan Đình Duy, Vũ Đức Lung 219 Phƣơng pháp dựa trên mạng neural thể hiện khả năng tính toán tốt với độ chính xác cao. Tuy nhiên nhƣợc điểm của phƣơng pháp này nằm ở việc cần lƣợng tài nguyên tính toán lớn và yêu cầu một tập huấn luyện đủ đa dạng để có thể phát huy tốt khả năng tự học của mô hình. Bảng 3 thể hiện điểm mạnh và điểm yếu của 2 hƣớng tiếp cận dựa trên mô hình 2-stage và kỹ thuật nhìn một lần. Bảng 3. Ƣu và nhƣợc điểm của các hƣớng tiếp cận dựa trên mạng CNN Hƣớng tiếp cận Dựa trên mô hình 2-stage Dựa trên kỹ thuật nhìn một lần (single-shot) - Độ chính xác cao. Ƣu điểm - Độ chính xác cao. - Tốc độ thực thi nhanh hơn đáng kể khi so sánh với mô hình 2-stage. - Tốc độ thực thi chậm do phải thực hiện 2 mô - Độ chính xác phục thuộc vào việc định nghĩa hình con. các priors/anchors. Nhƣợc điểm - Hao phí tài nguyên tính toán lớn hơn nhiều so - Hao phí tài nguyên tính toán lớn hơn nhiều so với 2 phƣơng pháp trƣớc đó. với 2 phƣơng pháp trƣớc đó. III. KHẢO SÁT BÀI TOÁN ĐO TỐC ĐỘ PHƯƠNG TIỆN THAM GIA GIAO THÔNG Bài toán đo tốc độ phƣơng tiện tham gia giao thông là bài toán quan trọng để công tác giám sát giao thông đạt đƣợc hiệu quả. Hiện nay ở Việt Nam, để thực hiện việc đo tốc độ phƣơng tiện tham gia giao thông vẫn còn đang dựa vào các công cụ chuyên dụng sử dụng công nghệ RADAR (Radio Detection and Ranging) và LIDAR (Light Detection and Ranging). Ƣu điểm của các công nghệ này là cho kết quả chính xác tuy nhiên giá thành thiết bị và lắp đặt rất cao dẫn đến việc khó có thể triển khai số lƣợng lớn trên diện rộng. Trong khi đó, việc đo tốc độ giao thông dựa trên một camera giám sát đƣợc lắp đặt vẫn là bài toán còn trong giai đoạn nghiên cứu mà chƣa đƣợc triển khai. Với mục đích là lắp đặt các hệ thống đo tốc độ phƣơng tiện giao thông trên diện rộng với số lƣợng lớn, bài toán đo tốc độ phƣơng tiện tham gia giao thông có 2 thách thức lớn: (1) khả năng hoạt động tự động, nói cách khác là chỉ cần lắp đặt, hệ thống sẽ tự động căn chỉnh camera sao cho tính toán đƣợc tốc độ phƣơng tiện một cách chính xác bởi nếu với mỗi camera đều phải cung cấp hoặc đo đạc các tham số thủ công thì sẽ rất tốn chi phí cả về nhân lực và vật lực; và (2) khả năng hoạt động ở các góc nhìn khác nhau để tận dụng đƣợc tối đa các máy quay giám sát đã đƣợc lắp đặt. Về các bƣớc xử lý, bài toán đo tốc độ phƣơng tiện tham gia giao thông nhìn chung sẽ có các bƣớc xử lý gồm đầu tiên là xác định phƣơng tiện - bài toán đã đƣợc khảo sát và trình bày trong phần II, sau đó sử dụng các kỹ thuật để tìm kiếm đoạn đƣờng di chuyển của phƣơng tiện, cuối cùng tốc độ sẽ đƣợc tính bằng khoảng cách di chuyển chia cho thời gian. Vấn đề thời gian có thể dễ dàng tính toán đƣợc khi đầu vào của bài toán là các video, tuy nhiên để tính toán khoảng cách di chuyển lại là một vấn đề khó khăn do khoảng cách trong video 2 chiều và khoảng cách trong không gian thực 3 chiều là khác nhau do đó cần phải có một bƣớc căn chỉnh để khớp tọa độ của camera giám sát, tọa độ thực và tọa độ trên ảnh. Hình 2. Mô hình camera đề xuất trong [27] Hình 2 mô tả mô hình camera đƣợc sử dụng trong bài toán đo tốc độ phƣơng tiện, trong đó bao gồm 3 hệ tọa độ là: hệ tọa độ ảnh U-V, hệ toa độ camera Xc, Yc, Zc, và hệ tọa độ không gian thực X-Y-Z. Xử lý ảnh trên camera bao gồm 2 bƣớc: đầu tiên là biến đổi hệ tọa độ không gian thực thành hệ tọa độ camera, và sau đó là biến đổi hệ tọa độ camera thành hệ tọa độ ảnh. Để thực hiện đƣợc 2 phép biển đổi trên, ta phải thực hiện tính toán các nội tham số (độ dài tiêu cự, tâm điểm, độ lệch ống kính) và ngoại tham số của camera (các thông số chuyển động phần cứng gồm ma trận quay và vector tịnh tiến), quá trình này gọi là hiệu chuẩn camera. Hình 3. Bài báo [7] đề xuất mục đích của việc hiệu chuẩn camera chính là để tính toán khoảng cách thực d giữa 2 điểm (P _1,P _2) trên mặt đƣờng thông qua phép chiếu (p1, p2) trên không gian ảnh. Các trục X, Y, Z mô tả không gian thực, đại diện các nội tham số, và là các ngoại tham số
  6. 220 KHẢO SÁT BÀI TOÁN NHẬN DIỆN PHƢƠNG TIỆN VÀ ĐO TỐC ĐỘ PHƢƠNG TIỆN THAM GIA GIAO THÔNG Nhóm tác giả [7] đề xuất mô hình tổng quan để cho việc hiệu chuẩn camera có thể đƣợc biểu diễn dƣới dạng một ma trận hình chiếu , trong đó là ma trận các nội tham số của camera, là ma trận quay và là vector tịnh tiến. Khi tiếp cận với bài toán này, một số giả định sau thƣờng đƣợc các nhóm tác giả chấp nhận: các phƣơng tiện tham gia giao thông di chuyển theo đƣờng thẳng, ít nhất là trong một phạm vi xác định, tâm điểm của camera nằm ở chính giữa của khung hình và độ lệch ống kính bằng 0. Phƣơng pháp đo tốc độ phƣơng tiện dựa trên hiệu chuẩn camera có thể đƣợc chia thành 4 hƣớng tiếp cận chính sau: (1) hƣớng tiếp cận từ các vạch kẻ đƣờng, (2) hƣớng tiếp cận từ chuyển động của phƣơng tiện, (3) hƣớng tiếp cận từ đo lƣờng thủ công và (4) hƣớng tiếp cận tự động điều chỉnh dựa trên thống kê các chiều. A. Hướng tiếp cận từ các vạch kẻ đường Để hiệu chuẩn đƣợc camera, You và các đồng nghiệp [27] đã đề xuất phƣơng pháp xác định 2 điểm ảo. Khi nhìn vào một tấm ảnh, do góc nhìn từ camera, các đƣờng thẳng song song trong ảnh khi kéo dài đến vô cực sẽ cắt nhau tại một điểm, điểm này chính là điểm ảo [27]. Xác định điểm ảo đầu tiên bằng cách lấy giao điểm các làn đƣờng (vốn dĩ là những đƣờng thẳng song song trong thực tế), và điểm ảo thứ hai tính toán đƣợc bằng cách lấy giao điểm của các cột đèn hoặc các đƣờng thẳng đứng trong ảnh. 2 điểm ảo này sẽ giúp hiệu chuẩn tự động các tham số trong camera sử dụng ƣớc tính bình phƣơng tối thiểu thay vì tính toán dạng đóng (closed-form computation). Trong [28], nhóm tác giả giả định rằng camera chỉ nghiêng theo trục Y trong Hình 3 từ đó họ giả định là điểm ảo thứ hai (theo phƣơng ngang và vuông góc với điểm ảo thứ nhất) nằm ở vô cực. Điểm ảo thứ nhất đƣợc tính toán dựa trên lấy giao điểm của các vạch kẻ đƣờng với điều chỉnh bình phƣơng tối thiểu. Các phƣơng tiện giao thông đƣợc nhận diện bằng cách tách bỏ ảnh nền và đƣợc theo dõi bằng kỹ thuật tƣơng quan chéo chuẩn hóa (normalized cross-corelation). Hƣớng tiếp cận này có thể đƣợc sử dụng trên những con đƣờng lớn, tuy nhiên với những con đƣờng nhỏ ở các vùng quê, hay khu vực đƣờng nội bộ không có vạch kẻ đƣờng thì hƣớng tiếp này trở nên bất khả thi. B. Hướng tiếp cận từ chuyển động của phương tiện Filipiak và các đồng nghiệp [29] đề xuất sử dụng chuyển động của các biển số xe phát hiện đƣợc từ các khung hình để tính toán nội tham số và ngoại tham số của camera thông qua giải thuật tiến hóa. Công bố [30] đề xuất phƣơng pháp hiệu chuẩn camera tự động dựa trên việc theo dõi các đặc trƣng cục bộ và phân tích quỹ đạo di chuyển dựa trên phƣơng pháp biến đổi Hough xếp tầng và tọa độ song song. Hƣớng tiếp cận dựa trên chuyển động của phƣơng tiện không còn phụ thuộc vào việc phát hiện các làn đƣờng, tuy nhiên khi áp dụng trên các đoạn đƣờng nhỏ, quá trình hiệu chuẩn có thể sẽ phải mất một ít thời gian vì độ chính xác thƣờng phụ thuộc vào số lƣợng phƣơng tiện di chuyển trong video. C. Hướng tiếp cận từ đo lường thủ công Các hƣớng tiếp cận từ đo lƣờng thủ công thƣờng yêu cầu biết trƣớc một vài thông số trong thế giới thực để thực hiện việc hiệu chuẩn. [31] Yêu cầu cần phải biết trƣớc 2 góc tùy ý trên mặt đất để điều chỉnh camera. Bên cạnh đó, phƣơng pháp cũng yêu cầu biết trƣớc độ dài của các vạch kẻ đƣờng trong thực tế để tính tỉ lệ ảnh trong camera cho một bối cảnh nhất định. Nhóm tác giả sau đó sử dụng phƣơng pháp xóa cảnh nền để nhận diện các phƣơng tiện và theo dõi chúng bằng cách sử dụng bộ lọc Kalman. Khác biệt với các phƣơng pháp đề xuất trƣớc đó, Sina và các đồng nghiệp [32] tập trung vào việc đo tốc độ phƣơng tiện giao thông vào buổi tối. Nhóm tác giả nhận diện phƣơng tiện bằng cách phát hiện cặp đèn xe vào buổi tối, sau đó theo dõi chuyển động và tính toán tốc độ của phƣơng tiện. Việc hiệu chuẩn camera đƣợc thực hiện bằng cách đo thủ công góc quay của camera và khoảng cách từ camera tới mặt đất. D. Hướng tiếp cận tự động điều chỉnh dựa trên thống kê các chiều Nhƣ đã đề cập ở trên, để tiết kiệm chi phí triển khai, việc tự động hóa quá trình hiệu chuẩn là một trong những yếu tố đáng cân nhắc. Hƣớng tiếp cận này không yêu cầu biết trƣớc thông tin gì và hiệu chuẩn hoàn toàn tự động. Dubska và các đồng nghiệp [33] đề xuất việc hiệu chuẩn camera thông qua 2 điểm ảo. Nhóm tác giả sử dụng một phƣơng pháp đơn giản để tách lấy tiền cảnh để phát hiện những khu vực chuyển động. Điểm ảo đầu tiên - là hƣớng di chuyển của phƣơng tiện - đƣợc tính toán bằng cách theo dõi các điểm đặc trƣng trên phƣơng tiện sử dụng bộ phát hiện điểm cực tiểu và bộ theo dõi KLT. Chuyển động của điểm bị theo dõi đƣợc biến đổi bằng biến đổi Hough line-to-line và đƣợc tham số hóa bằng cách tọa độ song song, giá trị cực đại toàn cục tƣng ứng với điểm ảo đầu tiên trên ảnh. Điểm ảo thứ hai đƣợc trích xuất từ các cạnh mạnh trên phƣơng tiện đang di chuyển và phải đáp ứng một vài điều kiện từ điểm ảo đầu tiên. Các cạnh tƣơng tự cũng sẽ đƣợc biến đổi Hough với giá trị cực đại mạnh nhất ứng với điểm ảo thứ hai. Từ 2 điểm ảo đƣợc xác định nhƣ trên, mô hình có thể tính toán đƣợc các nội và ngoại tham số của camera. Tốc độ của phƣơng tiện đƣợc tính toán dựa trên việc theo dõi 3D bounding box xung quanh đối tƣợng bằng cách sử dụng bộ lọc Kalman và tính toán khoảng cách trong không gian thực. Bốn hƣớng tiếp cận trên đều thể hiện đƣợc độ hiệu quả đo tốc độ xe khi đƣợc áp dụng vào đúng môi trƣờng. Tuy nhiên, khi xét đến những điều kiện đã đặt ra gồm việc tận dụng số lƣợng camera lớn và hạn chế việc đo lƣờng thủ công, hƣớng tiếp cận tự động hiệu chuẩn dựa trên thống kê các chiều thể hiện tính khả thi cao khi áp dụng vào trong thực tế. Bảng 4 bên dƣới so sánh điểm mạnh và điểm yếu của các hƣớng tiếp cận để hiệu chuẩn camera đƣợc trình bày ở trên.
  7. Trần Hoàng Lộc, Nguyễn Khắc Ngọc Khôi, Phan Đình Duy, Vũ Đức Lung 221 Bảng 4. Ƣu và nhƣợc điểm của các hƣớng tiếp cận hiệu chuẩn camera Chuyển động của phƣơng Tự động hiệu chuẩn dựa Hƣớng tiếp cận Dựa trên vạch kẻ đƣờng Đo lƣờng thủ công tiện trên thống kê các chiều - Đơn giản, dễ thực hiện. - Đạt hiệu quả. - Phù hợp với những đoạn - Các thông số đƣợc tự Ƣu điểm - Đơn giản, dễ hiện thực. - Có khả năng triển khai đƣờng rộng, nhiều làn động hiệu chuẩn. quy mô lớn. đƣờng nhƣ cao tốc. - Không có hiệu quả với - Cần thời gian quan sát - Không có tính thực hiện Nhƣợc điểm những đoạn đƣờng không phƣơng tiện để hoàn cao khi triển khai với quy - Tính toán phức tạp. có vạch kẻ đƣờng. thành việc hiệu chuẩn. mô lớn. IV. CÁC TẬP DỮ LIỆU Trong bài toán classification và object detection, việc thu thập tập dữ liệu là điều hết sức quan trọng, công việc này ảnh hƣởng trực tiếp đến quá trình huấn luyện và kiểm thử mô hình. Trong bài báo này nhóm đã tổng hợp các tập dữ liệu đƣợc công bố và sử dụng trong các nghiên cứu trƣớc đó. A. Bài toán nhận diện phương tiện giao thông Bảng 5. Các tập dữ liệu thƣờng đƣợc sử dụng trong bài toán nhận diện phƣơng tiện giao thông Thời Số Số Bài báo Bộ dữ liệu Kích thƣớc FPS Số ảnh lƣợng video frame The CityFlow Dataset 960p 10 3 giờ - - - The 2019 AI City Challenge Iowa DOT Traffic [34] 800×410 30 50 giờ 100 - - Dataset Vehicle Tracking by GRAM Road-Traffic 640×480 30 - - 7520 - Simultaneous Detection and Monitoring (GRAM- 1280×730 30 - - 9390 - 2 Viewpoint Estimation RTM) dataset 480×320 25 23435 A Large-Scale Car Dataset for The Comprehensive Fine-Grained Categorization Cars (CompCars) - - - - - 214344 and Verification3 dataset B. Bài toán đo tốc độ xe Bảng 6. Các tập dữ liệu thƣờng đƣợc sử dụng trong bài toán đo tốc độ phƣơng tiện tham gia giao thông Bộ dữ Thời Số Số Bài báo Kích thƣớc FPS Số ảnh liệu lƣợng video frame Comprehensive Dataset for Automatic Single Camera Visual Speed 1920×1080 50 6 giờ 18 - - Measurement [7] A Video-Based System for Vehicle Speed Measurement in Urban 1920×1080 30.15 - 20 - - Roadways4 V. KẾT LUẬN Giám sát giao thông là một trong những bài toán đƣợc quan tâm hàng đầu hiện nay với nhiều thách thức còn đang chờ đƣợc giải quyết nhƣ phát hiện và theo dõi phƣơng tiện trong các điều kiện thời tiết khác nhau, đặc biệt là thời tiết xấu. Môi trƣờng là yếu tố ảnh hƣởng rất nhiều đến các camera, từ đó ảnh hƣởng trực tiếp đến hiệu suất giám sát. Đơn giản nhƣ việc thay đổi từ ngày sang đêm cũng là một thách thức cần phải giải quyết để hệ thống có thể đảm bảo hoạt động xuyên suốt. Với các nhu cầu còn lớn nhƣ vậy, bài báo khảo sát này đã khảo sát một cách bao quát những hƣớng tiếp cận chính trong 2 bài toán là nhận diện phƣơng tiện vốn là tiền đề cho nhiều xử lý phía sau nhƣ theo dõi, phân tích hành vi; và bài toán đo tốc độ phƣơng tiện giao thông là bài toán cần đƣợc đầu tƣ để có thể triển khai trong thực tế. Bên cạnh đó, bài báo cũng tổng hợp và đề xuất một số bộ dữ liệu thƣờng đƣợc sử dụng để các nhóm nghiên cứu trong tƣơng lai có thể triển khai hệ thống và có cơ sở đánh giá kết quả khoa học của mình. TÀI LIỆU THAM KHẢO [1] V. H. Do, L. H. Nghiem, N. P. Thi, and N. P. Ngoc, “A simple camera calibration method for vehicle velocity estimation”, in ECTI-CON 2015 - 2015 12th International Conference on Electrical Engineering/Electronics, 2 3 4
  8. 222 KHẢO SÁT BÀI TOÁN NHẬN DIỆN PHƢƠNG TIỆN VÀ ĐO TỐC ĐỘ PHƢƠNG TIỆN THAM GIA GIAO THÔNG Computer, Telecommunications and Information Technology, pp. 1-5, 2015. [2] S. Sivaraman and M. M. Trivedi, “Looking at vehicles on the road: A survey of vision-based vehicle detection, tracking, and behavior analysis”, IEEE Trans. Intell. Transp. Syst., Vol. 14, No. 4, pp. 1773-1795, 2013. [3] N. Seenouvong, U. Watchareeruetai, C. Nuthong, K. Khongsomboon, and N. Ohnishi, “Vehicle detection and classification system based on virtual detection zone”, in 2016 13th International Joint Conference on Computer Science and Software Engineering (JCSSE), pp. 1-5, 2016. [4] N. Audebert, B. Le Saux, and S. Lefèvre, “Segment-before-detect: Vehicle detection and classification through semantic segmentation of aerial images”, Remote Sens., Vol. 9, No. 4, p. 368, 2017. [5] R. Velazquez-Pupo et al., “Vehicle detection with occlusion handling, tracking, and OC-SVM classification: A high performance vision-based system”, Sensors, Vol. 18, No. 2, p. 374, 2018. [6] F. Zhang, C. Li, and F. Yang, “Vehicle detection in urban traffic surveillance images based on convolutional neural networks with feature concatenation”, Sensors, Vol. 19, No. 3, p. 594, 2019. [7] J. Sochor et al., “Comprehensive Data Set for Automatic Single Camera Visual Speed Measurement”, IEEE Trans. Intell. Transp. Syst., Vol. 20, No. 5, pp. 1633-1643, 2019. [8] X. C. He and N. H. C. Yung, “A Novel Algorithm for Estimating Vehicle Speed from Two Consecutive Images”, in 2007 IEEE Workshop on Applications of Computer Vision (WACV ’07), pp. 12, 2007. [9] X. He and N. H. C. Yung, “New method for overcoming ill-conditioning in vanishing-point-based camera calibration”, Opt. Eng., Vol. 46, No. 3, pp. 37202, 2007. [10] T. N. Schoepflin and D. J. Dailey, “Dynamic camera calibration of roadside traffic management cameras for vehicle speed estimation”, IEEE Trans. Intell. Transp. Syst., Vol. 4, No. 2, pp. 90-98, 2003. [11] H. J. Kim, “Multiple vehicle tracking and classification system with a convolutional neural network”, J. Ambient Intell. Humaniz. Comput., pp. 1-12, 2019. [12] B. Tian et al., “Hierarchical and networked vehicle surveillance in ITS: a survey”, IEEE Trans. Intell. Transp. Syst., Vol. 16, No. 2, pp. 557-580, 2014. [13] Q.-L. Li and J.-F. He, “Vehicles detection based on three-frame-difference method and cross-entropy threshold method”, Comput. Eng., Vol. 37, No. 4, pp. 172-174, 2011. [14] S. Gupte, O. Masoud, R. F. K. Martin, and N. P. Papanikolopoulos, “Detection and classification of vehicles”, IEEE Trans. Intell. Transp. Syst., vol. 3, no. 1, pp. 37-47, 2002. [15] A. Ottlik and H.-H. Nagel, “Initialization of model-based vehicle tracking in video sequences of inner-city intersections,” Int. J. Comput. Vis., Vol. 80, No. 2, pp. 211-225, 2008. [16] R. Cucchiara, C. Grana, M. Piccardi, and A. Prati, “Detecting moving objects, ghosts, and shadows in video streams”, IEEE Trans. Pattern Anal. Mach. Intell., Vol. 25, No. 10, pp. 1337-1342, 2003. [17] L. Lin, T. Wu, J. Porway, and Z. Xu, “A stochastic graph grammar for compositional object representation and recognition” Pattern Recognit., Vol. 42, No. 7, pp. 1297-1307, 2009. [18] M. S. R. Sajib and S. M. Tareeq, “A feature based method for real time vehicle detection and classification from on-road videos”, in 2017 20th International Conference of Computer and Information Technology (ICCIT), pp. 1- 11, 2017. [19] K. M. A. Yousef, M. Al-Tabanjah, E. Hudaib, and M. Ikrai, “SIFT based automatic number plate recognition”, in 2015 6th International Conference on Information and Communication Systems (ICICS), pp. 124-129, 2015. [20] X. Li and X. Guo, “A HOG feature and SVM based method for forward vehicle detection with single camera”, in 2013 5th International Conference on Intelligent Human-Machine Systems and Cybernetics, Vol. 1, pp. 263-266, 2013. [21] A. S. Banu and P. Vasuki, “Video based vehicle detection using morphological operation and hog feature extraction”, ARPN J. Eng. Appl. Sci., Vol. 10, No. 4, pp. 1866-1871, 2015. [22] S. M. Elkerdawi, R. Sayed, and M. ElHelw, “Real-time vehicle detection and tracking using Haar-like features and compressive tracking”, in ROBOT2013: First Iberian Robotics Conference, pp. 381-390, 2014. [23] M. Manana, C. Tu, and P. A. Owolawi, “A survey on vehicle detection based on convolution neural networks”, in 2017 3rd IEEE International Conference on Computer and Communications (ICCC), pp. 1751-1755, 2017. [24] A. A. Yilmaz, M. S. Guzel, I. Askerbeyli, and E. Bostanci, “A vehicle detection approach using deep learning methodologies”, arXiv Prepr. arXiv1804.00429, 2018. [25] A. Arinaldi, J. A. Pradana, and A. A. Gurusinga, “Detection and classification of vehicles for traffic video analytics”, Procedia Comput. Sci., Vol. 144, pp. 259-268, 2018. [26] J. Lu et al., “A vehicle detection method for aerial image based on YOLO”, J. Comput. Commun., Vol. 6, No. 11, pp. 98-107, 2018. [27] X. You and Y. Zheng, “An accurate and practical calibration method for roadside camera using two vanishing points”, Neurocomputing, Vol. 204, pp. 222-230, 2016.
  9. Trần Hoàng Lộc, Nguyễn Khắc Ngọc Khôi, Phan Đình Duy, Vũ Đức Lung 223 [28] L. Grammatikopoulos, G. Karras, and E. Petsa, “Automatic estimation of vehicle speed from uncalibrated video sequences”, in Proceedings of International Symposium on Modern Technologies, Education and Profeesional Practice in Geodesy and Related Fields, pp. 332-338, 2005. [29] P. Filipiak, B. Golenko, and C. Dolega, “NSGA-II based auto-calibration of automatic number plate recognition camera for vehicle speed measurement”, in European Conference on the Applications of Evolutionary Computation, pp. 803-818, 2016. [30] M. Dubská, A. Herout, R. Juránek, and J. Sochor, “Fully automatic roadside camera calibration for traffic surveillance”, IEEE Trans. Intell. Transp. Syst., Vol. 16, No. 3, pp. 1162-1171, 2014. [31] C. Maduro, K. Batista, P. Peixoto, and J. Batista, “Estimation of vehicle velocity and traffic intensity using rectified images”, in 2008 15th IEEE International Conference on Image Processing, pp. 777-780, 2008. [32] I. Sina, A. Wibisono, A. Nurhadiyatna, B. Hardjono, W. Jatmiko, and P. Mursanto, “Vehicle counting and speed measurement using headlight detection”, in 2013 International Conference on Advanced Computer Science and Information Systems (ICACSIS), pp. 149-154, 2013. [33] M. Dubská, A. Herout, and J. Sochor, “Automatic Camera Calibration for Traffic Understanding.”, in BMVC, Vol. 4, No. 6, p. 8, 2014. [34] M. Naphade et al., “The 2019 AI City Challenge.”, in CVPR Workshops, pp. 452-460, 2019. VEHICLE DETECTION AND SPEED ESTIMATION: A REVIEW Tran Hoang Loc, Nguyen Khac Ngoc Khoi, Phan Dinh Duy, Vu Duc Lung ABSTRACT: Traffic surveillance is one of the most considerable problems in recent years. The serious issue of traffic accidents and traffic-related crimes is the motivation for developing an intelligent traffic system, which contains 2 basic problems namely vehicle detection and vehicle speed estimation. This paper reviewed and classified some of popular approaches for vehicle detection and vehicle speed estimation. This work aims to build a smart traffic monitoring system in the future. In addition, some of commonly used datasets in these two problems for training and evaluating are also aggregated as a basis for other researchers to evaluate their works.