So sánh một số phương pháp xử lý dữ liệu thiếu cho chuỗi dữ liệu thời gian một chiều
Bạn đang xem tài liệu "So sánh một số phương pháp xử lý dữ liệu thiếu cho chuỗi dữ liệu thời gian một chiều", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
Tài liệu đính kèm:
- so_sanh_mot_so_phuong_phap_xu_ly_du_lieu_thieu_cho_chuoi_du.pdf
Nội dung text: So sánh một số phương pháp xử lý dữ liệu thiếu cho chuỗi dữ liệu thời gian một chiều
- Vietnam J. Agri. Sci. 2021, Vol. 19, No. 4: 452-461 Tạp chí Khoa học Nông nghiệp Việt Nam 2021, 19(4): 452-461 www.vnua.edu.vn SO SÁNH MỘT SỐ PHƯƠNG PHÁP XỬ LÝ DỮ LIỆU THIẾU CHO CHUỖI DỮ LIỆU THỜI GIAN MỘT CHIỀU Phan Thị Thu Hồng Khoa Công nghệ thông tin, Học viện Nông nghiệp Việt Nam Tác giả liên hệ: ptthong@vnua.edu.vn Ngày nhận bài: 20.07.2020 Ngày chấp nhận đăng: 10.09.2020 TÓM TẮT Chuỗi thời gian chứa các giá trị thiếu xảy ra trong hầu hết mọi lĩnh vực khoa học ứng dụng. Bỏ qua các giá trị thiếu có thể dẫn đến giảm hiệu năng của hệ thống và kết quả không đáng tin cậy, đặc biệt là khi dữ liệu mất theo khoảng lớn. Do đó, xử lý dữ liệu thiếu là một bước rất quan trọng để thực hiện các công việc tiếp như phân lớp, phân tích dữ liệu Bài viết này trước tiên nhằm giới thiệu các phương pháp xử lý dữ liệu thiếu. Tiếp theo một framework cho phép điền đầy dữ liệu mất mát cho chuỗi thời gian đơn biến được xây dựng. Cuối cùng, chúng tôi thực hiện so sánh hiệu suất của các phương pháp ước lượng giá trị thiếu trên ba chuỗi dữ liệu thời gian thực sử dụng bốn chỉ số đánh giá. Thông qua kết quả thử nghiệm, phương pháp DTWBI và eDTWBI đạt được kết quả vượt trội hơn các phương pháp khác khi dữ liệu có tính chất mùa vụ và không có thành phần xu hướng, trong khi đó thì na.interp tốt hơn các phương pháp khi dữ liệu có cả hai tính chất mùa vụ và xu hướng. Từ khóa: Chuỗi thời gian một chiều, dữ liệu thiếu, ước lượng giá trị thiếu, độ tương tự. An Empirical Study of Imputation Methods for Univariate Time Series ABSTRACT Time series with missing values occur in almost areas of applied science. Ignoring missing values can lead to a reduction of system performance and unreliable results, especially in case of large missing values. Therefore, handling missing data is an important task to effectively perform further purposes such as classification, data analysis, etc. This article aims first to introduce approaches for dealing with missing data. Next a framework is built to fill the incomplete data in univariate time series and then to compare the performance of various imputation methods. Four indices are used to evaluate the ability of imputation methods on 3 different real-time data series. Through experimental results, the DTWBI and eDTWBI methods achieve better results with data having seasonality component and without trend factor, while na.interp is more superior as the data have both seasonality and trend components. Keywords: Univariate time series, missing data, imputation, similarity. truy xuçt khi cæn thiết. Chúng tồn täi trong 1. ĐẶT VẤN ĐỀ nhiều Āng dýng thăc tế thuộc nhiều lïnh văc Ngày nay, vĆi tiến bộ vþợt bêc cûa hệ thống khác nhau nhþ: kinh tế, tài chính, y tế, giáo giám sát, să phát triển công nghệ lþu trĂ dĂ dýc, môi trþąng, đða lý, sinh học„ và tồn täi ć liệu, să sẵn sàng cûa các bộ câm biến vĆi chi phí nhiều däng thĀc khác nhþ: số liệu, vën bân, thçp và việc triển khai các hệ thống viễn thám, hình ânh, åm thanh, đoän phim„ Tuy nhiên, gæn nhþ tçt câ dĂ liệu mà con ngþąi dùng để các dĂ liệu thu thêp đþợc thþąng không đæy đû, phýc vý cho cuộc sống cûa mình đã đþợc ghi vì nhiều lý do lỗi cûa một hay nhiều thiết bð câm nhên một cách tă động. Các dĂ liệu này đþợc biến, các sai sót xây ra trong quá trình trao đổi/ lþu trĂ (trong máy tính) để con ngþąi có thể truyền tâi dĂ liệu, lỗi cûa dýng cý đo đäc không 452
- Phan Thị Thu Hồng chính xác, điều kiện thąi tiết xçu (câm biến đến thu nhêp thăc tế cûa anh ta cüng nhþ thu ngoài trąi), hoặc thiếu các tác động cûa con nhêp cûa gia đình anh ta. Do đò, bó qua các giá ngþąi nhþ việc thăc hiện lçy méu nþĆc biển trð thiếu MCAR không làm cho phân tích dĂ liệu (Rousseeuw & cs., 2013). bð sai lệch nhþng sẽ làm tëng sai số chuèn cûa Mặt khác, hæu hết các mô hình dă báo hoặc các þĆc tính méu do kích thþĆc méu giâm (Dong các mô hình phân tích chuỗi thąi gian (đĄn biến & cs., 2013). hay đa biến) thþąng gặp khò khën khi xā lý các Thiếu dữ liệu ngẫu nhiên (Missing At bộ dĂ liệu không đæy đû, mặc dù đò là nhĂng kï Random, MAR) thuêt mänh (nhþ mäng nĄron, mô hình Markov Thiếu dĂ liệu ngéu nhiên là kiểu thiếu dĂ èn, rÿng ngéu nhiên ). NhĂng mô hình này đñi liệu mà xác suçt cûa giá trð thiếu chî phý thuộc hói dĂ liệu phâi đæy đû trong quá trình học (xây vào dĂ liệu đþợc quan sát, chĀ không phý thuộc dăng mô hình dă đoán). HĄn nĂa việc thiếu dĂ vào phæn dĂ liệu bð thiếu. Hay nói cách khác, liệu täo ra să mçt thông tin và có thể là nguyên các giá trð thiếu cûa một biến phý thuộc vào các nhân dén đến việc giâi thích dĂ liệu không giá trð có sẵn cûa chính nó và các biến khác. chính xác, sai lệch. Điều này cho phép có thể þĆc tính dĂ liệu thiếu Thiếu dĂ liệu hoặc thiếu giá trð nghïa là cò dăa trên các biến khác. Ví dý, đánh giá học sinh să tồn täi cûa các quan sát nhþng giá trð không tham gia một môn học bao gồm hai bài kiểm tra: đþợc thu thêp hoặc mçt sau khi thu thêp hoặc bài kiểm tra giĂa kỳ và bài kiểm tra cuối kỳ. Để tþĄng Āng vĆi các giá trð sai (nìm ngoài phäm vi làm bài kiểm tra cuối kỳ, học sinh phâi vþợt qua câm biến) trong cĄ sć dĂ liệu. Việc tìm ra hoặc bài kiểm tra giĂa kỳ. Giâ sā rìng một sinh viên hiểu các nguyên nhân gây ra dĂ liệu bð thiếu là trþợt kỳ thi giĂa kỳ và sinh viên çy bó học. Vì rçt quan trọng. Việc này giúp phát triển, đề vêy, việc thiếu điểm kỳ thi cuối cûa sinh viên xuçt hoặc tìm ra một phþĄng pháp xā lý dĂ liệu này là MAR. thiếu thích hợp (Moritz & cs., 2015). Nhþng Thiếu dữ liệu không ngẫu nhiên (Not trong thăc tế, việc hiểu nguyên nhân vén là một Missing At Random, NMAR) nhiệm vý đæy thách thĀc khi thiếu dĂ liệu hoàn DĂ liệu bð thiếu là kiểu thiếu dĂ liệu ngéu toàn không thể biết đþợc hoặc khi nhĂng dĂ liệu nhiên nếu xác suçt xuçt hiện cûa các giá trð bð này có phân phối phĀc täp (Molenberghs & cs., thiếu phý thuộc vào các giá trð bð thiếu khác. Do 2014). Theo các nhà thống kê học, nguyên nhân đò, vĆi loäi dĂ liệu bð thiếu này, chúng ta không cûa việc xuçt hiện các dĂ liệu thiếu có thể phân thể þĆc tính dĂ liệu không đæy đû tÿ các dĂ liệu thành 3 trþąng hợp: “Thiếu dĂ liệu hoàn toàn hiện có. ngéu nhiên” (Missing Completely At Random, Lþu ý rìng các nguyên nhân gây ra să MCAR), “Thiếu dĂ liệu là ngéu nhiên” (Missing thiếu dĂ liệu này chî là giâ đðnh về lý do thiếu At Random, MAR) và “Thiếu dĂ liệu không phâi dĂ liệu trong ngĂ cânh phån tích. Do đò, theo là ngéu nhiên” (Not Missing At Random, quan điểm giâ thuyết (các nhà thống kê học), NMAR) (Little & cs., 2014). chúng không thể đþợc xác minh (ngoäi trÿ giâ thuyết MCAR) các giâ thuyết này. Vì vêy, việc Thiếu dữ liệu hoàn toàn ngẫu nhiên gán nguyên nhân các giá trð bð thiếu cho một (Missing Completely At Random, MCAR) loäi dĂ liệu thiếu ć trên là không rõ ràng và DĂ liệu bð thiếu đþợc coi là MCAR khi să chíc chín (Moritz & cs., 2015). Hiện nay hæu thiếu dĂ liệu không liên quan đến bçt kỳ giá trð hết các nghiên cĀu têp trung vào ba loäi dĂ liệu nào cûa chính biến bð thiếu hoặc các giá trð cûa bð thiếu ć trên để nghiên cĀu đề xuçt hoặc lăa bçt kỳ biến nào khác. Điều này cò nghïa là các chọn phþĄng pháp điền dĂ liệu tþĄng Āng. Tuy điểm dĂ liệu bð thiếu này täo thành một têp hợp nhiên Molenberghs & cs. (2014) khuyên rìng sẽ con ngéu nhiên cûa dĂ liệu và hoàn toàn không luôn luôn tốt hĄn khi chúng ta kiểm kiểm tra có hệ thống. Ví dý, khi một ngþąi tÿ chối tiết lộ mĀc độ chính xác cûa kết quâ phån tích đối vĆi thu nhêp cûa mình, điều này không ânh hþćng các giâ đðnh khác nhau. 453
- So sánh một số phương pháp xử lý dữ liệu thiếu cho chuỗi dữ liệu thời gian một chiều Do đò, xā lý các dĂ liệu mçt mát nói chung 2.1. Bỏ qua các giá trị thiếu và mçt mát dĂ liệu trong chuỗi dĂ liệu thąi gian (Deletion method) nòi riêng đòng vai trñ đặc biệt quan trọng trong Bó qua tçt câ nhĂng quan sát không có dĂ học máy, khai phá và xā lý dĂ liệu thống kê, là liệu đþợc xem nhþ phån tích trþąng hợp đæy đû tiền đề để thăc hiện tiếp các mýc đðch khác nhþ và là một trong nhĂng phþĄng pháp phổ biến phân tích, phân lĆp, dă báo„ Trong bài báo này, nhçt (Horton & Kleinman, 2007). Cò hai phþĄng chúng tôi trình bày một số tiếp cên xā lý dĂ liệu pháp thþąng đþợc áp dýng đò là: thiếu và thăc hiện so sánh khâ nëng điền đæy dĂ liệu thiếu cûa một số phþĄng pháp cho các 2.1.1. Listwise Deletion chuỗi dĂ liệu thąi gian một chiều khác nhau. PhþĄng pháp Xòa Listwise thăc hiện xóa Điều này cho phép ngþąi dùng lăa chọn phþĄng mọi trþąng hợp dĂ liệu thiếu giá trð cho một pháp điền đæy dĂ liệu phù hợp vĆi tính chçt cûa hoặc nhiều biến (Gelman & Hill, 2006). Cách dĂ liệu chuỗi thąi gian một chiều. tiếp cên này loäi bó tçt câ các trþąng hợp dĂ liệu có giá trð bð thiếu, dén đến một têp dĂ liệu chî 2. PHƯƠNG PHÁP XỬ LÝ DỮ LIỆU THIẾU quan sát đæy đû. PhþĄng pháp này phổ biến do Trên thăc tế, các lïnh văc khác nhau có kiểu tính đĄn giân và dễ thăc hiện. Một mặt, nò đâm dĂ liệu đặc trþng và cách thĀc lþu trĂ khác bâo rìng dĂ liệu không chĀa các giá trð bð thiếu nhau. Do đò không cò phþĄng pháp chuyên và không có giá trð ngéu nhiên nào đþợc thêm dýng nào thăc să thóa đáng đþợc khuyên dùng vào. Tuy nhiên, nó làm giâm kích thþĆc cûa têp cho việc xā lý dĂ liệu thiếu mà phâi tùy thuộc dĂ liệu. Bìng cách loäi bó các quan sát vĆi bçt vào kiểu dĂ liệu và loäi dĂ liệu thiếu để tÿ đò kỳ giá trð bð thiếu nào, một số thông tin về bộ dĂ quyết đðnh áp dýng hoặc đề xuçt các phþĄng liệu sẽ bð mçt, điều này có thể dén đến kết quâ pháp phù hợp (dăa vào các phån tích để kết quâ sai lệch. có sai số nhó nhçt có thể). Đặc biệt, là các Bâng 2 cho thçy một ví dý về Xóa Listwise. phþĄng pháp trâ ląi câu hói “Làm thế nào để có Têp dĂ liệu vĆi các giá trð bð thiếu đþợc hiển thð thể xā lý đþợc dĂ liệu thiếu trong các cĄ sć dĂ trong bâng 1. có 10 bân ghi và sau khi thăc hiện liệu lĆn?”. Trong phæn này chúng tôi trình bày Xóa Listwise chî cñn 6 trþąng hợp. Đối vĆi các một số phþĄng pháp cĄ bân xā lý dĂ liệu thiếu bộ dĂ liệu có nhiều giá trð bð thiếu, lþợng dĂ liệu đò là: (1) Bó qua các giá trð thiếu (2) UĆc lþợng bð loäi bó lĆn và do đò, dĂ liệu cò ý nghïa sẽ các giá trð bð thiếu. bð mçt. Bảng 1. Tập dữ liệu mẫu chứa các giá trị thiếu STT Ngày Giờ Mực nước Lưu lượng 1 1/1/2008 1 130 612 2 1/1/2008 7 112 ? 3 1/1/2008 13 115 542 4 1/1/2008 19 ? 574 5 1/2/2008 1 118 556 6 1/2/2008 7 116 546 7 1/2/2008 13 ? 546 8 1/2/2008 19 116 546 9 1/3/2008 1 118 556 10 1/3/2008 7 ? ? 454
- Phan Thị Thu Hồng Bảng 2. Tập dữ liệu đầy đủ sau khi xóa các giá trị thiếu STT Ngày Giờ Mực nước Lưu lượng 1 1/1/2008 1 130 612 2 1/1/2008 13 115 542 3 1/2/2008 1 118 556 4 1/2/2008 7 116 546 5 1/2/2008 19 116 546 6 1/3/2008 1 118 556 Bảng 3. Kết quả sử dụng phương pháp Pairwise (a) Các biến được sử dụng phân tích (b) Kết quả phương pháp Pairwise STT Ngày Giờ Mực nước STT Ngày Giờ Mực nước 1 1/1/2008 1 130 1 1/1/2008 1 130 2 1/1/2008 7 112 2 1/1/2008 7 112 3 1/1/2008 13 115 3 1/1/2008 13 115 4 1/1/2008 19 ? 4 1/2/2008 1 118 5 1/2/2008 1 118 5 1/2/2008 7 116 6 /2/2008 7 116 6 1/2/2008 19 116 7 1/2/2008 13 ? 7 1//2008 1 118 8 1/2/2008 19 116 9 1/32008 1 118 10 1/3/2008 7 ? 2.1.2. Pairwise method (Available-Case thþĆc cûa têp dĂ liệu cuối cùng sẽ khác nhau vì Analysis, ACA) nó phý thuộc vào các biến sā dýng trong mỗi phân tích. PhþĄng pháp này chî loäi bó nhĂng trþąng hợp có các giá trð bð thiếu trong số các biến đþợc 2.2. Ước lượng các giá trị thiếu phân tích (Gelman & Hill, 2006). Thông thþąng, phþĄng pháp này loäi bó ít trþąng hợp hĄn Khác vĆi cách tiếp cên trên là loäi bó các phþĄng pháp xòa Listwise. ACA vén có một bân ghi chĀa dĂ liệu thiếu, cách tiếp cên sẽ tìm cách thay thế các giá trð thiếu bìng các giá trð nhþợc điểm tþĄng tă nhþ Listwise, đặc biệt là þĆc lþợng sā dýng phþĄng pháp khác nhau. các kết quâ sai lệch, đþợc chî ra trong nghiên Trong phæn này chúng tôi trình bày một số cĀu cûa Ghosh và Pahwa. phþĄng pháp phổ biến và cêp nhêt: Bâng 3 minh họa phþĄng pháp Pairwisse. Trong ví dý này, các biến đþợc sā dýng để phân 2.2.1. Thay thế dữ liệu bằng giá trị trung tích là Ngày, gią và măc nþĆc. Bâng 3a. là têp bình/trung vị (Mean/median substitution) dĂ liệu con cûa bộ dĂ liệu thiếu ban đæu chî có Allison (2001) và Bishop (2006) đề xuçt ba biến này. Khi áp dýng phþĄng pháp phþĄng pháp thay thế giá trð trung bình hoặc Pairwise, các hàng có giá trð bð thiếu sẽ bð xóa, trung vð cûa các giá trð quan sát cûa biến cho điều này täo ra têp dĂ liệu đþợc thể hiển thð ć mỗi giá trð còn thiếu. Các thuêt toán sā dýng bâng 3. Trong trþąng hợp này, 7 trong số 10 cùng một giá trð (trung bình hoặc trung vð) thay trþąng hợp vén còn, làm giâm kích thþĆc cûa thế tçt câ các giá trð bð thiếu dén đến kết quâ têp dĂ liệu. Khi sā dýng phþĄng pháp này, kích sai lệch và lỗi về độ lệch chuèn (undervalue 455
- So sánh một số phương pháp xử lý dữ liệu thiếu cho chuỗi dữ liệu thời gian một chiều standard derivation) (Crawford & cs., 1995; mặt lý thuyết, phþĄng pháp này giâ đðnh rìng Sterne & cs., 2009). kết quâ sẽ không thay đổi sau giá trð quan sát cuối cùng. 2.2.2. Phương pháp sử dụng giá trị quan sát cuối cùng (Last Value Carried 2.2.3 Thay thế giá trị bằng phương pháp Forward, LVCF) nội suy (Interpolation) PhþĄng pháp này dùng giá trð quan sát PhþĄng pháp nội suy sẽ täo ra các điểm dĂ cuối cùng để điền vào các giá trð còn thiếu. liệu mĆi tÿ một têp hợp các điểm dĂ liệu đã biết. Cách tiếp cên này có thể dén đến kết quâ sai Đåy là phþĄng pháp cho kết quâ khá tốt khi dĂ và dþĆi hoặc quá mĀc cûa các giá trð thăc. Về liệu thiếu tÿng điểm. Bảng 4. Kết quả thay thế bằng giá trị trung bình hoặc trung vị STT Ngày Giờ Mực nước Lưu lượng 1 1/1/2008 1 130 612 2 1/1/2008 7 112 560/551 3 1/1/2008 13 115 542 4 1/1/2008 19 118/116 574 5 1/2/2008 1 118 556 6 1/2/2008 7 116 546 7 1/2/2008 13 118/116 546 8 1/2/2008 19 116 546 9 1/3/2008 1 118 556 10 1/3/2008 7 118/116 560/551 Bảng 5. Kết quả điền đầy giá trị thiếu sử dụng phương pháp LCVF STT Ngày Giờ Mực nước Lưu lượng 1 1/1/2008 1 130 612 2 1/1/2008 7 112 612 3 1/1/2008 13 115 542 4 1/1/2008 19 115 574 5 1/2/2008 1 118 556 6 1/2/2008 7 116 546 7 1/2/2008 13 116 546 8 1/2/2008 19 116 546 9 1/3/2008 1 118 556 10 1/3/2008 7 118 556 Bảng 6. Kết quả điền đầy giá trị thiếu sử dụng phương pháp nội suy STT Ngày Giờ Mực nước Lưu lượng 1 1/1/2008 1 130 612 2 1/1/2008 7 112 577 3 1/1/2008 13 115 542 4 1/1/2008 19 116.5 574 5 1/2/2008 1 118 556 456
- Phan Thị Thu Hồng Hình 1. (1) Xây dựng cửa sổ Q trước dữ liệu thiếu; (2) Dịch chuyển từng cửa sổ để tìm các cửa sổ tương tự với cửa sổ Q; (3) Chọn cửa sổ tương tự nhất Qs với cửa sổ Q; (4) Thay thế giá trị thiếu bằng giá trị cửa sổ Qfs 2.2.4. Các phương pháp ước lượng giá trị eDTWBI là phþĄng pháp mć rộng cûa phþĄng pháp DTWBI. Hình 2 mô tâ các bþĆc þĆc thiếu trực tiếp dựa vào dữ liệu có sẵn lþợng giá trð thiếu trên chuỗi dĂ liệu thąi gian - PhþĄng pháp DTWBI (Phan & cs., 2017) đĄn biến. Ở phþĄng pháp này, vĆi mỗi khoâng PhþĄng pháp này cho phép điền đæy khoâng trống dĂ liệu, dĂ liệu trþĆc và dĂ liệu sau khoâng dĂ liệu thiếu lĆn cûa dĂ liệu chuỗi thąi gian đĄn trống này đþợc xem xét nhþ hai chuỗi dĂ liệu biến. Hình 1 mô tâ các bþĆc thăc hiện þĆc lþợng thąi gian riêng biệt. Tÿ đò phþĄng pháp DTWBI giá trð thiếu cûa thuêt toán DTWBI. PhþĄng đþợc áp dýng trên tÿng chuỗi dĂ liệu đĄn lẻ để pháp này thay thế khoâng giá trð thiếu bìng þĆc tính vector giá trð thiếu. Kết quâ cuối cùng để cách tìm chuỗi con tþĄng tă nhçt (Qs, ③-Hình điền đæy khoâng trống dĂ liệu là giá trð trung 1) vĆi chuỗi con trþĆc (hoặc sau) các giá trð bð bình cûa 2 vector þĆc tính trþĆc đò. thiếu (Q - ①-Hình 1), sau đò lçp đæy khoâng dĂ liệu trống bìng cách sao chép chuỗi con ngay 3. THỰC NGHIỆM sau (tþĄng Āng ngay trþĆc) chuỗi con tþĄng tă tiếp (Qfs - ④-Hình 1 ). Để tìm ra các chuỗi con 3.1. Miêu tả dữ liệu tþĄng tă vĆi cāa sổ Q, tÿng cāa sổ (cùng kích Chúng tôi phân tích 3 bộ dĂ liệu để đánh thþĆc vĆi vĆi cāa sổ Q) đþợc dðch chuyển trên giá hiệu suçt phþĄng pháp điền đæy giá trð chuỗi dĂ liệu (②-Hình 1) để tìm ra các chuỗi thiếu. Trong đò cò bộ dĂ liệu Khách hàng hàng tþĄng tă vĆi Q dăa trên độ tþĄng tă toàn cýc không (Airpassenger) đến tÿ gói R-TSA (Chan (Phan & cs., 2016) và độ tþĄng tă cýc bộ DTW & Ripley, 2018). Bộ dĂ liệu này đþợc chọn vì (Sakoe và Chiba, 1978). Sau đò, Qs, chuỗi cò độ chúng thþąng đþợc sā dýng trong các tài liệu khác biệt ít nhçt đþợc chọn ra tÿ têp các chuỗi nghiên cĀu. Ngoài ra, chúng tôi cüng chọn thêm tþĄng tă vÿa tìm đþợc. hai bộ dĂ liệu khác đến tÿ lïnh văc khác nhau ć - PhþĄng pháp eDTWBI (Phan & cs., 2020) nhĂng đða điểm khác nhau bao gồm: 457
- So sánh một số phương pháp xử lý dữ liệu thiếu cho chuỗi dữ liệu thời gian một chiều Hình 2. (1) Xây dựng cửa sổ Qb, Qa trước và sau dữ liệu thiếu; (2) Dịch chuyển từng cửa sổ để tìm các cửa sổ tương tự với cửa sổ Q trên dữ liệu trước và sau dữ liệu thiếu; (3) Chọn cửa sổ tương tự nhất Qbs và Qas với cửa sổ Q; (4) Thay thế giá trị thiếu bằng giá trị trung bình cửa sổ trước Qbs và sau cửa sổ Qas - Khách hàng hàng không (Airpassenger): BþĆc 1: DĂ liệu thiếu giâ lêp đþợc täo ra Số khách hàng trung bình đi máy bay hàng bìng cách xòa các phån đoän (gồm các giá trð tháng. DĂ liệu đþợc thu thêp tÿ tháng 1/1960 liên tiếp) khói mỗi chuỗi thąi gian vĆi kích thþĆc đến tháng 12/1971. khác nhau. - Nhiệt độ không khí Phù Liễn BþĆc 2: Sā dýng các thuêt toán điền đæy để (Temperature): Bộ dĂ liệu này bao gồm nhiệt độ þĆc tính các giá trð thiếu. không khí trung bình hàng tháng täi träm BþĆc 3: Đánh giá hiệu quâ cûa các phþĄng khí tþợng Phù Liễn täi Việt Nam tÿ 1/1961 pháp điền đæy giá trð thiếu. đến 12/2014. Ở đåy, chúng tôi thăc hiện täo 5 mĀc dĂ - Măc nþĆc täi träm Hþng Yên (Water liệu thiếu trên 3 bộ dĂ liệu. Đối vĆi bộ dĂ liệu level): Bộ dĂ liệu măc nþĆc hàng gią đþợc thu khách hàng hàng không, và nhiệt độ không khí thêp täi träm Hþng Yên tÿ 1/1/2008 đến 30/04/2008 (2904 bân ghi). Phù Liễn, kích thþĆc dĂ liệu thiếu læn lþợt là 6%, 7,5%, 10%, 12,5% và 15% chiều dài bộ dĂ 3.2. Các bước tiến hành thực nghiệm liệu. Đối vĆi bộ dĂ liệu măc nþĆc Hþng Yên, đåy là một têp dĂ liệu khá lĆn, do đò, các khoâng Trên thăc tế, việc đánh giá hiệu suçt cûa trống đþợc täo ra vĆi kích thþĆc 3%, 3,75%, 5%, các phþĄng pháp điền đæy dĂ liệu không thể 6,25% và 7,5% chiều dài bộ dĂ liệu. thăc hiện đþợc do các giá trð thăc bð thiếu. Vì vêy, chúng ta phâi täo dĂ liệu thiếu giâ lêp trên 3.3. Các chỉ số đánh giá hiệu suất chuỗi thąi gian đæy đû để so sánh khâ nëng cûa các phþĄng pháp þĆc lþợng giá trð thiếu. Trong Sau khi thăc hiện điền đæy các giá trð thiếu, nghiên cĀu này, một kỹ thuêt gồm ba bþĆc đþợc chúng tôi đánh giá hiệu suçt cûa phþĄng pháp sā dýng để tiến hành các thí nghiệm đþợc mô tâ cûa dăa trên bốn chî số khác nhau đþợc mô tâ chi tiết nhþ sau: nhþ sau: 458
- Phan Thị Thu Hồng - Độ tþĄng tă (Similarity) - Sim (y, x) cho trð quan sát cuối (na.locf, Zeileis & biết độ tþĄng tă nhau giĂa giá trð thăc (x) và giá Grothendieck, 2018), phþĄng pháp thay thế bći trð þĆc lþợng (y) đþợc tính bći công thĀc sau: giá trð trung bình (na.aggregate, Zeileis & 11T Grothendieck, 2018), phþĄng pháp DTWBI Sim y,x (Phan & cs., 2017), và eDTWBI (Phan & cs., T i1 yx 1 ii 2020). Bâng 7 trình bày kết quâ trung bình cûa max x min x các phþĄng pháp điền đæy giá trð thiếu ć trên áp Trong đò, T là kích thþĆc dĂ liệu thiếu, độ dýng trên 3 bộ dĂ liệu sā dýng 4 tiêu chí để tþĄng tă nìm trong [0,1]. Độ tþĄng tă cao hĄn đánh giá kết quâ: độ tþĄng tă (Sim), NMAE, cho thçy phþĄng pháp điền đæy dĂ liệu thiếu có RMSE, FSD. Các kết quâ tốt nhçt cho mỗi tỷ lệ khâ nëng þĆc lþợng giá trð thiếu tốt hĄn. thiếu dĂ liệu đþợc in đêm. NhĂng kết quâ này cho thçy eDTWBI có khâ nëng þĆc lþợng dĂ liệu - NMAE (Normalized Mean Absolute thiếu tốt hĄn nhĂng phþĄng pháp điền đæy dĂ Error): Sai số tuyệt đối trung bình chuèn hóa liệu thiếu trong bài báo này. giĂa giá trð thăc (x) và giá trð þĆc lþợng (y) đþợc tính nhþ sau: Hai bộ dĂ liệu nhiệt độ Phù Liễn và măc nþĆc Hþng Yên cò đặc điểm là chî có thành T yx 1 ii NMAE y,x phæn mùa vý mà không có thành phæn xu TVV i1 max min hþĆng. Trên hai bộ dĂ liệu này, chúng ta thçy rìng eDTWBI cho giá trð lĆn nhçt về độ tþĄng Trong đò, Vmax, Vmin là giá trð max và min tă (Sim), giá trð nhó nhçt ć mĀc độ sai số cûa chuỗi thąi gian ban đæu. Kết quâ NMAE (NMAE và RMSE) ć hæu hết các mĀc dĂ liệu nhó hĄn cho thçy phþĄng pháp điền đæy dĂ liệu thiếu. Điều này cho thçy giá trð þĆc lþợng dĂ thiếu cho kết quâ sát vĆi giá trð thăc hĄn. liệu thiếu sinh bći phþĄng pháp eDTWBI là gæn - RMSE (Root Mean Square Error): Lỗi vĆi giá trð thăc. FSD là chî số so sánh hình dáng trung bình bình phþĄng giĂa giá trð thăc (x) và cûa dĂ liệu dă đoán và dĂ liệu thăc. Ở chî số giá trð þĆc lþợng (y) đþợc đðnh nghïa nhþ sau: FSD, so vĆi các chî số so sánh đðnh lþợng thì 1 T 2 eDTWBI không còn cho kết quâ tốt nhþ nhĂng RMSE y,x y x ii T i1 chî số nhþ Sim, NMAE và RMSE, nó chî cho kết quâ tốt ć một số mĀc dĂ liệu thiếu trên bộ dĂ Chî số này rçt hĂu ích để đo độ chính xác liệu măc nþĆc Hþng Yên (3%, 3,75% và 6,25%). tổng thể cûa phþĄng pháp þĆc tính dĂ liệu Ở các mĀc dĂ liệu thiếu còn läi trên bộ dĂ liệu thiếu. PhþĄng pháp hiệu quâ hĄn khi giá trð măc nþĆc Hþng Yên và trên toàn bộ các khoâng RMSE thçp hĄn. dĂ liệu cûa bộ dĂ liệu nhiệt độ Phù Liễn, - FSD (Fractional Standard Deviation): Tỷ phþĄng pháp eDTWBI đĀng sau DTWBI. lệ lệch chuèn nhau giĂa giá trð thăc (x) và giá Bộ dĂ liệu khách hàng hàng không vÿa có trð þĆc lþợng (y) đþợc tính bći công thĀc: tính chçt mùa vý, vÿa cò xu hþĆng tëng dæn. SD y SD x Hai phþĄng pháp DTWBI và eDTWBI hoät động FSD y,x 2 * tốt vĆi giâ thuyết tồn täi “méu” (pattern) ć vð trí SD y SD x nào đò trên dĂ liệu, nên hai phþĄng pháp này Tỷ lệ này cho biết liệu một phþĄng pháp xā chî cho kết tốt hĄn các phþĄng pháp khác ć lý dĂ liệu thiếu cò đþợc chçp nhên hay không? nhĂng mĀc dĂ liệu thiếu nhó trên bộ dĂ liệu Giá trð cûa FSD càng gæn 0 thì các giá trð þĆc này. Ở nhĂng khoâng dĂ liệu thiếu lĆn hĄn, lþợng càng gæn vĆi giá trð thăc. na.interp là phþĄng pháp nội suy kết hợp vĆi xā lý tính chçt mùa vý cûa dĂ liệu, cho kết quâ tốt hĄn ć các chî số Sim, NMAE, và RMSE. Mặc dù 4. KẾT QUẢ VÀ THẢO LUẬN vêy, ć chî số so sánh hình dáng cûa dĂ liệu dă Chúng tôi tiến hành so sánh hiệu nëng cûa đoán, DTWBI vén chĀng tó đþợc thế mänh cûa các phþĄng pháp nội suy (na.interp, Hyndman mình khi kết quâ chî số FSD có giá trð nhó nhçt & Khandakar, 2008), phþĄng pháp sā dýng giá täi 4/5 mĀc dĂ liệu thiếu. 459
- So sánh một số phương pháp xử lý dữ liệu thiếu cho chuỗi dữ liệu thời gian một chiều Bảng 7. Kết quả so sánh các phương pháp điền đầy dữ liệu thiếu trên 3 bộ dữ liệu Kích Khách hàng hàng không Nhiệt độ Phù Liễn Kích Mực nước Hưng Yên Phương pháp thước Sim NMAE RMSE FSD Sim NMAE RMSE FSD thước Sim NMAE RMSE FSD DTWBI 6% 0,73 0,07 45,39 0,26 0,88 0,11 2,43 0,04 3% 0,78 0,13 27,89 0,30 eDTWBI 0,81 0,04 28,01 0,11 0,93 0,06 1,35 0,07 0,83 0,10 20,12 0,30 na,interp 0,75 0,06 34,17 0,86 0,79 0,22 4,94 1,30 0,80 0,12 26,03 0,54 na,locf 0,75 0,06 38,38 2 0,78 0,24 5,28 2 0,79 0,12 25,93 2 na,aggregate 0,56 0,14 75,70 2 0,79 0,21 4,27 2 0,79 0,13 26,17 2 DTWBI 7,50% 0,81 0,06 37,13 0,10 0,89 0,11 2,44 0,06 3,75% 0,81 0,15 27,89 0,13 eDTWBI 0,85 0,04 21,97 0,21 0,89 0,10 2,22 0,04 0,81 0,14 27,70 0,11 na,interp 0,78 0,07 41,69 1,33 0,79 0,25 5,41 1,19 0,82 0,13 27,49 0,87 na,locf 0,80 0,06 40,33 2 0,79 0,25 5,42 2 0,78 0,17 34,24 2 na,aggregate 0,64 0,13 77,82 2 0,79 0,22 4,49 2 0,77 0,19 37,78 2 DTWBI 10% 0,73 0,11 67,03 0,12 0,90 0,10 2,21 0,02 5% 0,84 0,13 27,26 0,14 eDTWBI 0,80 0,07 45,00 0,41 0,92 0,07 1,72 0,04 0,85 0,11 24,52 0,61 na,interp 0,81 0,07 42,26 1,01 0,79 0,24 4,96 0,91 0,84 0,12 25,83 0,73 na,locf 0,78 0,08 51,19 2 0,79 0,25 5,71 2 0,80 0,17 36,23 2 na,aggregate 0,71 0,12 70,35 2 0,80 0,22 4,48 2 0,83 0,14 29,11 2 DTWBI 12,5% 0,69 0,17 105,81 0,30 0,88 0,11 2,61 0,07 6,25% 0,83 0,14 29,08 0,22 eDTWBI 0,81 0,10 64,38 0,42 0,90 0,09 2,08 0,09 0,85 0,12 24,91 0,22 na,interp 0,81 0,09 61,30 1,59 0,79 0,25 5,52 1,03 0,80 0,17 35,92 0,99 na,locf 0,82 0,09 60,18 2 0,75 0,31 6,71 2 0,76 0,23 47,90 2 na,aggregate 0,76 0,13 79,64 2 0,79 0,22 4,46 2 0,83 0,15 31,35 2 DTWBI 15% 0,74 0,14 80,65 0,28 0,89 0,11 2,53 0,06 7,5% 0,87 0,11 23,98 0,14 eDTWBI 0,77 0,13 72,32 0,25 0,91 0,08 1,95 0,10 0,89 0,10 20,28 0,18 na,interp 0,83 0,09 62,29 1,17 0,78 0,26 5,87 1,38 0,84 0,15 31,57 1,44 na,locf 0,80 0,11 76,09 2 0,79 0,26 5,97 2 0,82 0,18 36,76 2 na,aggregate 0,70 0,19 114,63 2 0,80 0,22 4,38 2 0,84 0,15 30,99 2 460
- Phan Thị Thu Hồng Horton N.J. & Kleinman K.P. (2007). Much Ado 5. KẾT LUẬN About Nothing: A Comparison of Missing Data Methods and Software to Fit Incomplete Data Trong bài viết này, chúng tôi đã trình bày Regression Models. American Statistical các hþĆng tiếp cên xā lý dĂ liệu thiếu cho dĂ Association. 61. 79-90. liệu chuỗi thąi gian một chiều bao gồm hai Hyndman R. & Khandakar Y. (2008). Automatic time nhòm phþĄng pháp: i) Nhòm phþĄng pháp bó series forecasting: the forecast package for R., used qua dĂ liệu thiếu và ii) Nhòm phþĄng pháp þĆc package in 2020. J. Stat. Softw. pp. 1-22. lþợng giá trð thiếu. Kết quâ thăc nghiệm trên 3 Little R.J.A. & Rubin D.B. (2014). Statistical Analysis with Missing Data. John Wiley & Sons. Google- bộ dĂ liệu thăc tế cho thçy, phþĄng pháp Books-ID: AyVeBAAAQBAJ. eDTWBI và DTWBI cho kết quâ þĆc lþợng khá Moritz S., Sardá A., Bartz-Beielstein T., Zaefferer M. chính xác trong trþąng hợp dĂ liệu có tính chçt & Stork J. (2015). Comparison of different mùa vý nhþng không cò xu hþĆng. PhþĄng pháp Methods for Univariate Time Series Imputation in na.interp cho kết quâ dă báo tốt hĄn trong R. arXivpreprint arXiv:1510.03924. trþąng hợp dĂ liệu vÿa có tính chçt mùa vý và Molenberghs G., Fitzmaurice G., Kenward M.G., cò xu hþĆng. BþĆc tiếp theo chúng tôi dă đðnh sẽ Verbeke G. & Tsiatis A. (2014). Handbook of missing data methodology. CRC Press. tiếp týc mć rộng nghiên cĀu này cho dĂ liệu Phan T.T.H., Caillault E.P. & Bigand A. (2016). chuỗi thąi gian nhiều chiều. Comparative study on supervised learning methods for identifying phytoplankton species, in 2016 TÀI LIỆU THAM KHẢO IEEE Sixth International Conference on Communications and Electronics (ICCE). pp. 283- Allison P.D. (2001). Missing Data, Quantitative 288, doi: 10.1109/CCE.2016.7562650. Applications in the Social Sciences, 136. Sage Phan T.T.H., Poisson Caillault E., Lefebvre A. & Publication. Bigand A. (2017). Dynamic Time Warping-based Buuren S. & Groothuis-Oudshoorn K. (2011). Mice: imputation for univariate time series data, Pattern Multivariate imputation by chained equations in R. Recognition Letters. Journal of statistical software. 45(3). Rousseeuw K., Caillault ÉP., Lefebvre A. & Hamad D. Bishop C.M. (2006). Pattern Recognition and Machine (2013). Monitoring system of phytoplankton Learning (Information Science and Statistics). blooms by using unsupervised classifier and time Springer-Verlag New York, Inc., Secaucus, modeling. In 2013 IEEE International Geoscience NJ, USA. and Remote Sensing Symposium - IGARSS. Chan K.S. & Ripley B. (2020). TSA: Time Series pp. 3962-3965. Analysis. R package version 1.3. Retrieved from Stekhoven D.J. & Bühlmann P. (2012). MissForest- on non-parametric missing value imputation for March 10, 2020. mixed-type data. Bioinformatics. 28(1): 112-118. Crawford S.L., Tennstedt S.L. & McKinlay J.B. Sterne J.A.C., White I.R., Carlin J.B., Spratt M., Royston (1995). A comparison of anlaytic methods for non- P., Kenward M.G., Wood A.M. & Carpenter J.R. random missingness of outcome data. J. Clin. (2009). Multiple imputation for missing data in Epidemiol. 48(2): 209-219. epidemiological and clinical research: potential and Dong Y. & Peng J. (2013). Principled missing data pitfalls. BMJ (Clin. Resear. ed.). methods for researchers. SpringerPlus. 2: 222. Sakoe H. & Chiba S. (1978). Dynamic Programming Gelman A. & Hill J. (2006). Data Analysis Using Algorithm Optimization for Spoken Word Regression and Multilevel/Hierarchical Models, Recognition. IEEE Transactions On Acoustics, Cambridge University Press. Speech, And Signal Processing. 16: 43-49. Ghosh S. & Pahwa P. (2008). Assessing bias associated Zeileis A. & Gabor Grothendieck (2005). zoo: S3 with missing data from joint Canada/U.S. survey infrastructure for regular and irregular time series. of health: An application, JSM Biometrics. Journal of Statistical Software. 14(6): 1-27. 461