Hướng tiếp cận hồi quy mới cho dự báo tốc độ gió

pdf 9 trang Gia Huy 2880
Bạn đang xem tài liệu "Hướng tiếp cận hồi quy mới cho dự báo tốc độ gió", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfhuong_tiep_can_hoi_quy_moi_cho_du_bao_toc_do_gio.pdf

Nội dung text: Hướng tiếp cận hồi quy mới cho dự báo tốc độ gió

  1. Vietnam J. Agri. Sci. 2021, Vol. 19, No. 4: 443-451 Tạp chí Khoa học Nông nghiệp Việt Nam 2021, 19(4): 443-451 www.vnua.edu.vn HƯỚNG TIẾP CẬN HỒI QUY MỚI CHO DỰ BÁO TỐC ĐỘ GIÓ Nguyễn Hoàng Huy*, Hoàng Thị Thanh Giang Khoa Công nghệ thông tin, Học viện Nông nghiệp Việt Nam *Tác giả liên hệ: nhhuy@vnua.edu.vn Ngày nhận bài: 20.07.2020 Ngày chấp nhận đăng: 08.09.2020 TÓM TẮT Trong bài báo này, chúng tôi giới thiệu một hướng tiếp cận sử dụng hồi quy tuyến tính (Linear Regression - LR) trong hai bước, được gọi là two-step LR, để dự báo cho dữ liệu có cấu trúc không - thời gian (spatio - temporal data). Ở bước đầu tiên tất cả các đặc trưng được chia thành các nhóm con và sử dụng hồi quy tuyến tính cho mỗi nhóm con đặc trưng để có các giá trị hồi quy tương ứng với mỗi nhóm. Bước hai áp dụng hồi quy tuyến tính một lần nữa cho các giá trị hồi quy thu được ở bước một để tạo ra giá trị hồi quy cuối cùng. Cách tiếp cận sử dụng two-step LR có hiệu năng tốt nhất khi dự báo tốc độ gió. Dự báo tốc độ gió hữu ích cho tích hợp năng lượng gió vào lưới điện bởi vì năng lượng gió được sinh bởi tuabin gió, có mối quan hệ mật thiết với tốc độ gió. Sự khó dự đoán trước và thay đổi liên tục của tốc độ gió là một trong những khó khăn căn bản nhất của việc tích hợp này. Từ khóa: Dữ liệu không - thời gian, dữ liệu số chiều cao, dự báo tốc độ gió. A Novel Regression Approach for wind Speed Forecasting ABSTRACT The paper presents a spatio-temporal data forecasting approach using Linear Regression (LR) in two steps called two-step LR. In the first step, all features were divided into subgroups and Linear Regressions was utilized to obtain a regression value for each feature subgroup. In the second step, Linear Regressions was applied again to these regression values to generate the final regression value. The approach using two-step LR had state-of- the-art performance for a wind speed forecasting problem. Wind speed forecasting would be useful for the integration of wind energy into the power grid because wind power generated by wind turbines has an intimate relationship with wind speed and unpredictability and variability of wind speed is one of the fundamental diff iculties of this integration system. Keyworks: spatio-temporal data, high dimensional data, wind speed forecasting. liệu ổn đðnh hĄn (Nguyen Hoang Huy & cs., 1. ĐẶT VẤN ĐỀ 2014). Tuy nhiên trong các bài toán hồi quy Các hệ thống thu thêp dĂ liệu hiện đäi có thăc tế, vçn đề này sẽ dén đến tình träng là số khâ nëng sân sinh lþợng lĆn dĂ liệu, trong đa số lþợng méu dĂ liệu n không đû lĆn so vĆi số trþąng hợp sẽ cho số lþợng lĆn đặc trþng Āng vĆi lþợng đặc trþng d (vçn đề dĂ liệu số chiều cao). mỗi méu dĂ liệu. Trong một số trþąng hợp, các Không may, khi n không đû lĆn so vĆi d, vçn đề méu dĂ liệu đþợc thu thêp trong thąi gian dài có hồi quy thống kê trong câ lý thuyết và thăc tế sẽ thể dén đến phân bố không ổn đðnh, hay thêm khó giâi quyết hĄn (Bai & cs., 2019; Bickel & chí là dĂ liệu không liên quan, ví dý nhþ EEG Levina, 2008; Cai & Zhang, 2019; Hastie & cs., (Nguyen Hoang Huy & cs., 2014), hoặc dĂ liệu 2009; Lei & cs., 2018). vên tốc gió (Lei & cs., 2009). Trong nhĂng Một số hþĆng tiếp cên đã đþợc đþa ra để trþąng hợp này, chúng ta có thể phân tích dĂ giâi quyết vçn đề hồi quy dĂ liệu số chiều cao liệu trong khoâng thąi gian ngín hĄn, vĆi số nòi trên (nghïa là khi n lĆn hĄn so vĆi d). Hæu lþợng méu dĂ liệu ít hĄn, để làm phân bố dĂ hết các phþĄng pháp này sā dýng các mô hình 443
  2. Hướng tiếp cận hồi quy mới cho dự báo tốc độ gió đĄn giân vĆi số tham số ít hĄn, nhþ “naive hþĆng dén cách nhòm các đặc trþng trong bþĆc Bayes”, hay hồi quy thþa (sparse regression) đæu tiên cûa two-step LDA. (Bickel & Levina, 2004; Hastie & cs., 2009; Trong khi two-step LDA đþợc thiết kế để Hastie & cs., 2015), để tránh việc phâi þĆc lþợng giâi quyết bài toán phân loäi dĂ liệu số chiều quá nhiều tham số trong các mô hình hồi quy. cao có tính khâ tách, nhþ trong dĂ liệu không - Tuy nhiên, trong thăc tế dĂ liệu không phâi lúc thąi gian EEG và vén là câu hói mć, nếu phþĄng nào cüng thóa mãn các giâ thiết cûa phþĄng pháp này có thể đþợc mć rộng cho bài toán hồi pháp này. Ví dý nhþ trong nhiều tình huống dĂ quy. Trong bài này, chúng tôi mć rộng two-step liệu không thóa mãn giâ thiết thþa, thêm chí LDA thành two-step LR để xā lý dĂ liệu không ngay câ khi giâ thiết này đþợc thóa mãn thì phþĄng pháp hồi quy dăa trên giâ thiết thþa, - thąi gian khâ tách số chiều cao. Giống nhþ cüng không đâm bâo sẽ hoät động tốt do vçn đề two-step LDA khi phân loäi dĂ liệu EEG, chúng tþĄng tác giĂa các đặc trþng (Cai & Liu, 2011). tôi chî ra bìng thăc nghiệm rìng two-step LR hiệu quâ vĆi bài toán dă báo tốc độ gió (dĂ liệu Khi dĂ liệu không thóa mãn giâ thiết thþa, không - thąi gian), cho kết quâ tốt hĄn phþĄng một tính chçt quan trọng khác cûa dĂ liệu số pháp mĆi nhçt dăa vào hþĆng tiếp cên học sâu chiều cao thþąng thóa mãn trong thăc tế và (Deep Learning). đþợc khai thác đò là tính khâ tách (trong dĂ liệu không - thąi gian) (Bai & cs., 2019; Genton, Cæn lþu ý rìng, dă báo tốc độ gió là một 2007). Loäi dĂ liệu này có ma trên hiệp phþĄng trong nhĂng bài toán quan trọng trong khoa học sai phån tách đþợc, nghïa là cò thể viết thành khí tþợng (Lei & cs., 2009). Gæn đåy đã cò nhiều tích tensor cûa ma trên hiệp phþĄng sai không hþĆng tiếp cên dăa vào dĂ liệu để giâi quyết bài gian và ma trên hiệp phþĄng sai thąi gian. Cho toán này tÿ các phþĄng pháp phån tích thống kê đến nay, chî có một vài phþĄng pháp sā dýng theo chuỗi thąi gian nhþ Persistence Forecasting, tính chçt này để giâi quyết các bài toán phân Autoregressive Model cho đến sā dýng mäng loäi hoặc hồi quy đối vĆi dĂ liệu số chiều cao, thæn kinh nhân täo nhþ Wavelet Transform- tuy nhiên nhĂng phþĄng pháp này yêu cæu Based Artificial Neural Networks (WT-ANN), ANN-based ST và LS-based ST (Bali & cs., 2019; thêm các giâ thiết nhþ mô hình trung bình cộng Sanandaji & cs., 2015; Tascikaraoglu & cs., tính (Huizenga & cs., 2002; Leiva & Roy, 2014). 2016). Trong khi ANN-based ST, LS-based ST là Hoang & cs. (2014) đã đề xuçt phþĄng pháp nhĂng phþĄng pháp khai thác cçu trúc không - two-step LDA để tránh việc phâi þĆc lþợng đồng thąi gian (ST) cûa dĂ liệu tốc độ gió, sā dýng thąi nhiều tham số khi áp dýng mô hình phân mäng thæn kinh nhân täo, bình phþĄng tối thiểu tích khác biệt tuyến tính (LDA). Two-step LDA (LS). Gæn đåy thì các tác giâ trong bài báo áp dýng LDA trong hai bþĆc thay vì một læn Ghaderi & cs. (2017) đã đþa mô hình học sâu duy nhçt cho tçt câ các thuộc tính. Đæu tiên, LTSM cho toàn bộ dĂ liệu để dă báo tốc độ gió, LDA đþợc áp dýng cho các têp con đặc trþng. mà bó qua việc xem xét cçu trúc không - thąi Sau đò LDA đþợc áp dýng vào các giá trð kết gian. Nò đþợc coi là phþĄng pháp tốt nhçt hiện quâ thu đþợc tÿ bþĆc thĀ nhçt. Two-step LDA nay để giâi quyết bài toán dă báo tốc độ gió (Bali yêu cæu tính toán ít hĄn bći vì nó không cæn trâi & cs., 2019; Ghaderi & cs., 2017). qua các quy trình tối þu các tham số nhþ tham số chînh hóa trong phân tích khác biệt tuyến tính chînh hóa (regularized LDA), và có hiệu 2. PHƯƠNG PHÁP NGHIÊN CỨU nëng tốt nhçt trong phân loäi EGG. Đối vĆi dĂ Trong nghiên cĀu này, chúng tôi phân tích, liệu có tính chçt khâ tách (dĂ liệu thóa mãn giâ tổng hợp läi cĄ sć lý thuyết cûa hồi quy tuyến thiết ma trên hiệp phþĄng sai khâ tách), chúng tính, rồi trên cĄ sć đò chúng tôi đề xuçt phþĄng tôi đã chĀng minh đþợc tỷ lệ lỗi lý thuyết cûa pháp hồi quy mĆi two-step LR. Trong mô hình two-step LDA tþĄng đþĄng vĆi phþĄng pháp hồi quy tuyến tính, giâ sā có các méu huçn luyện d Bayes vĆi tî lệ lỗi tối þu nhçt, đồng thąi đþa ra độc lêp {(xs, ys) ∈ R x R, s = 1, „, n} tÿ một đám 444
  3. Nguyễn Hoàng Huy, Hoàng Thị Thanh Giang đông chþa xác đðnh có phân bố P(x, y) nào đò. là vector lỗi ngéu nhiên kích thþĆc n × 1 vĆi các Cho một méu mĆi x cûa đám đông trên, chúng ta phæn tā ϵ1, „, ϵn là các biến ngéu nhiên độc lêp * có cùng phân bố và E[ϵ ] = 0, Var (ϵ ) = 2 n, XTX là một ma trên kích thêm chí ngay câ khi phân bố dĂ liệu xçp xî hay thþĆc d × d, nhþng häng cûa nó thçp hĄn n. Nếu là phân bố chuèn. Chính xác hĄn, khi n < d +1 , ma trên XTX không khâ nghðch, thêm ma trên hiệp phþĄng sai méu  là ma trên kỳ chí điều kiện xçu (ill-conditioned) vĆi hæu hết dð, và hồi quy tuyến tính méu là không xác các giá trð riêng bìng 0. Xây dăng mô hình hồi đðnh. Một số phþĄng pháp đã đþợc đþa ra để quy tuyến tính sā dýng phþĄng pháp bình giâi quyết vçn đề này nhþ Hastie & cs. (2009) phþĄng tối tiểu trong trþąng hợp này hoàn toàn và Lei & cs. (2018). Các phþĄng pháp phổ biến thçt bäi. Cách đĄn giân nhçt để xā lý trþąng thþąng dăa vào kỹ thuêt chînh hòa, nhþ hồi quy hợp này là thay thế ma trên nghðch đâo bìng Ridge và hồi quy tuyến tính Lasso. Các phþĄng ma trên giâ nghðch đâo Moore-Penrose. Một vài pháp Lasso dăa trên giâi thiết thþa. Tuy nhiên, hþĆng tiếp cên khác là dăa trên kỹ thuêt chînh có nhĂng thuộc tính có thể làm giâm tî lệ lỗi cûa hòa nhþ hồi quy Ridge, hồi quy Lasso cüng đã hồi quy tuyến tính Lasso hoặc phân tích khác đþợc đþa ra. Chúng tôi đề xuçt hþĆng tiếp cên biệt Lasso thông qua mối tþĄng quan vĆi nhĂng mĆi, đþợc gọi là two-step LR. đặc trþng khác mặc dù mỗi thuộc tính đò không 2.2. Phương pháp two-step LR có ânh hþćng gì lên hàm phân biệt hoặc hồi quy. Trọng tâm cûa nghiên cĀu này là đþa ra TþĄng tă nhþ two-step LDA (Nguyen hþĆng tiếp cên mĆi cho xây dăng hàm hồi quy Hoang Huy & cs., 2014), two-step LR cüng xā lý cho các mô hình tuyến tính trong không gian số trong hai bþĆc. Ở bþĆc đæu tiên two-step LR chiều trung bình: phân chia tçt câ các đặc trþng thành q các têp con rąi nhau x , x ∈ Rpg, g = 1, „, q, s = 1,„, n, y = Xβ + ϵ g sg T T TT TT T x x1q , ,x , xs x s1 , ,x sq , p1 + „ + pq = trong đò y = (y1, „, yn) , X là ma trên thiết kế Gaussian kích thþĆc n × d, vĆi mỗi hàng độc d. Cách xác đðnh các têp con đặc trþng là rçt lêp sinh tÿ cùng một phân bố xi ~ N(0, ), β là quan trọng và chúng tôi kế thÿa tÿ two-step vector tham số thăc să vĆi kích thþĆc d × 1, và ϵ LDA. Để đĄn giân hóa, trong bài báo này chúng 445
  4. Hướng tiếp cận hồi quy mới cho dự báo tốc độ gió tôi thiết lêp p1 = „ = pq và d = pq. Sau đò hồi quy Huy & cs., 2014), khi áp dýng two-step LR cho tuyến tính đþợc áp dýng cho mỗi têp con đặc dĂ liệu không - thąi gian, chúng tôi sā dýng dĂ trþng x để đþợc hàm hồi quy tuyến tính fx liệu tÿ tçt câ các đða điểm täi tÿng thąi điểm để g g dă báo täi một thąi điểm cý thể ć bþĆc đæu tiên. f x  xT gg g Sau đò tçt câ kết quâ dă đoán ć bþĆc đæu tiên đþợc kết hợp để täo ra kết quâ dă báo cuối cùng trong đò,  đþợc xác đðnh bìng cách áp g täi một thąi điểm xác đðnh. Trong phæn này dýng phþĄng pháp bình phþĄng tối thiểu trên chúng tôi đþa ra quy trình áp dýng two-step LR các méu huçn luyện: để dă báo dĂ liệu täi các đða điểm khác nhau, p {xsg R , g = 1,„, q; s = 1,„, n} täi h thąi điểm tiếp theo sā dýng dĂ liệu ć l thąi Trong trþąng hợp p + 2 > n, ma trên nghðch điểm trþĆc đò. Chúng tôi thăc hiện điều đò bìng đâo ć công thĀc (1) đþợc thay thế bći ma trên giâ h bþĆc sau: nghðch đâo Moore-Penrose để xác đðnh βg. Trong BþĆc 1: Dă báo dĂ liệu ć mỗi đða điểm, täi bþĆc hai, hồi quy tuyến tính đþợc áp dýng một thąi điểm t + 1 bìng cách áp dýng two-step LR læn nĂa vĆi điểm kết quâ tính ć bþĆc một: cho khối dĂ liệu täi l thąi điểm, tÿ thąi điểm TT t – l + 1 đến t, ć tçt câ các đða điểm. z fx , ,fx ,zs fx , ,fx 1 q s1 sq BþĆc 2: Dă báo dĂ liệu ć mỗi đða điểm, täi vĆi s = 1,„, n để đþợc hàm hồi quy two-step thąi điểm t + 2 bìng cách áp dýng two-step LR f*(x) cuối cùng. Điều đò cò nghïa f*(x) xác đðnh cho khối dĂ liệu bao gồm dĂ liệu thăc täi l – 1 nhþ sau: thąi điểm tÿ t – l + 2 đến t, ć tçt câ các đða điểm, f * x f f x , ,f x gộp vĆi dĂ liệu đþợc dă báo täi thąi điểm t + 1, 1q đåy là kết quâ tÿ bþĆc 1. trong đò f là hàm hồi quy tuyến tính. Hình BþĆc 3: Dă báo dĂ liệu ć mỗi đða điểm, täi 2 mô tâ lþợc đồ cûa quá trình thăc hiện two- thąi điểm t + 3 bìng cách áp dýng two-step LR step LR. cho khối dĂ liệu bao gồm dĂ liệu thăc täi l – 2 thąi điểm tÿ thąi điểm t – l + 3 đến t, ć tçt 2.3. Dự báo dữ liệu không - thời gian dựa câ các đða điểm, gộp vĆi dĂ liệu dă báo täi 2 trên two-step LR thąi điểm tÿ t + 1 đến t + 2, đåy là kết quâ tÿ TþĄng tă two-step LDA (Nguyen Hoang bþĆc 1, 2. Hình 2. Lược đồ của two-step LR 446
  5. Nguyễn Hoàng Huy, Hoàng Thị Thanh Giang CĀ tiếp týc lặp läi nhþ vêy cho đến bþĆc h thông dýng trong dă báo tốc độ gió (Lei & cs., BþĆc h: Dă đoán dĂ liệu ć mỗi đða điểm, täi 2009). Chúng đþợc xem là các mô hình chuỗi thąi điểm t + h bìng cách áp dýng two-step LR thąi gian đĄn giân nhçt nhþng cò thể vþợt trội cho khối dĂ liệu bao gồm dĂ thăc täi l – h + 1 nhiều mô hình phĀc täp khác trong dă báo tốc thąi điểm tÿ thąi điểm t – l + h đến t, ć tçt câ độ gió ngín hän (Sanandaji & cs., 2015; các träm, gộp vĆi dĂ liệu dă báo täi h – 1 thąi Tascikaraoglu & cs., 2016). Để câi tiến độ chính điểm tÿ t + 1 đến t + h - 1, đåy là kết quâ tÿ các xác dă đoán, nhiều mô hình tþĄng quan không bþĆc 1, 2,„, h – 1. Quá trình dă báo trong h bþĆc gian đþợc đþa ra để khai thác mối quan hệ tốc cho h thąi điểm sau thąi điểm t, sā dýng dĂ liệu độ gió ć nhĂng vð trí khác nhau. Tuy nhiên täi l thąi điểm trþĆc đò đþợc mô tâ nhþ sau: chúng chî gæn nhþ áp dýng các phþĄng pháp học máy nhþ mäng nĄron nhån täo (ANN-based Two StepLD sd , ,sd ,sdt 1 , ,sd t i 1 sd t i t l i t ST), phþĄng pháp bình phþĄng tối tiểu (LS- based ST) đối vĆi tçt câ dĂ liệu không - thąi i = 1, 2,„, h gian hoặc vĆi dĂ liệu đã đþợc biến đổi thông qua trong đò h, l là nhĂng tham số cho trþĆc, biến đổi Wavelet (WT-ANN),„ (Lei & cs., 2009; sdt, sdt læn lþợt là khối dĂ liệu thăc và dă đoán Sanandaji & cs., 2015; Tascikaraoglu & täi tçt câ các đða điểm (spatial data) vào thąi Uzunoglu, 2014; Tascikaraoglu & cs., 2016). điểm t. Gæn đåy các thuêt toán học såu nhþ Deep Learning-based Spatio-Temporal Forecasting 3. KẾT QUẢ VÀ THẢO LUẬN (DL-STF) đþợc sā dýng để dă báo tốc độ gió (Ghaderi & cs., 2017; Yu & cs., 2019; Wu & cs., 3.1. Bài toán dự báo tốc độ gió 2019). TþĄng tă nhĂng phþĄng pháp trên, nò Nëng lþợng giò đã đþợc phát triển nhanh khai thác toàn bộ dĂ liệu không - thąi gian nhþ chóng và ngày càng trć thành nëng lþợng tái dĂ liệu đæu vào cho thuêt toán dă đoán, sā dýng täo quan trọng ć nhiều vùng trên thế giĆi, đặc Recurrent Neural Networks (RNN) và Long biệt ć nhĂng nþĆc châu Âu (Lei & cs., 2009). Short Term Memory (LSTM) (Ghaderi & cs., Tích hợp nëng lþợng giò vào lþĆi điện trên diện 2017). PhþĄng pháp này vþợt trội các kết quâ rộng là thiết yếu và nhiều thách thĀc do bân dă báo tốc độ gió gæn đåy. Tuy nhiên, tçt câ các chçt ngéu nhiên cûa gió. Să tích hợp sẽ thuên phþĄng pháp trên đều không dăa vào cçu trúc tiện hĄn nếu dă báo chính xác đþợc nëng lþợng không - thąi gian bên trong cûa dĂ liệu tốc gió trong ngín hän (Ghaderi, 2017). Có nhiều độ giò, nhþ tính khâ tách cûa ma trên hiệp hþĆng tiếp cên để dă đoán nëng lþợng gió, tuy phþĄng sai. nhiên hþĆng tiếp cên dăa vào dă đoán tốc độ gió vén đþợc xem là hþĆng tiếp cên nổi bêt nhçt 3.2. Mô tả dữ liệu (Tascikaraoglu & cs., 2016). 3.2.1. Tập dữ liệu NCHMF Nhiều phþĄng pháp dă báo tốc độ giò đþợc Têp dĂ liệu gió NCHMF tÿ trung tâm dă đþa ra, cò thể chia làm 2 loäi: phþĄng pháp vêt báo khí tþợng thûy vën quốc gia Việt Nam đþợc lý, và phþĄng pháp thống kê (Lei & cs., 2009). đo ć 13 träm thąi tiết Hà Giang, Cao Bìng, PhþĄng pháp vêt lý khai thác nhiều thuộc tính Tuyên Quang, Hña Bình, Nam Đðnh, Hà Đông, vêt lý nhþ đða hình, áp suçt, nhiệt độ, có lợi thế Phú Liễn, Läng SĄn, Bãi Cháy, Tiên Yên, Mòng trong dă báo tốc độ gió dài hän. PhþĄng pháp Cái, Bäch Long Vï, Hội Xuân. NhĂng träm này thống kê thþąng dăa vào giá trð lðch sā, nhþ mô ć miền bíc Việt Nam vĆi kinh độ tÿ 104.044220 hình ARMA, và thþąng cho kết quâ tốt trong dă đến 107.848208, vï độ tÿ 20.020846 đến báo tốc độ gió ngín hän. Bài báo này têp trung 22.401052, nhþ trong hình 3. Tốc độ gió ć träm vào dă báo tốc độ gió ngín hän dăa vào dĂ liệu Bäch Long Vï thay đổi nhanh và không ổn đðnh tốc độ gió lðch sā. nhþ các träm khác khác. DĂ liệu quan sát tÿ Mô hình ARMA và một số trþąng hợp đặc ngày 01/10/2016 đến 01/01/2019. Tốc độ giò đþợc biệt nhþ mô hình AR, mô hình Persistence rçt đo ba gią một læn. 447
  6. Hướng tiếp cận hồi quy mới cho dự báo tốc độ gió Hình 3. Vị trí trạm khí tượng đo tốc độ gió của Trung tâm Dự báo khí tượng thủy văn quốc gia Việt Nam Hình 4. Vị trí trạm đo dữ liệu tốc độ gió METAR 3.2.2. Tập dữ liệu METAR 3.3. Kết quả ứng dụng two-step LR Têp dĂ liệu tốc độ gió hàng gią METAR TþĄng tă two-step LDA (Nguyen Hoang đþợc thu thêp tÿ các báo cáo thąi tiết täi 57 Huy & cs., 2014), two-step LR xác đðnh các câng sân bay ć bą biển phía đông Hoa Kỳ, bao nhòm con đặc trþng gồm tçt câ các đặc trþng täi gồm Massachusetts, Connecticut, New York, mỗi thąi điểm. Chúng tôi cüng không áp dýng New Hampshire. Hình 4 cho thçy vð trí cûa các bçt kỳ kỹ thuêt học máy nào nhþ chînh hòa để câng sân bay này. Dçu đó là sân bay ACK, nìm nâng cao hiệu nëng cûa hồi quy tuyến tính đþợc trên một hñn đâo. Tốc độ gió ć đâo đò thay đổi thăc hiện ć mỗi bþĆc. Do đò không cò să thiết rçt nhanh, tþĄng tă nhþ nhĂng gì ć träm thąi lêp siêu tham số nào khác cûa two-step LR. HĄn tiết Bäch Long Vï cûa Việt Nam, một trong 13 nĂa độ phĀc täp tính toán cûa two-step LR träm thąi tiết ć hình 3. Tốc độ gió tÿ 06/01/2014 giâm đi do chî áp dýng hồi quy tuyến tính trên đến 20/02/2014 đþợc sā dýng để kiểm tra hiệu mỗi nhòm con đặc trþng. nëng cûa các phþĄng pháp học máy đþợc nghiên Bâng 1 so sánh hiệu suçt cûa phþĄng pháp cĀu. Đåy là thąi điểm, tốc độ gió không ổn đðnh đþợc chúng tôi đþa ra vĆi các phþĄng pháp khác hĄn tçt câ các khoâng thąi gian khác. trên têp dĂ liệu METAR. Để so sánh sai số cûa 448
  7. Nguyễn Hoàng Huy, Hoàng Thị Thanh Giang các phþĄng pháp, chúng tôi sā dýng ba độ đo có thể thçy hiệu nëng dă đoán trên ACK hoặc thông dýng là MAE, RMSE và NRMSE. Trong tçt câ các träm cûa two-step LR trội hĄn DL- thā nghiệm này chúng tôi chọn l = 12, h = 6 theo STF, phþĄng pháp tốt nhçt hiện nay. Ghaderi (2017), đåy là tham số cho hiệu nëng Hình 5 biểu diễn dĂ liệu tốc độ gió thăc tế tốt nhçt cûa DL-STF trên têp dĂ liệu METAR. (đþąng màu xanh) và tốc độ gió dă đoán (đþąng Lăa chọn l = 12, h = 6 cò nghïa là two-step LR màu đó) tÿ dĂ liệu kiểm tra trên 16 träm quan và các phþĄng pháp khác sā dýng d = 684 = 57 × sát. Đồ thð đæu tiên trong hình Āng vĆi träm 12 giá trð quan tríc (đặc trþng) tÿ 57 träm và 12 quan sát ć câng sân bay ACK. thąi điểm (gią) trþĆc đò để dă đoán giá trð tốc độ Trong têp dĂ liệu NCHMF, có 3 giá trð tốc gió trong 6 gią tiếp theo. Chúng tôi sā dýng dĂ độ gió bð thiếu và chúng tôi đã thay thế chúng liệu tốc độ gió tÿ 6.012 gią liên tiếp (250,5 ngày), bìng giá trð tốc độ giò đo täi thąi điểm trþĆc đò hình thành 6.000 méu huçn luyện để học mô (3 tiếng trþĆc), ć cùng träm. Bâng 3 biểu diễn hình dă báo và các méu kiểm tra là tốc độ gió hiệu nëng cûa DL-STF và two-step LR khi sā trong giai đoän không ổn đðnh nhçt tÿ dýng tçt câ dĂ liệu tÿ 13 träm thąi tiết vĆi 06/01/2014 đến 20/02/2014 nhþ đã nêu trong bài l = 12, h = 6. Bìng cách này thì DL-STF và two- báo cûa Ghaderi & cs. (2017). Cý thể hĄn về các step LR có thể khai thác tçt câ các thông tin phþĄng pháp khác đþợc trình bày cý thể trong tþĄng tác èn giĂa các träm. Qua bâng 3, chúng các bài báo cûa Sanandaji & cs. (2015) và ta có thể thçy two-step LR có hiệu nëng dă báo Tascikaraoglu & cs. (2016). tốc độ gió tốt hĄn hoặc bìng phþĄng pháp đang Bâng 2 trình bày 3 sai số trung bình cûa tçt cho kết quâ tốt nhçt hiện nay là DL-STF, xem câ các träm trên têp dĂ liệu METAR. Chúng ta bài báo Ghaderi & cs. (2017). Bảng 1. Sai số của các phương pháp khác nhau trên trạm ACK Method MAE (m/s) RMSE (m/s) NRMSE (%) Persistence Forecasting 2,14 2,83 16,86 AR of order 1 2,07 2,76 16,44 AR of order 3 2,07 2,76 16,40 WT-ANN 1,82 2,47 14,68 ANN-based ST 1,80 2,30 13,69 LS-based ST 1,72 2,20 13,08 DL-STF 1,63 2,19 13,08 Two-Step LR 1,40 1,93 11,48 Bảng 2. Sai số trung bình trên tất cả các trạm sử dụng DL-STF, two-step LR Method MAE (m/s) RMSE (m/s) NRMSE (%) DL-STF 1,18 1,62 16,28 Two-Step LR 1,09 1,44 14,32 Bảng 3. Sai số trung bình của DL-STF và Two-Step LR trên trạm Bạch Long Vĩ và cả 13 trạm Method Locations MAE (m/s) RMSE (m/s) NRMSE (%) DL-STF Bach Long Vi 1,70 2,36 13,86 All Stations 0,82 1,16 19,09 Two-Step LR Bach Long Vi 1,67 2,27 13,34 All Stations 0,82 1,07 18,04 449
  8. Hướng tiếp cận hồi quy mới cho dự báo tốc độ gió Hình 5. So sánh giữa tốc độ gió thực tế và dự báo trên dữ liệu kiểm tra Bickel P.J. & Levina E. (2004). Some theory for 4. KẾT LUẬN Fisher’s linear discriminant function, ‘naive Bayes’, and some alternatives when there are many Hiệu suçt cûa hồi quy tuyến tính bð ânh more variables than observations. Bernoulli. hþćng bći số chiều. Để giâi quyết vçn đề này, 10(6): 989-1010. chúng tôi giĆi thiệu phþĄng pháp áp dýng hồi Bickel P.J. & Levina E. (2008). Covariance quy tuyến tính trong hai bþĆc, đþợc gọi là two- regularization by thresholding. The Annals of step LR. HþĆng tiếp cên này đþợc gợi ý tÿ two- Statistics. 36: 2577-2604. step LDA và tính khâ tách cûa ma trên hiệp Cai T. & Liu W. (2011). A direct estimation approach phþĄng sai cûa dĂ liệu tốc độ gió. VĆi dĂ liệu tốc to sparse linear discriminant analysis. Journal độ gió có số chiều cao trung bình, hiệu nëng cûa of the American Statistical Association. cách tiếp cên này tốt hĄn các phþĄng pháp mĆi 106(496): 1566-1577. nhçt. Ngày nay, có nhiều phþĄng pháp điều Cai T. & Zhang L. (2019). High dimensional linear chînh hồi quy tuyến tính cho dĂ liệu có số chiều discriminant analysis: optimality, adaptive cao nhþ là hồi quy Lasso và các câi tiến cûa nó. algorithm and missing data. Journal of the Royal Tuy nhiên, vĆi hiểu biết cûa tôi, các thuêt toán đò Statistical Society: Series B (Statistical Methodology). 81(4): 675-705. chþa đþợc thā nghiệm cho dă báo tốc độ gió. Trong tþĄng lai, hþĆng tiếp cên hai bþĆc sā dýng Genton M.G. (2007). Separable approximation of space-time covariance matrices. Environmetrics. nhĂng thuêt toán này nên đþợc khâo sát tî mî. 18: 681-695. Ghaderi A., Sanandaji B. M. & Ghaderi F. (2017). TÀI LIỆU THAM KHẢO Deep forecast: Deep learning-based spatio- temporal forecasting. 34th ICML Time Series Bali V., Kumar A. & Gangwar S. (2019). Deep Workshop. Sydney, Australia. Learning based Wind Speed Forecasting-A Review. 9th International Conference on Cloud Hastie T., Tibshirani R. & Friedman J. (2009). The Computing, Data Science & Engineering Elements of Statistical Learning: DataMining, (Confluence). India. pp. 426-431. Inference, and Prediction. Springer Series in Bai Z., Li H. & Pan G. (2019). Central limit theorem Statistics, Springer-Verlag. for linear spectral statistics of large dimensional Hastie T., Tibshirani R. & Wainwright M. (2015). separable sample covariance matrices. Bernoulli. Statistical Learning with Sparsity: The Lasso and 25(3): 1838-1869. Generalizations. Chapman & Hall/CRC Press. 450
  9. Nguyễn Hoàng Huy, Hoàng Thị Thanh Giang Huizenga H.M., De Munck J.C., Waldorp L.J. & Sanandaji B.M., Tascikaraoglu A., Poolla K. & Grasman R.P.P.P. (2002). Spatiotemporal Varaiya P. (2015). Low dimensional models in EEG/MEG source analysis based on a parametric spatio-temporal wind speed forecasting. noise covariance model. IEEE Transactions on American Control Conference. Chicago, USA. Biomedical Engineering. 49: 533-539. pp. 4485-4490. Huy N.H., Frenzel S. & Bandt C. (2014). Two-step Tascikaraoglu A. & Uzunoglu M. (2014). A review of linear discriminant analysis for classification of combined approaches for prediction of short-term eeg data. In M. Spiliopoulou, L. Schmidt-Thieme wind speed and power. Renewable and Sustainable and R. Janning, editors, Data Analysis, Machine Energy Reviews. 34: 243-254. Learning and Knowledge Discovery. Springer, Tascikaraoglu A., Sanandaji B. M., Poolla K. & Cham. pp. 41-50. Varaiya P. (2016). Exploiting sparsity of inter- Lei M., Shiyan L., Chuanwen J., Hongling L. & Yan Z. connections in spatio-temporal wind speed (2009). A review on the forecasting of wind speed forecasting using wavelet transform. Applied and generated power. Renewable and Sustainable Energy. 165 (1): 735-747. Energy Reviews. 13: 915-920. Yu R., Gao J., Yu M., Lu W., Xu T., Zhao M., Zhang Lei L., Bickel P.J., Karoui N.E. (2018). Asymptotics for high dimensional regression M-estimates: fixed J., Zhang R. & Zhang Z. (2019). LSTM-EFG for design results. Probability Theory and Related wind power forecasting based on sequential Fields. 172 (3-4): 983-1079. correlation features. Future Generation Computer Systems. 93: 33-42. Leiva R. & Roy A. (2014). Classification of Higher- order Data with Separable Covariance and Wu Y.X., Wu Q. B. & Zhu J.Q. (2019). Data-driven Structured Multiplicative or Additive Mean wind speed forecasting using deep feature Models. Communications in Statistics - Theory extraction and LSTM. IET Renewable Power and Methods. 43(5): 989-1012. Generation. 13(12): 2062-2069. 451