Thực trạng xây dựng mô hình dự báo kinh tế vĩ mô sử dụng kỹ thuật giảm chiều dữ liệu và chỉ số dẫn báo và bài học kinh nghiệm

pdf 10 trang Gia Huy 18/05/2022 1780
Bạn đang xem tài liệu "Thực trạng xây dựng mô hình dự báo kinh tế vĩ mô sử dụng kỹ thuật giảm chiều dữ liệu và chỉ số dẫn báo và bài học kinh nghiệm", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfthuc_trang_xay_dung_mo_hinh_du_bao_kinh_te_vi_mo_su_dung_ky.pdf

Nội dung text: Thực trạng xây dựng mô hình dự báo kinh tế vĩ mô sử dụng kỹ thuật giảm chiều dữ liệu và chỉ số dẫn báo và bài học kinh nghiệm

  1. 224 HỘI THẢO QUỐC TẾ: PHÁT TRIỂN KINH TẾ VÀ KINH DOANH BỀN VỮNG TRONG ĐIỀU KIỆN TOÀN CẦU HÓA THỰC TRẠNG XÂY DỰNG MÔ HÌNH DỰ BÁO KINH TẾ VĨ MÔ SỬ DỤNG KỸ THUẬT GIẢM CHIỀU DỮ LIỆU VÀ CHỈ SỐ DẪN BÁO VÀ BÀI HỌC KINH NGHIỆM Cù Thu Thủy* Đỗ Thị Lan Hương Abstract: This article reviewed the use of dimension reduction methods and leading indicators in developing microeconomic forecasting models. As a result, lessons learnt were presented and recommendations were made for the development of Vietnam’s economic forecasting model. TÓM TẮT : Trong bài viết này, chúng tôi đã khảo sát thực trạng xây dựng mô hình dự báo kinh tế vĩ mô bằng sử dụng phương pháp chỉ số dẫn báo và kỹ thuật giảm chiều dữ liệu. Từ việc khảo sát đã đưa ra các nhận xét chung về thực trạng xây dựng mô hình dự báo trên tập dữ liệu lớn bằng phương pháp này và rút ra những bài học kinh nghiệm nhằm giúp định hướng xây dựng mô hình dự báo kinh tế vĩ mô của Việt Nam. Từ khóa: Dự báo kinh tế vĩ mô; Giảm chiều dữ liệu; Chỉ số dẫn báo. ĐẶT VẤN ĐỀ Dự báo các chỉ số kinh tế vĩ mô luôn là vấn đề được nhiều nhà khoa học trên thế giới quan tâm. Độ chính xác của các dự báo giúp cho các nhà lãnh đạo cũng như các nhà kinh tế đưa ra những quyết định đúng đắn về chính sách, đường lối nhằm thúc đẩy sự phát triển của nền kinh tế. Hiện tại ở Việt Nam cũng như các nước trên thế giới người ta đã hình thành và ứng dụng nhiều phương pháp khác nhau để dự báo các chỉ số kinh tế vĩ mô chủ yếu theo tháng, quý và năm. Trong đó các phương pháp thường được sử dụng là: phương pháp chuyên gia, phương pháp ngoại suy, phương pháp điều tra, phương pháp chuỗi thời gian, phương pháp chỉ số dẫn báo và mô hình kinh tế lượng (hay hệ phương trình đồng thời). Những năm gần đây trên thế giới đã có nhiều nghiên cứu về xây dựng mô hình dự báo các chỉ số kinh tế vĩ mô sử dụng phương pháp chỉ số dẫn báo và phương pháp giảm chiều dữ liệu (bao gồm phương pháp lựa chọn thuộc tính và chọn lọc thuộc tính). Khác với phương pháp kinh tế lượng khi xây dựng mô hình dự báo các chỉ số kinh tế vĩ mô là các biến giải thích được lựa chọn để đưa vào mô hình dự báo là được dựa theo lý thuyết kinh tế, trong phương pháp chỉ số dẫn báo, các biến giải thích là các biến chỉ số (gọi tắt là biến số) được lựa chọn để đưa vào mô hình dự báo thường được * Học viện Tài chính, Đức Thắng, Bắc Từ Liêm, Hà Nội, Việt Nam. Học viện Tài chính, Đức Thắng, Bắc Từ Liêm, Hà Nội, Việt Nam.
  2. HỘI THẢO QUỐC TẾ: PHÁT TRIỂN KINH TẾ VÀ KINH DOANH BỀN VỮNG TRONG ĐIỀU KIỆN TOÀN CẦU HÓA 225 dựa trên các mô hình toán học. Những biến có liên quan cao đến biến phụ thuộc (là chỉ số kinh tế vĩ mô cần dự báo) theo mô hình toán học này sẽ được lựa chọn. Các mô hình dự báo các chỉ tiêu kinh tế vĩ mô theo phương pháp mới này đã được nhiều nghiên cứu khẳng định là hiệu quả hơn các phương pháp khác. Bài viết này nhằm mục đích nghiên cứu thực trạng về việc xây dựng mô hình dự báo các chỉ tiêu kinh tế vĩ mô sử dụng kết hợp kỹ thuật giảm chiều dữ liệu và phương pháp chỉ số dẫn báo cả ở trong và ngoài nước. Bài viết đưa ra các nhận xét chung về thực trạng xây dựng mô hình dự báo trên tập dữ liệu lớn bằng phương pháp này. Cuối cùng là những bài học kinh nghiệm được rút ra nhằm giúp định hướng xây dựng mô hình dự báo kinh tế vĩ mô cho Việt Nam. 1. THỰC TRẠNG XÂY DỰNG MÔ HÌNH DỰ BÁO CÁC CHỈ TIÊU KINH TẾ VĨ MÔ SỬ DỤNG KỸ THUẬT GIẢM CHIỀU DỮ LIỆU VÀ PHƯƠNG PHÁP CHỈ SỐ DẪN BÁO Phương pháp chi số dẫn báo được sử dụng lần đầu vào cuối năm 1937 bởi Wesley Mitchell, Arthur Burns (Mitchell and Burns, 1938). Các tác giả đã xây dựng một danh sách các chỉ số báo trước, báo đồng thời và báo sau để nghiên cứu chu kỳ kinh doanh của nền kinh tế Hoa Kỳ. Kể từ đó, các chỉ số này đặc biệt là các chỉ số báo trước và báo đồng thời đã đóng một vai trò quan trọng trong việc phân tích và dự báo kinh tế vĩ mô. Stock và Watson (1989) đã trình bày kết quả chính của một dự án về sửa đổi các chỉ số báo trước và báo đồng thời bằng sử dụng cộng cụ chuỗi thời gian kinh tế. Dự án đã đề xuất một mô hình toán học để lựa chọn các chỉ số thay thế cho các chỉ số đã có. Đưa ra khái niệm thế nào là chỉ số tốt nhất, thành phần của chỉ số báo trước và cách kết hợp các chỉ số đã có để tạo ra chỉ số chung hữu ích và đáng tin cậy. Dự án cũng đã đề xuất mô hình nhân tố động đối với các biến chỉ số báo đồng thời và báo trước và thủ tục ước lượng các mô hình này. Nghiên cứu các chỉ số dẫn báo, đặc biệt là các chỉ số báo trước ngày càng trở lên quan trọng trong phân tích kinh tế và dự báo những điểm chuyển đổi của nền kinh tế từ tăng trưởng sang suy thoái và ngược lại. Stock và Watson (1993) đã đề xuất thủ tục dự báo khủng hoảng kinh tế bằng sử dụng chỉ số báo trước và chỉ số tổng hợp từ các chỉ số này. Bài báo này đã đề xuất mô hình toán học để dự báo khủng hoảng kinh tế. Mô hình được ứng dụng vào thực nghiệm với những cuộc khủng hoảng trong quá khứ và kết quả cho thấy mô hình cung cấp xác suất xảy ra các cuộc khủng hoảng đó là khá cao. Bài báo này cũng đưa ra những chỉ dẫn về việc ứng dụng các chỉ số báo trước trong dự báo kinh tế. Qua đó có thể thấy rằng các mô hình dự báo kinh tế sử dụng chỉ số báo trước là các mô hình dự báo không điều kiện, tức là không cần phải dự báo các biến giải thích trong mô hình. Và như vậy các mô hình dự báo có biến chỉ số báo đồng thời là các mô hình dự báo có điều kiện, ở đó các biến chỉ số báo đồng thời phải được dự báo ngoài mô hình dự báo các chỉ số kinh tế vĩ mô được xây dựng. Những tiến bộ trong công nghệ thông tin làm cho việc có thể truy cập trong thời gian thực, với chi phí hợp lý, hàng ngàn chuỗi thời gian kinh tế của nhiều nền kinh tế khác nhau là hoàn toàn hiện thực. Điều này làm tăng triển vọng về biên giới mới trong dự báo kinh tế vĩ mô, trong đó một số lượng lớn chuỗi thời gian được sử dụng để dự báo một số ít các biến hoặc chỉ số kinh tế quan trọng, chẳng hạn như tổng giá trị sản xuất hoặc lạm phát của một quốc gia. Các mô hình chuỗi thời gian hiện đang được sử dụng cho dự báo kinh tế vĩ mô, tuy nhiên, chỉ kết hợp một vài chỉ số, chẳng hạn đối với mô hình VAR, thường chứa hơn 10 biến số. Mặc dù có thể sử dụng các kỹ thuật lựa chọn thuộc tính (biến) để chọn một tập hợp nhỏ các yếu tố làm biến giải thích từ một tập hợp lớn các biến có tiềm năng hữu ích. Hiệu quả của phương pháp này cuối cùng được dựa vào một vài biến lựa chọn. Ví dụ, hoạt động kinh tế thực tế thường
  3. 226 HỘI THẢO QUỐC TẾ: PHÁT TRIỂN KINH TẾ VÀ KINH DOANH BỀN VỮNG TRONG ĐIỀU KIỆN TOÀN CẦU HÓA được sử dụng để dự đoán lạm phát (được gọi là lý thuyết về đường cong Philips), nhưng tỷ lệ thất nghiệp, tỷ lệ sử dụng năng lực sản xuất, hoặc độ chênh sản lượng mới là những thước đo tốt nhất của hoạt động thực tế cho mục đích này? Một cách tiếp cận khác so với việc chọn ra một số biến giải thích là gộp thông tin trong tất cả các biến giải thích ứng viên. Các chỉ tiêu kinh tế vĩ mô đa biến (như GDP, lạm phát, tỷ lệ thất nghiệp, ) thường chịu ảnh hưởng bởi một số lượng lớn các yếu tố. Vấn đề là số lượng biến độc lập (yếu tố) có thể được đưa vào hồi quy bị giới hạn đáng kể. Vấn đề này càng trở nên nghiêm trọng hơn khi chuỗi thời gian của dữ liệu nhất quán tương đối ngắn. Một khác biệt khác là các biến được sử dụng như biến độc lập trong hồi quy thường có mối tương quan lẫn nhau. Điều này gây ra vấn đề đa cộng tuyến. Để tránh những vấn đề này, các nhà dự báo thường sử dụng một số lượng nhỏ các chỉ số trong hồi quy được thiết kế để dự báo các biến kinh tế vĩ mô phức tạp, trong khi bỏ qua nhiều yếu tố quan trọng khác. Trong nghiên cứu (Stock and Watson, 2002B) các tác giả đã sử dụng mô hình nhân tố xấp xỉ cho mục đích này, ở đó một số lượng lớn các biến giải thích tiềm năng có thể được thay thế bằng một số ít các biến được ước tính. Ý tưởng này thực ra đã có một lịch sử khá lâu dài trong kinh tế vĩ mô. Các mô hình cân bằng động kinh tế vĩ mô hiện đại thường quy định rằng một tập hợp nhỏ các biến dẫn dắt chịu trách nhiệm cho sự thay đổi của các biến chuỗi thời gian vĩ mô và các biến dẫn dắt này có thể được xem như là tập của các yếu tố chung. Việc diễn giải các biến chỉ số được ước tính là theo thuật ngữ của các chỉ số khuếch tán được phát triển bởi các nhà phân tích chu kỳ kinh doanh trong Viện nghiên cứu kinh tế quốc gia Hoa Kỳ (NBER) để đo lường chuyển động chung trong tập các biến kinh tế vĩ mô, và theo đó người ta gọi các biến được ước tính là các chỉ số khuếch tán. Nói chung, các mô hình dự báo chỉ số kinh tế vĩ mô ở đó chỉ có một số ít chỉ số khuếch tán (trong hầu hết các trường hợp, chỉ có một hoặc hai chỉ số khuếch tán) đều có chất lượng dự báo tốt, độ chính xác dự báo được cải thiện rõ rệt so với các mô hình dự báo được xây dựng trên một số biến chỉ số được lựa chọn. Nghiên cứu của Stock and Watson (2002B) đã đề xuất xây dựng mô hình dự báo chỉ số kinh tế vĩ mô ở đó đã sử dụng một số lớn các biến chỉ số làm biến giải thích. Từ những nội dung được các tác giả trình bày có thể thấy việc xây dựng những mô hình dự báo trên tập số lượng lớn các biến giải thích tiềm năng được thực hiện qua hai bước. Bước 1 từ tập các biến ban đầu, xây dựng một tập các biến mới có số lượng nhỏ hơn rất nhiều để thay thế tập các biến ban đầu trong mô hình dự báo bằng cách sử dụng kỹ thuật phân tích thành phần chính PCA. Bước tiếp theo là ước lượng mô hình nhân tố cổ điển với các biến mới được sinh ra. Phương pháp thành phần chính có hai ưu điểm chính. Đầu tiên, nó cho phép giảm số lượng biến độc lập mà vẫn giữ các thông tin có giá trị nhất về các chỉ số ban đầu. Thứ hai, các thành phần chính, không tương quan tuyến tính với nhau nên tránh được vấn đề đa cộng tuyến. Nghiên cứu này cũng chỉ ra hạn chế của việc sử dụng các các chỉ số dẫn báo riêng lẻ. Từng chỉ số được đo lường một tính năng khác nhau của hoạt động kinh tế, từ đó có thể đóng vai trò khác nhau trong các cuộc suy thoái kinh tế. Có chỉ số được cho rằng thực hiện tốt với dữ liệu trong quá khứ lại không đạt được kết quả dự báo như mong đợi (như chỉ số về tiêu dùng). Một số chỉ số khác lại thực hiện việc dự báo trong thời kỳ này tốt hơn (như chỉ số về thị trường chứng khoán). Việc kết hợp dự báo với nhiều chỉ số kinh tế dẫn báo đã hỗ trợ vấn đề cảnh báo kinh tế ở thời kỳ khó khăn năm 2001.
  4. HỘI THẢO QUỐC TẾ: PHÁT TRIỂN KINH TẾ VÀ KINH DOANH BỀN VỮNG TRONG ĐIỀU KIỆN TOÀN CẦU HÓA 227 Phương pháp MIDAS cơ bản (Mixed Data Sampling) do Ghysels và cộng sự (Ghysels et al., 2004) đề xuất. Phương pháp có các biến giải thích là các biến có tần suất xuất hiện cao và các biến trễ của biến này. Hệ số của các biến giải thích trễ là một hàm trễ phân tán. Các hệ số này có thể tính được khi chỉ cần một số lượng nhỏ các thông số cần được ước tính. Khi xây dựng trên dữ liệu các biến kinh tế vĩ mô (như tốc độ tăng trưởng của Mỹ), phương pháp MIDAS được bổ sung thêm thành phần tự hồi quy AR vào và từ đó được gọi là phương pháp MIDAS-AR (Ghysels et al., 2007). Michael và Ana (2009) cũng thực hiện dự báo tốc độ phát triển kinh tế của Mỹ bằng sử dụng phương pháp MIDAS với các chỉ số dẫn báo trước. Kết quả nghiên cứu cho thấy việc kết hợp các chỉ số trong phương pháp MIDAS là tốt hơn so với kết hợp các dự báo trên từng chỉ số khi dự đoán hướng thay đổi tăng trưởng của biến và có thể sử dụng dữ liệu thời gian thực (real-time data) trong dự báo, tức là cho phép thực hiện lặp lại việc ước lượng và dự báo tại cùng một thời điểm. Nghiên cứu (Michael and Ana, 2009) thực hiện phương pháp MIDAS theo hướng tiếp cận của mô hình trễ phân phối tự hồi quy ADLM (autoregressive distributed lag model) sử dụng các chỉ số dữ liệu theo quý. Phương pháp sẽ ước lượng cho từng thời kỳ (với từng giá trị cụ thể của chỉ số h). Các tác giả đã sử dụng tiêu chuẩn SIC để lựa chọn độ trễ và sử dụng phương pháp MIDAS kết hợp nhiều chỉ số dẫn báo để dự báo sự tăng trưởng của một số biến trong 1 năm tiếp sau. Dữ liệu của 10 chỉ số kinh tế từ tháng 1 năm 1959 đến tháng 12 năm 2003 được chuyển về theo quý và việc dự báo được thực hiện theo quý. Kết quả so sánh giữa các phương pháp cho thấy MIDAS kết hợp nhiều chỉ số cho kết quả dự báo chính xác hơn so với phương pháp MIDAS cơ bản và so với phương pháp tự hồi quy. Theo (Massimiliano, 2006) các phương pháp dự báo sử dụng chỉ số dẫn báo đồng thời và chỉ số dẫn báo trước có thể phân chia thành các nhóm chính là: Phương pháp nhân tố động (dynamic factor models); phương pháp mô hình hàm chuyển Markov (Markov switching models) và phương pháp VAR (Vector Autoregression). Nhiều công trình về các phương pháp dự báo trên thế giới đã được giới thiệu ở nghiên cứu này. Phát triển tiếp ý tưởng của nghiên cứu (Stock and Watson, 2002B) với các biến giải thích là các biến có tần suất xuất hiện cao trong (Ghysels et al., 2004), rất nhiều quốc gia như Mỹ, Đức, Nhật, Nga, Trung Quốc, Ấn Độ, Hàn Quốc, Canada, Thổ Nhĩ Kỳ, Mê Hy Cô, đã xây dựng mô hình dự báo nền kinh tế quốc dân bằng sử dụng phương pháp chỉ số dẫn báo với biến giải thích xuất hiện với tần suất cao và thực hiện phương pháp giảm chiều dữ liệu (cụ thể là sử dụng kỹ thuật phân tích thành phần chính PCA) khi xây dựng mô hình dự báo. Các mô hình dự báo của các quốc gia này được trình bày chi tiết trong (Klein, 2009A, 2009B). Nghiên cứu (Giovannelli and Proietti, 2016) đã thực nghiệm phương pháp chỉ số dẫn báo tần suất cao trên bộ dữ liệu của Hoa Kỳ. Thực nghiệm Nghiên cứu dự báo của 8 biến kinh tế vĩ mô trong tập chuỗi thời gian kinh tế gồm 121 quý của Hoa Kỳ được quan sát từ quý I năm 1959 đến quý II năm 2011 là: Chỉ số sản xuất công nghiệp (IPI); Tổng số việc làm: Bảng lương phi nông nghiệp (NPE); Tỷ lệ thất nghiệp (UR); Nhà ở lần đầu (HS); Chỉ số giá tiêu dùng (CPI); Tín phiếu kho bạc 10 năm (TB); Thu nhập cá nhân thực tế (RPI) và Tổng sản phẩm quốc dân (GNP). Kết quả của thực nghiệm cho thấy việc lựa chọn trước các thuộc tính bằng phân tích thành phần chính PCA và nhiều lần học có giám sát đã cải tiến độ chính xác dự báo so với phương pháp tự hồi quy
  5. 228 HỘI THẢO QUỐC TẾ: PHÁT TRIỂN KINH TẾ VÀ KINH DOANH BỀN VỮNG TRONG ĐIỀU KIỆN TOÀN CẦU HÓA cũng như so với phương pháp chỉ số khuếch tán trong (Stock and Watson, 2002A). Phương pháp dự báo được đề xuất trong nghiên cứu này cụ thể gồm các bước sau: (i) Sử dụng phương pháp chỉ số khuếch tán để tính toán ước lượng các dự đoán ban đầu; (ii) Chọn thuộc tính từ tập thuộc tính ban đầu bằng phương pháp phân tích thành phần chính; (iii) Sử dụng thành phần chính được chọn cho phương pháp dự báo hồi quy. Thực hiện học có giám sát theo phương pháp dự báo hồi quy này để lựa chọn được các thuộc tính tốt nhất cho việc dự báo. Những nghiên cứu mới đây (Urasawa, 2014; Kim and Swanson, 2017; Chikamatsu et al., 2018, Mishra and Sajja 2018) đã phát triển tiếp các ý tưởng nghiên cứu được giới thiệu trong (Stock and Watson, 2002A, B; Klein, 2009A) về việc dự báo từ hiện tại các chỉ số kinh tế vĩ mô (nowcasting). Về bản chất đây cũng là cách tiếp cận xây dựng mô hình dự báo tần suất cao, ở đó các chỉ số có tần suất cao bao gồm cả chỉ số cứng (như các chỉ số thống kê) và các chỉ số mềm (có được qua điều tra). Mô hình dự báo được sử dụng trong mô hình dự báo tình trạng hiện tại là mô hình phương trình bắc cầu với các nhân tố và mô hình MIDAS với các nhân tố. Khái niệm nhân tố ở đây chính là các thành phần chính được trích xuất từ tập dữ liệu của tập khá lớn các chỉ số đầu vào tần suất cao. Một số ít chỉ số tần suất cao có ảnh hưởng mạnh đến chỉ số kinh tế cần được dự báo được đưa trực tiếp vào mô hình cùng với trễ của chúng. Vì thế mô hình phương trình bắc cầu với các nhân tố là không khác biệt với các mô hình dự báo các chỉ số kinh tế vĩ mô quý được sử dụng ở các quốc gia được liệt kê trong (Klein, 2009A). Khác với sự phát triển, sôi động trong xây dựng các mô hình dự báo sử dụng các kỹ thuật giảm chiều dữ liệu trên các tập dữ liệu khoa học cũng như tập dữ liệu kinh tế - xã hội lớn, việc xây dựng các mô hình phân tích và dự báo theo cách tiếp cận như vậy ở Việt Nam đã được nói đến rất nhiều trong 1-2 năm trở lại đây, nhưng đến thời điểm này kết quả đạt được rất hạn chế. Hầu hết các chỉ số trong các mô hình dự báo các chỉ số kinh tế vĩ mô sử dụng phương pháp chỉ số dẫn báo ở Việt Nam, chẳng hạn như (Cù Thu Thủy, et al, 2017, Dương Hoàng Linh, 2016; Đỗ Văn Thành, 2012) đều là chỉ số kinh tế, và để đối phó với tình trạng có thể có nhiều chỉ số kinh tế có ảnh hưởng đến chỉ số kinh tế vĩ mô cần được dự báo, các nghiên cứu nêu trên đều sử dụng hệ số tương quan Pearson và/hoặc tri thức miền ứng dụng để lựa chọn một số chỉ số được coi là có liên quan. Nói cách khác phương pháp lựa chọn thuộc tính để giảm chiều dữ liệu trong các nghiên cứu này là giản đơn. Đây là cách làm rất phổ biến của các nhà mô hình hóa trong lĩnh vực kinh tế. Với cách tiếp cận như vậy có rất nhiều chỉ số có ảnh hưởng đến chỉ số kinh tế vĩ mô cần được dự báo đã bị bỏ qua, không được xem xét và đưa vào mô hình dự báo. Đó là nguyên nhân làm cho độ chính xác dự báo của các mô hình dự báo được xây dựng bị hạn chế. Việc sử dụng các phương pháp giảm chiều dữ liệu và chỉ số dẫn báo để xây dựng mô hình dự báo kinh tế - xã hội ở Việt Nam đến nay mới được xuất hiện trong một số ít các công trình nghiên cứu của Đỗ Văn Thành và cộng sự (2016, 2017, 2018). Nghiên cứu của nhóm tác giả đã sử dụng các kỹ thuật như kết hợp phương pháp lựa chọn thuộc tính (hay lựa chọn tập con chỉ số ban đầu) bằng sử dụng phát hiện quan hệ nhân quả Granger, sử dụng phân tích thành phần chính PCA nhằm giảm chiều dữ liệu. Lĩnh vực ứng dụng chủ yếu của nhóm là xây dựng mô hình dự báo chỉ số VNINDEX, dự báo biến động giá của một cổ phiếu cụ thể niêm yết trên thị trường chứng khoán Việt Nam.
  6. HỘI THẢO QUỐC TẾ: PHÁT TRIỂN KINH TẾ VÀ KINH DOANH BỀN VỮNG TRONG ĐIỀU KIỆN TOÀN CẦU HÓA 229 2. NHẬN XÉT CHUNG VỀ THỰC TRẠNG XÂY DỰNG MÔ HÌNH DỰ BÁO TRÊN TẬP DỮ LIỆU LỚN BẰNG SỬ DỤNG CÁC PHƯƠNG PHÁP GIẢM CHIỀU DỮ LIỆU VÀ CHỈ SỐ DẪN BÁO 1, Các phương pháp xây dựng mô hình dự báo và sử dụng giảm chiều dữ liệu trong lĩnh vực kinh tế-tài chính cho đến nay đều sử dụng các chỉ số dẫn báo có tần suất xuất hiện cao làm biến giải thích. Các mô hình dự báo của các quốc gia được giới thiệu trong (Klein, 2009A) đều được gọi là mô hình dự báo tần suất cao và hầu hết các mô hình đó là mô hình dự báo các chỉ số kinh tế vĩ mô theo quý. 2, Các mô hình dự báo tần suất cao theo quý đều được xây dựng theo một quy trình chung giống nhau và dựa trên nguyên tắc các chỉ số kinh tế vĩ mô theo quý được liên kết chặt chẽ với sự sẵn có của thông tin, dữ liệu (tiềm năng là có liên quan với các chỉ số kinh tế vĩ mô cần được dự báo) ở trong khoảng thời gian ngắn hơn một quý, và được công bố trong thực tế theo chu kỳ thời gian nhất định, hoặc hàng ngày, hàng tuần hoặc hàng tháng. Người ta tính giá trị trung bình của các chỉ số hàng ngày để được giá trị của chỉ số đó theo tuần, tính trung bình giá trị hàng tuần để được giá trị của chỉ số đó hàng tháng, tính giá trung bình của hàng tháng để được giá trị của chỉ số theo quý. 3, Để dự báo các chỉ số kinh tế theo quý, một số mô hình không sử dụng các chỉ số được thống kê theo quý có liên quan, mà chỉ sử dụng các chỉ số (không nhất thiết phải là chỉ số kinh tế) được thống kê theo tháng, thậm chí theo ngày, theo tuần (khi đó số lượng các chỉ số là rất lớn), trong khi một số mô hình khác lại sử dụng (chẳng hạn mô hình CQM của Trung Quốc, Nga (Klein, 2009A)) cả các chỉ số theo tháng lẫn chỉ số theo quý. Khi đó các chỉ số theo quý được nội suy thành các chỉ số theo tháng và chúng được hòa vào cùng các chỉ số tháng để tính các thành phần chính theo tháng. Từ các thành phân chính theo tháng tính các thành phần chính theo quý. Các thành phần chính theo quý được lựa chọn và đưa vào mô hình hồi quy để dự báo chỉ số kinh tế vĩ mô quý. 4, Mô hình dự báo các chỉ số kinh tế vĩ mô theo quý thường là mô hình trễ phân bố tự hồi quy. Lưu ý rằng theo cách thực hiện này không phân biệt các chỉ số ban đầu đâu là chỉ số báo trước, đâu là những chỉ số báo đồng thời của mỗi chỉ số kinh tế vĩ mô cần được dự báo. Thực tế các chỉ số báo trước và báo đồng thời đó đều được chuyển vào trong các thành phần chính và việc sử dụng mô hình trễ phân bố tự hồi quy đã nắm bắt được các thông tin báo trước và báo đồng thời của chỉ số cần được dự báo. 5, Để dự báo ngoài mẫu (dự báo tương lai) của các chỉ số kinh tế vĩ mô thì cần phải dự báo các thành phần chính có trong mô hình. Khí đó có 2 cách tiếp cận: Một là: dự báo các thành phần chính có trong mô hình bằng sử dụng mô hình chuỗi thời gian đơn biến là: mô hình tích hợp trung bình trượt tự hồi quy ARIMA; Hai là: dự báo từng chỉ số tháng cho 6 tháng (nếu cần dự báo chỉ số kinh tế vĩ mô trước 2 quý) hoặc 12 tháng (cho dự báo trước 4 quý), sau đó chuyển đổi thành các thành phần chính được dự báo ở 2 quý hoặc 4 quý tiếp theo. Mô hình được sử dụng để dự báo các chỉ số tháng cũng là mô hình ARIMA. Theo cách tiếp cận thứ hai, mỗi khi có số liệu mới theo ngày, tuần hoặc tháng người ta có thể nhanh chóng cập nhật lại để được các dự báo mới theo tháng và từ đó cũng cập nhật lại các thành
  7. 230 HỘI THẢO QUỐC TẾ: PHÁT TRIỂN KINH TẾ VÀ KINH DOANH BỀN VỮNG TRONG ĐIỀU KIỆN TOÀN CẦU HÓA phần chính theo quý cho phù hợp với diễn biến của tình hình và khi đó kết quả dự báo các chỉ số kinh tế vĩ mô trước đó sẽ được điều chỉnh lại kết quả dự báo (cách thực hiện này được (Michael and Ana, 2009) gọi là dự báo thời gian thực. Kết quả dự báo các chỉ số kinh tế vĩ mô trong các mô hình dự báo tần suất cao theo quý thường được điều chỉnh sau mỗi hai tuần. Việc thực hiện này tuy mất thời gian nhưng đắc dụng trong công tác chỉ đạo điều hành nền kinh tế của Chính phủ và các cơ quan chính phủ. 6, Cách tiếp cận xây dựng mô hình tần suất cao được khẳng định là có độ chính xác dự báo vượt trội so với các mô hình dự báo truyền thống khác (Stock and Watson, 2002B; Baffigi et al., 2004; Urasawa, 2014; Kim and Swanson, 2017; Chikamatsu et al., 2018). Những mô hình như vậy giúp nắm bắt được kịp thời các điều kiện kinh tế hiện tại để điều chỉnh dự báo cho tương lai. Cách tiếp cận này hiện được ứng dụng không chỉ cho dữ liệu cứng (dữ liệu thống kê) mà cho cả dữ liệu mềm (dữ liệu điều tra) (Chikamatsu et al., 2018) và khái niệm dự báo từ hiện tại (nowcasting) liên quan đến những mô hình dự báo được xây dựng theo cách tiếp cận như vậy (Giannone et al, 2009; Giannone and Reichlin, 2013; Kim and Swanson, 2017; Chikamatsu et al., 2018). 7, Có thể thấy rằng các mô hình dự báo tần suất cao là mô hình dự báo được xây dựng theo quy trình hai pha: giảm chiều dữ liệu và xây dựng mô hình dự báo. Ở đây phương pháp giảm chiều học thuộc tính bằng sử dụng kỹ thuật PCA để chuyển tập gồm một số lượng lớn các chỉ số ban đầu thành một tập gồm một số ít hơn nhiều các thành phần chính. Số lượng các thành phần chính được chọn làm biến độc lập trong mô hình dự báo biến phụ thuộc chiếm khoảng 80% tổng phương sai của tập chỉ số ban đầu. Phương pháp lựa chọn thuộc tính cũng được nói đến trong việc lựa chọn chỉ số, nhưng nhìn chung là chưa rõ ràng, thiếu sự gắn kết. Hơn nữa như đã biết kỹ thuật giảm chiều PCA rất hiệu quả chỉ khi các điểm dữ liệu xấp xỉ một siêu phẳng, trong trường hợp không phải như vậy thì sử dụng PCA là không hiệu quả, nói cách khác khi đó việc sử dụng các thành phần chính của tập chỉ số ban đầu trong mô hình dự báo nói chung sẽ không cải thiện chất lượng dự báo. Đó là nhược điểm chính quan trọng nhất của các mô hình dự báo được giới thiệu trong (Klein, 2009A). Chẳng hạn khi phân tích các phương trình hồi quy trong mô hình CQM của Liên Bang Nga (Eskin and Gusev, 2009), chúng tôi cho rằng việc ứng dụng kỹ thuật PCA để tìm ra các thành phần chính là chưa hiệu quả. Bằng chứng là số thành phần chính là khá lớn mới đạt được tổng tích lũy phương sai đạt mức 80% của tổng phương sai tập dữ liệu ban đầu. Trong trường hợp này nhận xét của Stock và Watson (Stock and Watson, 2002A) ở trên là rất đáng tham khảo và trùng hợp với suy nghĩ của chúng tôi khi thực hiện giảm chiều bằng sử dụng kỹ thuật PCA. 3. Bài học kinh nghiệm Từ thực tiễn triển khai xây dựng mô hình dự báo trên tập dữ liệu lớn bằng sử dụng các phương pháp chỉ số dẫn báo và giảm chiều dữ liệu ở trong nước và ngoài nước (nhất là ở ngoài nước) có thể rút ra một số bài học kinh nghiệm chủ yếu sau đây: Bài học thứ nhất về quy trình xây dựng mô hình dự báo: mô hình dự báo các chỉ số kinh tế vĩ mô theo quý có thể phục vụ được công tác chỉ đạo điều hành thì mô hình này cần được xây dựng trên tập dữ liệu lớn bằng sử dụng phương pháp chỉ số dẫn báo và phương pháp giảm chiều dữ liệu. Các chỉ số đầu vào của mô hình cần phản ánh toàn diện, đầy đủ các khía cạnh của nền kinh tế và
  8. HỘI THẢO QUỐC TẾ: PHÁT TRIỂN KINH TẾ VÀ KINH DOANH BỀN VỮNG TRONG ĐIỀU KIỆN TOÀN CẦU HÓA 231 nên bao gồm cả các chỉ số được xuất hiện với tần suất cao hơn. Phương pháp giảm chiều dữ liệu tốt nhất là sự kết hợp đồng thời giữa phương pháp lựa chọn thuộc tính và học thuộc tính, nhưng ít nhất là cần sử dụng phương pháp học thuộc tính. Bài học thứ hai về lựa chọn các chỉ số phục vụ xây dựng mô hình dự báo các chỉ số kinh tế vĩ mô theo quý: cần tham khảo bộ tiêu chí để lựa chọn tập các chỉ số đầu vào cho việc xây dựng mô hình từ kinh nghiệm của Trung Quốc và Liên Bang Nga, những nước có nền kinh tế chuyển đổi và có lịch sử dữ liệu chuỗi thời gian khá tương đồng với Việt Nam; Các chỉ số được sử dụng làm biến giải thích có thể bao gồm cả chỉ số kinh tế vĩ mô cũng như các chỉ số khác và chúng cũng có thể có tần suất thu thập dữ liệu khác nhau. Bài học thứ ba về phương pháp xử lý dữ liệu để đồng bộ về tần xuất xuất hiện của các chỉ số: Chuyển đổi dữ liệu của các chỉ số - biến giải thích sao cho tương thích với kiểu dữ liệu của biến phụ thuộc. Về việc đưa các chỉ số có tần xuất khác nhau về cùng một tần xuất như nội suy chỉ số tần suất thấp thành chỉ số có tần suất cao hơn, hoặc tính trung bình cộng để đưa chỉ số tần suất cao hơn về tần suất thấp hơn chẳng hạn; Bài học thứ tư về việc xác định các bộ chỉ số riêng phù hợp với mỗi chỉ số kinh tế vĩ mô cần được dự báo: mỗi biến phụ thuộc khác nhau sẽ có tập các biến chỉ số đầu vào khác nhau và dẫn đến thành phần chính của chúng là khác nhau. Điều này giúp tránh dư thừa biến không cần thiết, làm tăng hiệu quả xử lý và nâng cao độ chính xác của dự báo. Bài học thứ năm về chỉ định dạng hàm của mô hình dự báo các chỉ số kinh tế vĩ mô theo quý: Mô hình dự báo tần suất cao là mô hình trễ phân bố tự hồi quy. Mô hình dự báo các biến ngoại sinh thường là mô hình ARIMA. Để dự báo biến phụ thuộc có thể hoặc là dự báo các thành phần chính hoặc là dự báo từng chỉ số - biến giải thích đã tạo ra các thành phần chính. Trong trường hợp thứ 2 sẽ cung cấp dự báo cuốn chiếu và được cập nhật kịp thời theo diễn biến của tình hình. Trong mô hình dự báo cần thiết phải sử dụng các biến giả (Dummy) với những thời điểm dữ liệu biến đổi bất thường, cấu phần tự hồi quy và trung bình trượt nhằm nâng cao độ chính xác dự báo. Bài học thứ sáu về việc có thể đưa những biến độc lập riêng vào mô hình dự báo các chỉ số kinh tế vĩ mô quý: Có một số biến kinh tế/chỉ số có ảnh hưởng rất mạnh đến biến phụ thuộc, thì không nên đưa biến/chỉ số này vào tập chỉ số để sau đó chuyển đổi thành các thành phần chính, mà nên để chúng như là biến độc lập trong mô hình dự báo biến phụ thuộc. Bài học thứ bảy về nhận biết trực quan về tính không hiệu quả trong việc giảm chiều dữ liệu bằng sử dụng kỹ thuật PCA: Tương tự như các chỉ số khuếch tán (được tính xấp xỉ từ bộ chỉ số đầu vào (Stock and Watson, 2002A), nếu tổng phương sai của một số ít các thành phần chính vẫn đảm bảo tỷ lệ tích lũy phương sai của số ít thàn phần chính này vượt ngưỡng 80% thì nói chung tập dữ liệu của các chỉ số đầu vào có nhiều khả năng là gần xấp xỉ một siêu phẳng. Nếu không phải như vậy thì việc sử dụng kỹ thuật PCA để giảm số biến là không hiệu quả. Bài học thứ tám về khắc phục nhược điểm của kỹ thuật PCA trong giảm chiều dữ liệu: Một số quốc gia (Klein, 2009a) đề xuất khi đó cần phân tích, nghiên cứu và cần thiết loại bỏ bớt một số chỉ số đầu vào tần xuất cao. Khi đó xuất hiện vấn đề, tiêu chí để loại bỏ chỉ số là chưa được xác định đầy đủ và rõ rằng nên công việc này có thể mất nhiều thời gian và công sức. Giải pháp tổng
  9. 232 HỘI THẢO QUỐC TẾ: PHÁT TRIỂN KINH TẾ VÀ KINH DOANH BỀN VỮNG TRONG ĐIỀU KIỆN TOÀN CẦU HÓA quát và khả thi (dù tốn nhiều công sức và khó khăn hơn) là sử dụng kỹ thuật KPCA để giảm chiều những tập như vậy. Từ việc đánh giá thực trạng và rút ra những bài học kinh nghiệm quan trọng và cần thiết cho việc xây dựng mô hình dự báo các chỉ số kinh tế vĩ mô của Việt Nam chúng tôi đã xây dựng mô hình dự báo các chỉ số kinh tế vĩ mô theo các bài học kinh nghiệm này. Mô hình xây dựng không chỉ nhằm dự báo giá trị tương lai của các chỉ tiêu kinh tế vĩ mô đó mà thực sự còn giúp cho việc nắm bắt được một cách kịp thời các điều kiện kinh tế hiện tại có ảnh hưởng đến các chỉ số trong tương lai./. TÀI LIỆU THAM KHẢO Chikamatsu K., Hirakata N., Kido Y. & Otaka K. (2018). Nowcasting Japanese GDPs, Bank of Japan Working Paper Series, No.18-E-18, November 2018. Ghysels E., Santa-Clara P., Valkanov R. (2004). The MIDAS touch: miked data sampling regression models. Mimeo, Chapel Hill, NC. Giovannelli, A., & Proietti, T. (2016). On the selection of common factors for macroeconomic forecasting. Advances in Econometrics, 35, 595-630. 905320150000035015 Klein, L.R. (2009A). The Making of National Economic Forecasts (1-26). Cheltenham, UK • Northampton, Massachusetts, USA: Edward Elgar. Klein, L. R. (Ed.). Klein, L.R. (2009B). Background to national economic forecasts and the high-frequency model of the USA. In Klein, L. R. (Ed.). The Making of National Economic Forecasts (1-26). Cheltenham, UK • Northampton, Massachusetts, USA: Edward Elgar. Kim, H. H. & Swanson, N. R. (2017). ‘Methods for Pastcasting, Nowcasting and Forecasting using Factor-MIDAS: With an Application to Korean GDP’. Journal of Forecasting, 37(3), 281- 301. Massimiliano, M. (2006). Leading indicators. In: Hanbook of Economic Forecasting, Vol 1. 879-960 from Elsevier. Michael P. C. & Ana B. G. (2009). ‘Forecasting us output growth using leading indicators: an appraisal using MIDAS models’. Journal of Applied Econometrics J. Appl. Econ, 24, 1187-1206. Mishra R. & Sajja P. (2018). ‘Experimental Survey of Various Dimensionality Reduction Techniques’. International Journal of Pure and Applied Mathematics, Volume 119 No. 12, 12569- 12574. Mitchell, W. C. & A. F Burns (1938). Statistical Indicators of Cyclical Revivals. NBER Bulletin 69, New York. Reprinted as Chapter 6 of G. H. Moore, ed. Business Cycle Indicators. Princeton: Princeton University Press. 1961. Stock, J.H. & Watson, M.W. (1989). New indexes of coincident and leading economic indicators. In: Blanchard, O., Fischer, S. (Eds.), NBER Macroeconomics Annual, MIT Press, Cambridge, MA, pp. 351-394.
  10. HỘI THẢO QUỐC TẾ: PHÁT TRIỂN KINH TẾ VÀ KINH DOANH BỀN VỮNG TRONG ĐIỀU KIỆN TOÀN CẦU HÓA 233 Stock, J.H. & Watson, M.W. (1993). A procedure for predicting recessions with leading indicators: Econometric issues and recent ekperience. In: Stock, J.H., Watson, M.W. (Eds.), Business Cycles, Indicators, and Forecasting, The University of Chicago Press, Chicago, pp. 95- 153. Stock, J.H. & Watson, M.W. (2002A). ‘Macroeconomic forecasting using diffusion indexes’. Journal of Business and Economic Statistics, 20, 147-162. Stock, J.H., Watson, M.W. (2002B). ‘Forecasting using principal components from a large number of predictors’. Journal of the American Statistical Association, 97, 1167-1179. Stock, J.H. & Watson, M.W. (2003A). ‘Forecasting output and inflation: The role of asset prices’. Journal of Economic Literature, 41 (3), 788-829. Stock, J.H., Watson, M.W. (2003B). ‘How did the leading indicator forecasts perform during the 2001 recession’. Federal Reserve Bank of Richmond Economic Quarterly, 89, 71-90. Thanh D.V., Hai N. M. & Hieu D.D. (2018). Building unconditional forecast model of Stock Market Indekes using combined leading indicators and principal components: application to Vietnamese Stock Market [online]. Indian Journal of Science and Technology, 11(02), January - 2018, from . Thanh D.V. (2018). Application of artificial intelligence techniques in building economic- financial forecast models on high dimensional data sets. Presented Report in the first Conference on artificial intelligence: AI for life, 7-9 May 2018, Technology College, Hanoi National University, Vietnam. Urasawa et al, 2014. “Reducing income inequality and poverty and promoting social mobility in Korea.” OECD Economics Department Working Papers, No. 1153, Paris: OECD Publishing. Cù Thu Thủy et al, (2017), Ứng dụng kỹ thuật phân tích thành phần chính dự báo sự biến động CPI của Việt Nam. Đề tài nghiên cứu khoa học cấp Học viện, Học viện Tài chính. Dương Hoàng Linh (2016). Dự báo một số chỉ số kinh tế - tài chính 2016 - 2020 qua phương pháp kinh tế lượng vĩ mô. Đề tài nghiên cứu khoa học cấp Viện Chiến lược và chính sách tài chính. Đỗ Văn Thành & Nguyễn Minh Hải (2016A). Phân tích và dự báo thị trường chứng khoán bằng sử dụng chỉ số báo trước. Kỷ yếu Hội nghị khoa học công nghệ quốc gia lần thứ IX, FAIR, Cần thơ ngày 4-5/8/2016, 559-566. DOI: 10.15625/vap.2016.00069. Đỗ Văn Thành et al, (2016B). Mô hình dự báo tần suất cao đối với các chỉ số thị trường chứng khoán. Kỷ yếu Hội nghị khoa học công nghệ quốc gia lần thứ IV, FAIR, Cần thơ ngày 4-5/8/2016, 299-308. DOI: 10.15625/ vap.2016.00037. Đỗ Văn Thành (2017A). Mô hình hóa giá cổ phiếu trong ngữ cảnh dữ liệu có số chiều cao. Kỷ yếu Hội nghị khoa học công nghệ quốc gia lần thứ X, FAIR, Đà Nẵng ngày 17-18/8/2017, 422-434.