Bài giảng Kinh tế lượng (Phần 2) - Trần Kim Thanh

78 trang Gia Huy 6600 Free

Download

Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Kinh tế lượng (Phần 2) - Trần Kim Thanh", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

bai_giang_kinh_te_luong_phan_2_tran_kim_thanh.pdf

Nội dung text: Bài giảng Kinh tế lượng (Phần 2) - Trần Kim Thanh

Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng Chương 5. MỘT SỐ VẤN ĐỀ TRONG MÔ HÌNH HỒI QUY Chương này đề cập tới ba vấn đề thường xảy ra trong mô hình, vi phạm giả thiết của phương pháp OLS: Đa cộng tuyến, phương sai nhiễu thay đổi, tự tương quan của nhiễu. Đồng thời, trong một chừng mực nào đó, chỉ ra nguyên nhân, phát hiện vấn đề và tìm cách khắc phục, hạn chế những hậu quả không tốt của chúng. 5.1. Đa cộng tuyến 5.1.1. Khái niệm về đa cộng tuyến a. Xét mô hình hồi quy k biến: 푌 = 0 + 1 1 + 2 2 + ⋯ + −1 −1 + 푈 (5.1) Giả thiết 4 của phương pháp OLS là ma trận 1 ⋯ 11 −1,1 1 ⋯ 풳 = ( 12 −1,2 ) ⋮ ⋮ ⋯ ⋮ 1 1푛 ⋯ −1,푛 có hạng bằng k, tức là k cột của ma trận này không phải là k véc tơ phụ thuộc tuyến tính. Khi các biến giải thích không tương quan với nhau, mỗi biến chứa đựng những thông tin riêng về Y, không liên quan đến các biến giải thích khác. Khi đó hệ số hồi quy riêng của mỗi biến giải thích cho biết ảnh hưởng của biến này đối với biến phụ thuộc khi các biến khác không đổi. Trong trường hợp này ta nói mô hình không có hiện tượng đa cộng tuyến. Ta nói mô hình có hiện tượng đa cộng tuyến (multicollinearity) nếu tồn tại các hằng số không đồng thời bằng 0: 휆1, 휆2, , 휆 −1 푣à 푖ế푛 푛 ẫ 푛ℎ푖ê푛 휀 푠 표 ℎ표: 휆1. 1 + 휆2. 2 + ⋯ + 휆 −1. −1 = 휀 - Khi 휀 ≡ 0 thì hiện tượng đa cộng tuyến được gọi là đa cộng tuyến hoàn hảo (perfect multicollinearity) (Khi đó rõ ràng giả thiết 4 nói trên bị vi phạm) - Khi 휀 ≢ 0 thì hiện tượng đa cộng tuyến được gọi là đa cộng tuyến không hoàn hảo, (imperfect multicollinearity), hay đơn giản là đa cộng tuyến. b. Nguyên nhân của hiện tượng đa cộng tuyến: Những nguyên nhân chính là: * Khi các biến giải thích có mối quan hệ nhân quả cao, tức là có những quan hệ ràng buộc. Chẳng hạn: trong mô hình hồi quy của Y là lượng điện năng tiêu thụ theo các biến giải thích là: thu nhập X1, diện tích nhà ở X2, thì sẽ xảy ra hiện tượng đa cộng tuyến vì thu nhập cao thường kéo theo diện tích nhà ở lớn hơn. * Khi các số liệu quá ít thì chúng vừa không đủ tính đại diện cho tổng thể, lại không xác định được duy nhất các hệ số hồi quy. * Chọn biến giải thích có độ biến thiên nhỏ.
Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng * Phương pháp chọn mẫu không đủ tính đại diện. 5.1.2. Hậu quả của đa cộng tuyến Trong thực tế hiện tượng đa cộng tuyến là không tránh khỏi, vấn đề là mức độ đa cộng tuyến là cao hay thấp. Khi mô hình có hiện tượng đa cộng tuyến đáng kể giữa các biến giải thích thì mặc dù tính chất BLUE của các hệ số ước lượng vẫn được bảo toàn, nhưng xuất hiện các hậu quả không tốt sau: 1/ Các hệ số ước lượng có phương sai và hiệp phương sai lớn, nghĩa là các ước lượng này có giá trị thay đổi nhiều từ mẫu này qua mẫu khác, khiến độ chính xác của các ước lượng không cao. Để thấy rõ điều này, xét mô hình SRF ba biến: 푌̂ = ̂0 + ̂1 1 + ̂2 2 , ta có: 𝜎2 𝜎2 푣 ( ̂1) = 2 2 ; 푣 ( ̂2) = 2 2 ; (*) 푛푆 ( 1).(1− 12) 푛푆 ( 2).(1− 12) 2 − 12휎 표푣( ̂1, ̂2) = 2 ; 푛푆( 1). 푆( 2). (1 − 12) trong đó 12 là hệ số tương quan mẫu giữa 1, 2 . Khi mô hình có hiện tượng đa cộng tuyến cao thì | 12| gần đến 1, do đó giá trị tuyệt đối của các biểu thức trên trở nên rất lớn. 2/ Từ hậu quả trên mà khoảng tin cậy cho các hệ số hồi quy rộng hơn, nghĩa là ước lượng có độ chính xác kém đi. ̂ ∗ 푗− 푗 ∗ 3/ Khi sử dụng thống kê 푡 = để 푖ể đị푛ℎ 푖ả 푡ℎ ế푡 0: 푗 = 푗 , nếu có đa 푠푒 ̂푗 cộng tuyến ở mức độ cao thì các sai số chuẩn của các ước lượng có xu hướng tăng cao, dẫn tới giá trị |푡| có xu hướng nhỏ đi, do đó ta có xu hướng chấp nhận giả thuyết 0. 4/ Trong khi |푡| bé đi thì hệ số xác định 푅2 có thể rất cao, dẫn tới những kết luận không phù hợp với thực tế. 5/ Dấu của các hệ số hồi quy ước lượng có thể sai ̂ ̂ 6/ Các ước lượng 푗 qua OLS cho các hệ số hồi quy và 푠푒( 푗) trở nên rất nhạy với những thay đổi nhỏ trong số liệu. 7/ Do các hậu quả trên mà khi thêm vào hay bớt đi các biến cộng tuyến với các biến khác thì mô hình sẽ có sự thay đổi về dấu hoặc độ lớn của các ước lượng. 5.1.3. Cách phát hiện đa cộng tuyến Như đã chỉ ra, hiện tượng đa cộng tuyến là không tránh khỏi. Người ta đưa ra một số quy tắc kinh nghiệm nhằm phát hiện và đánh giá mức độ đa cộng tuyến như sau. a/ Hệ số xác định R2 cao nhưng giá trị |풕| thấp: đây là một điều mâu thuẫn trong mô hình mà mức độ đa cộng tuyến thấp hoặc không có. Khi R2 > 0,8 thì thường giả thuyết về các hệ số hồi quy đồng thời bằng 0 bị bác bỏ, nhưng khi |푡| có giá trị bé thì lại có xu hướng chấp nhận giả thuyết nói trên. Hiện tượng này chỉ thể hiện rõ khi có đa cộng tuyến ở mức độ cao. b/ Các cặp biến giải thích có hệ số tương quan cao: Khi thấy hệ số tương quan cặp giữa các biến giải thích > 0,8 thì kinh nghiệm cho thấy hiện tương đa cộng tuyến trở nên nghiêm trọng (tuy nhiên đây chỉ là điều kiện cần nếu mô hình nhiều hơn 2 biến). c/ Sử dụng các hồi quy phụ: Chạy mô hình hồi quy của một biến giải thích Xj với các biến giải thích còn lại (gọi là hồi quy phụ), ta nhận được hệ số xác định của mô hình này,
Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng 2 ký hiệu là 푅푗 . Theo quy tắc “ ngón tay cái” (Rule of Thumb) của Klein, hiện tượng đa 2 cộng tuyến là nghiêm trọng chỉ nếu có hệ số xác định 푅푗 của hồi quy phụ nào đó vượt quá hệ số xác định R2 của mô hình hồi quy chính của biến phụ thuộc. d/ Sử dụng nhân tử phóng đại phương sai VIF: Nhân tử phóng đại của hồi quy phụ của biến Xj là: 푽푰푭풋 = −푹풋 2 Quy tắc kinh nghiệm là khi 퐹푗 > 10 ℎ 푅푗 > 0,9 thì dễ có hiện tượng đa cộng tuyến ở mức độ cao. 5.1.4. Biện pháp khắc phục đa cộng tuyến Nếu mục tiêu của phân tích hồi quy là dự báo thì trong một số trường hợp, ta không cần khắc phục đa cộng tuyến. Nếu mục tiêu của phân tích hồi quy là xét tác động riêng của từng biến giải thích lên biến phụ thuộc để quyết định chính sách thì đa cộng tuyến trở thành một vấn đề nghiêm trọng. Sau đây là một số biện pháp khắc phục. a/ Dùng thông tin tiên nghiệm (A priori information) Thông tin tiên nghiệm có thể nhận được từ các nghiên cứu thực nghiệm trước đây, hoặc từ các lý thuyết liên quan đến các biến giải thích ta đang xét. Chẳng hạn khi nghiên cứu hàm sản xuất Cobb – Douglas ở Mexico giai đoạn 1955-1974 trong chương trước, ta có mối quan hệ giữa sản lượng Y (đầu ra) phụ thuộc vào các yếu tố đầu tư như lao động X1 và vốn X2 푙푛푌 = 훽0 + 훽1푙푛 1 + 훽2푙푛 2 + 푈 (훽0 = 푙푛훼) Kết quả thực nghiệm cho thấy giữa vốn và lao động ở Mexico có quan hệ là sản lượng không đổi theo quy mô, tức là: 훽1 + 훽2 = 1 . Nếu sử dụng kết quả thực nghiệm này như là một thông tin tiên nghiệm thì ta có biến đổi mối quan hệ trên về dạng: 푙푛푌 = 훽0 + 훽1푙푛 1 + (1 − 훽1)푙푛 2 + 푈 , 푌 hay: ln ( ) = 훽0 + 훽1푙푛( 1/ 2) + 푈 (là mô hình hồi quy 2 biến) 2 b/ Tăng cỡ mẫu (bổ sung thêm số liệu) hoặc lấy thêm mẫu mới Với mẫu mới thu được theo cách này, trong nhiều trường hợp người ta hy vọng nó sẽ làm giảm mức độ đa cộng tuyến cao trong mẫu cũ, chẳng hạn trong các hệ thức (*) ở trên, nếu mẫu mới không làm tăng trị tuyệt đối của hệ số tương quan mẫu 12, thì các biểu thức 2 2 푣 ( ̂1); 푣 ( ̂2); 표푣( ̂1, ̂2) sẽ nhỏ đi do các phương sai mẫu 푆 ( 1), 푆 ( 2) tăng lên. c/ Kết hợp số liệu chéo và số liệu chuỗi thời gian Trong số liệu chuỗi thời gian, thường ẩn chứa vấn đề đa cộng tuyến giữa các biến giải thích. Khi kết hợp thêm số liệu chéo, sẽ khắc phục hay hạn chế bớt mức độ đa cộng tuyến giữa các biến. d/ Bỏ bớt biến giải thích trong các biến có cộng tuyến với nhau Đây là biện pháp khắc phục khá đơn giản. Tuy nhiên, khi bỏ bớt biến giải thích có thể tránh được đa cộng tuyến cao, nhưng có thể gây nên hậu quả nghiêm trọng là dẫn đến ước lượng chệch nhiều so với giá trị thực của tham số cần ước lượng (trong khi vấn đề đa cộng tuyến không làm thay đổi tính không chệch của ước lượng) e/ Sử dụng sai phân cấp 1 (first difference)
Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng Theo diễn biến của thời gian, các biến kinh tế thường chịu ảnh hưởng của xu hướng nên dễ có tương quan với nhau. Để làm giảm sự tương quan đó, ta có thể sử dụng sai phân cấp 1. Giả sử theo thời gian t, có mô hình: 푌푡 = 0 + 1 1푡 + 2 2푡 + 푈푡 thì tại thời điểm t – 1, ta có: 푌푡−1 = 0 + 1 1,푡−1 + 2 2,푡−1 + 푈푡−1 Từ đó: 푌푡 − 푌푡−1 = 1( 1푡 − 1,푡−1) + 2( 2푡 − 2,푡−1) + (푈푡 − 푈푡−1) (5.2) (5.2) được gọi là mô hình sai phân cấp 1, được sử dụng để ước lượng các tham số hồi quy 1, 2. Giữa 1푡, 2푡 nếu có đa cộng tuyến cao thì giữa ( 1푡− 1,푡−1) , ( 2푡 − 2,푡−1) có thể không xảy ra đa cộng tuyến cao. Vì thế mô hình sai phân có thể làm giảm mức độ đa cộng tuyến. Khi sử dụng mô hình sai phân cần lưu ý nhược điểm của nó là bậc tự do giảm đi 1 do giảm đi một quan sát khi chuyển sang mô hình sai phân, nên dễ ảnh hưởng đến kết quả ước lượng khi cỡ mẫu bé; mặc dù 푈푡 có thể không có tự tương quan, nhưng 푡 = (푈푡 − 푈푡−1) thì có thể có tự tương quan; hơn nữa việc sử dụng sai phân cấp 1 không thích hợp với số liệu chéo. f/ Thay đổi dạng hàm hồi quy: Nếu ở dạng hàm hồi quy này, các biến giải thích có hiện tượng đa cộng tuyến, thì chuyển sang dạng khác có thể khắc phục được hiện tượng này. g/ Một số biện pháp khác: Ngoài các biện pháp nói trên, để khắc phụ vấn đề đa cộng tuyến, tùy vào các trường hợp cụ thể, người ta còn sử dạng các biện pháp khác như: Sử dụng hàm hồi quy độ lệch theo giá trị trung bình trong hồi quy đa thức, hồi quy thành phần chính, hồi quy dạng sóng, Khắc phục hiện tượng đa cộng tuyến đòi hỏi các kỹ thuật phức tạp và đôi khi không mang lại hiệu quả như mong muốn. Hơn nữa hầu hết mô hình hồi quy bội đều có tính đa cộng tuyến nhất định nên ta phải thận trọng trong việc xây dựng mô hình và giải thích kết quả. Ví dụ 5.1: Khi nghiên cứu về quan hệ giữa tiêu dùng nội địa Y(USD), thu nhập X1 từ lương, thu nhập khác X2 từ phi nông nghiệp và thu nhập X3 từ nông nghiệp của nền kinh tế Mỹ từ năm 1928 đến 1950, với số liệu của các năm 1942 đến 1944 bị loại ra khỏi dữ liệu, từ bảng số liệu: N Y X1 X2 X3 N Y X1 X2 X3 1928 52.8 39.21 17.73 4.39 1938 63.9 44.16 15.92 4.37 1929 62.2 42.31 20.29 4.6 1939 67.5 47.68 17.59 4.51 1930 58.6 40.37 18.83 3.25 1940 71.3 50.79 18.49 4.9 1931 56.6 39.15 17.44 2.61 1941 76.6 57.78 19.18 6.37 1932 51.6 34 14.76 1.67 1942 86.3 78.97 19.12 8.42 1033 51.1 33.59 13.39 2.44 1946 95.7 73.54 19.76 9.27 1034 54 36.88 13.93 2.39 1947 98.3 74.92 17.55 8.87 1035 57.2 39.27 14.67 5 1948 100.3 74.01 19.17 9.3 1936 62.8 45.51 17.20 3.93 1949 103.2 75.51 20.20 6.95 1937 65 46.06 17.15 5.48 1950 108.9 80.97 22.12 7.15 Bảng 5.1 Klein và Golberger (1995) đã thực hiện hồi quy tiêu dùng Y theo 3 loại thu nhập trên như
Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng sau: 푌 = 0 + 1 1 + 2 2 + 3 3 + 푈 Dependent Variable: Y Method: Least Squares Sample: 1 20 Included observations: 20 Variable Coefficient Std. Error t-Statistic Prob. C 7.304002 8.882885 0.822256 0.4230 X1 1.135052 0.172127 6.594285 0.0000 X2 0.405300 0.645026 0.628347 0.5386 X3 -0.405888 1.105135 -0.367274 0.7182 R-squared 0.954028 Mean dependent var 72.19500 Adjusted R-squared 0.945409 S.D. dependent var 19.34671 S.E. of regression 4.520317 Akaike info criterion 6.031898 Sum squared resid 326.9323 Schwarz criterion 6.231044 Bảng 5.2. Kết quả hồi quy của tiêu dùng theo các loại thu nhập Kết quả này cho thấy mô hình có tính giải thích cao thể hiện qua R2 = 0,954028 rất cao. Tuy nhiên xuất hiện những vấn đề không phù hợp với ý nghĩa kinh tế, đó là hệ số hồi quy của X3 là – 0,405888
Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng theo đó ta vẫn chưa khắc phục được hiện tượng hệ số hồi quy không phù hợp với lý thuyết kinh tế: hệ số hồi quy của X1 là . > . * Nếu dùng hồi quy sai phân cấp 1, ta nhận được kết quả từ Eviews như sau: Dependent Variable: Y-Y(-1) Method: Least Squares Sample (adjusted): 2 20 Variable Coefficient Std. Error t-Statistic Prob. X1-X1(-1) 0.339464 0.143755 2.361398 0.0312 X2-X2(-1) 1.515549 0.518401 2.923507 0.0099 X3-X3(-1) 0.728987 0.667778 1.091661 0.2911 R-squared 0.460379 Mean dependent var 2.952632 Adjusted R-squared 0.392926 S.D. dependent var 4.153896 S.E. of regression 3.236505 Akaike info criterion 5.330805 Sum squared resid 167.5995 Schwarz criterion 5.479927 Log likelihood -47.64264 Hannan-Quinn criter. 5.356042 Durbin-Watson stat 1.014878 Bảng 5.5 theo đó mô hình ít phù hợp với số liệu (R2 = 0,460379), mặt khác hệ số hồi quy của (X2- X2(-1)) là 1,515549 > 1. Do vậy đối với mô hình này, để khắc phục những hiện tượng trên, ta phải kết hợp các biện pháp khác nhau: bổ sung thêm số liệu, kết hợp thêm các số liệu chéo, bỏ bớt biến trong các biến có đa cộng tuyến cao, thay đổi mô hình, Để khắc phục hiện tượng này, ta sẽ trở lại ví dụ 5.1 trong phần sau, khi thay đổi dạng hàm hồi quy sang tuyến tính log. 5.2. Phương sai của nhiễu thay đổi 5.2.1. Khái niệm về phương sai thay đổi Giả thiết 2 của mô hình hồi quy tuyến tính cổ điển yêu cầu phương sai của nhiễu không thay đổi qua các quan sát. Do trung bình của nhiễu bằng 0 nên yêu cầu này có nghĩa là: 2 2 푣 (푈푖) = (푈푖 ) = 휎 Trong thực tế sai số nhiễu có thể tăng, giảm khi giá trị của các biến giải thích thay đổi, tức là: 2 2 푣 (푈푖) = (푈푖 ) = 휎푖 (5.3) Khi đó ta nói có hiện tượng phương sai nhiễu thay đổi (heteroscedasticity). Hiện tượng phương sai thay đổi thường gặp ở dữ liệu chéo và dữ liệu bảng. Có thể chỉ ra những lý do sau đây: * Do việc tích lũy kinh nghiệm hay do học được hành vi trong quá khứ mà sai số theo thời gian ngày càng giảm.Chẳng hạn đối với thợ học việc, khi số giờ thực hành càng nhiều thì số phế phẩm càng nhỏ và càng ít biến động. Trong trường hợp này phương sai nhiễu có xu hướng giảm theo thời gian. * Do bản chất của mối liên hệ mà có nhiều mối quan hệ kinh tế đã chứa đựng hiện tượng này, khi biến kinh tế tăng kéo theo sai số nhiễu cũng tăng. Chẳng hạn khi thu nhập tăng
Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng người ta có nhiều lựa chọn hơn trong tiêu dùng. Khi đó trong hồi quy của tiết kiệm theo thu nhập thì phương sai nhiễu có xu hướng tăng theo thu nhập. * Khi cải thiện phương pháp và kỹ thuật thu thập số liệu thì sai số càng giảm. * Khi trong mẫu có các số liệu vượt trội (quá lớn hoặc quá bé so với tập số liệu) cũng khiến cho phương sai thay đổi. * Không xác định đúng dạng mô hình, thiếu biến quan trọng. * Trong mô hình sử dụng số liệu chéo cũng khiến cho phương sai không đồng đều. 5.2.2. Hậu quả của phương sai thay đổi * Các ước lượng OLS tuy vẫn còn tính chất tuyến tính không chệch, nhưng không còn là ước lượng hiệu quả nữa. * Phương sai của sai số bị tính sai nên việc dùng thống kê t và thống kê F để kiểm định giả thuyết không còn đáng tin cậy nữa ( thống kê t không chắc có phân phối student), các trị của t – stat và sai số chuẩn của hệ số ước lượng do phần mềm cung cấp trở nên vô dụng. * Kết quả dự báo không hiệu quả khi dựa trên các ước lượng OLS có phương sai không nhỏ nhất. 5.2.3. Cách phát hiện phương sai nhiễu thay đổi Việc phát hiện ra có hiện tượng này trong thực tế không đơn giản vì ta chỉ có thể dựa vào mẫu chứ không thể có toàn bộ thông tin về tổng thể. Vì thế ta không thể có một phương pháp chắc chắn để phát hiện ra phương sai thay đổi, mà chỉ có thể dựa vào một số công cụ sau đây để chẩn đoán giúp ta phát hiện ra hiện tượng này: a/ Bản chất của vấn đề nghiên cứu: Bản chất của vấn đề nghiên cứu khiến ta phải nghĩ tới khả năng xảy ra hiện tượng này, chẳng hạn khi ta dùng các số liệu chéo liên quan đến các đơn vị không thuần nhất, khác nhau về quy mô. b/ Xem xét đồ thị của phần dư: Đó là đồ thị của sai số của hồi quy (hay phần dư) đối với biến giải thích X nào đó hoặc đối với giá trị ước lượng 푌̂. Phương sai của phần dư được chỉ ra bằng độ rộng của biểu đồ phân rải của phần dư khi X hoặc 푌̂ tăng. Nếu độ rộng này tăng hoặc giảm thì giả thiết về phương sai không đổi có thể bị vi phạm. - Đối với mô hình hồi quy bội, người ta thường khảo sát đồ thị phần dư 푈̂2 đối với 푌̂. c/ Dùng các phương pháp kiểm định: c1/ Kiểm định Park: Kiểm định Park dựa trên cơ sở giả định rằng phương sai nhiễu thay đổi dưới dạng hàm lũy thừa của biến giải thích X: 2 2 훽 푖 휎푖 = 휎 . 푖 . 푒 (5.4) lấy log hai vế ta nhận được: 2 2 푙푛휎푖 = 푙푛휎 + 훽. 푙푛 푖 + 푖 (5.5) 2 2 ̂2 Vì 휎푖 chưa biết nên Park thay 휎푖 ở푖 푈푖 ( ó đượ 푡ừ ℎồ푖 푞 ố ) trong (5.5), nhận được: ̂2 2 푙푛푈푖 = 훼 + 훽. 푙푛 푖 + 푖 (훼 = 푙푛휎 ) (5.6) Khi đó kiểm định Park gồm các bước sau: B1. Thực hiện hồi quy gốc: 푌 = + . + 푈, 푛ℎậ푛 đượ á ướ 푙ượ푛 : 푌̂푖 푣à 푈̂푖. ̂2 B2. Thực hiện hồi quy: 푙푛푈푖 = 훼 + 훽. 푙푛 푖 + 푖 .
Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng B3. Tiến hành kiểm định giả thuyết 0: 훽 = 0( ℎươ푛 푠 푖 ℎô푛 đổ푖), 1: 훽 ≠ 0( ℎươ푛 푠 푖 푡ℎ đổ푖) Chú ý: * Đối với mô hình hồi quy bội, các bước tiến hành là tương tự như đối với hồi quy đơn, ̂2 ̂ trong đó có thể hồi quy 푙푛푈푖 theo mỗi biến độc lập hoặc theo 푌푖. * Trong kiểm định Park, nhiễu 푖 phải thỏa mãn các giả thiết cổ điển. ̂2 c2. Kiểm định White: Kiểm định White khảo sát phần dư 푈푖 theo các biến độc lập. Kiểm định này không đòi hỏi nhiễu Ui phải có phân phối chuẩn. Giả sử ta đang xét mô hình hồi quy gốc: 푌 = 0 + 1 1 + 2 2 + 푈 (5.7) Kiểm định White gồm các bước sau: B1. Hồi quy mô hình gốc (5.7), tìm được các phần dư 푈̂푖. B2. Hồi quy mô hình phụ: 2 2 2 푈푖 = 훼0 + 훽1 1푖 + 훽2 2푖 + 훽3 1푖 + 훽4 2푖 + 훽5 1푖 2푖 + 푖 (5.8) 2 Từ đó nhận được hệ số xác định của mô hình này, ký hiệu là: 푅 푡 Mô hình phụ có thể có số mũ cao hơn và nhất thiết phải có hệ số chặn 훼0, bất kể mô hình gốc có hay không có hệ số chặn 0. B3. Tiến hành kiểm định 0: 훽1 = 훽2 = 훽3 = 훽4 = 훽5 = 0 (phương sai không thay đổi) 2 2 Trên cơ sở 0 đúng thì người ta chỉ ra được rằng: 푛. 푅 푡 có phân phối xấp xỉ 휒 ( ), với bậc tự do = số tham số của mô hình phụ (5.8), không kể hệ số chặn (trong trường hợp này = 5). Vì thế: 2 2 - Nếu 푛. 푅 푡 > 휒훼( ) thì bác bỏ 0. c3. Kiểm định Glejser: Tương tự như kiểm định Park, kiểm định Glejser coi nhiễu có thể thay đổi theo biến độc lập X, nhưng theo một trong các dạng hàm: |푈̂푖| = 훼0 + 훼1 푖 + 푖; |푈̂푖| = 훼0 + 훼1√ 푖 + 푖; (5.9) 1 1 |푈̂푖| = 훼0 + 훼1 + 푖; |푈̂푖| = 훼0 + 훼1 + 푖; (5.10) 푖 √ 푖 ̂ ̂ 2 |푈푖| = √훼0 + 훼1 푖 + 푖; |푈푖| = √훼0 + 훼1 푖 + 푖 (5.11) Kiểm định giả thuyết phương sai thay đổi ở đây là kiểm định giả thuyết: 0: 훼1 = 0, đố푖 푡ℎ ế푡 1: 훼1 ≠ 0. Lưu ý: * Kiểm định Glejser yêu cầu nhiễu 푖 thỏa mãn các giả thiết cổ điển. * Các mô hình (5.11) không phải là mô hình tuyến tính nên không dùng được phương pháp OLS. c4. Kiểm định Goldfeld – Quandt: Nếu ta phát hiện phương sai nhiễu tương quan thuận với một biến giải thích X nào đó 2 2 2 2 dưới dạng: 휎푖 = 휎 . 푖 (휎 푙à ℎằ푛 푠ố) thì sử dụng kiểm định Goldfeld – Quandt, theo các bước sau: B1. Sắp xếp số liệu theo thứ tự tăng dần của X B2. Loại bỏ c quan sát nằm ở giữa, (n – c) quan sát còn lại chia làm 2 nhóm, mỗi nhóm có (n – c)/2 quan sát.
Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng B3. Thực hiện hồi quy OLS đối với mô hình gốc: 푌푖 = + 푖 + 푈 với (n – c)/2 quan sát đầu ta được RSS1 (gọi là nhóm phương sai nhỏ) và với (n – c)/2 quan sát cuối ta được RSS2 (gọi là nhóm phương sai lớn) và chúng đều có bậc tự do là df = (n – c – 2k)/2 (k là số tham số trong mô hình) B4. Để xác minh phương sai của hai nhóm có sự khác biệt đáng kể hay không, ta tiến hành kiểm định F với giả thiết H0: phương sai không đổi như sau: Trên cơ sở H0 là đúng, 푅푆푆 / người ta chỉ ra được đại lượng: 퐹 = 2 có phân phối F với các bậc tự do ( , ). 푅푆푆1/ Do đó nếu 퐹 > 퐹훼( , ) thì bác bỏ H0, tức là chấp nhận phương sai có thay đổi. Lưu ý: * Mặc dù độ tin cậy của kết luận phụ thuộc vào c, nhưng ta lại không có quy tắc nào để xác định giá trị c cho tốt nhất. Theo kinh nghiệm, người ta thường chọn c như sau: - Nếu n xấp xỉ 30 thi chọn c = 4 hoặc c = 8, - Nếu n xấp xỉ 60 thì chọn c = 10 hoặc c = 16. * Kiểm định Goldfeld – Quandt thích hợp với những mẫu nhỏ. * Đối với mô hình hồi quy bội, ta có thể sắp xếp các quan sát theo một biến bất kỳ trong các biến giải thích của mô hình. Khi không có thông tin tiên nghiệm để biết biến giải thích nào là thích hợp, ta có thể thực hiện kiểm định Park đối với mỗi biến giải thích. 5.2.4. Biện pháp khắc phục Do hậu quả của phương sai thay đổi, biện pháp khắc phục là hết sức cần thiết. Việc khắc 2 phục được chia ra hai trường hợp: biết hay chưa biết 휎푖 . Trước khi đi vào các biện pháp khắc phục, ta trình bày các phương pháp bình phương bé nhất có trọng số và phương pháp bình phương bé nhất tổng quát. 1. Phương pháp bình phương bé nhất có trọng số Xét mô hình hai biến: 푌푖 = + . 푖 + 푈푖 Trước đây, để nhận được các ước lượng, phương pháp OLS nhằm cực tiểu tổng bình 푛 2 푛 ̂ 2 phương các phần dư: ∑푖=1 푈푖 = ∑푖=1(푌푖 − ̂ − . 푖) (5.12) 2 1 Bây giờ ta đặt cho mỗi phần dư 푈푖 một trọng số: 푊푖 = 2 , (trong đó 푣 (푈푖| 푖) = 𝜎푖 2 푣 (푌푖| 푖) = 휎푖 ) với lý do là: khi có hiện tượng phương sai nhiễu thay đổi thì ta không thể đặt mức độ tin cậy các quan sát như nhau, quan sát nào ít sai lệch thì mức độ tin cậy sẽ cao hơn. Để nhận được các ước lượng cho a, b, theo phương pháp bình phương bé nhất có trọng số, ta cực tiểu hóa tổng bình phương các phần dư có trọng số: 푛 2 푛 ∗ ∗ 2 ∑푖=1 푊푖. 푈푖 = ∑푖=1 푊푖(푌푖 − − . 푖) → 푖푛 (5.13) Vế trái (5.13) là hàm bậc 2 đối với các biến a*, b* nên việc cực tiểu hóa hàm này cho ta các ước lượng: 푛 푛 푛 푛 ∗ ∑푖=1 푊푖 . ∑푖=1 푊푖. 푖.푌푖−∑푖=1 푊푖. 푖. ∑푖=1 푊푖.푌푖 ∗ ̅∗ ∗ ̅∗ = 푛 푛 2 푛 2 ; = 푌 − ; (5.14) ∑푖=1 푊푖. ∑푖=1 푊푖. 푖 −(∑푖=1 푊푖. 푖) . ̅∗ 푛 푛 ̅∗ 푛 푛 (푡 표푛 đó: = ∑푖=1 푊푖. 푖/ ∑푖=1 푊푖 ; 푌 = ∑푖=1 푊푖. 푌푖/ ∑푖=1 푊푖 ) 2. Phương pháp bình phương bé nhất tổng quát GLS (Generalized Least Squares) Xét mô hình hai biến: 푌푖 = + . 푖 + 푈푖 (5.15)
Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng trong đó tất cả các giả thiết của mô hình hồi quy tuyến tính cổ điển đều được thỏa mãn, trừ giả thiết phương sai nhiễu không đổi bị vi phạm. Mục đích của phương pháp GLS biến đổi từ mô hình có phương sai nhiễu thay đổi sang mô hình có phương sai nhiễu không thay đổi. Đặt 0푖 = 1, ∀푖 và chia 2 vế của (5.15) cho 휎푖 ta nhận được mô hình: 푍푖 = . 0푖 + . 푖 + 푖 (5.16) 푌푖 0푖 푖 푈푖 (푡 표푛 đó: 푍푖 = ; 0푖 = ; 푖 = ; 푖 = ) 휎푖 휎푖 휎푖 휎푖 Mô hình (5.16) thỏa mãn tất cả các giả thiết của mô hình tuyến tính cổ điển, với phương 푈푖 sai nhiễu không đổi (푣 ( 푖) = 푣 ( ) = 1). Vì thế dùng phương pháp OLS cho mô 𝜎푖 hình (5.16) ta nhận được các ước lượng không chệch tuyến tính tốt nhất cho a và b là ̂∗ 푣à ̂∗ sau đây: 푛 푛 푛 푛 ̂∗ ∑푖=1 푊푖 . ∑푖=1 푊푖. 푖.푌푖−∑푖=1 푊푖. 푖. ∑푖=1 푊푖.푌푖 ∗ ̅ ̂∗ ̅ = 푛 푛 2 푛 2 ; ̂ = 푍 − . . (5.17) ∑푖=1 푊푖. ∑푖=1 푊푖. 푖 −(∑푖=1 푊푖. 푖) . 푛 ̂∗ ∑푖=1 푊푖 (để ý: 푣 = 푛 푛 2 푛 2 ) ∑푖=1 푊푖. ∑푖=1 푊푖. 푖 −(∑푖=1 푊푖. 푖) . Phương pháp tìm các ước lượng ̂∗ 푣à ̂∗ vừa chỉ ra gọi là Phương pháp bình phương bé nhất tổng quát (GLS)( phương pháp OLS là trường hợp riêng của GLS) 3. Biện pháp khắc phục: Ta chia các trường hợp để khắc phục hiện tượng này như sau: a. Khi biết 𝝈풊 : Sử dụng phương pháp GLS nói trên. b. Khi chưa biết 𝝈풊 : Ta vẫn sử dụng phương pháp GLS, nhưng đòi hỏi phải có những giả thiết nhất định sau đây về phương sai tổng thể: Giả thiết 1: Phương sai tổng thể tỷ lệ với bình phương của biến giải thích: 2 2 2 푣 (푈푖) = (푈푖 ) = 휎 . 푖 (5.18) Khi đó từ mô hình gốc 푌푖 = + . 푖 + 푈푖, ta đưa về mô hình: 푌 1 푈 푖 = . + + 푖 (5.19) 푖 푖 푖 푈푖 푣 푈푖 2 (5.19) có phương sai nhiễu: 푣 ( ) = 2 = 휎 , ∀푖 푖 푖 (Lưu ý rằng phép lấy mẫu đối với X là không ngẫu nhiên mà xác định trước nên các thành phần mẫu Xi xem là các hằng số). Trong thực tế ta dùng 푼̂ 풊 để ước lượng cho 푼풊, ̂2 vì thế người ta thường khảo sát 푈푖 푡ℎ푒표 푖. Đối hồi quy bội, có thể dùng đồ thị biểu diễn ̂2 ̂2 푈푖 theo từng biến giải thích, hoặc sử dụng hồi quy phụ 푈푖 theo bình phương của từng biến giải thích, qua đó đánh giá được biến giải thích nào thích hợp với giả thiết 1 nhiều nhất để tiến hành biến đổi trên biến giải thích này. Tuy nhiên cần đề phòng trường hợp biến đổi mô hình gốc theo một biến nào đó dẫn đến vi phạm một giả thiết cổ điển khác. Giả thiết 2: Phương sai tổng thể tỷ lệ với biến độc lập, tức là: 2 2 푣 (푈푖) = (푈푖 ) = 휎 . 푖 (5.20) Khi đó: từ mô hình gốc 푌푖 = + . 푖 + 푈푖, ta đưa về mô hình: 푌푖 1 = . + . √ 푖 + 푖 (5.21) √ 푖 √ 푖
Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng 푈푖 푈푖 2 trong đó 푖 = , ó 푣 푖 = 푣 ( ) = 휎 √ 푖 √ 푖 Mô hình (5.21) có phương sai nhiễu không thay đổi và là mô hình hồi quy tuyến tính qua gốc. Sau khi chạy hồi quy mô hình này, ta có mô hình ước lượng cho mô hình gốc bằng cách nhân 2 vế của mô hình nhận được với √ 푖. Giả thiết 3: Phương sai của nhiễu tỷ lệ với bình phương của kỳ vọng của Y, tức là: 2 2 2 푣 (푈푖) = (푈푖 ) = 휎 . ( 푌푖) Khi đó: từ mô hình gốc 푌푖 = + . 푖 + 푈푖, ta đưa về mô hình: 푌 1 푈 푖 = . + 푖 + 푖 (5.22) 푌푖 푌푖 푌푖 푌푖 푈푖 2 (5.22) là mô hình tuyến tính cổ điển có phương sai nhiễu: 푣 푖 = 푣 ( ) = 휎 푌푖 Tuy nhiên trong mô hình (5.22) ta chưa biết được 푌푖 (do a, b chưa biết), ta sẽ thay 푌푖 bằng một ước lượng của nó. Ta tiến hành theo các bước sau: B1. Chạy hồi quy mô hình gốc bằng phương pháp OLS, thu được 푌̂푖 là một ước lượng vững cho 푌푖. Dùng 푌̂푖 đưa mô hình gốc về dạng: 푌 1 푈 푖 = . + 푖 + 푖 (5.22a) 푌̂푖 푌̂푖 푌̂푖 푌̂푖 B2. Chạy hồi quy mô hình (5.22a), từ đó nhận được mô hình hồi quy gốc. Lưu ý: Vì trong (5.22a), ta xấp xỉ 푌푖 bằng ước lượng vững 푌̂푖 của nó, nên khi cỡ mẫu khá lớn thì sai số trong xấp xỉ này sẽ bé và mô hình là chấp nhận được. Giả thiết 4: Dùng mô hình tuyến tính log thay thế: 푙푛푌푖 = + . 푙푛 푖 + 푖 (5.23) Ví dụ 5.2: Bảng 5.6 dưới đây cho số liệu về chi phí đầu tư Y(triệu USD) cho việc nghiên cứu và phát triển của 18 ngành công nghiệp ở Mỹ trong năm 1988, trong đó nhóm các ngành công nghiệp được đánh số thứ tự từ 1 đến 18, 2(triệu USD) là số liệu về doanh thu, 1(triệu USD) là lợi nhuận.Ta muốn xét tác động của doanh thu đối với đầu tư cho phát triển như thế nào qua việc ước lượng mô hình hồi quy sau: 푌푖 = 훼 + 훽. 2 + 푈푖 với hy vọng khi doanh thu tăng thì đầu tư cho nghiên cứu và phát triển cũng sẽ tăng, mà việc nghiên cứu và phát triển có ảnh hưởng tích cực đối với các nhóm ngành nên làm tăng lợi nhuận, tức là giữa Y và X2 có mối quan hệ đồng biến. STT Y X2 X1 STT Y X2 X1 1 62.5 6375.3 185.1 10 6620.1 80552.8 13869.9 2 92.9 11626.4 1569.5 11 3918.6 95294 4487.8 3 178.3 14655.1 276.8 12 1595.3 101314.1 10278.9 4 258.4 21869.2 2828.1 13 6107.5 116141.3 8787.3 5 494.7 26408.3 2225.9 14 4454.1 122315.7 16438.8 6 1083 32405.6 3751.9 15 3163.8 141649.9 9761.4 7 1620.6 35107.7 2884.1 16 13210.7 175025.8 19774.5 8 421.7 40295.4 4645.7 17 1703.8 241434.8 23168.5 9 509.2 70761.6 5036.4 18 9528.2 293543 18415.4 Bảng 5.6 Khảo sát các biểu đồ phân tán:
Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng Y vs. X2 RESID vs. X2 14000 8000 6000 12000 4000 10000 2000 8000 D I Y S 0 E 6000 R -2000 4000 -4000 -6000 2000 -8000 0 0 50000100000 200000 300000 0 50000100000 200000 300000 X2 X2 Hình 5.1a Hình 5.1b Hình 5.1a cho thấy các điểm phân tán có xu thế đi lên theo chiều tăng của X2 và khi X2 càng lớn thì các điểm phân tán càng dãn rộng ra. Điều này cho thấy khi doanh thu tăng thì bình quân đầu tư cũng tăng và phương sai nhiễu (đo mức độ phân tán) cung tăng, tức là phương sai thay đổi. Điều này có thể được lý giải bởi số liệu sử dụng là số liệu chéo, từ các ngành nghề khác nhau với quy mô và đặc điểm khác nhau. 6.0E+07 5.0E+07 4.0E+07 2 ^ D I 3.0E+07 S E R 2.0E+07 1.0E+07 0.0E+00 0 50000100000 200000 300000 X2 Hình 5.1c Để thấy rõ hơn hiện tượng này, ta khảo sát hình 5.1b biểu diễn sự biến thiên của phần dư theo doanh thu, hình 5.1c biểu diễn sự biến thiên của bình phương phần dư theo doanh thu. Chạy hồi quy đầu tư và phát triển theo doanh thu (mô hình 2 biến), nhận được:
Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng Dependent Variable: Y Method: Least Squares Sample: 1 18 Included observations: 18 Variable Coefficient Std. Error t-Statistic Prob. C 266.1917 1002.961 0.265406 0.7941 X2 0.030878 0.008346 3.699582 0.0019 R-squared 0.461042 Mean dependent var 3056.856 Adjusted R-squared 0.427357 S.D. dependent var 3705.973 S.E. of regression 2804.428 Akaike info criterion 18.82023 Sum squared resid 1.26E+08 Schwarz criterion 18.91916 Log likelihood -167.3820 Hannan-Quinn criter. 18.83387 F-statistic 13.68690 Durbin-Watson stat 3.020747 Prob(F-statistic) 0.001944 Bảng 5.7. Kết quả hồi quy đầu tư và phát triển theo doanh thu Chạy hồi quy của đầu tư và phát triển Y theo X1 và X2 (mô hình 3 biến), ta có kết quả sau: Dependent Variable: Y Method: Least Squares Sample: 1 18 Included observations: 18 Variable Coefficient Std. Error t-Statistic Prob. C -2.644362 1013.043 -0.002610 0.9980 X1 0.251118 0.207017 1.213031 0.2439 X2 0.010947 0.018375 0.595769 0.5602 R-squared 0.509189 Mean dependent var 3056.856 Adjusted R-squared 0.443747 S.D. dependent var 3705.973 S.E. of regression 2764.002 Akaike info criterion 18.83776 Sum squared resid 1.15E+08 Schwarz criterion 18.98615 Log likelihood -166.5398 Hannan-Quinn criter. 18.85822 F-statistic 7.780819 Durbin-Watson stat 3.170338 Prob(F-statistic) 0.004807 Bảng 5.8. Hồi quy Đầu tư theo doanh thu và lợi nhuận Tiến hành kiểm định White đối với mô hình 3 biến: Heteroskedasticity Test: White F-statistic 20.18959 Prob. F(5,12) 0.0000 Obs*R-squared 16.08761 Prob. Chi-Square(5) 0.0066 Scaled explained SS 23.57634 Prob. Chi-Square(5) 0.0003 Bảng 5.9. Kết quả kiểm định White về phương sai thay đổi
Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng Từ bảng này ta có: giá trị p – value = 0,0066 0,05 nên chấp nhận H0. Vậy trong mô hình vừa nhận được không còn hiện tượng phương sai thay đổi. b/ 푬(푼풊 ) = 𝝈풊 = 𝝈 . 푿 풊 Đối với trường hợp này, chạy hồi quy ước lượng cho mô hình: 푌 훼0 1 = + 훼1. + 훼2. √ 2 + √ 2 √ 2 √ 2 ta nhận được kết quả sau:
Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng Dependent Variable: Y/SQR(X2) Method: Least Squares Included observations: 18 Variable Coefficient Std. Error t-Statistic Prob. 1/SQR(X2) -243.4290 367.5355 -0.662328 0.5178 SQR(X2) 0.011638 0.017296 0.672900 0.5112 X1/SQR(X2) 0.272748 0.174788 1.560450 0.1395 R-squared 0.445020 Mean dependent var 8.850796 Adjusted R-squared 0.371023 S.D. dependent var 8.837239 S.E. of regression 7.008643 Akaike info criterion 6.883177 Sum squared resid 736.8161 Schwarz criterion 7.031572 Log likelihood -58.94859 Hannan-Quinn criter. 6.903639 Durbin-Watson stat 3.035036 Bảng 5.12. Điều chỉnh mô hình để khắc phục Dùng kiểm định White có số hạng tích chéo: Heteroskedasticity Test: White F-statistic 5.746517 Prob. F(5,12) 0.0062 Obs*R-squared 12.69712 Prob. Chi-Square(5) 0.0264 Scaled explained SS 10.32900 Prob. Chi-Square(5) 0.0664 Bảng 5.13 p – value = 0.0264
Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng Theo đó ta có mô hình ước lượng: 푌 1 = −144.6701. + 0.091016. 1 + 0.024967. 2 + ̂ 푌̂ 푌̂ 푌̂ 푌̂ Dùng kiểm định White đối với mô hình này, nhận được kết quả: Heteroskedasticity Test: White F -statistic 0.655352 Prob. F(5,12) 0.6636 Obs*R-squared 3.860875 Prob. Chi-Square(5) 0.5696 Scaled explained SS 1.282882 Prob. Chi-Square(5) 0.9367 Bảng 5.15 Kết quả trên cho thấy p – value = 0,5696 > 0,05, vậy ta chấp nhận giả thuyết H0: mô hình điều chỉnh nhận được không còn hiện tượng phương sai nhiễu thay đổi. d. Nếu dùng mô hình tuyến tính log thay thế: 푙푛푌 = + 푙푛 1 + . 푙푛 2 + ta nhận được kết quả hồi quy ước lượng: Dependent Variable: LOG(Y) Method: Least Squares Sample: 1 18 Included observations: 18 Variable Coefficient Std. Error t-Statistic Prob. C -6.553704 2.411367 -2.717838 0.0159 LOG(X1) 0.173952 0.352393 0.493631 0.6287 LOG(X2) 1.113761 0.441872 2.520548 0.0235 R-squared 0.793743 Mean dependent var 7.109987 Adjusted R-squared 0.766242 S.D. dependent var 1.606119 S.E. of regression 0.776535 Akaike info criterion 2.483063 Sum squared resid 9.045107 Schwarz criterion 2.631458 Log likelihood -19.34756 Hannan-Quinn criter. 2.503524 F-statistic 28.86237 Durbin-Watson stat 2.464834 Prob(F-statistic) 0.000007 Bảng 5.16 Có SRF ngẫu nhiên: 푙푛푌 = −6.553704 + 0.173952. 푙푛 1 + 1.113761. 푙푛 2 + ̂ Dùng kiểm định White đối với mô hình này, ta có: Heteroskedasticity Test: White F -statistic 0.699894 Prob. F(5,12) 0.6340 Obs*R-squared 4.064039 Prob. Chi-Square(5) 0.5402 Scaled explained SS 2.078399 Prob. Chi-Square(5) 0.8382 Bảng 5.17 Theo đó p – value = 0,5402 > 0,5. Vậy ta chấp nhận giả thuyết H0, tức là mô hình thay thế này không còn hiện tượng phương sai nhiễu thay đổi.
Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng Nhận xét: Trong 4 trường hợp giả thiết trên, mô hình tuyến tính log không có hiện tượng phương sai nhiễu thay đổi và tỏ ra phù hợp hơn cả vì có hệ số xác định R2 =0.793743 là cao nhất. Ví dụ 5.3: Xét tập số liệu trong ví dụ 5.1, bỏ đi biến 3, thay đổi sang mô hình tuyến tính Lin-log: 푌 = 0 + 1푙푛 1 + 2푙푛 2 + 푈 ta nhận được kết quả hồi quy: Dependent Variable: LOG(Y) Method: Least Squares Sample: 1 20 Included observations: 20 Variable Coefficient Std. Error t-Statistic Prob. C 0.990484 0.250201 3.958756 0.0010 LOG(X1) 0.810357 0.054504 14.86794 0.0000 LOG(X2) 0.028181 0.125057 0.225343 0.8244 R-squared 0.965967 Mean dependent var 4.247404 Adjusted R-squared 0.961963 S.D. dependent var 0.255259 S.E. of regression 0.049783 Akaike info criterion -3.024800 Sum squared resid 0.042132 Schwarz criterion -2.875440 Log likelihood 33.24800 Hannan-Quinn criter. -2.995643 F-statistic 241.2589 Durbin-Watson stat 1.405147 Prob(F-statistic) 0.000000 Bảng 5.18. Điều chỉnh mô hình để khắc phục Theo đó mô hình có hệ số xác định R2 = 0,965967 là rất cao, hơn nữa các hệ số hồi quy không có dấu hiệu bất thường. Với kết quả nhận được, dùng kiểm định White, ta có: Heteroskedasticity Test: White F -statistic 1.324761 Prob. F(5,14) 0.3097 Obs*R-squared 6.423455 Prob. Chi-Square(5) 0.2672 Scaled explained SS 14.89457 Prob. Chi-Square(5) 0.0108 Bảng 5.29 Theo đó: p – value = 0,2672 > 0,05, ta chấp nhận giả thuyết H0: mô hình tuyến tính log không có hiện tượng phương sai nhiễu thay đổi. 5.3. Tự tương quan của nhiễu 5.3.1. Khái niệm về tự tương quan Trong mô hình h.quy tuyến tính cổ điển, gỉa thiết 2 còn yêu cầu không có tương quan giữa các phần dư, tức là: 표푣(푈푖, 푈푗) = 0, ∀푖 ≠ 푗, ℎ : (푈푖. 푈푗) = 0, ∀푖 ≠ 푗 ( 표 . 푡ℎ푖ế푡: 푈푖 = 0, ∀푖)
Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng Ý nghĩa thực tế của yêu cầu này là: Nhiễu của quan sát này không bị ảnh hưởng bởi nhiễu của các quan sát khác. Tuy nhiên trong thực tế đối với một chuỗi số liệu thì yêu cầu này dễ bị vi phạm. Hiện tượng này được gọi là tự tương quan (Autocorrelation)của nhiễu, đó là sự tương quan giữa các thành phần của dãy quan sát theo thời gian hoặc không gian. Như vậy hiện tượng tự tương quan có nghĩa là: ∃푖, 푗, 푖 ≠ 푗 푠 표 ℎ표: 표푣(푈푖, 푈푗) ≠ 0 Có thể chỉ ra các nguyên nhân sau đây: 1. Nguyên nhân khách quan: - Tính chất quán tính của dãy số liệu: hầu hết số liệu chuỗi thời gian trong kinh tế đều có tính chất quán tính. Chẳng hạn số liệu theo thời gian về chỉ số giá, tỷ lệ thất nghiệp, GNP, thường có tính chu kỳ và do đó trong hồi quy chuỗi thời gian thì các quan sát kế tiếp nhau có nhiều khả năng tương quan với nhau; - Sự tác động trễ (Lags) trong chuỗi thời gian: số liệu tại thời điểm t chịu tác động bởi số liệu tại thời điểm t – 1 trước đó - Hiện tượng mạng nhện (Cobweb phenomenon): Khi lượng cung của một số mặt hàng phản ứng lại trước sự thay đổi của giá trễ hơn một khoảng thời gian vì các quyết định cung đòi hỏi phải có thời gian để thực hiện. 2. Nguyên nhân chủ quan: - Việc xử lý, làm trơn số liệu: Trước khi sử dụng, số liệu thô thường được xử lý, làm trơn (chẳng hạn dùng phương pháp trung bình di động). Sự làm trơn này có thể dẫn tới sai số hệ thống trong các nhiễu và gây ra tự tương quan giữa chúng. - Phép nội suy (interpolation) và ngoại suy (extrapolation) có thể gây ra sai số có tính chất hệ thống. - Định dạng hồi quy chưa phù hợp, đưa không đủ biến hay bỏ sót biến quan trọng trong mô hình. 5.3.2. Hậu quả của hiện tượng tự tương quan 1. Các hệ số hồi quy ước lượng theo OLS không chệch nhưng không hiệu quả, tức là không còn tính chất BLUE. 2. Ước lượng của phương sai bị chệch nên các kiểm định t, F không còn tin cậy. 3. Ước lượng của hệ số R2 tăng quá cao. 4. Các giá trị dự báo không còn đáng tin cậy. 5.3.3. Cách phát hiện có tự tương quan 1. Dựa vào biểu đồ phân tán Trong mô hình hồi quy tuyến tính cổ điển, giả thiết không có tự tương quan gắn với các nhiễu 푈푡 không quan sát được. Ta chỉ quan sát được các phần dư 푈̂푡 = 푌푡 − 푌̂푡. Mặc dù 푈̂푡 không hoàn toàn giống 푈푡, nhưng nó là ước lượng của 푈푡 nên quan sát các phần dư 푈̂푡 có thể gợi ý cho ta những nhận xét về 푈푡. Vì thế để có thông tin về tự tương quan của nhiễu U, ta có thể khảo sát một trong các biểu đồ phân tán sau: 2 a/ Biểu đồ phân tán (푈̂푡, 푡) của 푈̂푡 (hoặc của 푈̂푡 ) theo thời gian. 푈̂ 푈̂ b/ Biểu đồ phân tán ( 푡 , 푡) của phần dư chuẩn hóa 푡 theo thời gian t 𝜎̂ 𝜎̂
Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng 푈 푈̂ Lưu ý rằng 푈 ~ (0, 휎2) 푛ê푛 푡 ~ (0, 1). ì 푡ℎế ℎ푖 ỡ ẫ 푛 ℎá 푙ớ푛 푡ℎì 푡 có phân 푡 𝜎 𝜎̂ phối xấp xỉ phân phối (0, 1). c/ Biểu đồ phân tán (푈̂푡, 푈̂푡−1) của 푈̂푡 푡ℎ푒표 푈̂푡−1 ( gọi là lược đồ AR(1) ) - Nếu biểu đồ phân tán có dạng ngẫu nhiên thì không có tự tương quan, nếu biểu đồ phân tán có dạng không ngẫu nhiên, biểu thị xu hướng biến thiên có tính chất hệ thống thì nhận định có tự tương quan. 2/ Kiểm định Durbin - Watson 풏 ̂ ̂ ∑풕= (푼풕−푼풕− ) a. Xét thống kê: 풅 = 풏 ̂ (5.24) ∑풕= 푼풕 Người ta chỉ ra được rằng khi n đủ lớn thì: ≈ 2(1 − 휌̂) 푛 ∑푡=2 푈̂푡.푈̂푡−1 trong đó: 휌̂ = 푛 ̂2 (ℎệ 푠ố 푡ự 푡ươ푛 푞 푛 ẫ ậ 푛ℎấ푡) (5.25) ∑푡=1 푈푡 휌̂ là ước lượng của hệ số tự tương quan bậc nhất 휌 trong mô hình tự hồi quy bậc nhất (hay tự tương quan bậc nhất): 푈푡 = 휌. 푈푡−1 + 휀푡 (−1 ≤ 휌 ≤ 1) ( 푅(1)) (5.26) với 휀푡 푙à 푛ℎ푖ễ 푛 ẫ 푛ℎ푖ê푛 푡ℎỏ : 2 휀푡 = 0, 표푣(휀푡,휀푠) = 0, 푡 ≠ 푠, 푣 휀푡 = 휎 , ∀푡 (5.27) Nhận xét: từ −1 ≤ 휌, 휌̂ ≤ 1 suy ra: 0 ≤ ≤ 4 𝝆̂ = − Tự tương quan âm 0 Tự tương quan dương 𝝆̂ = d = 4 2 0 Hình 5.2. Hệ số tự tương quan bậc nhất và giá trị tống kê d tương ứng - Khi d = 4 hoặc = 0 , ta có tự tương quan hoàn hảo. Khi d = 2 thì không có tự tương quan. Bảng thống kê Durbin – Watson chỉ ra các giá trị tới hạn dU, dL dựa vào ba tham số: ứ ý 푛 ℎĩ 훼, 푠ố 푞 푛 푠á푡 푛, 푠ố 푖ế푛 độ 푙ậ ′. b. Quy tắc kiểm định Durbin – Watson: Kiểm định giả thuyết mô hình có tự tương quan chính là 0: 휌 = 0, đối thuyết 1: 휌 > 0/휌 0, mức ý nghĩa 훼 0 (có tự tương quan dương) dU (không có tự tương quan dương) 4 ∗ 0: 휌 = 0, 1: 휌
Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng * Mô hình hồi quy phải có hệ số bị chặn. Nếu mô hình không có hệ số bị chặn thì phải ̂2 ước lượng mô hình có hệ số bị chặn để tính 푅푆푆 = ∑ 푈푖 , sau đó tiến hành kiểm định. * Việc lấy mẫu các biến độc lập là lấy mẫu xác định (không phải mẫu ngẫu nhiên). * Các nhiễu có tương quan bậc nhất: 푈푡 = 휌. 푈푡−1 + 휀푡 ( 푅(1)) * Mô hình không có dạng tự hồi quy, tức là không xét mô hình dạng: 푌푡 = + 1 푡 + 2푌푡−푖 + 푈푡 * Không có quan sát bị mất trong dữ liệu. b/ Nhược điểm của kiểm định Durbin- Watson: * Khi cỡ mẫu n lớn thì không có trong bảng tra, * Có một số mâu thuẫn khi tra bảng tìm dU, dL (chẳng hạn khi n = 9, k’ = 3, 훼 = 5% 푡ℎì 4 − 푈 휒훼( ) 푡ℎì á ỏ 0, tức là thừa nhận có tự tương quan bậc p. Chú ý: * Kiểm định BG áp dụng cho cỡ mẫu lớn và mở rộng cho mô hình nhiều biến. * Kiểm định BG có thể áp dụng cho mô hình tự hồi quy (mô hình có biến giải thích Yt-1, Yt-2, , tức là có biến trễ). * Kiểm định BG áp dụng cho tự tương quan với bậc bất kỳ. * Kiểm định BG đòi hỏi phải xác định trước bậc của tự tương quan p. Trong thực tế người ta phải kiểm định với nhiều giá trị p khác nhau. * Kiểm định BG có thể được áp dụng cho mô hình có nhiễu U được tạo ra theo tiến trình trung bình động bậc q (MA(q): 푞푡ℎ − 표 푒 표푣푖푛 푣푒 푒), tức là: 푈푡 = 휀푡 + 휆1휀푡−1 + 휆2휀푡−2 + ⋯ + 휆푞휀푡−푞 trong đó 휀 là nhiễu ngẫu nhiên với kỳ vọng bằng 0 và phương sai không đổi. 4. Kiểm định các đoạn mạch (hay kiểm định chuỗi dấu(Runs test)) (Tham khảo) Số hạng nhiễu có giá trị khi âm, khi dương, do đó nếu sự thay đổi về dấu của số hạng nhiễu diễn ra mang tính hệ thống, theo một xu thế nào đó thì biểu hiện có sự tự tương
Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng quan giữa các nhiễu. Nếu dấu của nhiễu thay đổi một cách ngẫu nhiên thì có thể xem là biểu hiện không có hiện tượng tự tương quan. Kiểm định các đoạn mạch hay kiểm định chuỗi dấu dựa vào sự thay đổi dấu của các phần dư ước lượng từ mô hình hồi quy và được thực hiện theo các bước sau: Xét mô hình hồi quy gốc: 푌푡 = + 푡 + 푈푡 B1: Chạy hồi quy mô hình gốc, có được các phần dư ước lượng: 푈̂푡 = 푌푡 − 푌 B2: Phần dư 푈̂푡 > 0 được thay bởi dấu +, phần dư 푈̂푡
Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng ∗ ∗ ∗ ∗ hay: 푌푡 = + 푡 + 휀푡 (5.35) ∗ ∗ (푡 표푛 đó: 푌푡 = 푌푡 − 휌. 푌푡−1; 푡 = 푡 − 휌 푡−1) (5.35) là mô hình hồi quy tuyến tính cổ điển (휀푡 thỏa mãn các giả thiết cổ điển) nên các ước lượng OLS của mô hình này có tính chất BLUE. Chú ý: * (5.35) là phương trình sai phân tổng quát, do việc ghép đuổi hai số liệu liên tiếp thành một nên mô hình bị bớt đi một số liệu (quan sát thứ nhất) so với mô hình gốc. Trong thực nghiệm, theo biến đổi Prais-Winsten, quan sát thứ nhất của (5.35) được tạo như sau: ∗ 2 ∗ 2 푌1 = 푌1. √1 − 휌 , 1 = 1. √1 − 휌 (5.36) * Khi 휌 = 1 thì (5.35) trở thành phương trình sai phân cấp 1: 푌푡 − 푌푡−1 = . ( 푡 − 푡−1) + (푈푡 − 푈푡−1) (5.37a) * Khi 휌 = −1 thì (5.35) trở thành phương trình hồi quy trung bình trượt: 푌 +푌 + 푈 +푈 푡 푡−1 = + . 푡 푡−1 + 푡 푡−1 (5.37b) 2 1 2 2 2. Trường hợp chưa biết cấu trúc của tự tương quan Trong thực tế ta chưa biết cấu trúc của tự tương quan do ít khi biết được giá trị 휌. Vậy phải tìm cách ước lượng 휌. a. Ước lượng bằng thống kê d. Trong kiểm định Durbin- Watson, khi n đủ lớn ta có: ≈ 2(1 − 휌̂), vì thế ta nhận được: 휌̂ ≈ 1 − . (5.38) 2 푛2(1− )+ 2 Khi n nhỏ, Theil và Nagar dùng ước lượng: 휌̂ = 2 (5.39) 푛2− 2 trong đó d là thống kê Durbin-Watson, k là số các hệ số của mô hình (bao gồm cả tung độ gốc). Khi đã có được 휌̂, ta chạy hồi quy ước lượng cho mô hình (5.35) theo phương pháp OLS. Chú ý rằng các ước lượng thu được từ mô hình này cũng chỉ tiệm cận với tính chất BLUE khi n khá lớn, vì trong mô hình ta đã thay 휌 bởi ước lượng 휌̂ của nó. Vì thế khi cỡ mẫu n bé, ta cần thận trọng khi giải thích các kết quả ước lượng. b. Ước lượng 𝝆 bởi thủ tục lặp Cochrance – Orcutt (CORC) Phương pháp này sử dụng các phần dư đã được ước lượng để thu được thông tin về 휌. Xét mô hình hồi quy gốc: 푌푡 = + . 푡 + 푈푡 (5.40) với 푈푡 thỏa mãn lược đồ AR(1): 푈푡 = 휌. 푈푡−1 + 휀푡 (5.41) Ước lượng cho 휌 được thực hiện theo các bước sau: B1: Ước lượng mô hình (5.40) bằng phương pháp OLS, thu được phần dư 푈̂푡. B2: Sử dụng các phần dư 푈̂푡 làm số liệu để ước lượng hồi quy cho (5.41), từ đó nhận được 휌̂. B3: Thay 휌 bởi 휌̂ để ước lượng phương trình sai phân tổng quát: 푌푡 − 휌̂. 푌푡−1 = . (1 − 휌̂) + . ( 푡 − 휌̂ 푡−1) + (푈푡 − 휌̂. 푈푡−1) ∗ ∗ ∗ ∗ hay ước lượng hồi quy: 푌푡 = + 푡 + 휀푡 (5.42) ∗ ∗ (푡 표푛 đó: 푌푡 = 푌푡 − 휌̂. 푌푡−1; 푡 = 푡 − 휌̂ 푡−1) B4: Để cải thiện chất lượng của ước lượng 휌̂ nhận được từ B2, ta thay giá trị ̂∗, ̂∗ là các ước lượng của ∗, ∗ tìm được trong B3 vào hồi quy gốc (5.40) và nhận được các phần dư mới:
Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng ∗ ∗ ̂∗ 푈̂푡 = 푌푡 − ( ̂ + . 푡) (5.43) ∗ Sử dụng phần dư mới 푈̂푡 làm số liệu để ước lượng cho hồi quy: ∗ ∗ 푈푡 = 휌. 푈푡−1 + 푡 (5.44) từ đó nhận được 휌̂ là ước lượng vòng 2 cho 휌. Các vòng lặp này được tiếp tục cho đến khi hai ước lượng kế tiếp nhau của 휌 sai khác nhau rất bé (chẳng hạn sai khác dưới 0,05 hoặc 0,005) (Thực tế cho thấy dùng tới 3 – 4 bước lặp là đủ). c. Ước lượng 𝝆 bởi phương pháp Durbin-Watson 2 bước. Phương trình sai phân tổng quát được viết lại dưới dạng: 푌푡 = . (1 − 휌) + . 푡 − . 휌 푡−1 + 휌. 푌푡−1 + 휀푡 (5.45) B1: Chạy hồi quy mô hình (5.45) theo OLS, nhận được ước lượng 휌̂ của 휌. B2: Chạy hồi quy mô hình: 푌푡 − 휌̂. 푌푡−1 = . (1 − 휌̂) + . ( 푡 − 휌̂ 푡−1) + (푈푡 − 휌̂. 푈푡−1) từ đó nhận được các ước lượng ̂∗ ℎ표 ∗ = . (1 − 휌̂), ̂∗ ℎ표 ∗ = , do đó có thể ước ̂∗ lượng ở푖 ̂ = . 1−𝜌̂ Ví dụ 5.4: Tỷ lệ Y(%) về lực lượng lao động dân thường tham gia ở Mỹ, tỷ lệ X1(%) về dân thường thất nghiệp, số tiền trung bình X2(USD) kiếm được thực tế theo giờ, theo số liệu thu được từ 1980 – 2002 có kết quả sau: Năm Y X1 X2 Năm Y X1 X2 Năm Y X1 X2 1980 63.8 7.1 7.78 1988 65.9 5.5 7.69 1996 66.8 5.4 7.43 1981 63.9 7.6 7.69 1989 66.5 5.3 7.64 1997 67.1 4.9 7.55 1982 64.0 9.7 7.68 1990 66.5 5.6 7.52 1998 67.1 4.5 7.75 1983 64.0 9.6 7.79 1991 66.2 6.8 7.45 1999 67.1 4.2 7.86 1984 64.4 7.5 7.80 1992 66.4 7.5 7.41 2000 67.2 4.0 7.89 1985 64.8 7.2 7.77 1993 66.3 6.9 7.39 2001 66.9 4.8 7.99 1986 65.3 7.0 7.81 1994 66.6 6.1 7.40 2002 66.6 5.8 8.14 1987 65.6 6.2 7.73 1995 66.6 5.6 7.40 Bảng 5.30 Chạy hồi quy của Y theo X1 và X2 ta có bảng kết quả: Dependent Variable: Y Method: Least Squares Variable Coefficient Std. Error t-Statistic Prob. C 80.95122 4.770337 16.96971 0.0000 X1 -0.671631 0.082705 -8.120845 0.0000 X2 -1.410432 0.610348 -2.310867 0.0316 R-squared 0.772914 Mean dependent var 65.89565 Bảng 5.31 1/ Cách phát hiện: * Xét đồ thị phần dư 푈̂푡 theo thời gian
Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng RESID 1.5 1.0 0.5 0.0 -0.5 -1.0 -1.5 80 82 84 86 88 90 92 94 96 98 00 02 Hình 5.2 Vẽ biểu đồ 푈̂푡 theo 푈̂푡−1 (hay lược đồ AR(1)) và đồ thị chuẩn hóa của 푈̂푡/휎̂ theo thời gian 1.5 RESID/0.584117 2 1.0 1 0.5 D I 0 S 0.0 E R -0.5 -1 -1.0 -2 -1.5 -1.5 -1.0 -0.5 0.0 0.5 1.0 -3 80 82 84 86 88 90 92 94 96 98 00 02 RESID(-1) Hình 5.3 Hình 5.4 Các đồ thị và biểu đồ về resid đều có xu hướng tăng nên ta nhận định có tự tương quan. Ta có thể xác minh điều này qua các kiểm định. * Kiểm định Durbin-Watson: Từ bảng kết quả hồi quy ta có giá trị thống kê d = 0.787065
Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng Dependent Variable: Y-0.6064675*Y(-1) Method: Least Squares Variable Coefficient Std. Error t-Statistic Prob. C 28.14487 1.738930 16.18517 0.0000 X1-0.6064675*X1(-1) -0.349864 0.072465 -4.828032 0.0001 X2-0.6064675*X2(-1) -0.412303 0.564268 -0.730685 0.4739 R-squared 0.551313 Mean dependent var 26.04675 Bảng 5.33. Điều chỉnh mô hình để khắc phục * Dùng kiểm định BG ta có: Breusch-Godfrey Serial Correlation LM Test: F-statistic 1.257971 Prob. F(1,18) 0.2768 Obs*R-squared 1.437087 Prob. Chi-Square(1) 0.2306 Bảng 5.34 Từ đó nhận được: p – value = 0.2306 > 0.05 nên ta chấp nhận giả thuyết H0, tức là không còn tự tương quan. Vậy mô hình SRF sau khi khắc phục là mô hình hồi quy sai phân cấp 1 tổng quát: Yt - 0.6064675*Yt -1 = 28.1448656078 - 0.349864468794*(X1t-0.6064675*X1 t - 1) - 0.412302674777*(X2t- 0.6064675*X2,t - 1) + 푼̂ 풕 b. Dùng Durbin-Watson 2 bước: * Chạy hồi quy ước lượng cho mô hình (5.45): 푌푡 = . (1 − 휌) + 1. 1푡 − 2. 휌 1푡−1 + 1. 2푡 − 2. 휌 2푡−1 + 휌. 푌푡−1 + 휀푡 có kết quả: Dependent Variable: Y Method: Least Squares Variable Coefficient Std. Error t-Statistic Prob. C 23.66925 8.181627 2.892976 0.0106 X1 -0.205990 0.052832 -3.898985 0.0013 X1(-1) 0.042676 0.063112 0.676191 0.5086 X2 -0.163399 0.528324 -0.309278 0.7611 X2(-1) -0.352127 0.680114 -0.517747 0.6117 Y(-1) 0.718008 0.093132 7.709597 0.0000 R-squared 0.979506 Mean dependent var 65.99091 Bảng 5.35 Ta nhận được: 휌̂ =0.718008 (hệ số của Y(-1)). * Hồi quy sai phân cấp 1 tổng quát : Yt − ρ̂Yt−1 = a(1 − ρ̂) + b1(X1t − ρ̂X1t−1) + b2(X2t − ρ̂X2t−1) + (Ut − ρ̂Ut−1) ta nhận được kết quả:
Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng Dependent Variable: Y-0.718008*Y(-1) Method: Least Squares Variable Coefficient Std. Error t-Statistic Prob. C 19.79754 1.149986 17.21545 0.0000 X1-0.718008*X1(-1) -0.258695 0.063126 -4.098081 0.0006 X2-0.718008*X2(-1) -0.299577 0.520838 -0.575183 0.5719 R-squared 0.469613 Mean dependent var 18.70029 Bảng 5.36 * Dùng kiểm định BG: Breusch-Godfrey Serial Correlation LM Test: F-statistic 0.392812 Prob. F(1,18) 0.5387 Obs*R-squared 0.469850 Prob. Chi-Square(1) 0.4931 Bảng 5.37 Từ bảng kết quả kiểm định nhận được: p – value = 0.4931 > 0.05 nên ta chấp nhận không còn tự tương quan trong mô hình ước lượng: Y-0.718008.Y(-1) = 19.79754 - 0.258695.( X1-0.718008.X1(-1)) – 0.299577.( X2-0.718008.X2(-1)) + 푼̂. c. Dùng CORC 2 bước: chạy hồi quy ước lượng cho mô hình: 푈푡 = 휌. 푈푡−1 + 휀푡 (Với lưu ý là 푈푡 = Y – Ydb, 푈푡−1 = Y(−1) − Ydb(−1)) Dependent Variable: Y-YDB Method: Least Squares Variable Coefficient Std. Error t-Statistic Prob. Y(-1)-YDB(-1) 0.453785 0.173479 2.615783 0.0161 R-squared 0.231404 Mean dependent var 0.064067 Bảng 5.38 Từ đó nhận được: 휌̂ = 0.453785 (hệ số hồi quy của {Y(-1)-Ydb(-1)}) Hồi quy sai phân cấp 1 tổng quát: Dependent Variable: Y-0.453785*Y(-1) Method: Least Squares Sample (adjusted): 1981 2002 Included observations: 22 after adjustments Variable Coefficient Std. Error t-Statistic Prob. C 40.43469 2.469916 16.37088 0.0000 X1-0.453785*X1(-1) -0.467019 0.077385 -6.034979 0.0000 X2-0.453785*X2(-1) -0.654515 0.577216 -1.133918 0.2709 R-squared 0.658179 Mean dependent var 36.10298 Bảng 5.39 Nhận được mô hình ước lượng: Y-0.453785*Y(-1) = 40.4346880342 - 0.467019486845*(X1-0.453785*X1(-1)) - 0.654515242431*(X2- 0.453785*X2(-1)) + Û
Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng * Dùng kiểm định BG: Breusch-Godfrey Serial Correlation LM Test: F-statistic 1.452444 Prob. F(1,18) 0.2437 Obs*R-squared 1.642661 Prob. Chi-Square(1) 0.2000 Bảng 5.40 Ta nhận được: p – value = 0.2000 > 0.05 nên ta thừa nhận không còn tự tương quan trong mô hình vừa nhận được. d. Dùng biến trễ 풀풕− : chạy hồi quy ước lượng cho mô hình: 푌푡 = 0 + 1 1푡 + 2 2푡 + 3푌푡−1 Dependent Variable: Y Method: Least Squares Sample (adjusted): 1981 2002 Included observations: 22 after adjustments Variable Coefficient Std. Error t-Statistic Prob. C 24.46852 4.989686 4.903820 0.0001 X1 -0.183419 0.047358 -3.873028 0.0011 X2 -0.486649 0.196506 -2.476506 0.0234 Y(-1) 0.704545 0.061236 11.50535 0.0000 R-squared 0.977967 Mean dependent var 65.99091 Adjusted R-squared 0.974295 S.D. dependent var 1.101042 S.E. of regression 0.176528 Akaike info criterion -0.467707 Sum squared resid 0.560919 Schwarz criterion -0.269336 Log likelihood 9.144780 Hannan-Quinn criter. -0.420977 F-statistic 266.3192 Durbin-Watson stat 2.258316 Prob(F-statistic) 0.000000 Bảng 5.41 Nhận được mô hình: Y = 24.4685200341- 0.183418712076*X1-0.486649020366*X2 + 0.704545160497*Y(-1) + 푼̂ Bằng kiểm định BG: Breusch-Godfrey Serial Correlation LM Test: F-statistic 1.474721 Prob. F(1,17) 0.2412 Obs*R-squared 1.756122 Prob. Chi-Square(1) 0.1851 Bảng 5.42 Kết quả trên cho thấy p – value = 0.1851 > 0.05 nên ta có thể cho rằng không còn tự tương quan trong mô hình vừa nhận được.
Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng Bài tập. 1. Ta có bảng số liệu sau đây về chi tiêu Y và thu nhập X hàng tháng của 20 hộ gia đình ở một vùng nông thôn: Y X Y X Y X Y X Y X 19.9 2.3 40.7 42.3 10.3 10.3 33.5 38.0 29.3 30.1 31.2 32.3 6.1 6.2 38.8 40.2 13.1 14.1 25.0 28.3 31.8 33.6 38.6 44.7 8.0 8.1 14.8 16.4 17.9 18.2 12.1 12.1 25.5 26.1 33.1 34.5 21.6 24.1 19.8 20.1 a. Tính các đặc trưng mẫu cho các biến và tìm ma trận tương quan mẫu của véc tơ (X, Y). b. Hồi quy ước lượng cho các mô hình: b1. Y = a + b.X + U, b2. LnY = a’ + b’.lnX + V c. Vẽ Line Graph giữa các giá trị dự báo điểm và giá trị quan sát của Y từ việc ước lượng cho mô hình b1/ d. Hãy xem xét vấn đề phương sai thay đổi trong các mô hình trên, và khắc phục, nếu có. 2. Tiến hành khảo sát giá bán X1(ngàn đồng/kg), chi phí quảng cáo X2 (triệu đồng/tháng) và lượng hàng bán được Y(tấn/tháng), ở 20 khu vực có số liệu sau đây, trong đó Z = 0 nếu khu vực khảo sát ở nông thôn, Z = 1 nếu khu vực khảo sát ở thành thị. Y X1 Z Z Y X1 X2 Z Y X1 X2 Z 20 2.5 10 1 16 4.7 7.1 1 12 7.7 7.5 0 19 3.1 9.2 0 15 5.3 6.9 1 15 5.9 6.9 1 18 3.5 8.8 1 15 5.8 6.5 1 16 4.8 6.7 0 18 4.2 8.4 0 14 5.9 6.8 0 12 7.2 6.5 1 17 4.6 8 1 14 6.4 6.6 1 10 8.3 7.2 0 17 3.8 7.6 1 13 6.8 7.0 0 11 8.5 8.3 1 16 4.2 7.2 0 12 7.2 7.8 1 a. Hãy ước lượng mô hình: 푌푖 = + 1 1푖 + 2 2푖 + 3푍푖 + 푈푖 b. Tính giá trị các dự báo điểm đối với mô hình trên. Vẽ đồ thị Line Graph giữa các giá trị dự báo điểm của Y với giá trị thực tế của Y. c. Kiểm định xem mô hình trên có hiện tượng đa cộng tuyến, phương sai thay đổi và tự tương quan hay không. Nếu có hãy tìm cách khắc phục. 3. Từ số liệu về chi tiêu Y ($) cho tiêu dùng, thu nhập X ($) và sự giàu có Z ($) qua khảo sát 12 hộ gia đình, chạy hồi quy ước lượng cho mô hình: 푌 = 0 + 1 + 2푍 + 푈, nhận được: Dependent Variable: Y Method: Least Squares Included observations: 12 Variable Coefficient Std. Error t-Statistic Prob. C 29.30834 5.286306 5.544200 0.0004 X 0.265502 0.382741 0.693686 0.5054 Z 0.020920 0.037858 0.552581 0.5940 R -squared 0.968220 Mean dependent var 110.4167 Ma trận tương quan mẫu của véc tơ (Y, X, Z) là:
Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng Y X Z Y 1.000000 0.983434 0.983118 X 0.983434 1.000000 0.997168 Z 0.983118 0.997168 1.000000 Từ đó hãy nhận định xem mô SRF thu được có hiện tượng đa cộng tuyến hay không. 4. Cũng với SRF nhận được từ bài tập 3, nhận định xem mô hình này có vấn đề về phương sai nhiễu thay đổi hay không qua kết quả kiểm định dưới đây: Heteroskedasticity Test: White F -statistic 0.560802 Prob. F(5,6) 0.7289 Obs*R-squared 3.821907 Prob. Chi-Square(5) 0.5753 Scaled explained SS 1.719122 Prob. Chi-Square(5) 0.8865 5. Với mô hình SRF nhận được từ bài tập 3, có nhận xét gì về mô hình này từ kết quả kiểm định BG sau: Breusch-Godfrey Serial Correlation LM Test: F -statistic 1.614981 Prob. F(2,7) 0.2650 Obs*R-squared 3.788826 Prob. Chi-Square(2) 0.1504 6. Có số liệu về chi tiêu Y ($) cho tiêu dùng, thu nhập X ($) và sự giàu có Z ($) qua khảo sát 10 hộ gia đình như sau: Y X Z Y X Z Y X Z 70 80 810 95 140 1425 140 220 2201 65 100 1009 110 160 1633 155 240 2435 90 120 1273 115 180 1876 150 260 2686 120 200 2052 a/ Chạy hồi quy ước lượng cho mô hình: 푌 = 0 + 1 + 2푍 + 푈 b/ Mô hình SRF nhận được từ a/ có hiện tượng đa cộng tuyến hay không? Nếu có hãy tìm cách khắc phục. 7. Với 10 doanh nghiệp ở Tp.HCM được chọn ngẫu nhiên để điều tra về doanh thu Y (tỷ đồng) và chi phí sản xuất X (tỷ đồng) có bảng số liệu sau: Y 5,5 7 7,5 7,8 8 8,5 8,9 9,5 10 10,4 X 8 8,5 9 9,5 10 10,5 11 11,5 12 12,5 a/ Thiết lập SRF ước lượng cho mô hình: 푌 = 0 + 1 + 푈 b/ Dùng kiểm định White và kiểm định Glejser để xác minh xem mô hình SRF ở a/ có vấn đề về phương sai nhiễu thay đổi hay không. c/ Bằng cách chọn trọng số: 푊푗 = 1/ 푗 , hãy dùng phương pháp OLS có trọng số để tìm SRF cho hồi quy của Y theo X. d/ Kiểm tra xem mô hình ở a/ có vấn đề về đa cộng tuyến hay không.
Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng Chương 6. PHÂN TÍCH ĐẶC TRƯNG VÀ LỰA CHỌN MÔ HÌNH Chương này trình bày những vấn đề chính sau đây: (1)Phân tích đặc trưng mô hình (Các thuộc tính của một mô hình tốt, các loại sai lầm chỉ định, cách tiếp cận để lựa chọn mô hình); (2) Các kiểm định về sai lầm chỉ định; (3) Ứng dụng hồi quy trong phân tích, dự báo. 6.1. Phân tích đặc trưng mô hình 6.1.1. Các thuộc tính của một mô hình tốt. Trong các chương trước, khi xét một mô hình, ta giả định rằng mô hình đang xét là mô hình thích hợp, nghĩa là vấn đề nghiên cứu được mô hình hóa phù hợp với bản chất của vấn đề. Tuy nhiên trong thực tế, nói chúng ta không thể tìm được mô hình chính xác hoàn toàn, mà chỉ hy vọng tìm được mô hình mô tả thực tế vấn đề một cách gần đúng có thể chấp nhận được. Theo quan điểm của A. V. Harvey các tiêu chuẩn để đánh giá một mô hình tốt là: * Tính tiết kiệm (parsimony): mô hình càng đơn giản (nhưng phải chứa biến chính ảnh hưởng đến biến phụ thuộc) càng tốt. * Tính đồng nhất (identifiability): với mỗi tập dữ liệu đã cho thì các tham số ước lượng được phải có giá trị thống nhất. * Tính thích hợp (goodness of fit): Mục đích của phân tích hồi quy là giải thích sự biến động của biến phụ thuộc bằng các biến giải thích của mô hình. Mô hình càng thích hợp nếu các biến giải thích càng giải thích được nhiều sự thay đổi của biến phụ thuộc, tức là hệ số 푅2 ℎ표ặ 푅̅2 càng lớn càng tốt (tuy nhiên không nên chỉ căn cứ vào hệ số xác định hoặc hệ số xác định điều chỉnh). * Tính vững về mặt lý thuyết (theoretical consistency): mô hình phải phù hợp với cơ sở lý thuyết nền tảng của lĩnh vực đang xét. Nếu có hệ số xác định cao nhưng dấu của hệ số hồi quy sai thì mô hình không thể được đánh giá là tốt. * Khả năng dự báo tốt (predictiv power): mô hình có khả năng dự báo càng chính xác, càng phù hợp với thực tế càng tốt. 6.1.2. Các loại sai lầm chỉ định Trong mục này ta xem xét các khả năng dẫn tới một mô hình không phù hợp mà ta gọi là những sai lầm trong chỉ định. 1/ Chọn dạng hàm không thích hợp Sai lầm này có thể dẫn đến các hậu quả sau: - Làm sai dấu hoặc ước lượng chệch các hệ số hồi quy. - Các ước lượng có thể không có ý nghĩa thống kê. - Hệ số xác định R2 không cao. - Phần dư của các quan sát có trị tuyệt đối cao.
Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng 2/ Bỏ sót biến thích hợp Biến thích hợp là biến có nhiều ảnh hưởng đến biến phụ thuộc. Việc bỏ sót biến thích hợp trong mô hình có thể dẫn đến các hậu quả sau: - Các ước lượng bị chệch, khoảng tin cậy rộng ra, kém hiệu quả và do đó dễ có xu hướng chấp nhận giả thuyết. - Hệ số xác định không cao và như vậy mức độ phù hợp của mô hình không cao. 3/ Thừa biến Đây là việc đưa vào mô hình biến không có hoặc có ít ảnh hưởng đến biến phụ thuộc. Sai lầm này có thể không ảnh hưởng đến tính vững và không chệch của các ước lượng, nhưng các ước lượng có thể không còn tính hiệu quả ở chỗ phương sai của chúng không phải là nhỏ nhất và vì thế mà khoảng tin cậy rộng ra (kém chính xác) Theo quan điểm của nhiều nhà kinh tế lượng thì đối với hậu quả của việc bỏ sót biến hay thừa biến, tính chất không chệch của các ước lượng được chú trọng hơn. Do vậy người ta thường chọn cách tiếp cận đi từ tổng quát đến đơn giản, chấp nhận tình huống ban đầu thừa biến hơn là thiếu biến. 6.1.3. Cách tiếp cận để lựa chọn mô hình B1: Xác định số biến giải thích có trong mô hình. Có 2 hướng tiếp cận: a/ Từ đơn giản đến tổng quát: Từ mô hình đơn giản, từng bước bổ sung biến giải thích vào mô hình. Quá trình này được thực hiện thông qua kiểm định bỏ sót biến (Omitted variables Test). b/ Từ tổng quát đến đơn giản: Từ mô hình có đầy đủ các biến giải thích đã được xác định, từng bước loại ra những biến không quan trọng. Quá trình này được thực hiện thông qua kiểm định thừa biến (Redundant variables Test). Thường thì biến được xem xét để loại ra là biến không có cơ sở lý thuyết để cho là biến quan trọng cần giữ lại, p – value tương ứng của biến này trong mô hình hồi quy có giá trị không nhỏ,hệ số tương quan riêng phần của biến này với biến phụ thuộc có trị tuyệt đối nhỏ. Hướng tiếp cận thứ hai, đi từ tổng quát đến đơn giản, được nhiều nhà kinh tế lượng quan tâm hơn. B2: Kiểm tra các vi phạm giả thiết (Kiểm định các vấn đề: đa cộng tuyến, phương sai thay đổi, tự tương quan) và khắc phục các giả thiết bị vi phạm. B3: Chọn dạng hàm: Cơ sở để chọn dạng hàm là dựa vào cơ sở lý thuyết kinh tế, dựa vào kết quả thực nghiệm, so sánh các dạng hàm khác nhau. B4: Căn cứ vào các tiêu chuẩn thông dụng để chọn mô hình: 1- Xem xét giá trị 푅2 ℎ표ặ 푅̅2. 2- Giá trị của hàm hợp lý log – likelihood (L): 푛 푛 1 푳 = − 푙푛휎2 − ln(2 ) − ∑ 푈2 (6.1) 2 2 2 푖 Giá trị L càng lớn thì mô hình càng phù hợp. Trong thực hành sử dụng Eviews, giá trị của hàm log – likelihood được ước lượng bởi công thức: 푛 푅푆푆 퐿 = − (1 + log(2 ) + log ( )) (6.1a) 2 푛
Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng 3- Tiêu chuẩn Akaike(Akaie info criterion) (AIC): 푅푆푆 푰푪 = ( ) . 푒2 /푛 (6.2) 푛 trong đó k là số tham số trong mô hình hồi quy. Giá trị AIC càng nhỏ thì mô hình hồi quy càng phù hợp. Phần mềm Eviews ước lượng giá trị AIC bằng biểu thức: 2퐿 2 = − + (6.2a) 푛 푛 4-Tiêu chuẩn Schwarz (Schwarz criterion): 푅푆푆 푺푪 = ( ) . 푛 /푛 (6.3) 푛 Giá trị SC càng nhỏ thì mô hình càng phù hợp. Trong Eviews, SC được ước lượng bởi: 2퐿 푙표 푛 푆 = − + (6.3a) 푛 푛 Lưu ý: - Trong một số trường hợp, một mô hình tốt hơn theo tiêu chuẩn này thì cũng tốt hơn theo tiêu chuẩn khác. Tuy nhiên trong trường hợp tổng quát thì một mô hình có thể tốt hơn theo tiêu chuẩn này nhưng lại không tốt hơn tiêu chuẩn khác. Nếu chú ý đến độ phức tạp của mô hình thì người ta thường sử dụng tiêu chuẩn SC, nếu trong phân tích chuỗi thời gian thì người ta hay sử dụng tiêu chuẩn AIC. - Việc so sánh các tiêu chuẩn giữa các mô hình yêu cầu các biến phụ thuộc phải có cùng dạng trong mô hình hồi quy. Nếu các biến phụ thuộc xuất hiện dưới các dạng khác nhau thì phải thực hiện quy đổi về dạng tương đương mới được so sánh. 6.2. Các kiểm định về sai lầm chỉ định. 6.2.1. Kiểm định bỏ sót biến. Giả sử mô hình hồi quy ban đầu là: 푌푖 = + . 푖 + 푈푖 (6.4) Vấn đề đặt ra là liệu còn có biến giải thích nào khác nữa có ảnh hưởng quan trọng đến Y mà chưa được đưa vào mô hình hay không ? Làm thế nào để phát hiện được một biến Z có bị bỏ sót hay không? Ta phân biệt các trường hợp sau: 1. Khi có số liệu về biến Z: Cách 1: Dùng kiểm định t (và 푅̅2): - Tiến hành hồi quy mô hình (6.4) và mô hình: 푌푡 = 0 + 1. 푡 + 2. 푍푖 + 푖 (6.5) 2 - Kiểm định 0: 2 = 0, đồng thời kết hợp với việc so sánh giá trị 푅̅ của hai mô hình. Nếu biến Z là biến quan trọng bị bỏ sót thì thông thường có xu hướng bác bỏ giả thuyết 2 0 và làm tăng đáng kể giá trị 푅̅ . Nếu nghi ngờ bỏ sót nhiều biến giải thích, ta có thể áp dụng cách làm trên bằng việc xét lần lượt bổ sung từng biến một. Cách 2: Dùng kiểm định Wald Cách 3: Dùng phương pháp nhân tử Lagrange (LM – Lagrange multiplier) Ký hiệu mô hình ban đầu (6.4) là (R): 푌푖 = + . 푖 + 푈푖 (mô hình bị ràng buộc) (6.6)
Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng Mô hình (U): 푌푖 = 0 + 1. 푖 + 2. 푍푖 + 푖 (mô hình không bị ràng buộc) (6.7) Khi đó giả thuyết 0: 2 = 0 chính là: không bỏ sót biến Z. Thực hiện kiểm định giả thuyết 0 theo các bước: ̂ B1: Hồi quy mô hình (R), nhận được phần dư: 푈̂푅 = 푌 − ̂ − . 푖 B2: Nếu biến Z bị bỏ sót thì ảnh hưởng của nó được quan sát qua phần dư 푈̂푅. Do đó 푈̂푅 được xem như có liên hệ với biến bị bỏ sót (푈 = 2푍 + ), ngoài ra 푈̂푅 có liên hệ với Xi . Từ đó tiến hành hồi quy 푈̂푅 theo tất cả các biến giải thích: 푈̂푅 = 훼 + 훽1 푖 + 훽2푍푖 + 휀 (hồi quy phụ) (6.8) 2 qua đó tính được hệ số xác định của mô hình hồi quy phụ mà ta ký hiệu là 푅 . B3: Kiểm định giả thuyết 0: 2 = 0 2 2 Vì trên cơ sở 0 đúng thì biến ngẫu nhiên 푛. 푅 ~휒 (1), nên với mức ý nghĩa 훼, nếu 2 2 giá trị 푛. 푅 > 휒훼(1) thì ta bác bỏ 0, nghĩa là thừa nhận biến Z bị bỏ sót. Lưu ý: Trong mô hình hồi quy bội, nếu nghi ngờ bỏ sót một số biến giải thích, ta tiến hành kiểm định tương tự: - Mô hình ban đầu (R): 푌 = + 1 1 + ⋯ + + 푈 - Mô hình (U): 푌 = + 1 1 + ⋯ + + +1 +1 + ⋯ + + Giả thiết: không bỏ sót các biến +1, , chính là: 0: +1 = ⋯ = = 0 đối thuyết 1: bỏ sót ít nhất một trong các biến +1, , , tức là có ít nhất một trong các hệ số +1, , khác không. - Hồi quy mô hình (R), thu được phần dư 푈̂푅. - Tiến hành hồi quy phụ: 푈̂푅 = 훼 + 훽1 1 + ⋯ + 훽 + 휀 2 từ đó tính được hệ số xác định 푅 của mô hình hồi quy phụ. 2 2 - Nếu 푛. 푅 > 휒훼( − ) thì bác bỏ 0. Cách 3: Dùng tỷ số hàm hợp lý (Likelihood ratio – LR) Giả thuyết 0: không bỏ sót biến - Hồi quy mô hình ban đầu (R): 푌 = + 1 1 + ⋯ + + 푈 (6.9) - Hồi quy mô hình (U): 푌 = + 1 1 + ⋯ + + +1 +1 + ⋯ + + . (6.10) Ký hiệu 푙푅 푣à 푙푈 là giá trị lớn nhất của logarit hàm hợp lý ứng với mô hình (R) và mô hình (U) tương ứng. Xét thống kê: 퐿푅 = −2(푙푅 − 푙푈) ((k – m) là số biến giải thích nghi ngờ bị bỏ sót). 2 Từ kết quả hồi quy, nếu giá trị 퐿푅 > 휒훼( − ) thì bác bỏ giả thuyết 0. 2. Khi không có số liệu về biến Z * Cách 1: Kiểm định của Ramsey (hay kiểm định RESET: Regression Specification Error Test): Ramsey đã đề xuất sử dụng tổ hợp tuyến tính của 푌̂ 2, 푌̂ 3, 푌̂ 4xấp xỉ cho Z. Thủ tục kiểm định như sau: B1: Hồi quy mô hình gốc: 푌푖 = + . 푖 + 푈푖 (풐풍풅), thu được 푌̂푖 ̂ 2 ̂ 3 ̂ 4 B2: Hồi quy mô hình: 푌푖 = 훼 + 훽1 푖 + 훽2푌푖 + 훽3푌푖 + 훽4푌푖 + 푖 (풏풆풘) B3: Kiểm định giả thuyết 0: 훽2 = 훽3 = 훽4 = 0 (không bỏ sót biến)
Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng - Xét thống kê: 2 2 (푅푛푒푤−푅표푙 )/ 퐹 = 2 , (1−푅푛푒푤)/(푛− ) trong đó m là số biến giải thích mới được thêm vào trong mô hình (new) (cụ thể ở đây m = 3); k là số hệ số của mô hình (new) (cụ thể ở đây k = 5) - Nếu giá trị 퐹 > 퐹훼( , 푛 − ) thì bác bỏ 0. * Cách 2: Kiểm định nhân tử Lagrange B1: Hồi quy mô hình (old), thu được phần dư: 푈̂푖. ̂ ̂ 2 ̂ 3 ̂ 4 B2: Hồi quy: 푈푖 = 훼 + 훽1 푖 + 훽2푌푖 + 훽3푌푖 + 훽4푌푖 + 휀푖 (6.11) 2 tính được hệ số xác định 푅 ủ ô ℎì푛ℎ 푛à . B3: Kiểm định giả thuyết 0: 훽2 = 훽3 = 훽4 = 0 (không bỏ sót biến) như sau: 2 2 - Nếu 푛. 푅 > 휒훼( ) thì bác bỏ 0 (m là số biến giải thích mói thêm vào mo hình, cụ thể ở đây: m = 3) Lưu ý: Có thể dựa trên khảo sát dạng đồ thị của phần dư 푈̂푖 푡ℎ푒표 푌̂푖 để xác định bậc của 푌̂. Thông thường bậc của 푌̂ càng cao thì kết quả kiểm định càng chính xác. * Cách 3: Kiểm định Durbin – Watson B1: Hồi quy mô hình (old) và nhận được 푌 = ̂ + ̂. + 푈̂ B2: Giả sử biến Z là biến được nghi ngờ bị bỏ sót. Sắp xếp phần dư 푈̂푖 theo thứ tự tăng của Z hoặc theo thứ tự tăng của một biến giải thích nếu số liệu của Z chưa có. 푛 ̂ ̂ 2 ∑푖=2(푈푖−푈푖−1) B3: Tính = 푛 ̂2 (chú ý rằng ở B2, dãy phần dư đã được sắp xếp lại nên biểu ∑푖=1 푈푖 thức này không phải là thống kê Durbin – Watson) B4: Giả thuyết 0: Dạng hàm đúng (không có Z), Đối thuyết 1: Dạng hàm sai (biến Z bị bỏ sót) Dựa vào bảng Durbin – Watson và mức ý nghĩa để bác bỏ hay chấp nhận 0. 6.2.2. Kiểm định thừa biến Đối với kiểm định thừa biến, giả thuyết 0 là thừa biến, có thể dùng các kiểm định sau: 1. Kiểm định t thông thường (để xét bỏ một biến) 2. Kiểm định Wald (để xét bỏ một hoặc nhiều biến) Giả sử có mô hình hồi quy: 푌 = 0 + 1 1 + ⋯ + + ⋯ + + 푈 Trước hết, nếu về mặt lý thuyết cho rằng tất cả các biến +1, , đều quan trọng đối với Y thì ta phải giữ lại chúng trong mô hình, cho dù trong hồi quy ước lượng hệ số của một trong chúng không có ý nghĩa thống kê. Nếu không chắc chúng có thực sự cần thiết trong mô hình thì ta dùng kiểm định Wald, theo các bước sau: B1: Chạy hồi quy các mô hình: (U): 푌 = 0 + 1 1 + ⋯ + + ⋯ + + 푈 (gọi là mô hình không giới hạn), có được tổng RSS của mô hình này, ký hiệu là RSSU. (R): 푌 = 0 + 1 1 + ⋯ + + (gọi là mô hình giới hạn), có được tổng RSS của mô hình này, ký hiệu là RSSR. (푅푆푆 −푅푆푆 )/( − ) - Thiết lập thống kê: 퐹 = 푅 푈 푅푆푆푈/(푛− ) B2: Với mức ý nghĩa 훼 cho trước (hoặc mặc định), tìm giá trị tới hạn: 퐹훼( − , 푛 − ).
Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng B3: Quy tắc bác bỏ giả thuyết: 0 là: 퐹 > 퐹훼( − , 푛 − ). 3. Kiểm định tỷ số hàm hợp lý (như trong kiểm định bỏ sót biến) Lưu ý: Trong thực hành có thể thực hiện kiểm định Wald, kiểm định tỷ số hàm hợp lý nhờ vào Eviews. Ví dụ 6.1(Hàm sản xuất của Đài Loan): Số liệu về Y(GNP: đơn vị: triệu $ Đài Loan), lượng lao động X1 (ngàn người), lượng vốn thực X2 (triệu $ Đài Loan) và biến xu hướng thời gian X3 xếp thứ tự từ năm 1958 đến năm 1972 của Đài Loan được cho bởi bảng sau: Năm Y X1 X2 X3 Năm Y X1 X2 X3 1958 8911.4 281.5 120753 1 1966 23052 616.7 153714 9 1959 10873.2 284.4 122242 2 1967 26128.2 695.7 164783 10 1960 11132.5 289 125263 3 1968 29563.7 730.3 176864 11 1961 12086.5 375.8 128539 4 1969 33373.6 816 188146 12 1962 12767.5 375.2 131427 5 1970 38354.3 848.4 205841 13 1963 16347.1 402.5 134267 6 1971 46868.3 873.1 221748 14 1964 19542.7 478 139038 7 1972 54308 999.2 239715 15 1965 21075.9 553.4 146450 8 Bảng 6.1. Số liệu về GNP, lượng lao động và vốn ở Đài Loan (Nguồn: Thomas Pei-Fan Chen, “Economic Growth and Structural Change in Taiwan 1952-1972, A Production Approach”. (D.N. Gujarati)) Giả sử hàm sản xuất đúng, theo lý thuyết thì mô hình Cobb-Douglas có dạng: 푙푛푌푡 = + 1푙푛 1푡 + 2푙푛 2푡 + 푈푡 (a1) Giả sử ta không đưa biến X2 vào và tiến hành hồi quy lnY theo lnX1,tức là hồi quy mô hình: 푙푛푌푡 = + 1푙푛 1푡 + 푈푡 (a2) thì kết quả hồi quy được cho bởi bảng sau: Dependent Variable: LOG(Y) Method: Least Squares Variable Coefficient Std. Error t-Statistic Prob. C 2.069560 0.417743 4.954143 0.0003 LOG(X1) 1.257567 0.066516 18.90615 0.0000 R-squared 0.964907 Mean dependent var 9.949171 Adjusted R-squared 0.962207 S.D. dependent var 0.566287 Bảng 6.2. Kết quả hồi quy GNP theo lượng lao động Qua đó thấy mức độ phù hợp của mô hình rất cao (R2 = 0.964907), hệ số hồi quy có ý nghĩa thống kê (đó là hệ số co giãn của sản lượng đối với lao động). Theo lý thuyết kinh tế thì lao động không phải là yếu tố duy nhất tác động đến GNP nên giả thuyết có biến bị bỏ sót là có cơ sở. - Tiến hành kiểm định bỏ sót biến (biến nghi ngờ bỏ sót: log(X2)), ta có kết quả:
Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng Omitted Variables Test Equation: UNTITLED Specification: LOG(Y) C LOG(X1) Omitted Variables: LOG(X2) Value df Probability t-statistic 3.722069 12 0.0029 F-statistic 13.85380 (1, 12) 0.0029 Likelihood ratio 11.51326 1 0.0007 Bảng 6.3 nhận được p – value của thống kê F là 0.0029 và của tỷ số hợp lý log-likelihood là 0.0007, đều rất bé (
Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng Tiếp tục kiểm định bỏ sót biến xu hướng X3 Omitted Variables Test Equation: UNTITLED Specification: LOG(Y) C LOG(X1) LOG(X2) Omitted Variables: X3 Value df Probability t-statistic 3.602328 11 0.0042 F-statistic 12.97677 (1, 11) 0.0042 Likelihood ratio 11.68785 1 0.0006 Bảng 6.6 Tiếp tục bổ sung biến xu hướng X3 vào mô hình (a1), nhận được kết quả: Dependent Variable: LOG(Y) Method: Least Squares Sample: 1958 1972 Included observations: 15 Variable Coefficient Std. Error t-Statistic Prob. C 4.944253 4.024478 1.228545 0.2449 LOG(X1) -0.121815 0.256302 -0.475277 0.6439 LOG(X2) 0.403372 0.289219 1.394693 0.1906 X3 0.118107 0.032786 3.602328 0.0042 R-squared 0.992527 Mean dependent var 9.949171 Adjusted R-squared 0.990489 S.D. dependent var 0.566287 S.E. of regression 0.055226 Akaike info criterion -2.731582 Sum squared resid 0.033549 Schwarz criterion -2.542769 Log likelihood 24.48686 Hannan-Quinn criter. -2.733593 F-statistic 487.0038 Durbin-Watson stat 1.496272 Prob(F-statistic) 0.000000 Bảng 6.7. Hồi quy GNP theo lao động, vốn và biến xu hướng Chú ý: Thực ra trong bảng kiểm định bỏ sót biến đã có kết quả hồi quy có bổ sung biến này ở phần cuối của bảng. Nhận xét: Qua các kết quả trên, nhận thấy rằng: - Giá trị của các hệ số hồi quy thay đổi đáng kể khi sử dụng các mô hình khác nhau. Hệ số hồi quy trong mô hình tuyến tính log đóng vai trò là hệ số co giãn. Theo đó trong mô hình 2 biến, hệ số co giãn biểu thị cho tác động của lượng lao động đối với GNP nhận được ước lượng khoảng 1,257%, tuy nhiên trong mô hình 3 biến thì tác động của lượng lao động đối với GNP chỉ nhận được ước lượng khoảng 0.714%. Điều này cho thấy hậu quả của việc bỏ sót biến quan trọng đã làm cho ta ước lượng quá cao tác động của các biến có trong mô hình.
Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng - Việc biến xu hướng có mặt trong mô hình đã làm thay đổi dấu của hệ số hồi quy, trái với tác động đồng biến như đã phân tích trong lý thuyết kinh tế giữa Y và X1. Trong khi đó hệ số xác định của mô hình này rất cao. Điều này khiến ta nghi ngờ có hiện tượng đa cộng tuyến rất cao giữa các biến giải thích, tức là các biến này chịu tác động lớn của biến xu hướng. - Trong mô hình hồi quy ở bảng 6.7, ta tiến hành kiểm định giả thuyết: 0: ℎô푛 ó đ ộ푛 푡 ế푛 푡 표푛 ô ℎì푛ℎ. Hồi quy mô hình phụ của X3 theo log(X1) và log(X2), ta nhận được: Dependent Variable: X3 Method: Least Squares Included observations: 15 Variable Coefficient Std. Error t-Statistic Prob. C -108.2759 16.69252 -6.486493 0.0000 LOG(X1) 7.083379 0.954694 7.419528 0.0000 LOG(X2) 6.012380 1.863413 3.226542 0.0073 R-squared 0.989867 Mean dependent var 8.000000 Adjusted R-squared 0.988178 S.D. dependent var 4.472136 F-statistic 586.1090 Durbin-Watson stat 1.414549 Prob(F-statistic) 0.000000 Bảng 6.8. Kết quả hồi quy phụ của biến X3 theo log(X1) và log(X2) Từ đó nhận được: p-value (của F) ≈ 0.000000 nên ta bác bỏ giả thuyết 0, thừa nhận có đa cộng tuyến giữa các biến giải thích, với mức độ cao, vì giá trị 퐹 rất lớn: 1 1 퐹 = = ≈ 98.6875 1 − 푅2 1 − 0.989867 - Trong các mô hình 2, 3 biến, các hệ số hồi quy có các p – value rất bé, tức là có ý nghĩa thống kê. Tuy nhiên trong mô hình có biến xu hướng, các hệ số hồi quy lại không có ý nghĩa thống kê. Đó là do hậu quả của hiện tượng đa cộng tuyến cao giữa các biến X1 và X3, X2 và X3. - Nói về mức độ phù hợp của các mô hình: Trong các mô hình trên, do số biến giải thích không bằng nhau nên để đánh giá mức độ phù hợp của mô hình, ngoài hệ số xác định, ta còn phải dựa vào hệ số xác định điều chỉnh 푅̅2. Mặc dù có 푅̅2 cao nhất nhưng mô hình có biến xu hướng sẽ không được chọn vì có hiện tượng đa cộng tuyến nghiêm trọng (dấu của hệ số hồi quy của X1 sai, hệ số hồi quy của X1, X2 không có ý nghĩa thống kê, dạng của mô hình không phù hợp với cơ sở lý thuyết, hệ số 푅̅2 không vượt quá nhiều so với các mô hình khác). Nếu dựa vào tiêu chuẩn log – likelihood hay AIC hoặc Schwarz thì mô hình có biến xu hướng có kết quả tốt hơn, nhưng kết quả này lại không đáng tin cậy do ảnh hưởng của đa cộng tuyến cao trong mô hình. Mô hình 3 biến sẽ là sự lựa chọn thích hợp, vì nó phù hợp với cơ sở lý thuyết, các hệ số hồi quy đều có ý nghĩa th.kê, 푅̅2 = 0.983712, còn mô hình 2 biến do bỏ sót biến quan trọng nên có ước lượng về ảnh hưởng của biến giải thích quá cao.
Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng Sau khi đã lựa chọn được mô hình thích hợp là mô hình 3 biến, ta tiến hành kiểm định các vấn đề đa cộng tuyến, phương sai thay đổi và tự tương quan cho mô hình này. * Kiểm định về đa cộng tuyến: Sử dụng hồi quy phụ log(X1) theo log(X2): Kiểm định giả thuyết: 0: không có đa cộng tuyến: Dependent Variable: LOG(X1) Method: Least Squares Variable Coefficient Std. Error t-Statistic Prob. C -15.94080 1.992390 -8.000841 0.0000 LOG(X2) 1.857120 0.166594 11.14755 0.0000 R-squared 0.905295 Mean dependent var 6.265758 Prob(F-statistic) 0.000000 Bảng 6.9. Hồi quy phụ log(X1) theo log(X2) 2 Từ kết quả hồi quy phụ (R = 0.905295, Prob(F-statistic) ≈ 0.000000) ta bác bỏ 0, tức 1 là có đa cộng tuyến giữa log(X1) và log(X2), tuy nhiên 퐹 = ≈ 10.5591 nên đa 1−푅2 cộng tuyến ở đây không nghiêm trọng như trong mô hình bốn biến. * Kiểm định phương sai thay đổi: Sử dụng kiểm định White (có số hạng tích chéo), nhận được: Heteroskedasticity Test: White F-statistic 1.823062 Prob. F(4,10) 0.2010 Obs*R-squared 6.325594 Prob. Chi-Square(4) 0.1761 Scaled explained SS 2.356287 Prob. Chi-Square(4) 0.6705 Bảng 6.10. Kiểm định phương sai thay đổi cho mô hình 3 biến Kết quả kiểm định (p-value = 0.1761 > 0.05) cho thấy không có hiện tượng phương sai thay đổi trong mô hình ba biến. * Kiểm định Breusch-Pagan-Godfrey: Heteroskedasticity Test: Breusch-Pagan-Godfrey F-statistic 2.070338 Prob. F(2,12) 0.1689 Obs*R-squared 3.848050 Prob. Chi-Square(2) 0.1460 Scaled explained SS 1.433401 Prob. Chi-Square(2) 0.4884 Bảng 6.11. Kiểm định Breusch-Pagan-Godfrey cho cùng kết luận: không có hiện tượng phương sai thay đổi trong mô hình ba biến (vì p- value = 0.1460 > 0.05)
Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng * Kiểm định tự tương quan: sử dụng kiểm định BG: - Với lags = 1, ta nhận được: Breusch-Godfrey Serial Correlation LM Test: F-statistic 0.463262 Prob. F(1,11) 0.5102 Obs*R-squared 0.606191 Prob. Chi-Square(1) 0.4362 Bảng 6.12. Kiểm định BG với tự tương quan bậc 1 -Với lags = 2, ta nhận được: Breusch-Godfrey Serial Correlation LM Test: F-statistic 1.935312 Prob. F(2,10) 0.1948 Obs*R-squared 4.185779 Prob. Chi-Square(2) 0.1233 Bảng 6.13. Kiểm định BG với tự tương quan bậc 2 - Với lags = 3, ta nhận được: Breusch-Godfrey Serial Correlation LM Test: F-statistic 1.161208 Prob. F(3,9) 0.3769 Obs*R-squared 4.185831 Prob. Chi-Square(3) 0.2421 Bảng 6.13. Kiểm định BG với tự tương quan bậc 3 Các kết quả kiểm định đều cho kết luận như nhau là chấp nhận giả thiết 0 (Prob. F > 0.05; Prob. Chi-Square > 0.05), tức là không có tự tương quan trong mô hình 3 biến. Vậy việc chọn mô hình ba biến là thích hợp nhất. Ví dụ 6.2: Lượng hàng bán được Y(kg/tháng) của mặt hàng A, giá bán X1 của mặt hàng A, giá bán X2 của mặt hàng B, qua điều tra ở các khu vực nông thôn và thành phố, thu được số liệu sau đây, trong đó: Z = 1, nếu khu vực bán là thành phố, Z = 0, nếu khu vực bán là nông thôn: Y X1 X2 Z Y X1 X2 Z 14 5 14 0 15 5 12 1 14 6 15 1 15 5 13 1 13 6 13 0 16 4 17 1 12 7 14 1 16 4 10 0 12 7 12 0 17 3 16 1 15 5 16 1 17 4 11 1 16 4 15 0 18 4 16 0 12 7 18 1 18 3 15 1 10 8 16 0 19 3 13 0 11 8 20 1 20 2 14 1 Bảng 6.14
Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng * Hồi quy Y theo X1, X2, Z theo mô hình: 푌 = 0 + 1 1 + 2 2 + 3. 푍 + 푈, ta có bảng kết quả: Dependent Variable: Y Method: Least Squares Variable Coefficient Std. Error t-Statistic Prob. C 22.39719 0.962214 23.27674 0.0000 X1 -1.541265 0.095086 -16.20923 0.0000 X2 0.018480 0.072000 0.256667 0.8007 Z 0.068620 0.329596 0.208193 0.8377 R-squared 0.948921 Mean dependent var 15.00000 Bảng 6.15 Từ bảng trên, nhận thấy hệ số hồi quy ước lượng của X2 và Z khác không không có ý nghĩa. Để có cơ sở kết luận có nên để lại hai biến X2 và Z trong mô hình hay không, ta thực hiện kiểm định giả thuyết: 0: 2 = 3 = 0. - Sử dụng kiểm định Wald, Eviews cho ta kết quả: Wald Test: Equation: EQ01 Test Statistic Value df Probability F-statistic 0.082219 (2, 16) 0.9215 Chi-square 0.164439 2 0.9211 Null Hypothesis: C(3)=C(4)=0 Null Hypothesis Summary: Normalized Restriction (= 0) Value Std. Err. C(3) 0.018480 0.072000 C(4) 0.068620 0.329596 Restrictions are linear in coefficients. Bảng 6.16 Theo đó thống kê F có: p – value = 0,9215 > 0,05, nên ta chấp nhận giả thuyết H0, và cho rằng: cả hai biến: X2 và Z đều không cần thiết đưa vào mô hình. - Sử dụng kiểm định tỷ số hợp lý, Eviews cho kết quả:
Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng Redundant Variables Test Equation: EQ01 Specification: Y C X1 X2 Z Redundant Variables: X2 Z Value df Probability F-statistic 0.082219 (2, 16) 0.9215 Likelihood ratio 0.204499 2 0.9028 F-test summary: Mean Sum of Sq. df Squares Test SSR 0.075595 2 0.037797 Restricted SSR 7.431034 18 0.412835 Unrestricted SSR 7.355440 16 0.459715 Unrestricted SSR 7.355440 16 0.459715 LR test summary: Value df Restricted LogL -18.47810 18 Unrestricted LogL -18.37585 16 Restricted Test Equation: Dependent Variable: Y Method: Least Squares Date: 08/16/13 Time: 22:48 Sample: 1 20 Included observations: 20 Variable Coefficient Std. Error t-Statistic Prob. C 22.67241 0.445632 50.87697 0.0000 X1 -1.534483 0.084367 -18.18811 0.0000 R-squared 0.948396 Mean dependent var 15.00000 Adjusted R-squared 0.945529 S.D. dependent var 2.752989 S.E. of regression 0.642523 Akaike info criterion 2.047810 Sum squared resid 7.431034 Schwarz criterion 2.147383 Log likelihood -18.47810 Hannan-Quinn criter. 2.067248 F-statistic 330.8074 Durbin-Watson stat 1.808905 Prob(F-statistic) 0.000000 Bảng 6.17 Theo đó, p – value các thống kê F và tỷ số hợp lý đều lớn hơn 0,05 nên ta chấp nhận giả thuyết H0, và cho rằng: cả hai biến: X2 và Z đều không cần thiết đưa vào mô hình. Lưu ý: Trong kiểm định Likelihood ratio, nửa cuối bảng kết quả, Eviews đã cung cấp cả kết quả hồi quy sau khi đã loại các biến không cần thiết.
Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng 6.3. Ứng dụng hồi quy trong phân tích, dự báo. Trong mục này, ta đề cập đến vấn đề dự báo thông qua mô hình kinh tế lượng. Như đã chỉ ra, mối quan hệ giữa biến phụ thuộc và các biến giải thích là quan hệ phụ thuộc thống kê: Ứng với mỗi giá trị của biến giải thích, có thể có nhiều giá trị của biến phụ thuộc mà người ta gọi là những giá trị cá biệt. Tuy nhiên trong thực tế, người ta thường quan tâm đến giá trị trung bình của những giá trị cá biệt, đó chính là giá trị trung bình có điều kiện của biến phụ thuộc với điều kiện cho trước giá trị của biến giải thích. Trong phần này ta sẽ đề cập hai loại dự báo: Dự báo giá trị cá biệt và dự báo giá trị trung bình, với hai phương pháp: dự báo điểm và dự báo khoảng (hay ước lượng điểm và ước lượng khoảng tin cậy). 6.3.1. Dự báo với mô hình hai biến Giả sử mô hình hồi quy hai biến sau đây đã được xác định là phù hợp tốt: (푌| ) = + . ̂ ̂ 푃푅퐹: { ; 푆푅퐹: { 푌 = ̂ + . 푌 = + . + 푈 푌 = ̂ + ̂. + 푈̂ Bây giờ ta sử dụng mô hình này để dự báo giá trị trung bình có điều kiện (푌| ) và giá trị cá biệt của 푌 khi cho biến giải thích nhận giá trị 0. 6.3.1.1. Dự báo điểm (Point Prediction) Trước hết cần lưu ý rằng: các hệ số hồi quy ước lượng ̂, ̂ phụ thuộc vào mẫu nên chúng là các đại lượng ngẫu nhiên mà ứng với một mẫu cụ thể chúng có giá trị xác định. Vì thế khi thay = 0 vào SRF, ta nhận được: ̂ 푌̂0 = ̂ + . 0 là một đại lượng ngẫu nhiên (do ̂, ̂ là các đại lượng ngẫu nhiên). Theo định lý Gauss – Markov, 푌̂0 là ước lượng tuyến tính không chệch tốt nhất của (푌| = 0). Vì vậy ta dùng 푌̂0 để ước lượng điểm cho cả giá trị trung bình và giá trị cá biệt của biến phụ thuộc 푌 0. Cũng cần lưu ý rằng 푌 0 là những giá trị của biến phụ thuộc Y ứng với = 0 (Quan hệ giữa Y và X là quan hệ phụ thuộc thống kê), vậy nên 푌 0 cũng là một biến ngẫu nhiên mà kỳ vọng (푌 0) = (푌| = 0). 6.3.1.2. Dự báo khoảng (Interval Prediction) 2 ̂ Với điều kiện nhiễu 푈~ (0; 휎 ) thì 푌̂0 = ̂ + . 0 có phân phối chuẩn, với: Kỳ vọng: ̂ 푌̂0 = ( ̂ + . 0) = + . 0 = (푌| = 0) và phương sai: 1 ( − ̅)2 푣 (푌̂ ) = 휎2. { + 0 } (6.12) 0 푛 푛푆2( ) Người ta chỉ ra được rằng :
Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng 푌̂ − (푌| = ) 푡 = 0 0 푠푒(푌̂0) là biến ngẫu nhiên có phân phối Student với (n – 2) bậc tự do a. Dự báo khoảng cho giá trị trung bình 푬(풀|푿 = 풙 ): Với độ tin cậy 훾 = 1 − 훼, khoảng tin cậy cho giá trị trung bình (푌| = 0) là: 훼 훼 (푌̂ − 푡 ( ) . 푠푒̂(푌̂ ); 푌̂ + 푡 ( ) . 푠푒̂(푌̂ )) (6.13) 0 푛−2 2 0 0 푛−2 2 0 b. Dự báo khoảng cho giá trị cá biệt 풀풙 : ̂ ̂ ̂ Khi dùng 푌0 để dự báo cho 푌 0 thì sai số dự báo là: 푈0 = 푌 0 − 푌0 là một đại lượng ngẫu nhiên. Người ta chỉ ra được rằng: 2 푣 (푈̂0) = 푣 (푌̂0) + 휎 , 푈̂ và đại lượng: 푡 = 0 có phân phối Student với (n – 2) bậc tự do. 푠푒(푈̂0) Vì thế: Với độ tin cậy 훾 = 1 − 훼, khoảng tin cậy cho giá trị cá biệt của biến phụ thuộc là: 훼 훼 (푌̂ − 푡 ( ) . 푠푒̂(푈̂ ); 푌̂ + 푡 ( ) . 푠푒̂(푈̂ )) (6.14) 0 푛−2 2 0 0 푛−2 2 0 2 Nhận xét: Do: 푣 (푈̂0) = 푣 (푌̂0) + 휎 > 푣 (푌̂0), nên khoảng tin cậy cho giá trị cá biệt sẽ rộng hơn và bao hàm cả khoảng dự báo cho giá trị trung bình. Chú ý: Để tiến hành dự báo, ta có thể chạy trên phần mềm Eviews để nhận được kết quả. Tuy nhiên, nếu trường hợp không chạy trên Eviews hay các phần mềm khác, ta tiến hành tính toán trực tiếp như sau: - Với mô hình SRF đã có, thay ≔ 0, 푡ì đượ ự á표 đ푖ể 푌̂0. - Tính giá trị: 1 ( − ̅)2 푠푒̂(푌̂ ) = √푣 ̂ (푌̂ ) = 휎̂. √ + 0 (6.15) 0 0 푛 푛푆2( ) 2 푠푒̂(푈̂0) = √푣 ̂ (푈̂0) = √푣 ̂ (푌̂0) + 휎̂ (6.16) 훼 - Tra bảng tìm 푡 ( ) 푛−2 2 - Suy ra khoảng tin cậy cần tìm. Ví dụ 6.3: Y là GDP bình quân của Việt Nam từ 1998 – 2006 có số liệu như sau: Năm 1998 1999 2000 2001 2002 2003 2004 2005 2006 Y 360 374 401 413 440 489 553 618 655 a/ Thiết lập SRF ước lượng cho mô hình: 푌 = + + 푈
Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng trong đó T là biến xu thế (T = 1, ứng với năm 1998, T = 2, ứng với năm 1999, , T = 9, ứng với năm 2006) b/ Sử dụng mô hình được thiết lập để: - Dự báo GDP cho năm 2007. - Dự báo khoảng cho giá trị cá biệt và cho giá trị trung bình của GDP năm 2007 với độ tin cậy 95%. Giải: ▪ Nếu không sử dụng Eviews, tính trực tiếp, ta có: ̂ = 38,2; ̂ = 287,1111; 푅푆푆 = 5458,489; 휎̂ = 27,92462; 푅2 = 0,941315; ̅ = 5; 푆2( ) = 6,66667 a/ SRF nhận được: 푌̂ = 287,1111 + 38,2. b/ Thay T = 10, tính được: b1- Dự báo GDP cho năm 2007 là: 푌̂0 = 287,1111 + 38,2 ∗ 10 = 669,1111 b2- Tính: 1 ( − ̅)2 푠푒̂(푌̂ ) = √푣 ̂ (푌̂ ) = 휎̂. √ + 0 = 90,60570; 0 0 푛 푛푆2( ) 2 푠푒̂(푈̂0) = √푣 ̂ (푌̂0) + 휎̂ = 94,81127 훼 - Với độ tin cậy: 훾 = 1 − 훼 = 0,95; 훼 = 0,05; 푡 ( ) = 푡 (0,025) = 2,365 푛−2 2 7 - Suy ra khoảng dự báo cho giá trị trung bình của GDP năm 2007 là: 훼 훼 (푌̂ − 푡 ( ) . 푠푒̂(푌̂ ); 푌̂ + 푡 ( ) . 푠푒̂(푌̂ )) = (454,82862; 883,33936) 0 푛−2 2 0 0 푛−2 2 0 - Suy ra khoảng dự báo cho giá trị cá biệt của GDP năm 2007 là: 훼 훼 (푌̂ − 푡 ( ) . 푠푒̂(푈̂ ); 푌̂ + 푡 ( ) . 푠푒̂(푈̂ )) = (444,88245; 893,33975) 0 푛−2 2 0 0 푛−2 2 0 6.3.2. Dự báo với mô hình nhiều biến Xét mô hình hồi quy nhiều biến (k biến) dạng ma trận: PRF ngẫu nhiên : 풴 = 풳. + 풰 ; SRF ngẫu nhiên : 풴 = 풳. ̂ + 풰̂ 6.3.2.1. Dự báo điểm: Cho các biến giải thích X = (X1, X2, , Xk-1) nhận giá trị: (X10, X20, , Xk-1,0), 0 ký hiệu: = (1, 10, 20, , ( −1),0) , khi đó dựa vào SRF, ta nhận được: 0 푌̂0 = ( ) . ̂ (6.17) là ước lượng điểm tuyến tính, không chệch tốt nhất cho giá trị trung bình có điều kiện: 0 0 (푌| = ) và cho các giá trị cá biệt 푌 0 (là các giá trị của Y ứng với = ). 푌̂0 là dự báo điểm. 6.3.2.2. Dự báo khoảng: Tương tự như trong mô hình hai biến, với độ tin cậy 훾 = 1 − 훼, ta có:
Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng a. Dự báo khoảng cho giá trị trung bình 푬(풀|푿 = 푿 ): 훼 훼 (푌̂ − 푡 ( ) . 푠푒̂(푌̂ ); 푌̂ + 푡 ( ) . 푠푒̂(푌̂ )) (6.18) 0 푛− 2 0 0 푛− 2 0 2 0 −1 0 (Trong đó: 푠푒̂(푌̂0) = √푣 ̂ (푌̂0) = √휎̂ . ( ) . (풳 . 풳) . ) b. Dự báo khoảng cho các giá trị cá biệt 풀푿 : 훼 훼 (푌̂ − 푡 ( ) . 푠푒̂(푈̂ ); 푌̂ + 푡 ( ) . 푠푒̂(푈̂ )) (6.19) 0 푛− 2 0 0 푛− 2 0 2 0 −1 0 (Trong đó: 푠푒̂(푈̂0) = √푣 ̂ (푈̂0) = √휎̂ . [( ) . (풳 . 풳) . + 1] ) Chú ý: Để tìm các khoảng dự báo (6.18), (6.19), nói chung ta phải chạy trên phần mềm ứng dụng, như Eviews. Nếu tính trực tiếp có sự kết hợp với bảng hồi quy, ta cần phải tính toán khá phức tạp, trong đó cần tìm ma trận nghịch đảo: (풳 . 풳)−1(với mô hình gồm k biến thì 풳 . 풳 là nhân 2 ma trận vuông cấp k). 6.3.3. Đánh giá độ chính xác của dự báo 6.3.3.1. Mẫu khởi động và mẫu kiểm tra: Một mô hình tốt phải là một mô hình có khả năng dự báo với độ chính xác cao. Để đánh giá mức độ chính xác về dự báo của mô hình đòi hỏi phải có các số liệu theo hai hướng: hoặc đưa thêm số liệu mới qua điều tra điều tra bổ sung để làm mẫu kiểm tra; hoặc phân chia mẫu hiện có thành hai mẫu con, mẫu con thứ nhất dùng để ước lượng mô hình hồi quy – gọi là mẫu khởi động (initialization set), mẫu con thứ hai – gọi là mẫu kiểm tra (test set), dùng để kiểm tra độ chính xác của các giá trị dự báo từ mô hình hồi quy có được nhờ mẫu khởi động. Việc tách mẫu phải đảm bảo: một mặt không làm thay đổi nhiều đến kết quả hồi quy dựa trên mẫu khởi động, mặt khác có đủ số quan sát cho mẫu kiểm tra để đánh giá được khả năng dự báo của mô hình. 6.3.3.2. Tiêu chuẩn đánh giá mức độ chính xác của dự báo Giả sử mẫu kiểm tra có kích thước m. Kí hiệu: 푌푖: là giá trị quan sát của biến phụ thuộc Y 푌̂푖: là giá trị dự báo điểm của mô hình hồi quy 푈̂푖 = 푌푖 − 푌̂푖: là sai số của dự báo Việc đánh giá khả năng dự báo của mô hình phải dựa trên các sai số dự báo trong mẫu kiểm tra chứ không phải trên mẫu khởi động (vì khi xây dựng mô hình ước lượng SRF, phương pháp OLS đã cực tiểu tổng bình phương các phần dư trong mẫu khởi động). Điều đáng quan tâm là kết quả ước lượng còn phù hợp với các quan sát ngoài mẫu khởi động hay không? Người ta đưa ra các tiêu chuẩn đo lường thống kê sau đây:
Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng 1 • 푴푬 = . ∑ 푈̂ : Sai số trung bình (mean error): Cho biết có hay không khuynh hướng 푖=1 푖 dự báo thấp hơn ( > 0) hay cao hơn (
Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng 2(1−푅푌̂푌).푆푌̂.푆푌 • Tỷ lệ hiệp phương sai: 1 (Covariance Proportion): ∑ (푌̂ −푌 )2 푖=1 푖 푖 Đánh giá sự khác biệt về mức độ biến thiên của các giá trị dự báo so với mức độ biến thiên của các giá trị thực tế quan sát. ̅ ∑(푌̂푖−푌̂)(푌푖−푌̅) (푅 ̂ = : là hệ số tương quan giữa các giá trị dự báo và các giá trị 푌푌 2 √ ̂ ̂̅ ̅ 2 ∑푖=1(푌푖−푌) .∑푖=1(푌푖−푌) thực tế trong mẫu kiểm tra) Chú ý: 1. Có thể chỉ ra hệ thức: 1 2 2 ∑(푌̂ − 푌 ) = (푌̅̂ − 푌̅) + (푆 − 푆 )2 + 2(1 − 푅 ). 푆 . 푆 푖 푖 푌̂ 푌 푌̂푌 푌̂ 푌 푖=1 Hệ thức trên cho thấy: Tỷ lệ chệch + Tỷ lệ phương sai + Tỷ lệ hiệp phương sai = 1 Do đó nếu dự báo là tốt thì tỷ lệ chệch và tỷ lệ phương sai có xu hướng nhỏ, nên phần lớn sai số trong dự báo sẽ nằm trong tỷ lệ hiệp phương sai là phần đo lường thể hiện tính chất không có quy luật (không hệ thống). 2. Việc phân tích độc lập các giá trị của các chỉ số: ME, MAE, MSE, RMSE ít có ý nghĩa. Người ta thường dùng các chỉ số này để đối chiếu, so sánh giữa các mô hình hồi quy có cùng dạng biến phụ thuộc và cùng cỡ mẫu. Các chỉ số: PE, M푃 , , Tỷ lệ chệch, Tỷ lệ phương sai, Tỷ lệ hiệp phương sai có thể được sử dụng để phân tích, đánh giá khả năng dự báo của một mô hình. Để lựa chọn được mô hình có khả năng dự báo tốt nhất, người ta có thể so sánh các tiêu chuẩn đo lường thống kê giữa các mô hình hồi quy. 3. Nếu mục đích dự báo là để kiểm tra khả năng dự báo của mô hình thì giá trị của các biến giải thích được sử dụng để dự báo được lấy từ trong mẫu kiểm tra. Ứng dụng của phân tích hồi quy là sử dụng mô hình hồi quy để dự báo cho biến phụ thuộc – dự báo ngoài phạm vi mẫu phân tích. Sau khi dự báo trong mẫu nhằm đánh giá khả năng dự báo chính xác của mô hình, thì mô hình hồi quy có thể được sử dụng để dự báo ngoài mẫu. Đối với dự báo ngoài mẫu, người ta thường tiến hành dự báo khoảng. Sai số của dự báo sẽ càng nhỏ nếu giá trị của biến giải thích dùng để dự báo nằm trong khoảng biến thiên của mẫu và càng gần với giá trị trung bình mẫu. Ví dụ 6.4: Số liệu về doanh thu Y, chi phí quảng cáo X1, tiền lương của nhân viên tiếp thị X2, của một số nhân viên được cho trong bảng dưới đây. Yêu cầu: a. Chạy hồi quy SRF tuyến tính của Y theo X1, X2. b. Dùng mô hình SRF nhận được ở a/ để tìm khoảng dự báo giá trị trung bình và giá trị cá