Giáo trình Các phương pháp định lượng II - Chương 10: Vấn đề đa cộng tuyến và cỡ mẫu nhỏ

pdf 38 trang Gia Huy 3650
Bạn đang xem 20 trang mẫu của tài liệu "Giáo trình Các phương pháp định lượng II - Chương 10: Vấn đề đa cộng tuyến và cỡ mẫu nhỏ", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfgiao_trinh_cac_phuong_phap_dinh_luong_ii_chuong_10_van_de_da.pdf

Nội dung text: Giáo trình Các phương pháp định lượng II - Chương 10: Vấn đề đa cộng tuyến và cỡ mẫu nhỏ

  1. Chương trình Giảng dạy Kinh tế Fulbright Các phương pháp định lượng II Kinh tế lượng cơ sở - 3rd ed. Bài đọc Ch.10: Vấn đề đa cộng tuyến và cỡ mẫu nhỏ CHƯƠNG 10 VẤN ĐỀ ĐA CỘNG TUYẾN VÀ CỠ MẪU NHỎ 1 Khơng cĩ cụm từ nào được lạm dụng, cả trong sách kinh tế lượng lẫn trong tài liệu ứng dụng nhiều như cụm từ “ vấn đề đa cộng tuyến.” Sự thật là trong cuộc sống, chúng ta cĩ những biến giải thích cĩ tính cộng tuyến cao. Và hồn tồn rõ ràng là cĩ những thiết kế mang tính thực nghiệm X’X [nghĩa la, ma trận dữ liệu ] thường được ưa chuộng hơn là nhiều thiết kế thực nghiệm tự nhiên đem lại cho chúng ta [đĩ là mẫu cụ thể]. Nhưng một phàn nàn về bản chất chưa tốt; cĩ thể thấy rõ ràng của tự nhiên thì khơng hề mang tính gĩp ý xây dựng, và các phương cách đặc biệt cho một thiết kế khơng tốt, như hồi qui theo từng bước (stepwise regression) hoặc hồi qui dạng sĩng (ridge regression), cĩ thể hồn tồn khơng thích hợp. Tốt hơn, chúng ta nên chấp nhận ngay sự việc phi thực nghiệm của chúng ta [nghĩa là, dữ liệu khơng được thu thập bằng những thực nghiệm đã được thiết kế] đơi khi khơng cĩ nhiều thơng tin về thơng số mà ta quan tâm. 2 Giả thiết 10 của mơ hình hồi qui tuyến tính cổ điển (CLRM) là: khơng cĩ quan hệ đa cộng tuyến giữa các biến hồi qui trong mơ hình hồi qui. Giả thiết 7, số lần quan sát phải lớn hơn số biến hồi qui độc lập (vấn đề cỡ mẫu nhỏ), và Giả thiết 8, phải cĩ đủ các trạng thái biến đổi trong giá trị của một biến hồi qui độc lập. Tất cả các giả thiết trên bổ sung cho giả thiết đa cộng tuyến. Trong chương này, chúng ta quan tâm đặc biệt đến giả thiết phi đa cộng tuyến bằng cách trả lời các câu hỏi sau: 1. Bản chất của đa cộng tuyến là gì? 2. Đa cộng tuyến cĩ thật sự là một vấn đề cần phải xem xét hay khơng? 3. Đâu là những kết quả ứng dụng của vấn đề này? 1 Thuật ngữ micronumerosity là do Arthur S. Goldberger và cĩ nghĩa là “cỡ mẫu nhỏ.” Xem cuốn A Course in Economics, Harvard University Press, Cambridge, Mass., 1991, trang 249. 2 Edward E. Leamer, “ Model Choice and Specification Analysis,” (Chọn mơ hình và phân tích đặc trưng) trong Zvi Griliches và Michael D. Intriligator, Handbook of Econometrics, (Sổ tay kinh tế lượng), số I, North Holland Publishing Company, Amsterdam, 1983, trang 300-301. Damodar N. Gujarati 1 Biên dịch: Thục Đoan Hiệu đính: Hào Thi
  2. Chương trình Giảng dạy Kinh tế Fulbright Các phương pháp định lượng II Kinh tế lượng cơ sở - 3rd ed. Bài đọc Ch.10: Vấn đề đa cộng tuyến và cỡ mẫu nhỏ 4. Bằng cách nào để nhận ra vấn đề đa cộng tuyến? 5. Sử dụng các biện pháp giải quyết gì để làm giảm bớt các vấn đề của đa cộng tuyến? Chúng ta cũng sẽ xét xem Giả thiết 7 và 8 thích hợp với giả thiết phi đa cộng tuyến như thế nào. 10.1 BẢN CHẤT CỦA ĐA CỘNG TUYẾN Thuật ngữ đa cộng tuyến do Ragnar Frisch đề nghị.3 Khởi đầu nĩ cĩ nghĩa là sự tồn tại mối quan hệ tuyến tính “hồn hảo” hoặc chính xác giữa một số hoặc tất cả các biến giải thích trong một mơ 4 hình hồi qui. Đối với hồi qui k biến liên quan đến các biến X1, X2, , Xk (với X1 = 1 đối với mọi quan sát kể cả số hạng tung độ gốc), một quan hệ tuyến tính chính xác được cho là tồn tại khi thỏa điều kiện sau: 1X1 + 2X2 + + kXk = 0 (10.1.1) 5 trong đĩ 1, 2, , k là các hằng số và khơng đồng thời bằng 0. Tuy nhiên, ngày nay, thuật ngữ đa cộng tuyến được dùng với nghĩa rộng hơn, bao gồm trường hợp đa cộng tuyến hồn hảo như (10.1.1) cũng như trường hợp các biến X cĩ tương quan với nhau nhưng khơng hồn hảo như dưới đây:6 1X1 + 2X2 + + kXk + i = 0 (10.1.2) với i là số hạng sai số ngẫu nhiên. Để thấy được sự khác biệt giữa đa cộng tuyến hồn hảo và chưa được hồn hảo, giả thiết, ví dụ, 2 0. Lúc đĩ (10.1.1) cĩ thể viết lại như sau: 1 3 k X2i = - X1i - X3i - - Xki (10.1.3) 2 2 2 cho thấy X2 tương quan tuyến tính một cách chính xác với các biến khác như thế nào hoặc cĩ thể tìm được X2 từ một tổ hợp tuyến tính của các biến khác như thế nào. Trong trường hợp này, hệ số 3 Ragnar Frisch, Statistical Confluence Analysis by Means of Complete Regression Systems,(Phân tích sự hợp nhất thống kê bằng phương tiện của các hệ thống hồi qui tồn phần), Institute of Economics, Olso University, xuất bản lần 5, 1934. 4 Nghiêm khắc mà nĩi thì đa cộng tuyến đề cập đến sự tồn tại của nhiều hơn một mối quan hệ tuyến tính chính xác, và cộng tuyến là nĩi đến sự tồn tại duy nhất một mối quan hệ tuyến tính. Nhưng sự phân biệt này hiếm khi tồn tại trong thực tế, và đa cộng tuyến được dùng cho cả hai trường hợp. 5 Các dịp để cĩ được một mẫu các giá trị trong đĩ các biến hồi qui độc lập liên quan đến mơ hình này trong thực tế thật sự rất nhỏ trừ khi thiết kế, ví dụ khi số lần quan sát bé hơn số biến hồi qui độc lập hoặc khi “cĩ biến giả” như trình bày trong chương 15. Xem bài tập 10.2. 6 Nếu chỉ cĩ hai biến giải thích, tương quan giữa các biến cĩ thể được đánh giá bằng bậc khơng (zero-order) hoặc hệ số tương quan đơn. Nhưng nếu cĩ hơn hai biến X, tương quan giữa các biến cĩ thể được đánh giá bằng các hệ số tương quan riêng phần hoặc bằng hệ số tương quan đa biến R của một biến X với tất cả các biến X khác. Damodar N. Gujarati 2 Bin dịch: Thục Đoan Hiệu đính: Hào thi
  3. Chương trình Giảng dạy Kinh tế Fulbright Các phương pháp định lượng II Kinh tế lượng cơ sở - 3rd ed. Bài đọc Ch.10: Vấn đề đa cộng tuyến và cỡ mẫu nhỏ tương quan giữa biến X2 và tổ hợp tuyến tính ở vế bên phải của phương trình (10.1.3) chắc chắn là 1 đơn vị. Tương tự, nếu 2 0, cơng thức (10.1.2) cĩ thể viết như sau: 1 3 k 1 X2i = - X1i - X3i - - Xki - i (10.1.3) 2 2 2 2 cho thấy X2 khơng phải là một tổ hợp tuyến tính chính xác của các biến X khác vì nĩ cũng cịn được xác định bởi số hạng sai số ngẫu nhiên i. Để cĩ một ví dụ số cụ thể, hãy xem dữ liệu cĩ tính giả thuyết sau: * X2 X3 X3 10 50 52 15 75 75 18 90 97 24 120 129 30 150 152 Cĩ thể thấy rõ ràng là là X3i = 5X2i. Vì vậy, cĩ sự cộng tuyến hồn hảo giữa X2 và X3 bởi vì hệ số * tương quan r23 là 1 đơn vị. Biến X3 được tạo thành từ X3 đơn giản bằng cách cộng thêm các số sau, những số này được lấy từ bảng số ngẫu nhiên: 2, 0, 7, 9, 2. Bây giờ, khơng cịn cĩ sự cộng * tuyến hồn hảo giữa biến X2 và X3 . Tuy nhiên, hai biến này tương quan chặt bởi vì tính tốn cho thấy hệ số tương quan giữa chúng là 0.9959. Phương pháp đại số trước đây liên quan đến đa cộng tuyến cĩ thể được Ballentine mơ tả cơ đọng (nhớ lại hình 7.1). Trong hình này, các vịng trịn Y, X2 và X3 đại diện một cách tương ứng các biến đổi trong Y (biến độc lập) theo X2 và X3 (các biến giải thích). Mức độ cộng tuyến cĩ thể được đánh giá bằng độ rộng của phần chung (vùng tơ đen) của vịng trịn X2 và X3. Trong hình 10.1a, khơng cĩ phần chung giữa X2 và X3, và vì vậy khơng cĩ cộng tuyến. Trong các hình 10.1b - 10.1e, cĩ các mức độ từ “thấp đến “cao” của sự cộng tuyến phần chung giữa X2 và X3 càng rộng (phần tơ đen càng rộng), thì mức độ cộng tuyến càng cao. Ở trạng thái cực đoan, nếu X2 và X3 hồn tồn trùng nhau (hoặc nếu X2 hồn tồn ở trong X3, hay ngược lại), sự cộng tuyến là hồn hảo. Nhân đây, lưu ý rằng đa cộng tuyến, như chúng ta đã định nghĩa, chỉ đề cập đến các quan hệ tuyến tính giữa các biến X. Nĩ khơng bỏ qua các quan hệ phi tuyến giữa các biến X. Ví dụ, xem xét mơ hình hồi qui sau: 2 3 Yi = 0 + 1Xi + 2Xi + 3Xỉ + ui (10.1.5) 2 trong đĩ, Y = tổng chi phí sản xuất và X = sản lượng ra. Các biến Xi (sản lượng bình phương 3 ra) và Xi (sản lượng lập phương ra) rõ ràng cĩ quan hệ theo hàm số với Xi nhưng quan hệ này là phi tuyến. Chính xác thì những mơ hình như (10.1.5) khơng vi phạm đến các giả định về phi đa Damodar N. Gujarati 3 Bin dịch: Thục Đoan Hiệu đính: Hào thi
  4. Chương trình Giảng dạy Kinh tế Fulbright Các phương pháp định lượng II Kinh tế lượng cơ sở - 3rd ed. Bài đọc Ch.10: Vấn đề đa cộng tuyến và cỡ mẫu nhỏ cộng tuyến. Tuy nhiên, trong những ứng dụng cụ thể, hệ số tương quan được đo lường một cách 2 3 qui ước sẽ cho thấy Xi, Xi và Xi tương quan chặt, và tương quan này như chúng ta sẽ thấy, sẽ gây khĩ khăn cho việc ước lượng các thơng số của mơ hình (10.1.5) chính cao xác hơn (nghĩa là với sai số chuẩn hố hơn). Tại sao mơ hình hồi qui tuyến tính cổ điển giả định rằng khơng cĩ vấn đề đa cộng tuyến giữa các biến X? Lý do là: Nếu đa cộng tuyến hồn hảo theo (10.1.1), các hệ số hồi qui của các biến X là vơ định và các sai số chuẩn là khơng xác định. Nếu đa cộng tuyến chưa hồn hảo, như trong (10.1.2), các hệ số hồi qui, mặc dù là xác định nhưng lại cĩ sai số chuẩn (liên quan đến bản thân các hệ số) lớn, cĩ nghĩa là khơng thể ước lượng các hệ số này với độ chính xác cao. Các phát biểu này được chứng minh trong những phần sau đây. Y Y X3 X2 X2 X3 (a) Không có cộng tuyến (b) Cộng tuyến thấp Y Y Y X X X X3 X 3 X2 3 2 2 (c) Cộng tuyến trung bình (d) Cộng tuyến cao (e) Cộng tuyến cao Hình 10. 1 Quan điểm của Ballentine về đa cộng tuyến Cĩ nhiều nguồn tạo ra đa cộng tuyến. Theo Montgomery và Peck, đa cộng tuyến cĩ thể là do các nhân tố sau:7 1. Phương pháp thu thập dữ liệu sử dụng, ví dụ, lấy mẫu trong phạm vi các giá trị giới hạn các biến hồi qui độc lập trong tập hợp chính. 7 Douglas Montgomery và Elizabeth Peck, Introduction to Linear Regression Analysis (Nhập mơn phân tích hồi qui tuyến tính), John Wiley & Sons, New York, 1982, trang 289-290. Xem thêm R. L. Mason, R> L. Gunst và J. T. Webster, “Regression Analysis and Problem of Multicollinearity,” (Phân tích hồi qui và vấn đề đa cộng tuyến), Comunication in Statistics A, quyển 4, số 3, 1975, trang 277-292; R.F. Gunst, và R. L. Manson, “Advantages of Examining Multicollinearity in Regression Analysis,” (Các điều thuận lợi của việc khảo sát đa cộng tuyêén trong phân tích hồi qui), Biometrics, quyển 33, 1977, trang 249-260 Damodar N. Gujarati 4 Bin dịch: Thục Đoan Hiệu đính: Hào thi
  5. Chương trình Giảng dạy Kinh tế Fulbright Các phương pháp định lượng II Kinh tế lượng cơ sở - 3rd ed. Bài đọc Ch.10: Vấn đề đa cộng tuyến và cỡ mẫu nhỏ 2. Các ràng buộc về mơ hình hay về tổng thể được lấy mẫu. Ví dụ, trong mơ hình hồi qui của việc tiêu thụ điện theo thu nhập (X2) và kích thước nhà ở (X3) cĩ một ràng buộc cụ thể về tổng thể, trong đĩ các gia đình cĩ thu nhập cao hơn nĩi chung ở nhà rộng hơn các gia đình cĩ thu nhập thấp hơn. 3. Đặc trưng mơ hình, ví dụ, thêm những số hạng đa thức vào một mơ hình hồi qui, đặc biệt khi khoảng giá trị của biến X nhỏ. 4. Một mơ hình xác định quá mức. Là khi mơ hình này cĩ nhiều biến giải thích hơn số lần quan sát được. Trường hợp này thường xảy ra trong các nghiên cứu y học số bệnh nhân thì ít nhưng phải thu thập thơng tin về các bệnh nhân này trên một lượng lớn các biến. 10.2 ƯỚC LƯỢNG TRONG TRƯỜNG HỢP ĐA CỘNG TUYẾN HỒN HẢO Như đã đề cập, trong trường hợp đa cộng tuyến hồn hảo, các hệ số hồi qui vẫn là khơng xác định và các sai số chuẩn của chúng là vơ hạn. Hiện tượng này cĩ thể được giải thích dưới dạng mơ hình hồi qui ba biến. Sử dụng dạng độ lệch, trong đĩ tất cả các biến cĩ thể được diễn tả bằng độ lệch của chúng so với trung bình mẫu. Chúng ta cĩ thể viết mơ hình hồi qui ba biến như sau: ^ ^ ^ yi =  2x2i +  3x3i + u i (10.2.1) Bây giờ, theo chương 7 ta cĩ: 2 ^ (yix2i ) (x 3i ) - (yix3i ) (x2ix3i )  2 = 2 (7.4.7) 2 2 (x 2i ) (x 3i ) - (x2ix3i ) 2 ^ (yix3i ) (x 2i ) - (yix2i ) (x2ix3i )  3 = 2 (7.4.8) 2 2 (x 2i ) (x 3i ) - (x2ix3i ) Giả sử X3i = X2i, với  là một hằng số khác 0 (ví dụ, 2, 4, 1.8. ect.). Thay vào (7.4.7) ta cĩ 2 2 2 ^ (yix2i ) ( x 2i ) - (yix2i ) (x 2i ) 0  = 2 = (10.2.2) 2 2 2 2 2 0 (x 2i ) ( x 2i ) -  (x 2i ) ^ 8 Đây là một biểu thức khơng xác định. Người đọc cĩ thể kiểm tra lại là  3 cũng khơng xác định. 8 2 2 Một cách nhìn khác là: Theo định nghĩa, hệ số tương quan giữa biến X2 và X3 , r23 , là (x2ix3i ) / x 2i x 3i . 2 Nếu r 23 = 1, đĩ là cộng tuyến hồn hảo giữa X2 và X3 , mẫu số của (7.4.7) sẽ bằng 0, vì vậy khơng thể ước lượng 2 (hoặc 3) được. Damodar N. Gujarati 5 Bin dịch: Thục Đoan Hiệu đính: Hào thi
  6. Chương trình Giảng dạy Kinh tế Fulbright Các phương pháp định lượng II Kinh tế lượng cơ sở - 3rd ed. Bài đọc Ch.10: Vấn đề đa cộng tuyến và cỡ mẫu nhỏ ^ ^ Tại sao chúng ta cĩ được kết quả ở biểu thức (10.2.2)? Nhớ lại ý nghĩa của  2 : 2 chỉ mức độ thay đổi về giá trị trung bình của Y khi X2 thay đổi 1 đơn vị, với điều kiện X3 được giữ cố định. Nhưng nếu X3 và X2 cộng tuyến hồn hảo thì khơng cĩ cách nào để giữ cố định X3. Khi X2 thay đổi, thì X3 cũng thay đổi bởi nhân tố . Điều đĩ cĩ nghĩa là khơng cĩ cách nào tách riêng các ảnh hưởng của X2 và X3 từ mẫu cho trước. Đối với các mục đích thực tiễn, X2 và X3 là khơng thể phân biệt được. Trong kinh tế lượng ứng dụng, vấn đề này gây thiệt hại nhiều nhất vì chủ định là tách riêng hồn tồn các ảnh hưởng riêng phần của mỗi biến X lên biến phụ thuộc. Để thấy được sự khác biệt này, chúng ta hãy thay X3i = X2i vào biểu thức (10.2.1), chúng ta cĩ biểu thức sau [ xem thêm (7.1.10)]: ^ ^ ^ yi =  2 x2i +  3 (x2i) + u i ^ ^ ^ = ( 2 +  3 )x2i + u i ^ ^ = x2i + u i (10.2.3) ^ ^ ^ với = ( 2 +  3 ) (10.2.4) Sử dụng cơng thức thơng dụng OLS đối với (10.2.3) ta cĩ ^ ^ ^ x2iyi = ( 2 +  3 ) = 2 (10.2.5) x 2i Vì vậy, mặc dù chúng ta cĩ thể ước lượng được , nhưng khơng cĩ cách nào để ước lượng riêng 2 và 3; chính xác thì: ^ ^ ^ =  2 +  3 (10.2.6) cho chúng ta duy nhất một phương trình cĩ hai ẩn số (lưu ý  được cho trước) và cĩ vơ số nghiệm cho (10.2.6) ứng với các giá trị cho trước của ^ và  . Ví dụ với các số hạng cụ thể, ^ = 0.8 và  = 2. Ta cĩ ^ ^ 0.8 =  2 + 2 3 (10.2.7) hoặc ^ ^  2 = 0.8 - 2 3 (10.2.8) ^ ^ ^ Bây giờ chọn một giá trị  3 tùy ý, chúng ta sẽ cĩ lời giải cho  2 . Chọn một giá trị khác cho  3 , ^ chúng ta lại sẽ cĩ một lời giải khác cho  2 . Cho dù chúng ta cố gắng như thế nào đi nữa cũng sẽ ^ khơng thể tìm được cho  2 một giá trị duy nhất. Tĩm lại những diều đã thảo luận ở trên là trong trường hợp đa cộng tuyến hồn hảo, khơng thể cĩ được một lời giải duy nhất cho các hệ số hồi qui riêng. Nhưng chú ý là cĩ thể tìm được lời Damodar N. Gujarati 6 Bin dịch: Thục Đoan Hiệu đính: Hào thi
  7. Chương trình Giảng dạy Kinh tế Fulbright Các phương pháp định lượng II Kinh tế lượng cơ sở - 3rd ed. Bài đọc Ch.10: Vấn đề đa cộng tuyến và cỡ mẫu nhỏ ^ ^ giải duy nhất cho các tổ hợp tuyến tính của những hệ số này.Tổ hợp tuyến tính ( 2 +  3 ) là ước lượng duy nhất của , với giá trị  cho trước.9 Nhân đây, lưu ý rằng trong trường hợp đa cộng tuyến hồn hảo, phương sai và sai số chuẩn của ^ ^  2 và  3 khơng thể xác định một cách tiêng biệt được. (Xem bài tập 10.21.) 10.3 ƯỚC LƯỢNG TRONG TRƯỜNG HỢP CĨ ĐA CỘNG TUYẾN “CAO” NHƯNG “KHƠNG HỒN HẢO” Đa cộng tuyến hồn hảo là một trường hợp thuộc về một thái cực. Thơng thường, khơng tồn tại mối quan hệ tuyến tính chính xác giữa các biến X, đặc biệt là trong dữ liệu liên quan đến chuỗi thời gian kinh tế. Vì vậy, chuyển sang dùng mơ hình hồi qui ba biến dưới dạng độ lệch trong (10.2.1), thay vì dùng đa cộng tuyến chính xác, chúng ta cĩ thể cĩ x3i = x2i + i (10.3.1) với  0 và i là số hạng sai số ngẫu nhiên do đĩ x2ii = 0. (Tại sao?) Một cách ngẫu nhiên, các mơ hình Ballentine trong các hình từ 10.1b đến 10.1e đại diện cho các trường hợp đa cộng tuyến khơng hồn hảo. Trong trường hợp này, các hệ số hồi qui 2 và 3 cĩ thể ước lượng được. Ví dụ, thay (10.3.1) vào (7.4.5), chúng ta cĩ 2 2 2 2 ^ (yix2i) ( x 2i +  i) - ( yix2i + yii) ( x 2i)  2 = (10.3.2) 2 2 2 2 2 2 x 2i ( x 2i +  i) - ( x 2i) ^ với x2ii = 0. Cĩ thể thiết lập một biểu thức tương tự cho  3 . Bây giờ, khác với (10.3.2), khơng cĩ lý do gì để tin rằng (10.3.2) khơng thể ước lượng được. Dĩ nhiên, nếu i khơng đủ nhỏ, hay nĩi cách khác khơng gần bằng 0, (10.3.1) sẽ mơ tả sự cộng tuyến gần như hồn hảo và chúng ta sẽ quay lại trường hợp khơng xác định (10.2.2) 10.4 ĐA CỘNG TUYẾN: KHƠNG CĨ CHUYỆN GÌ CẢ MÀ CŨNG LÀM RỐI LÊN? HỆ QUẢN LÝ THUYẾT CỦA ĐA CỘNG TUYẾN Hãy nhớ lại nếu thỏa các giả định của mơ hình cổ điển, các ước lượng OLS của ước lượng hồi qui là BLUE ( hoặc BUE, nếu cĩ thêm giả định chuẩn). Bây giờ cĩ thể thấy rằng ngay cả khi đa cộng tuyến chặt, như trong trường hợp gần đa cộng tuyến (near multicollinearity), các ước lượng 9 ^ ^ trong tài liệu kinh tế lượng, một hàm số như ( 2 +  3 ) được gọi là hàm cĩ thể ước lượng được (estimable function). Damodar N. Gujarati 7 Bin dịch: Thục Đoan Hiệu đính: Hào thi
  8. Chương trình Giảng dạy Kinh tế Fulbright Các phương pháp định lượng II Kinh tế lượng cơ sở - 3rd ed. Bài đọc Ch.10: Vấn đề đa cộng tuyến và cỡ mẫu nhỏ QLS vẫn cĩ tính chất của BLUE.10 Vậy vấn đề đa cộng tuyến làm ầm lên về chuyện gì? Như Christopher Achen nhận xét (lưú ý thêm điều Leamer đã đề cập đến trong phần mở đầu của chương này): Những sinh viên khi bắt đầu học phương pháp luận đơi khi lo lắng rằng các biến độc lập của họ cĩ tương quan với nhau cái gọi là vấn đề đa cộng tuyến. Nhưng vấn đề đa cộng tuyến khơng vi phạm các giả định. Các ước lượng nhất quán khơng thiên lệch chắc chắn sẽ xảy ra và các sai số chuẩn của chúng cũng sẽ được ước lượng một cách chính xác. Ảnh hưởng duy nhất của đa cộng tuyến là gây khĩ khăn cho việc đạt được các ước lượng hệ số với sai số chuẩn nhỏ. Nhưng số lần quan sát ít cũng gây nên tác động đến biến độc lập với phương sai nhỏ. (Nĩi tĩm lại, ở mức độ lý thuyết, đa cộng tuyến, số lần quan sát bé, và phương sai nhỏ trên các biến độc lập đều là một vấn đề giống nhau.) Vì vậy câu hỏi “ Tơi nên làm gì với đa cộng tuyến?” thì giống như câu hỏi “Tơi nên làm gì nếu tơi cĩ số lần quan sát ít?”. Khơng cĩ một câu trả lời thống kê nào cho vấn đề này.11 Quay lại với tầm quan trọng của cỡ mẫu, Goldberger đã đặt ra thuật ngữ cỡ mẫu nhỏ (micronumerosity), để đối lại từ đa âm tiết ngoại lai multicollinearity (đa cộng tuyến). Theo Goldberger, cỡ mẫu nhỏ chính xác (exact micronumerosity) (tương ứng của đa cộng tuyến chính xác) xảy ra khi n, kích thước mẫu , bằng 0, trong trường hợp đĩ, mọi ước lượng là khơng thể được. Cỡ mẫu gần như nhỏ (near micronumerosity), giống như gần như đa cộng tuyến hồn hảo, xảy ra khi số lần quan sát vừa đủ vượt quá số thơng số được ước lượng. Leamer, Achen và Goldberger đã đúng khi họ tiếc là đã thiếu quan tâm đến vấn đề cỡ mẫu mà lại quan tâm quá mức đến vấn đề đa cộng tuyến. Đáng tiếc thay, trong khi ứng dụng các dữ liệu thứ cấp (đĩ là các dữ liệu được một số tổ chức thu thập, như là dữ liệu về GNP do chính phủ thu thập), một nhà nghiên cứu tư nhân cĩ lẽ khơng thể quan tâm nhiều đến kích thước của dữ liệu mẫu và cĩ lẽ phải đối phĩ với “ các vấn đề về ước lượng đủ quan trọng để biện hộ cho việc chúng ta xử lý vấn đề này [vấn đề đa cộng tuyến] như một sự vi phạm mơ hình CLR [mơ hình hồi qui cổ điển]”. 12 Thứ nhất, đúng là ngay cả trong trường hợp gần như đa cộng tuyến các hàm ước lượng OLS cũng khơng thiên lệch. Nhưng sự khơng thiên lệch là một tính chất của mẫu bội hoặc là việc lấy mẫu lập lại. Điều này cĩ nghĩa là, giữ cố định các giá trị của biến X, nếu cĩ được các mẫu lập lại và tính các hàm ước lượng OLS cho những mẫu này, thì trung bình của các giá trị mẫu sẽ hội tụ về các giá trị thực của tổng thể của các ước lượng khi số lượng mẫu tăng. Nhưng điều này khơng nĩi lên điều gì về các tính chất của các hàm ước lượng trong một mẫu cho trước bất kỳ. 10 Bởi vì gần như đa cộng tuyến tự thân nĩ khơng vi phạm các giả định khác đã được liệt kê trong chương 7, các ước lượng OLS là BLUE như đã xác định. 11 Christopher H. Achen, Interpreting and Using Regression, (Diễn dịch và Sử dụng Hồi qui), Sage Publications, Beverly Hills, Calif., 1982, trang 82-83. 12 Peter Kennedy, Hướng dẫn mơn Kinh tế lượng, (A guide to economics), 3d ed., The MIT Press, Cambride, Mass., 1992, trang 177. Damodar N. Gujarati 8 Bin dịch: Thục Đoan Hiệu đính: Hào thi
  9. Chương trình Giảng dạy Kinh tế Fulbright Các phương pháp định lượng II Kinh tế lượng cơ sở - 3rd ed. Bài đọc Ch.10: Vấn đề đa cộng tuyến và cỡ mẫu nhỏ Thứ hai, cũng đúng là cộng tuyến khơng xĩa bỏ tính chất phương sai nhỏ nhất: Trong loại các hàm ước lượng khơng thiên lệch tuyến tính, các hàm ước lượng OLS cĩ phương sai nhỏ nhất; nghĩa là, các hàm ước lượng này cĩ hiệu quả. Nhưng khơng cĩ nghĩa là phương sai của một hàm ước lượng OLS sẽ phải nhất thiết nhỏ (tương đối so với giá trị của hàm ước lượng này) trong bất kỳ mẫu cho trước nào, như chúng ta sẽ chứng minh một cách ngắn gọn. Thứ ba, đa cộng tuyến đặc biệt là một hiện tượng mẫu (hồi qui) theo nghĩa là cho dù các biến X khơng tương quan tuyến tính trong tổng thể, chúng cũng cĩ thể tương quan trong một mẫu cụ thể nào đĩ: Khi chúng ta đặt ra lý thuyết hoặc là hàm hồi qui tổng thể (population regression function - PRF), chúng ta tin rằng mọi biến X trong mơ hình này cĩ ảnh hưởng riêng biệt hoặc độc lập đến biến phụ thuộc Y. Nhưng cĩ thể là trong một mẫu cho trước bất kỳ được sử dụng để kiểm tra PRF một số hoặc tồn bộ các biến X đều cộng tuyến cao đến độ chúng ta khơng thể tách ảnh hưởng của riêng từng biến lên Y. Vì vậy cĩ thể nĩi mẫu của chúng ta khiến cơng việc của chúng ta xấu đi mặc dù lý thuyết cho rằng mọi biến X đều quan trọng. Tĩm lại, mẫu cĩ thể khơng đủ “giàu” để chứa được mọi biến X trong phân tích. Để minh họa, xem lại ví dụ về tiêu dùng - thu nhập trong chương 3. Các nhà kinh tế lượng lý luận rằng, ngồi thu nhập, sự giàu cĩ của người tiêu dùng cũng là một yếu tố quyết định quan trọng của chi tiêu cho tiêu dùng. Vì vậy, chúng ta cĩ thể viết Tiêu dùngi = 1 + 2 Thu nhậpi + 3 Sự giàu cĩi + ui Bây giờ cĩ vẻ như khi chúng ta cĩ dữ liệu về thu nhập và sự giàu cĩ, hai biến này cĩ lẽ tương quan chặt, nếu khơng muốn nĩi là hồn hảo: Những người giàu cĩ hơn thường cĩ thu nhập cao hơn. Vì vậy, mặc dù trong lý thuyết về thu nhập và sự giàu cĩ là những nhân tố logic để giải thích hành vi chi tiêu cho tiêu dùng, trong thực tế (đĩ là trong mẫu) khĩ cĩ thể phân biệt được các tác động riêng biệt của thu nhập và sự giàu cĩ đến chi tiêu cho tiêu dùng. Một cách lý tưởng, để đánh giá các tác động riêng biệt của sự giàu cĩ và thu nhập lên chi tiêu cho tiêu dùng chúng ta cần cĩ đủ số quan sát mẫu về những cá nhân giàu cĩ với thu nhập thấp, và những người cĩ thu nhập cao nhưng ít giàu (nhớ lại giả định 8). Mặc dù điều này cĩ vẻ như cĩ thể thực hiện trong những nghiên cứu chéo liên khu vực (cross-sectional studies) ( bằng cách tăng cỡ mẫu), nhưng rất khĩ đạt được trong chuỗi thời gian tổng hợp (aggregate time series work). Vì tất cả các lý do trên, sự thật là các hàm ước lượng OLS là BLUE mặc dù đa cộng tuyến cĩ rất ít cách giải quyết trong thực tế. Chúng ta phải xem những gì xảy ra hoặc cĩ vẻ như sẽ xảy ra trong một mẫu cho trước bất kỳ, đề tài này được thảo luận trong phần sau. Damodar N. Gujarati 9 Bin dịch: Thục Đoan Hiệu đính: Hào thi
  10. Chương trình Giảng dạy Kinh tế Fulbright Các phương pháp định lượng II Kinh tế lượng cơ sở - 3rd ed. Bài đọc Ch.10: Vấn đề đa cộng tuyến và cỡ mẫu nhỏ 10.5 HỆ QUẢ THỰC TẾ CỦA ĐA CỘNG TUYẾN Trong các trường hợp gần như đa cộng tuyến hoặc đa cộng tuyến cao, chúng ta thường phải đối đầu với các hệ quả sau: 1. Mặc dù BLUE, nhưng các hàm ước lượng OLS cĩ phương sai và đồng phương sai lớn, gây khĩ khăn cho việc ước lượng chính xác. 2. Vì hệ quả 1, khoảng tin cậy cĩ khuynh hướng rộng hơn nhiều, dẫn đến việc dễ dàng chấp nhận “giả thiết H0 zero” (zero null-hypothesis) (đĩ là hệ số thực của tập hợp chính bằng 0) hơn. 3. Cũng vì hệ quả 1, tỷ số t của một hoặc nhiều hệ số cĩ khuynh hướng khơng cĩ ý nghĩa thống kê. 4. Mặc dù tỷ số t của một hoặc nhiều hệ số khơng cĩ ý nghĩa thống kê, R2, dùng để đánh giá độ thích hợp, cĩ thể rất cao. 5. Các hàm ước lượng OLS và các sai số chuẩn của chúng cĩ thể rất nhạy đối với các thay đổi nhỏ trong dữ liệu. Các hệ quả trên cĩ thể được xác định như sau. Phương sai và đồng phương sai của các ước lượng OLS lớn Để thấy được phương sai và đồng phương sai lớn, hãy nhớ lại đối với mơ hình (10.2.1) phương ^ ^ sai và đồng phương sai của  2 và  3 được tính như sau 2 ^  var( 2 ) = 2 2 (7.4.12) x 2i (1 - r 23) 2 ^  var ( 3 ) = 2 2 (7.4.15) x 3i (1 - r 23) 2 2 ^ ^ - r 23 cov ( 2 , 3 ) = (7.4.17) 2 2 2 (1 - r 23) x 2ix 3i với r23 là hệ số tương quan giữa X2 và X3. Từ (7.4.12) và (7.4.15) ta thấy rõ ràng khi r23 tiến đến 1, đĩ là khi sự cộng tuyến gia tăng, phương sai của hai hàm ước lượng tăng và trong giới hạn khi r23 = 1, các hàm ước lượng này là vơ hạn. Từ (7.4.17) cũng rõ ràng là khi r23 tiến đến 1, đồng phương sai của hai ước lượng cũng ^ ^ ^ ^ tăng về giá trị tuyệt đối.[Chú ý:cov( 2 , 3 )= cov( 3 , 2 )] Tốc độ gia tăng của phương sai và đồng phương sai cĩ thể thấy được qua yếu tố lạm phát phương sai (variance-inflation factor _ VIF), được định nghĩa như sau 1 VIF = 2 (10.5.1) (1 - r 23) Damodar N. Gujarati 10 Bin dịch: Thục Đoan Hiệu đính: Hào thi
  11. Chương trình Giảng dạy Kinh tế Fulbright Các phương pháp định lượng II Kinh tế lượng cơ sở - 3rd ed. Bài đọc Ch.10: Vấn đề đa cộng tuyến và cỡ mẫu nhỏ VIF cho thấy phương sai của một hàm ước lượng tăng nhanh như thế nào bởi sự hiện diện của đa 2 cộng tuyến. Khi r 23 bằng 1, VIF tiến đến vơ hạn. Đĩ là khi độ cộng tuyến gia tăng, phương sai của hàm ước lượng gia tăng, và trong giới hạn của độ cộng tuyến, phương sai cĩ thể trở thành vơ hạn. Như đã thấy, nếu khơng cĩ cộng tuyến giữa X2 và X3, VIF sẽ bằng 1. Sử dụng định nghĩa này, chúng ta cĩ thể diễn tả (7.4.12) và (7.4.15) như sau 2 ^  var( 2 ) = 2 VIF (10.5.2) x 2i 2 ^  var( 3 ) = 2 VIF (10.5.3) x 3i ^ ^ các biểu thức cho thấy phương sai của  2 và  3 tỷ lệ với VIF. Để cĩ khái niệm về phương sai và đồng phương sai tăng như thế nào khi r23 tăng, hãy xem bảng 10.1, trong đĩ trình bày các giá trị phương sai và đồng phương sai ứng với các giá trị của r23. Như trong bảng này, gia tăng r23 cĩ ảnh hưởng nghiêm trọng đến phương sai và đồng ^ phương sai ước lượng của các hàm ước lượng OLS. Khi r23 = 0.50, var( 2 ) bằng 1.33 lần ^ phương sai khi r23 = 0, nhưng khi r23 bằng 0.95 thì var( 2 ) lớn gấp 10 lần khi khơng cĩ đa cộng tuyến. Và kỳ lạ thay, khi r23 tăng từ 0,95 đến 0.995 đã làm phương sai ước lượng tăng gấp 100 lần so với khi khơng cĩ cộng tuyến. Ảnh hưởng nghiêm trọng này cũng tương tự đối với đồng phương sai. Tất cả điều này cĩ thể thấy qua hình 10.2 Nhân tiện, các kết quả vừa được thảo luận trên đây cũng cĩ thể dễ dàng mở rộng cho mơ hình k biến (xem bài tập 10.15 và 10.16). ^ ^ ^ Bảng 10. 1 Ảnh hưởng của sự gia tăng r23 đến var(2 ) và cov(2 ,3 ) ^ var(  ) (r 0) 2 23 ^ ^ var ( 2) (r23 = 0) ^ ^ Giá trị của r23 VIF var(2 ) cov(2 ,3 ) (1) (2) (3)* (4) (5) 0.00 1.00 2 __ 0 2 = A x 2i 0.50 1.33 1.33xA 1.33 0.67xB 0.70 1.96 1.96xA 1.96 1.37xB 0.80 2.78 2.78xA 2.78 2.22xB 0.90 5.76 5.76xA 5.76 4.73xB 0.95 10.26 10.26xA 10.26 9.74xB 0.97 16.92 16.92xA 16.92 16.41xB 0.99 50.25 50.25xA 50.25 49.75xB 0.995 100.00 100.00xA 100.00 99.50xB 0.999 500.00 500.00xA 500.00 499.50xB Damodar N. Gujarati 11 Bin dịch: Thục Đoan Hiệu đính: Hào thi
  12. Chương trình Giảng dạy Kinh tế Fulbright Các phương pháp định lượng II Kinh tế lượng cơ sở - 3rd ed. Bài đọc Ch.10: Vấn đề đa cộng tuyến và cỡ mẫu nhỏ 2 Ghi chú: A = 2 x 2i - 2 B = 2 2 x 2i x 3i ^ 2 * Để tìm ảnh hưởng của sự gia tăng r23 lên var ( 3 ), chú ý là A = 2 khi r23 = x 3i 0, nhưng các yếu tố phĩng đại phương sai và đồng phương sai vẫn giữ nguyên Khoảng tin cậy rộng hơn Vì các sai số chuẩn lớn nên khoảng tin cậy đối với các thơng số tổng thể liên quan cũng cĩ khuynh hướng lớn hơn, cĩ thể thấy từ bảng 10.2. Ví dụ, khi r23 = 0.95, khoảng tin cậy cho 2 lớn hơn 10.26 so với khi r23 = 0, khoảng bằng 3. ^ var(2 ) 2 A = 2 x 2i 5.26A 1.33A A r 0 0.5 0.8 0.9 1.0 23 ^ Hình 10. 2 var( 2 ) như là một hàm của r23. ^ ^ Bảng 10. 2 Tác động của sự gia tăng cộng tuyến lên khoảng tin cậy 95% đối với 2 : 2 ^ 1.96 se(2 ) ^ Giá trị của Độ tin cậy 95% cho 2 r23 Damodar N. Gujarati 12 Bin dịch: Thục Đoan Hiệu đính: Hào thi
  13. Chương trình Giảng dạy Kinh tế Fulbright Các phương pháp định lượng II Kinh tế lượng cơ sở - 3rd ed. Bài đọc Ch.10: Vấn đề đa cộng tuyến và cỡ mẫu nhỏ ^ 2 0.00  2 1.96 2 x 2i 2 0.50 ^  2 1.96 (1.33) 2 x 2i ^ 0.95  2 1.96 (10.26) 2 2 0.99 x 2i ^ 2 0.999  2 1.96 (100) 2 x 2i ^ 2  2 1.96 (500) 2 x 2i Chú ý: Chúng ta đang sử dụng phân phối chuẩn vì để thuận tiện ta giả định là đã biết 2. Vì vậy sử dụng 1.96 và khoảng tin cậy 95% cho phân phối chuẩn. Sai số chuẩn tùy thuộc vào các giá trị khác nhau của r23 được lấy từ bảng 10.1. Do đĩ, trong trường hợp đa cộng tuyến cao, dữ liệu mẫu cĩ thể thích hợp với một tập hợp nhiều loại giả thiết. Chính vì vậy, xác suất để chấp nhận giả thiết sai (đĩ chính là sai lầm loại II) gia tăng. Tỉ số t “khơng cĩ ý nghĩa” ^ ^ Nhớ lại là để kiểm tra giả thiết Ho:2 = 0, chúng ta sử dụng tỉ số t, đĩ là  2 /se( 2 ), và so sánh giá trị ước lượng của t với giá trị t tới hạn từ bảng t. Nhưng như chúng ta đã thấy, trong trường hợp cộng tuyến cao sai số chuẩn ước lượng tăng nghiêm trọng, do đĩ làm cho giá trị t nhỏ hơn. Chính vì vậy, trong những trường hợp như thế, chúng ta sẽ dễ dàng chấp nhận giả thiết H0 là giá trị tương ứng thực của tổng thể là bằng 0.13 R2 cao nhưng tỷ số t ít cĩ ý nghĩa. Xem mơ hình hồi qui tuyến tính k biến sau: Yi = 1 + 2X2i + 3X3i + + kXki + ui Trong trường hợp đa cộng tuyến cao, thì cĩ thể tìm thấy, như chúng ta đã lưu ý là một hoặc nhiều hệ số độ dốc riêng phần sẽ khơng cĩ ý nghĩa thống kê quan trọng dựa trên cở sở kiểm định t. Tuy nhiên, R2 trong những trường hợp này lại rất cao, trên 0.9, vậy dựa trên kiểm định F thì cĩ thể bác bỏ giả thiết cho rằng 2 = 3 = = k = 0. Thật sự thì đây là một trong những dấu hiệu của đa cộng tuyến giá trị t khơng cĩ ý nghĩa nhưng R2 lại cao (và giá trị F cĩ ý nghĩa)! 13 Nĩi theo ngơn ngữ của khoảng tin cậy, giá trị 2 = 0 sẽ càng gia tăng khả năng nằm trong vùng chấp nhận khi mức độ cộng tuyến gia tăng. Damodar N. Gujarati 13 Bin dịch: Thục Đoan Hiệu đính: Hào thi
  14. Chương trình Giảng dạy Kinh tế Fulbright Các phương pháp định lượng II Kinh tế lượng cơ sở - 3rd ed. Bài đọc Ch.10: Vấn đề đa cộng tuyến và cỡ mẫu nhỏ Chúng ta sẽ xác định dấu hiệu này trong phần sau, nhưng kết luận này khơng cĩ gì đáng ngạc nhiên trong thảo luận của chúng ta về kiểm định riêng biệt so với kiểm định liên kết trong chương 8. Như bạn cĩ thể nhớ lại, vấn đề thực sự ở đây là đồng phương sai giữa các hàm ước lượng, mà như cơng thức (7.4.17) cho thấy, thì liên quan đến mối tương quan giữa các biến hồi qui độc lập. Độ nhạy của hàm ước lượng OLS và của sai số chuẩn của các hàm này đối với những thay đổi nhỏ trong dữ liệu Chỉ cần đa cộng tuyến khơng hồn hảo thì việc ước lượng các hệ số hồi qui cĩ thể thực hiện được nhưng các giá trị ước lượng và sai số chuẩn của chúng trở nên vơ cùng nhạy ngay cả đối với thay đổi nhỏ nhất trong số liệu. Để thấy được điều này, xem Bảng 10.3. Dựa trên những số liệu này, chúng ta cĩ hàm hồi qui bội sau: ^ Y i = 1.1939 + 0.4463X2i + 0.0030X3i (0.7737) (0.1848) (0.0851) t = (1.5431) (2.4151) (0.0358) (10.5.4) 2 R = 0.8101 r23 = 0.5523 ^ ^ cov( 2 , 3 ) = - 0.00868 df = 2 Hàm hồi qui (10.5.4) cho thấy khơng cĩ hệ số hồi qui nào tự thân cĩ ý nghĩa ở mức ý nghĩa qui ^ ước là 1 hoặc 5%, mặc dù  2 cĩ ý nghĩa ở mức ý nghĩa 10% dựa trên kiểm định t một phía. Bây giờ xem xét Bảng 10.4. Khác biệt duy nhất giữa Bảng 10.3 và Bảng 10.4 là giá trị thứ ba và thứ tư của X3 đổi chỗ cho nhau. Sử dụng số liệu trong Bảng 10.4, bây giờ ta cĩ: ^ Y i = 1.2108 + 0.4014X2i + 0.0270X3i (0.7480) (0.2721) (0.1252) t = (1.6187) (1.4752) (0.2158) (10.5.5) 2 R = 0.8143 r23 = 0.8258 ^ ^ cov( 2 , 3 ) = - 0.0282 df = 2 Bảng 10. 3 Bảng 10. 4 Số liệu lý thuyết của Y, X2, và X3 Số liệu lý thuyết của Y, X2, và X3 Y X2 X3 Y X2 X3 1 2 4 1 2 4 2 0 2 2 0 2 3 4 12 3 4 0 4 6 0 4 6 12 5 8 16 5 8 16 Damodar N. Gujarati 14 Bin dịch: Thục Đoan Hiệu đính: Hào thi
  15. Chương trình Giảng dạy Kinh tế Fulbright Các phương pháp định lượng II Kinh tế lượng cơ sở - 3rd ed. Bài đọc Ch.10: Vấn đề đa cộng tuyến và cỡ mẫu nhỏ ^ Do kết quả của một thay đổi nhỏ trong số liệu, chúng ta cĩ thể thấy rằng  2 , giá trị mà đã cĩ ý nghĩa thống kê trước đây ở mức ý nghĩa 10%, hiện giờ khơng cịn cĩ ý nghĩa ở mức ý nghĩa này ^ ^ nữa. Cũng lưu ý rằng trong (10.5.4) cov( 2 , 3 ) = -0.00868 trong khi trong (10.5.5) giá trị này là -0.0282 tăng gấp 3 lần. Tất cả những thay đổi này cĩ lẽ đã gĩp phần làm gia tăng đa cộng tuyến. Trong (10.5.4) r23 = 0.5523, trong khi trong (10.5.5) giá trị này lại là 0.8285. Tương tự, các sai ^ ^ số chuẩn của  2 và  3 tăng giữa hai hàm hồi qui, đĩ là hiện tượng thường gặp của cộng tuyến. Trước đây chúng ta lưu ý là với đa cộng tuyến cao, ta khơng thể ước lượng được các hệ số hồi qui riêng phần một cách chính xác nhưng tổ hợp tuyến tính của các hệ số này lại cĩ thể được ước lượng chính xác. Sự việc này cĩ thể được chứng minh bằng các hàm hồi qui (10.5.4) và (10.5.5). Trong hàm hồi qui đầu, tổng của hai hệ số độ dốc riêng phần là 0.4493 và trong hàm thứ hai thì giá trị này là 0.4284, gần như là một. Khơng chỉ như thế, các sai số chuẩn cũng gần 14 như giống nhau, 0.1550 và 0.1823. Tuy nhiên, lưu ý rằng hệ số của X3 đã thay đổi nghiêm trọng, từ 0.003 đến 0.027. Hệ quả của cỡ mẫu nhỏ Rập khuơn theo các hệ quả của đa cộng tuyến, và một cách hài hước, Goldberger trích dẫn chính xác các hệ quả tương tự của cỡ mẫu nhỏ, đĩ là, phân tích dựa trên cỡ mẫu nhỏ.15 Người đọc nên xem phân tích của Goldberger để hiểu tại sao ơng ta coi cỡ mẫu nhỏ quan trọng (hoặc khơng quan trọng) tương tự như đa cộng tuyến. 10.6 VÍ DỤ MINH HỌA: CHI TIÊU CHO TIÊU DÙNG TRONG QUAN HỆ VỚI THU NHẬP VÀ SỰ GIÀU CĨ Để minh họa những điểm đã thảo luận trên đây, chúng ta hãy xem lại ví dụ tiêu thụ-thu nhập trong chương 3. Trong bảng 10.5 chúng ta lấy lại số liệu của bảng 3.2 và thêm vào đĩ số liệu về sự giàu cĩ của người tiêu dùng, sau đĩ, dựa vào bảng 10.5 chúng ta cĩ các hàm hồi qui sau: ^ Y i = 24.7747 + 0.9415X2i - 0.0424X3i (6.7525) (0.8229) (0.0.807) t = (3.6690) (1.1442) (-0.5261) (10.6.1) - R2 = 0.9635 R2 = 0.9531 df = 7 Hàm hồi qui (10.6.1) cho thấy thu nhập và sự giàu cĩ cùng giải thích về việc 96% của sự biến đổi về chi tiêu cho tiêu dùng, và tuy nhiên khơng cĩ hệ số độ dốc nào cĩ ý nghĩa thống kê riêng 14 Các sai số chuẩn này được tính theo cơng thức ^ ^ ^ ^ ^ ^ se( 2 +  3 ) = var( 2 ) + var( 3 )+ 2cov( 2 , 3 ) 15 Goldberger, op. cit., trang 248-250. Damodar N. Gujarati 15 Bin dịch: Thục Đoan Hiệu đính: Hào thi
  16. Chương trình Giảng dạy Kinh tế Fulbright Các phương pháp định lượng II Kinh tế lượng cơ sở - 3rd ed. Bài đọc Ch.10: Vấn đề đa cộng tuyến và cỡ mẫu nhỏ biệt. Hơn thế nữa, biến giàu cĩ khơng những chỉ cĩ ý nghĩa thống kê mà cịn cĩ dấu sai. Một tiên nghiệm, thường thì chúng ta kỳ vọng một tương quan dương giữa tiêu dùng và sự giàu cĩ. Mặc ^ ^ ^ dù  2 và  3 khơng cĩ ý nghĩa thống kê riêng biệt, nếu chúng ta kiểm định giả thiết cho rằng  2 = ^  3 và đồng thời bằng 0, giả thiết này cĩ thể bị bác bỏ, như bảng 10.6 cho thấy. Với giả định thường gặp chúng ta cĩ 4282.7770 F = 46.3494 = 92.4019 (10.6.2) Giá trị F này rõ ràng rất cĩ ý nghĩa. Rất thú vị nếu nhìn kết quả này dưới dạng hình học. (Hình 10.3). Dựa vào hàm hồi qui (10.6.1), chúng ta đã thiết lập khoảng tin cậy 95% cho 2 và 3 theo thủ tục thơng thường đã thảo luận ở chương 8. Như những khoảng này cho thấy, riêng mỗi khoảng đều cĩ chứa giá trị 0. ì vậy, một cách riêng biệt, chúng ta cĩ thể chấp nhận giả thiết cho rằng: hai hệ số độ dốc riêng phần đồng thời bằng 0. Nhưng khi chúng ta thiết lập một khoảng tin cậy kết hợp để kiểm định ^ ^ giả thiết là  2 =  3 = 0, giả thiết này khơng thể chấp nhận được vì khoảng tin cậy liên kết, thật sự là hình elip, khơng chứa điểm 0.16. Như đã trình bày, khi cộng tuyến cao, thì kiểm định các biến hồi qui độc lập riêng biệt khơng đáng tin cậy; trong những trường hợp như vậy, kiểm định F tổng thể sẽ cho thấy cĩ mối quan hệ giữa Y và các biến hồi qui độc lập khác hay khơng. Ví dụ của chúng ta trình bày một cách nghiêm trọng những gì mà vấn đề cộng tuyến gây ra. Sự thực là, kiểm định F là cĩ ý nghĩa nhưng các giá trị t của X2 và X3 riêng biệt thì khơng cĩ ý nghĩa; tức là hai biến này tương quan chặt đến độ khơng thẻ tách riêng các ảnh hưởng cá nhân của thu nhập hoặc sự giàu cĩ đến tiêu dùng. Từ sự kiện này, nếu chúng ta lập hàm hồi qui của X3 theo X2, ta cĩ ^ X3i = 7.5454 + 10.1909X2i (29.4758) (0.1643) (10.6.3) t = (0.2560) (62.0405) R2 = 0.9979 cho thấy là cĩ sự đa cộng tuyến gần như hồn hảo giữa X3 và X2. 16 Như đã lưu ý ở phần 5.3, đề tài về khoảng tin cậy liên kết phức tạp hơn. Độc giả quan tâm cĩ thể xem phần tham khảo được trích ở đĩ. Damodar N. Gujarati 16 Bin dịch: Thục Đoan Hiệu đính: Hào thi
  17. Chương trình Giảng dạy Kinh tế Fulbright Các phương pháp định lượng II Kinh tế lượng cơ sở - 3rd ed. Bài đọc Ch.10: Vấn đề đa cộng tuyến và cỡ mẫu nhỏ ^ 3 khoảng tin cậy 95% đối với 3 0.1448 ^  - 1.004 2.887 2 khoảng tin cậy 95% đối với 2 - 0.2332 Hình 10. 3: Khoảng tin cậy riêng cho 2 và 3 và khoảng tin cậy kết hợp (elip) cho 2 và 3 Bây giờ chúng ta xem điều gì xảy ra nếu chúng ta lập hàm hồi qui của Y chỉ theo X2. ^ Y i = 24.4545 + 0.5091X2i (6.4138) (0.0357) (10.6.4) t = (3.8128) (14.2432) R2 = 0.9621 Trong (10.6.1) biến thu nhập đã khơng cĩ ý nghĩa thống kê trong khi bây giờ biến này lại cĩ ý nghĩa cao. Nếu thay vì lập hồi qui Y theo X2 ta lập hàm hồi qui theo X3, ta cĩ ^ Y i = 24.411 + 0.0498X2i (6.874) (0.0037) (10.6.5) t = (3.551) (13.29) R2 = 0.9567 Chúng ta thấy là sự giàu cĩ bây giờ cĩ ảnh hưởng quan trọng đến chi tiêu cho tiêu dùng, trong khi ở (10.6.1) biến này khơng cĩ ảnh hưởng đến chi tiêu cho tiêu dùng. Các hàm hồi qui (10.6.4) và (10.6.5) trình bày khá rõ ràng là trong những trường hợp cực đoan của đa cộng tuyến bỏ qua biến cộng tuyến cao thường sẽ khiến cho biến X khác cĩ ý nghĩa thống kê. Kết quả này đưa ra cách để tránh khỏi vấn đề cộng tuyến cực đoan là bỏ qua biến cộng tuyến, nhưng chúng ta sẽ thảo luận vấn đề này nhiều hơn ở phần 10.8. Damodar N. Gujarati 17 Bin dịch: Thục Đoan Hiệu đính: Hào thi
  18. Chương trình Giảng dạy Kinh tế Fulbright Các phương pháp định lượng II Kinh tế lượng cơ sở - 3rd ed. Bài đọc Ch.10: Vấn đề đa cộng tuyến và cỡ mẫu nhỏ 10.7 PHÁT HIỆN VẤN ĐỀ ĐA CỘNG TUYẾN Sau khi tìm hiểu bản chất và các hệ quả của đa cộng tuyến, câu hỏi thường đặt ra là: bằng cách nào chúng ta biết được cộng tuyến tồn tại trong một tình huống cho trước, đặc biệt là trong những mơ hình liên quan đến nhiều hơn hai biến giải thích? Lúc này, thật là hữu ích nếu chúng ta nằm lịng những khuyến cáo của Kmenta: 1. Đa cộng tuyến là một câu hỏi về mức độ, khơng phải về sự phân biệt cĩ ý giữa sự hiện diện hay khơng hiện diện của đa cộng tuyến mà là giữa các mức độ khác nhau của đa cộng tuyến. 2. Vì đa cộng tuyến đề cập đến điều kiện của các biến giải thích đã được giả định là khơng ngẫu nhiên, đây là đặc điểm của mẫu chứ khơng phải của tổng thể. Vì vậy, chúng ta khơng “kiểm định đa cộng tuyến” nhưng cĩ thể, nếu chúng ta muốn, đo lường mức độ đa cộng tuyến trong bất kỳ một mẫu cụ thể nào.17 Bởi vì đa cộng tuyến là một hiện tượng mẫu rất quan trọng xuất hiện ngồi tập số liệu phi thực nghiệm lớn được thu thập trong hầu hết các ngành khoa học xã hội, chúng ta khơng cĩ một phương pháp duy nhất nào để phát hiện nĩ hoặc đo lường độ mạnh của nĩ. Những gì chúng ta cĩ là một vài qui tắc kinh nghiệm, một số thơng thường và một số ngoại lệ, nhưng các qui tắc kinh nghiệm thì đều giống nhau. Bây giờ chúng ta xem xét một vài trường hợp của các qui tắc kinh nghiệm này. 1. R2 cao nhưng tỷ số t ít cĩ ý nghĩa. Như đã lưu ý, đây là hiện tượng “ cổ điển” của đa cộng tuyến. Nếu R2 cao hơn 0.8, kiểm định F trong hầu hết các trường hợp sẽ bác bỏ giả thiết: các hệ số độ dốc riêng phần đồng thời bằng 0, nhưng các kiểm định t riêng biệt sẽ cho thấy là khơng cĩ hoặc rất ít các hệ số độ dốc này khác khơng, theo ý nghĩa thống kê. Sự thật này đã được minh họa rõ ràng bằng ví dụ của chúng ta về tiêu dùng - thu nhập - sự giàu cĩ. Mặc dù chuẩn đốn này là hợp lý, nhưng khuyết điểm của nĩ là “quá nhấn mạnh theo hướng là đa cộng tuyến được xem như cĩ hại chỉ khi mọi ảnh hưởng của các biến giải thích lên biến Y khơng thể tách riêng được.”18 2. Các hệ số tương quan từng đơi (pair-wise correlations) giữa các biến hồi qui độc lập. Một qui tắc kinh nghiệm khác được nêu ra là nếu hệ số tương quan từng đơi hoặc bậc 0 giữa hai biến hồi qui độc lập cao, trên 0.8, thì đa cộng tuyến trở thành một vấn đề nghiêm trọng. Vấn đề đối với tiêu chuẩn này là, mặc dù hệ số tương quan bậc 0 cao cĩ thể cho là cĩ cộng tuyến, nhưng khơng nhất thiết là các hệ số này phải cao thì mới cĩ sự cộng tuyến trong mọi trường hợp cụ thể. Nĩi theo kỹ thuật, tương quan bậc 0 cao là điều kiện đủ nhưng khơng phải là điều kiện cần cho sự hiện diện của đa cộng tuyến vì đa cộng tuyến cĩ thể tồn tại ngay 17 Jan Kmenta, Elements of Econometrics, (Các thành tố của Kinh tế lượng), 2d., ed., Macmillan, New York, 1986, p. 431. Damodar N. Gujarati 18 Bin dịch: Thục Đoan Hiệu đính: Hào thi
  19. Chương trình Giảng dạy Kinh tế Fulbright Các phương pháp định lượng II Kinh tế lượng cơ sở - 3rd ed. Bài đọc Ch.10: Vấn đề đa cộng tuyến và cỡ mẫu nhỏ cả khi hệ số tương quan đơn hoặc hệ số tương quan bậc 0 tương đối thấp (nhỏ hơn 0.50). Để thấy mối liên hệ này, giả sử chúng ta cĩ mơ hình bốn biến: Yi = 1 + 2X2i + 3X3i + 4X4i + ui và giả sử là X4i = 2X2i + 3X3i với 2 và 3 là các hằng số khơng đồng thời bằng 0. Rõ ràng là, X4 là một tổ hợp tuyến tính chính 2 xác của X2 và X3, với R 4.23 = 1, hệ số xác định trong hàm hồi qui của X4 theo X2 và X3. Bây giờ nhớ lại cộng thức (7.9.6) ở chương 7, chúng ta cĩ thể viết (10.7.1)2 2 2 r 42 + r 43 - 2r42r43 R 4.23 = 2 1 - r 23 2 Nhưng vì R 4.23 = 1 do cộng tuyến hồn hảo, chúng ta cĩ 2 2 r 42 + r 43 - 2r42r43 1 = 2 (10.7.2) 1 - r 23 Thật khơng khĩ để nhận ra là (10.7.2) thỏa khi r42 = 0.5, r43 = 0.5 và r23 = -0.5, đây là những giá trị khơng quá cao. Vì vậy, trong mơ hình liên quan đến nhiều hơn hai biến giải thích, hệ số tương quan bậc 0 hay hệ số tương quan đơn sẽ khơng cung cấp một chỉ dẫn đáng tin cậy về sự hiện diện của đa cộng tuyến. Dĩ nhiên, nếu chỉ cĩ hai biến giải thích, các hệ số tương quan bậc 0 là đủ rồi. 3. Kiểm tra các hệ số tương quan riêng phần. Vì vấn đề vừa nêu chỉ dựa vào các hệ số tương quan bậc 0, Farrar và Glauber đề nghị là chúng ta nên quan tâm đến các hệ số tương quan 19 2 riêng phần. Vì vậy, trong hàm hồi qui của Y theo X2, X3 và X4, một phát hiện là R 1.234 thì 2 2 2 rất cao nhưng r 12.34, r 13.24 và r 14.23 thì tương đối thấp cĩ thể ngụ ý là các biến X2, X3 và X4 cĩ tương quan lẫn nhau cao và ít nhất một trong những biến này là khơng cần thiết. Mặc dù một nghiên cứu về các hệ số tương quan cĩ lẽ sẽ cĩ ích nhưng khơng cĩ gì bảo đảm là những hệ số này sẽ đem lại một chỉ dẫn đáng tin cậy về đa cộng tuyến, vì cĩ thể ngẫu nhiên cả R2 và mọi hệ số tương quan riêng phần đều đủ cao. Nhưng quan trọng hơn là, C. Robert Wichers đã chỉ ra 20 là kiểm định Farrar - Glauber về hệ số tương quan riêng phần 18 Ibid., trang 439. 19 D. E. Farrar và R. R. Glauber, “ Multicollinearity in Regression Analysis: The Problem Revisited,” (Đa cộng tuyến trong phân tích hồi qui: Vấn đề được xem xét lại), Review of Econometrics and Statistics, số 49, 1967, trang 92-107. 20 “The Detection of Multicollinearity: A Comment”, (Sự phát hiện đa cộng tuyến: Một lời bình luận), Review of econometrics and Statistics, số 57, 1975, trang 365-366. Damodar N. Gujarati 19 Bin dịch: Thục Đoan Hiệu đính: Hào thi
  20. Chương trình Giảng dạy Kinh tế Fulbright Các phương pháp định lượng II Kinh tế lượng cơ sở - 3rd ed. Bài đọc Ch.10: Vấn đề đa cộng tuyến và cỡ mẫu nhỏ khơng đủ hiệu quả trong việc so sánh một hệ số tương quan riêng phần cho trước với các kiểu đa cộng tuyến khác. Kiểm định Farrar - Glauber cũng đã bị T.Krishma,21 John O’Hagan và Brendan McCabe.22 chỉ trích kịch liệt. 4. Các hàm hồi qui phụ trợ. Từ khi vấn đề đa cộng tuyến phát sinh vì một hay nhiều biến hồi qui độc lập là tổ hợp tuyến tính hồn hảo hoặc gần như hồn hảo của các biến hồi qui độc lập khác nào, một cách để tìm xem biến X nào cĩ quan hệ với các biến X khác, là lập hàm hồi 2 2 qui cho mỗi biến Xi theo các biến X cịn lại và tính R tương ứng, mà ta đặt là R i; mỗi một hàm hồi qui trong những hàm hồi qui này gọi là hàm hồi qui phụ trợ, phụ cho hàm hồi qui chính của Y theo các biến X. Kế đĩ, mối liên hệ sau giữa F và R2 đã được thiết lập trong (8.5.11), biến 2 R x1. x2x3 xk / (k-2) Ri = 2 (10.7.3) (1 - R x1. x2x3 xk ) / (n - k + 1) tuân theo phân phối F với độ tự do k - 2 và n - k + 1. Trong biểu thức (10.7.3) n đại diện cho cỡ 2 mẫu, k đại diện cho số biến giải thích gồm cả số hạng tung độ gốc, và R x1. x2x3 xk là hệ số xác 23 định trong hàm hồi qui của biến Xi theo các biến X cịn lại. Nếu giá trị F tính được cao hơn giá trị Fi, điều đĩ cĩ nghĩa là biến Xi cụ thể này cộng tuyến với các biến X khác; nếu giá trị F tính được khơng vượt quá giá trị tới hạn Fi, chúng ta nĩi rằng Xi khơng cộng tuyến với các biến X khác, trong trường hợp này chúng ta cĩ thể vẫn duy trì biến đĩ trong mơ hình. Nếu Fi cĩ ý nghĩa thống kê, chúng ta sẽ vẫn phải giải quyết xem biến Xi cụ thể này nên bị bỏ khỏi mơ hình hay khơng. Câu hỏi này sẽ đượcđề cập đến trong phần 10.8. Nhưng phương pháp này khơng phải là khơng cĩ trở ngại, bởi vì nếu vấn đề đa cộng tuyến chỉ liên quan đến một vài biến đến nỗi các hàm hồi qui phụ trợ khơng bị ảnh hưởng từ đa cộng tuyến mở rộng, các hệ số độ dốc ước lượng cĩ thể cho thấy bản chất của sự phụ thuộc tuyến tính giữa các biến hồi qui độc lập. Khơng may thay, nếu cĩ nhiều liên kết tuyến tính phức tạp, đường cong thực nghiệm này cĩ lẽ khơng cĩ nhiều giá trị vì sẽ khĩ xác định các quan hệ giữa các biến một cách tách biệt.24 Thay vì kiểm định thơng thường mọi giá trị R2 phụ, ta cĩ thể sử dụng qui tắc kinh nghiệm của Klien, kinh nghiệm này cho là vấn đề đa cộng tuyến cĩ lẽ là một vấn đề phức tạp chỉ khi R2 21 Multicollinearity in Regression Analysis”, (Đa cộng tuyến trong phân tích hồi qui), Review of Econometrics anhd Statistics, số 57, 1975, trang 366-368. 22 “Test for the Severity of Multicollinearity in Regression Analysis: A comment” (Kiểm định tính nghiêm trọng của đa cộng tuyến trong phân tích hồi qui), Review of Econometrics and Statistics, số 57, 1975, trang 368 - 370. 23 2 ^ Ví dụ, R x2 cĩ thể cĩ được bằng cách lập hàm hồi qui X2 như sau: X2i = a1 + a3X3i + ãX4i + + akXki + u i . 24 George G. Judge, R. Carter Hill, William E. Griffiths, Helmut Lutkepohl, và Tsoung-Chao Lee, Introduction to the Theory and Practice of Econometrics, (Nhập mơn Lý thuyết và Thực hành mơn Kinh tế lượng), John Wiley & Sons, New York, 1982, trang 621. Damodar N. Gujarati 20 Bin dịch: Thục Đoan Hiệu đính: Hào thi
  21. Chương trình Giảng dạy Kinh tế Fulbright Các phương pháp định lượng II Kinh tế lượng cơ sở - 3rd ed. Bài đọc Ch.10: Vấn đề đa cộng tuyến và cỡ mẫu nhỏ cĩ được từ một hàm hồi qui phụ trợ cĩ giá trị lớn hơn R2 tồn diện, đĩ là, R2 cĩ từ hàm hồi qui của Y theo mọi biến hồi qui độc lập.25 Dĩ nhiên, như mọi qui tắc kinh nghiệm khác, cần phải cân nhắc khi sử dụng kinh nghiệm này. 5. Giá đặc trưng và chỉ số điều kiện. Nếu bạn kiểm tra sản lượng SAS của hàm sản xuất của Cobb-Douglas cho trong phụ lục 7A.7, bạn sẽ thấy là SAS sử dụng giá trị đặc trưng và chỉ số điều kiện để chẩn đốn đa cộng tuyến. Chúng ta sẽ khơng thảo luận về giá trị đặc trưng ở đây, vì điều đĩ sẽ dẫn chúng ta vào đề tài về ma trận đại số, vượt ngồi phạm vi cuốn sách này. Tuy nhiên, từ những giá trị đặc trưng, chúng ta cĩ thể cĩ được cái gọi là số điều kiện k (condition number k), được định nghĩa là giá trị đặc trưng lớn nhất k = giá trị đặc trưng nhỏ nhất và chỉ số điều kiện (condition index) (CI) được định nghĩa là giá trị đặc trưng lớn nhất CI = giá trị đặc trưng nhỏ nhất = k kế đĩ chúng ta cĩ qui tắc kinh nghiệm này. Nếu k nằm giữa 100 và 1000 thì cĩ sự đa cộng tuyến từ trung bình đến cao và nếu giá trị này cao hơn 1000 thì cĩ sự đa cộng tuyến rất cao. Hay nếu CI (= k ) giữa 10 và 30, cĩ sự đa cộng tuyến từ trung bình đến cao và nếu giá trị này cao hơn 30 thì cĩ sự đa cộng tuyến rất cao. Đối với ví dụ minh họa, k = 3.0/0.00002422 hoặc bằng khoảng 123,864 và CI = 123864 352; cả giá trị k và CI vì vậy dự đốn là cĩ sự đa cộng tuyến rất cao. Dĩ nhiên, k và CI cĩ thể tính được giữa đặc trưng lớn nhất và bất kỳ giá trị đặc trưng khác như được làm trong tài liệu. (Lưu ý: tài liệu này khơng tính tốn một cách rõ ràng giá trị k, nhưng chỉ đơn giản tính giá trị bình phương của CI.) Nhân đây, lưu ý rằng một giá trị đặc trưng thấp (so sánh tương đối với giá trị đặc trưng lớn nhất) thường là một dấu hiệu xác định của các phụ thuộc gần như tuyến tính trong số liệu. 6. Một vài tác giả tin rằng chỉ số điều kiện là cách chẩn đốn đa cộng tuyến sẵn cĩ tốt nhất. Những ý kiến này khơng được tiếp nhận rộng rãi. Đối với chúng ta, CI chỉ là một qui tắc kinh nghiệm, cĩ lẽ phức tạp hơn một chút. Nhưng để cụ thể hơn, độc giả cĩ thể xem thêm các tài liệu tham khảo.26 25 Lawrence R. Klien, An Introduction to Econometrics, (Nhập mơn kinh tế lượng), Prentice- Hall, Englewood Cliffs, N. J., 1962, trang 101. Damodar N. Gujarati 21 Bin dịch: Thục Đoan Hiệu đính: Hào thi
  22. Chương trình Giảng dạy Kinh tế Fulbright Các phương pháp định lượng II Kinh tế lượng cơ sở - 3rd ed. Bài đọc Ch.10: Vấn đề đa cộng tuyến và cỡ mẫu nhỏ 7. Dung sai (Tolerance) và nhân tố lạm phát - phương sai. Đối với mơ hình hồi qui đa biến [Y, tung độ gốc và (k - 1) biến hồi qui độc lập], như chúng ta đã thấy trong (7.5.6) phương sai của hệ số hồi qui riêng phần cĩ thể được diễn tả 2 ^  1 var( ) = . ( 2 ) (7.5.6) j 2 1 - R x j j 2 = 2 . VIFj (10.7.4) x j 2 2 với j là hệ số hồi qui (riêng phần) của biến hồi qui độc lập Xj, R j là giá trị R trong hàm hồi qui (phụ trợ) của Xj theo (k - 2) biến hồi qui độc lập cịn lại vàVIFj là nhân tố lạm phát 2 phương sai được giới thiệu lần đầu tiên trong phần 10.5. Khi R j tăng dần đến 1, đĩ là, vì sự cộng tuyến của Xj với các biến hồi qui độc lập khác tăng, VIF cũng tăng và trong giới hạn VIF cĩ thể trở thành vơ hạn. Vì vậy một số tác giả dùng VIF như là một dấu hiệu xác định của đa cộng tuyến: Giá trị VIF càng lớn thì biến Xj càng “phức tạp” hoặc càng cộng tuyến cao. Nhưng VIF cao đến như thế nào trước khi một biến hồi qui độc lập trở nên rắc rối? Như một qui tắc kinh nghiệm, nếu 2 VIF của một biến vượt quá 10 (điều này xảy ra nếu R j vượt quá 0.9), biến này được nĩi là cộng tuyến cao.27 Các tác giả khác sử dụng phép đo dung sai để phát hiện đa cộng tuyến. Được định nghĩa như sau 2 TOLj = (1 - R j) = (1/VIFj) (10.7.5) Rõ ràng là, TOLj = 1 nếu Xj khơng tương quan với các biến hồi qui độc lập khác, trong khi đĩ TOLj = 0 nếu Xj liên kết hồn tồn với cá biến hồi qui độc lập khác. VIF (hoặc dung sai) như một phép đo độ cộng tuyến khơng tránh khỏi được các nhà phê bình. ^ 2 2 Như (10.7.4) trình bày, var( j ) phụ thuộc ba yếu tố:  , x j , và VIFj. Một giá trị VIF cao cĩ 2 2 thể được cân bằng bởi  thấp hoặc x j cao. Nĩi cách khác, một giá trị VIF cao thì khơng phải là điều kiện cần và đủ để cĩ phương sai và sai số chuẩn cao. Vì vậy, đa cộng tuyến cao, như được đo lường bằng giá trị VIF cao, cĩ lẽ khơng phải là điều kiện cần để gây ra sai số chuẩn cao. Trong thảo luận này, thuật ngữ cao và thấp được sử dụng với nghĩa tương đối. 26 Đặc biệt xem D. A. Belsley, E. Kuh, và R. E. Welsch, Regression Diagonistics: Identifying Influential Data and Sources of Collinearity, (Chẩn đốn hồi qui: Xác định ảnh hưởng của cộng tuyến đến số liệu và các nguồn số liệu), John Wiley & Sons, New York, 1980, chương 3. Tuy nhiên, cuốn sách này khơng dành cho người mới học. 27 xem David G. Kleinbaum, Lawrence L. Kupper, và Keith E. Muller, Applied Regression Analysis and Other Multivariate Methods, (Phân tích hồi qui ứng dụng và các phương pháp đa biến khác), 2d. ed., PWS-Kent, Boston, Mass., 1988, trang 210. Damodar N. Gujarati 22 Bin dịch: Thục Đoan Hiệu đính: Hào thi
  23. Chương trình Giảng dạy Kinh tế Fulbright Các phương pháp định lượng II Kinh tế lượng cơ sở - 3rd ed. Bài đọc Ch.10: Vấn đề đa cộng tuyến và cỡ mẫu nhỏ Để kết luận phần thảo luận của chúng ta và việc phát hiện đa cộng tuyến, chúng ta nhấn mạnh là nhiều phương pháp khác nhau mà chúng ta đã thảo luận đều cĩ bản chất “thả câu” (“fishinng expeditions,”) vì vậy chúng ta khơng thể nĩi phương pháp nào sẽ tốt trong bất kỳ một trường hợp ứng dụng cụ thể nào. Đáng tiếc là, chúng ta khơng thể làm được gì nhiều, vì đa cộng tuyến thì rất riêng biệt đối với mỗi mẫu cho trước mà nhà nghiên cứu cĩ lẽ khơng kiểm sốt được hết, đặc biệt là nếu số liệu về bản chất là phi thực nghiệm - trường hợp mà nhà nghiên cứu thường gặp trong các ngành khoa học xã hội. Một lần nữa, nhại lại của đa cộng tuyến, Goldberger trích ra một số cách phát hiện cỡ mẫu nhỏ chẳng hạn như xây dựng giá trị tới hạn của một cỡ mẫu, n*, như vậy nảy sinh vấn đề cỡ mẫu nhỏ chỉ khi nào cỡ mẫu thật, n, nhỏ hơn n*. Quan điểm việc nhại lại của Goldberger là nhấn mạnh rằng cỡ mẫu nhỏ và việc thiếu các sự biến thiên của các biến giải thích cĩ thể gây ra nhiều vấn đề mà ít nhất cũng nghiêm trọng như các vấn đề liên quan đến đa cộng tuyến. 10.8 CÁC BIỆN PHÁP GIẢI QUYẾT Cĩ thể làm gì nếu vấn đề đa cộng tuyến trở nên nghiêm trọng? Như trong trường hợp phát hiện đa cộng tuyến, khơng cịn lời hướng dẫn nào đáng tin cậy nữa vì đa cộng tuyến đặc biệt là một vấn đề về mẫu. Tuy nhiên, chúng ta cĩ thể cố gắng tuân theo các qui tắc kinh nghiệm, việc thành cơng cịn phụ thuộc vào mức độ nghiêm trọng của vấn đề cộng tuyến. 1. Thơng tin đầu tiên. Giả sử chúng ta xem xét mơ hình Yi = 1 + 2X2i + 3X3i + ui với Y = tiêu dùng, X2 = thu nhập và X3 = sự giàu cĩ. Như đã lưu ý trước đây, biến thu nhập và biến sự giàu cĩ cĩ khuynh hướng cộng tuyến cao. Nhưng giả sử đầu tiên chúng ta tin là 3=0.102; đĩ là, tỷ lệ thay đổi của tiêu dùng theo sự giàu cĩ bằng 1/10 tỷ lệ thay đổi tương ứng theo thu nhập. Chúng ta cĩ thể tạo hàm hồi qui sau Yi = 1 + 2X2i + 0.102X3i + ui = 1 + 2Xi + ui ^ ^ với Xi = X2i + 0.1X3i. Một khi chúng ta cĩ  2 , chúng ta cĩ thể ước lượng  3 từ mối quan hệ cơ bản giữa 2 và 3. Bằng cách nào chúng ta cĩ được thơng tin đầu tiên? Thơng tin này cĩ thể từ các cơng việc thực tế trước đây trong đĩ đã xảy ra nhiều vấn đề cộng tuyến nhưng ít nghiêm trọng hơn hoặc từ các lý thuyết tương ứng trong lĩnh vực nghiên cứu. Ví dụ, trong hàm sản xuất của Cobb-Douglas (7.10.1), nếu chúng ta kỳ vọng sinh lợi khơng đổi theo qui mơ, thì (2 + 3) = 1 trong trường hợp mà chúng ta cĩ thể sử dụng hàm hồi qui (8.7.13), lập hàm hồi qui của tỉ số sản lượng / lao động theo tỉ số vốn/lao động. Nếu cĩ cộng tuyến giữa lao động và vốn, như các trường hợp Damodar N. Gujarati 23 Bin dịch: Thục Đoan Hiệu đính: Hào thi
  24. Chương trình Giảng dạy Kinh tế Fulbright Các phương pháp định lượng II Kinh tế lượng cơ sở - 3rd ed. Bài đọc Ch.10: Vấn đề đa cộng tuyến và cỡ mẫu nhỏ thơng thường trong phần lớn số liệu mẫu, một sự biến đổi như vậy cĩ thể làm giảm hoặc loại bỏ được vấn đề đa cộng tuyến. Nhưng cĩ một khuyến cáo ở đây là về việc ấn định một ràng buộc tiên nghiệm như vậy, “ vì nĩi chung chúng ta sẽ muốn kiểm định một dự đốn tiên nghiệm của học thuyết kinh tế hơn là chỉ đơn giản đặt chúng trên những số liệu mà theo những số liệu này cĩ thể chúng khơng đúng.”28 Tuy nhiên, từ phần 8.7, chúng ta biết cách kiểm định một cách rõ ràng sự hiệu lực của những ràng buộc như vậy. 2. Kết hợp số liệu chéo (cross-sectional) và số liệu chuỗi thời gian. Một biến thể của kỹ thuật thơng tin tương lai hoặc kỹ thuật thơng tin tiên nghiệm là tổ hợp của dữ liệu chéo (liên vùng) và dữ liệu chuỗi thời gian, được gọi là gĩp chung số liệu (pooling the data). Giả sử là chúng ta muốn nghiên cứu về nhu cầu của xe máy ở Hoa Kỳ và giả sử là chúng ta cĩ số liệu chuỗi thời gian về số lượng xe được bán ra, giá trung bình của xe hơi và thu nhập của người tiêu dùng. Cũng giả sử là lnYt = 1 + 2lnPt + 3lnIt + ut với Y = số xe hơi bán ra, P = giá trung bình, I = thu nhập, và t = thời gian. Mục tiêu của chúng ta là ước lượng độ co giãn của giá 2 và độ co giãn của thu nhập 3. Trong số liệu chuỗi thời gian, các biến giá cả và thu nhập nĩi chung cĩ khuynh hướng cộng tuyến cao. Vì vậy, nếu chúng ta sử dụng hàm hồi qui trước đây, chúng ta sẽ gặp phải vấn đề đa cộng tuyến thường gặp. Tobin đã đề nghị một cách tránh khỏi vấn đề này.29 Ơng ta nĩi rằng nếu chúng ta cĩ số liệu chéo (ví dụ, số liệu từ danh sách khách hàng, hoặc từ các nghiên cứu về ngân sách được nhiều tổ chức tư nhân hoặc chính phủ thực hiện), chúng ta cĩ thể cĩ được ước lượng khá tin cậy của độ co giãn 3 bởi vì trong tập số liệu ở cùng một thời điểm như vậy, giá cả khơng ^ thay đổi quá nhiều. Hãy xem độ co giãn về giá ước lượng theo số liệu chéo là  3 . Sử dụng giá trị ước lượng này, chúng ta cĩ thể viết được hàm hồi qui chuỗi thời gian trước đây như sau * Y t = 1 + 2lnPt + ut * ^ * với Y = lnY -  3 lnI, đĩ là, Y đại diện cho giá trị của Y sau khi tách bỏ ảnh hưởng của thu nhập lên biến này. Bây giờ chúng ta cĩ thể cĩ một giá trị ước lượng của độ co giãn của giá cả 2 từ hàm hồi qui trên. Mặc dù đây là một kỹ thuật hấp dẫn, nhưng gĩp chung số liệu chuỗi thời gian và số liệu chéo về cách thức vừa đề nghị cĩ thể tạo ra các vấn đề về diễn dịch, bởi vì chúng ta ngầm giả định rằng độ co giãn giá cả ước lượng theo số liệu chéo thì cũng giống như giá trị được ước lượng theo 28 Mark B. Stewart and Kenneth F. Wallis, Introduction Econometrics, (Nhập mơn kinh tế lượng), 2d, ed., John Wiley & Sons, A Halstesd Press Book, New York, 1981, trang 154. 29 J. Tobin, “A Statistical Demand Function for Food in the USA,” (Hàm cầu thống kê của thức ăn ở Hoa Kỳ) journal of the Royal Statistical Society, Ser. A, 1950, trang 113-141 Damodar N. Gujarati 24 Bin dịch: Thục Đoan Hiệu đính: Hào thi
  25. Chương trình Giảng dạy Kinh tế Fulbright Các phương pháp định lượng II Kinh tế lượng cơ sở - 3rd ed. Bài đọc Ch.10: Vấn đề đa cộng tuyến và cỡ mẫu nhỏ phân tích chuỗi thời gian thuần túy.30 Tuy nhiên, kỹ thuật này đã được sử dụng trong nhiều ứng dụng và rất đáng giá trong những trường hợp các ước lượng dữ liệu chéo khơng biến đổi nhiều giữa một phần dữ liệu này và một phần dữ liệu khác: Một ví dụ về kỹ thuật này được cung cấp trong bài tập 10.25. 3. Bỏ qua một hoặc nhiều biến và các thiên lệch đặc trưng. Khi đối diện với vấn đề đa cộng tuyến nghiêm trọng, một trong những việc “đơn giản” nhất cĩ thể làm là bỏ bớt một trong những biến cộng tuyến. Vì vậy, trong ví dụ minh họa của chúng ta về tiêu dùng-thu nhập-sự giàu cĩ, khi chúng ta bỏ đi biến sự giàu cĩ, chúng ta cĩ hàm hồi qui (10.6.4), cho thấy là, trong khi ở mơ hình nguyên thủy, biến thu nhập khơng cĩ ý nghĩa thống kê, bây giờ biến này cĩ ý nghĩa “cao”. Nhưng khi bỏ một biến khỏi mơ hình chúng ta cĩ thể phạm phải một thiên lệch đặc trưng hoặc sai số đặc trưng. Thiên lệch đặc trưng xuất hiện từ những đặc trưng khơng đúng của mơ hình sử dụng để phân tích, vì vậy, nếu học thuyết kinh tế cho rằng thu nhập và sự giàu cĩ cĩ thể đều cĩ mặt trong mơ hình giải thích cho việc chi tiêu cho tiêu dùng, việc bỏ qua biến sự giàu cĩ sẽ tạo thành thiên lệch đặc trưng. Mặc dù chúng ta sẽ thảo luận đề tài về thiên lệch đặc trưng trong chương 13, chúng ta đã lướt qua vấn đề này trong phần 7.7 ở đĩ chúng ta đã thấy là nếu mơ hình đúng thì Yi = Yi = 1 + 2X2i + 3X3i + ui nhưng chúng ta đã làm thích hợp mơ hình một cách sai lầm ^ Yi = b1 + b12X2i + u i (7.7.1) kế đĩ E(b12) = 2 + 3b32 (7.7.4) với b32 = hệ số độ dốc trong hàm hồi qui của X3 theo X2. Vì vậy, rõ ràng từ (7.7.4) là b12 sẽ là một ước lượng thiên lệch của 2 miễn là b23 khác 0 (giả sử là 3 khác 0; nếu khơng thì sẽ vơ 31 nghĩa nếu đưa X3 vào mơ hình nguyên thủy). Dĩ nhiên, nếu b32 = 0, chúng ta khơng gặp phải vấn đề đa cộng tuyến. Cũng thấy rõ ràng từ (7.7.4) là nếu cả b32 và 3 đều dương, E(b12) sẽ lớn hơn 2; vì vậy, về trung bình b12 sẽ là ước lượng quá cao của 2, dẫn đến thiên lệch dương. Tương tự, nếu tích b323 âm, về trung bình b12 sẽ thấp hơn 2, dẫn đến thiên lệch âm. 30 Để thơng qua phần thảo luận này và ứng dụng kỹ thuật gĩp chung số liệu, xem Edwin Kuh, Capital Stock Growth: A Micro-Econometric Approach, ( Sự tăng trường của vốn cổ phần: Một phương pháp kinh tế vi lượng), North-Holland Publishing Company, Amsterdam, 1963, chương 5 và 6. 31 Lưu ý là nếu b32 khơng tiến đến 0 khi cỡ mẫu tăng vơ hạn, kế đĩ b12 sẽ khơng chỉ thiên lệch mà cịn khơng nhất quán. Damodar N. Gujarati 25 Bin dịch: Thục Đoan Hiệu đính: Hào thi
  26. Chương trình Giảng dạy Kinh tế Fulbright Các phương pháp định lượng II Kinh tế lượng cơ sở - 3rd ed. Bài đọc Ch.10: Vấn đề đa cộng tuyến và cỡ mẫu nhỏ Từ thảo luận trên, rõ ràng là việc bỏ một biến khỏi mơ hình để làm giảm bớt vấn đề đa cộng tuyến cĩ thể sẽ dẫn đến thiên lệch đặc trưng. Vì vậy, phương pháp giải quyết cĩ lẽ lại cịn làm cho vấn đề xấu thêm trong một số trường hợp, bởi vì, trong khi đa cộng tuyến cĩ thể cản trở việc ước lượng được chính xác các thơng số của mơ hình, thì việc bỏ qua một biến cĩ lẽ làm cho chúng ta lạc hướng trầm trọng khi tìm đến giá trị thực của các thơng số. Nhớ lại các hàm ước lượng OLS là BLUE mặc dù gần như cộng tuyến. 4. Biến đổi các biến. Giả sử là chúng ta cĩ số liệu chuỗi thời gian về chi tiêu cho tiêu dùng, thu nhập và sự giàu cĩ. Một lý do của sự đa cộng tuyến cao giữa thu nhập và sự giàu cĩ trong số liệu này là do theo thời gian cả hai biến này đều cĩ khuynh hướng dịch chuyển theo cùng một hướng. Một cách để giảm thiểu sự phụ thuộc này là làm như sau. Nếu quan hệ Yt = 1 + 2X2t + 3X3t + ut (10.8.1) cĩ giá trị ở thời điểm t, nĩ cũng phải cĩ giá trị ở thời điểm t - 1 bởi vì gốc thời gian là chọn tùy ý theo bất kỳ cách nào. Vì vậy, chúng ta cĩ Yt-1 = 1 + 2X2, t -1 + 3X3, t -1 + ut -1 (10.8.2) Nếu lấy (10.8.1) trừ (10.8.2) ta cĩ Yt - Yt-1 = 2 (X2t - X2, t -1) + 3 (X3t - X3, t -1) + t (10.8.3) với t = ut - ut -1. Biểu thức (10.8.3) được gọi là dạng hiệu số thứ nhất (the first difference form) vì chúng ta sử dụng hàm hồi qui, khơng theo biến nguyên thủy mà theo hiệu số giữa các giá trị liên tục của các biến. Mơ hình hồi qui hiệu số thứ nhất thường làm giảm mức độ nghiêm trọng của đa cộng tuyến vì, mặc dù các mức độ của X2 và X3 cĩ thể tương quan cao, nhưng khơng cĩ lý do chính đáng nào để tin là các hiệu số giữa chúng sẽ tương quan cao. Tuy nhiên, sự biến đổi hiệu số thứ nhất lại tạo thêm một số vấn đề. Số hạng sai số t xuất hiện trong (10.8.3) cĩ thể khơng thỏa một trong những giả định của mơ hình hồi qui tuyến tính cổ điển, đĩ là, các nhiễu này khơng quan hệ với nhau theo chuỗi thời gian. Như chúng ta sẽ thấy trong chương 12, nếu số hạng nguyên thủy ut độc lập hoặc khơng tương quan theo chuỗi, thì số hạng sai số t cĩ được ở trên sẽ tương quan theo chuỗi thời gian trong hầu hết mọi trường hợp. Một lần nữa phương pháp giải quyết cĩ lẽ lại làm vấn đề xấu thêm! Hơn thế nữa, do thủ tục hiệu số nên sẽ mất bớt một giá trị quan sát và vì vậy độ tự do bị giảm đi một. Trong một mẫu nhỏ điều Damodar N. Gujarati 26 Bin dịch: Thục Đoan Hiệu đính: Hào thi
  27. Chương trình Giảng dạy Kinh tế Fulbright Các phương pháp định lượng II Kinh tế lượng cơ sở - 3rd ed. Bài đọc Ch.10: Vấn đề đa cộng tuyến và cỡ mẫu nhỏ này cĩ thể là một vấn đề cần được để ý đến. Hơn nữa, thủ tục hiệu số thứ nhất cĩ lẽ khơng thích hợp với số liệu chéo vì số liệu này khơng cĩ một trật tự logic cho các quan sát. 5. Số liệu bổ sung hoặc số liệu mới. Vì vấn đề đa cộng tuyến là một đặc tính của mẫu, cĩ thể là trong một mẫu khác các biến cộng tuyến cĩ lẽ sẽ khơng nghiêm trọng như trong mẫu đầu tiên. Thỉnh thoảng chỉ đơn giản gia tăng cỡ mẫu (nếu cĩ thể) cũng cĩ thể làm giảm bớt vấn đề cộng tuyến. Ví dụ, trong mơ hình ba biến chúng ta đã thấy là 2 ^  var ( 2 ) = 2 2 x 2i (1 - r 23) 2 Bây giờ khi cỡ mẫu tăng, x 2i nĩi chung sẽ tăng. (Tại sao?) Vì vậy, đối với bất kỳ r23 nào cho ^ trước, phương sai của  2 sẽ giảm, do đĩ kéo theo sai số chuẩn giảm; điều này giúp chúng ta ước lượng 2 chính xác hơn. Để minh họa, xem hàm hồi qui sau của chi tiêu cho tiêu dùng Y theo thu nhập X2 và sự giàu cĩ 32 X3 dựa trên 10 quan sát: ^ Y i = 24.337 + 0.8716X2i - 0.0349X3i (10.8.4) t = (3.875) (2.7726) (- 1.1595) R2 = 0.9682 Hệ số của biến giàu cĩ trong hàm hồi qui này khơng chỉ cĩ dấu sai mà cịn khơng cĩ ý nghĩa thống kê ở mức ý nghĩa 5%. Nhưng khi cỡ mẫu tăng lên 40 lần quan sát (vấn đề cỡ mẫu nhỏ?), ta cĩ các kết quả sau ^ Y i = 2.0907 + 0.7299X2i + 0.0605X3i (10.8.5) t = (0.8713) (6.0014) ( 2.0014) R2 = 0.9672 Bây giờ hệ số biến giàu cĩ khơng chỉ cĩ dấu đúng mà cịn cĩ ý nghĩa thống kê ở mức ý nghĩa 5%. Cĩ thêm số liệu bổ sung hoặc số liệu “tốt hơn” khơng phải luơn luơn dễ dàng, vì như Judge và những người khác đã lưu ý: Khơng may thay, các nhà kinh tế học ít khi cĩ thể cĩ được số liệu bổ sung mà khơng phải chịu những khoảng chi phí quá lớn, với ít lựa chọn cho các giá trị của các biến giải thích mà họ mong muốn. Thêm vào đĩ, khi bổ sung những biến mới trong nhiều trường hợp khơng thể kiểm sốt 32 Tơi biết ơn Albert Zucker vì đã cung cấp cho tơi các kết quả đưa ra trong những hàm hồi qui sau. Damodar N. Gujarati 27 Bin dịch: Thục Đoan Hiệu đính: Hào thi
  28. Chương trình Giảng dạy Kinh tế Fulbright Các phương pháp định lượng II Kinh tế lượng cơ sở - 3rd ed. Bài đọc Ch.10: Vấn đề đa cộng tuyến và cỡ mẫu nhỏ được, chúng ta phải biết là bổ sung thêm các quan sát cĩ được từ một quá trình khác với các quan sát kết hợp với tập số liệu ban đầu; đĩ là, chúng ta phải chắc chắn tằng cấu trúc kinh tế kết hợp với những quan sát mới phải giống như cấu trúc ban đầu.33 6. Giảm cộng tuyến trong các hàm hồi qui đa thức. Trong phần 7.11 chúng ta đã thảo luận về mơ hình hồi qui đa thức. Một thuộc tính đặc biệt của các mơ hình này là các biến giải thích xuất hiện với nhiều số mũ khác nhau. Vì vậy, hàm tổng chi phí bậc ba là hàm hồi qui của tổng chi phí theo sản lượng, (sản lượng)2, và (sản lượng)3, như trong (7.11.4), các số hạng sản lượng khác nhau sẽ tương quan với nhau, làm cho khĩ ước lượng chính xác các hệ số độ dốc khác nhau.34 Trong thực tế mặc dù người ta tìm thấy là nếu (các) biến giải thích được diễn tả dưới dạng độ lệch (đĩ là, độ lệch so với giá trị trung bình), đa cộng tuyến thật sự giảm bớt. Nhưng ngay cả sau đĩ vấn đề này cĩ thể vẫn cịn tồn tại, 35 trong trường hợp đĩ chúng ta cĩ thể muốn xem xét các kỹ thuật như các đa thức trực giao.36 7. Các phương pháp khác giải quyết vấn đề đa cộng tuyến. Các kỹ thuật thống kê đa biến như phân tích nhân tố (factor analysis) và các thành tố cơ bản (principal components) hoặc các kỹ thuật như hồi qui dạng sĩng (ridge regression) thường được sử dụng để “giải quyết” vấn đề đa cộng tuyến. Nhưng đáng tiếc là những kỹ thuật này ngồi phạm vi của cuốn sách, vì chúng ta khơng thể thảo luận những kỹ thuật này một cách hồn chỉnh mà khơng sử dụng đến ma trận đại số.37 10.9 CĨ NHẤT THIẾT ĐA CỘNG TUYẾN LÀ XẤU KHƠNG? CĨ LẼ KHƠNG NẾU NHƯ MỤC TIÊU CHỈ ĐƠN THUẦN LÀ TIÊN ĐỐN Người ta đã nĩi là nếu mục tiêu chính của phân tích hồi qui là tiên đốn hoặc dự báo, thì đa cộng tuyến khơng phải là một vấn đề nghiêm trọng bởi vì giá trị R2 càng cao thì tiên đốn càng chính tốt.38 nhưng điều này cĩ thể là “ miễn là các giá trị của các biến giải thích mà đối với các biến này người ta mong rằng các dự báo phải tuân theo sự phụ thuộc gần như tuyến tính chính xác 33 Judge et al., op. cit., trang 625. Xem thêm phần 10.9 34 Như đã lưu ý, tương quan giữa X, X2 và X3 là phi tuyến, nghiêm khắc mà nĩi thì, các hàm hồi qui đa thức khơng vi phạm các giả định phi đa cộng tuyến của mơ hình cổ điển. 35 Xem R. A. Bradley và S. S. Srivastava, “Correlation and Polynomial Regression,” (Tương quan và Các hàm hồi qui đa thức), American Statistician, số 33, 1979, trang 11-14. 36 Xem Norman Draper và Harry Smith, Applied Regression Analysis, (Phân tích hồi qui ứng dụng), 2d ed., John Wiley & Sons, New York, 1981, trang 266-274. 37 Cĩ thể đọc thêm về những kỹ thuật này trong ứng dụng ở Samprit Chaterjee và Bertram Price, Regression Analysis by Example, (Phân tích hồi qui bằng ví dụ), John Wiley & Sons, New York, 1977, chương 7, 8. Xem thêm H. D. Vinod, “A Survey of Ridge Regression and Related Techniques for Improvements over Ordinary Least Square”, Review of Economics and Statistics, số 60, tháng 2, 1963, trang 121-131. 38 Xem thêm R. C. Geary, “Some Results about Relation between Stochastic Variables: A Discussion Document,” (Một số kết quả về mối quan hệ giữa các biến ngẫu nhiên: Một tài liệu thảo luận), Review of International Statistical Institute, so61 31, 1963, trang 163-181. Damodar N. Gujarati 28 Bin dịch: Thục Đoan Hiệu đính: Hào thi
  29. Chương trình Giảng dạy Kinh tế Fulbright Các phương pháp định lượng II Kinh tế lượng cơ sở - 3rd ed. Bài đọc Ch.10: Vấn đề đa cộng tuyến và cỡ mẫu nhỏ 39 như ma trận [dữ liệu] X thiết kế ban đầu.” vì vậy, nếu trong một hàm hồi qui ước lượng cĩ X2 2X3, thì trong một mẫu ở tương lai được dùng để dự báo Y, X2 cũng sẽ gần bằng 2X3, một điều kiện thật khĩ gặp trong thực tế (xem ghi chú 33), trong trường hợp này dự đốn sẽ gia tăng sự khơng chắc chắn.40 Hơn nữa, nếu mục tiêu của phân tích này khơng chỉ là dự báo mà cịn là ước lượng tin cậy của các thơng số, đa cộng tuyến nghiêm trọng cĩ thể sẽ là một vấn đề bởi vì chúng ta đã thấy là đa cộng tuyến nghiêm trọng dẫn đến sai số của các hàm ước lượng sẽ lớn. Tuy nhiên cĩ một tình huống, đa cộng tuyến cĩ lẽ khơng gây ra vấn đề nghiêm trọng. Đĩ là trường hợp khi R2 cao và hệ số hồi qui cĩ ý nghĩa một cách riêng biệt như được thấy qua các giá trị t cao hơn. Tuy nhiên, các chẩn đốn đa cộng tuyến, chỉ số điều kiện, chỉ ra là cĩ sự cộng tuyến nghiêm trọng trong số liệu. Khi nào một tình huống như vậy xuất hiện? Như Johnston lưu ý: Trường hợp này xảy ra nếu các hệ số riêng phần cao hơn giá trị thực, vì thế khơng xuất hiện các tác động mặc dù sai số chuẩn gia tăng và/hoặc bởi vì bản thân giá trị thực quá lớn đến nỗi ngay cả một ước lượng theo chiều đi xuống cũng vẫn cĩ vẻ như cĩ ý nghĩa.41 10.10 TĨM TẮT VÀ KẾT LUẬN 1. Một trong những giả định của mơ hình hồi qui tuyến tính cổ điển là khơng cĩ vấn đề đa cộng tuyến giữa các biến giải thích X. Nĩi rộng ra là, vấn đề đa cộng tuyến đề cập đến tình huống trong đĩ tồn tại một mối quan hệ tuyến tính hồn hảo hoặc gần như hồn hảo giữa các biến X. 2. Các hệ quả của đa cộng tuyến là: Nếu tồn tại cộng tuyến hồn hảo giữa các biến X, thì hệ số hồi qui của chúng là khơng xác định và các sai số chuẩn của chúng là vơ hạn. Nếu cộng tuyến cao nhưng khơng hồn hảo thì việc ước lượng của các hệ số hồi qui là cĩ thể thực hiện được nhưng sai số chuẩn của chúng cĩ khuynh hướng rất lớn. Kết quả là, các giá trị tổng thể của các hệ số khơng thể được ước lượng một cách chính xác. Tuy nhiên, nếu mục tiêu là ước lượng tổ hợp tuyến tính của các hệ số này, các hàm ước lượng, thì việc này cĩ thể thực hiện được ngay cả với sự hiện diện của đa cộng tuyến hồn hảo. 3. Mặc dù khơng cĩ phương pháp chắc chắn nào để phát hiện cộng tuyến, nhưng cĩ một số chỉ dẫn như sau: (a) Dấu hiệu rõ nhất của đa cộng tuyến là khi R2 rất cao nhưng khơng cĩ hệ số hồi qui nào cĩ ý nghĩa thống kê dựa trên kiểm định qui ước t. Trường hợp này dĩ nhiên là cực đoan. 39 Judge et al, op cit., trang 619. Bạn cũng cĩ thể tìm thấy ở trang này bằng chứng, mặc dù cộng tuyến, là tại sao chúng ta cĩ thể cĩ các giá trị dự báo trung bình tốt hơn nếu cấu trúc cộng tuyến hiện tại vẫn tiếp tục ở các mẫu trong tương lai 40 Để thảo luận thật tốt, xem thêm E. Malinvaud, Statistical methods of Econometrics, 2d ed., North Holland Publishing Company, Amsterdam, 1970, trang 220-221. 41 J. Johnston, Econometric Methods, (Các phương pháp kinh tế lượng), 3d ed., McGraw Hill, New York, 1984, trang 249 Damodar N. Gujarati 29 Bin dịch: Thục Đoan Hiệu đính: Hào thi
  30. Chương trình Giảng dạy Kinh tế Fulbright Các phương pháp định lượng II Kinh tế lượng cơ sở - 3rd ed. Bài đọc Ch.10: Vấn đề đa cộng tuyến và cỡ mẫu nhỏ (b) Trong các mơ hình chỉ liên quan đến hai biến giải thích, một phát hiện tốt về cộng tuyến cĩ thể cĩ được bằng cách kiểm tra hệ số tương quan bậc 0 hay hệ số tương quan đơn giữa hai biến. Nếu hệ số này cao, thì thơng thường đĩ chính là do đa cộng tuyến. (c) Tuy nhiên, hệ số tương quan bậc 0 cĩ thể dẫn đến sai lầm trong mơ hình cĩ nhiều hơn hai biến giải thích bởi vì cĩ thể cĩ hệ số tương quan bậc 0 thấp nhưng vẫn cĩ đa cộng tuyến cao. Trong những trường hợp như thế, cĩ lẽ chúng ta cần phải kiểm tra các hệ số tương quan riêng phần. (d) Nếu R2 cao nhưng hệ số tương quan riêng phần thấp, thì cĩ thể cĩ đa cộng tuyến. Ở đây một hoặc nhiều biến cĩ thể là khơng cần thiết. Nhưng nếu R2 cao và các hệ số tương quan riêng phần cũng cao, thì cĩ lẻ khơng thể phát hiện được đa cộng tuyến ngay. Cũng như C. Robert, Krishna Kuma, John O’Hagan và Brendan McCabe đã nêu, cĩ một số vấn đề thống kê với kiểm định các hệ số tương quan riêng phần do Farrar và Glauber để nghị. (e) Vì vậy, chúng ta cĩ thể lập hàm hồi qui mỗi biến Xi theo các biến X cịn lại trong mơ 2 2 hình và tìm ra các hệ số tương ứng của R i. Một giá trị R i cao cĩ thể cho là Xi tương quan chặt với các biến X cịn lại. Do đĩ, chúng ta cĩ thể bỏ biến nay khỏi mơ hình, miễn là nĩ khơng gây ra các thiên lệch đặc trưng nghiêm trọng. 4. Phát hiện ra đa cộng tuyến chỉ là một nửa nhiệm vụ. Nửa cịn lại liên quan đến việc giải quyết vấn đề này bằng cách nào. Một lần nữa lại khơng cĩ phương pháp nào chắc chắn, chỉ cĩ một ít qui tắc kinh nghiệm. Một số qui tắc kinh nghiệm được nêu sau: (1) sử dụng thơng tin tiên nghiệm hay thơng tin ngoại lai, (2) kết hợp số liệu chéo và số liệu chuỗi thời gian, (3) bỏ qua biến cộng tuyến cao, (4) biến đổi số liệu, và (5) thêm số liệu bổ sung hoặc số liệu mới. Dĩ nhiên, qui tắc kinh nghiệm nào trong những qui tắc trên được áp dụng sẽ phụ thuộc vào bản chất của số liệu và mức độ nghiêm trọng của vấn đề cộng tuyến. 5. Chúng ta đã lưu ý đến vai trị của đa cộng tuyến trong dự báo và chỉ ra là trừ phi cấu trúc cộng tuyến vẫn tiếp tục trong mẫu tương lai, thật là nguy hiểm khi sử dụng hàm hồi qui ước lượng, đã bị tác hại của đa cộng tuyến, cho mục đích dự báo. 6. Mặc dù đa cộng tuyến đã nhận được sự quan tâm rộng rãi (cĩ người cho rằng là quá mức) trong các tài liệu, một vấn đề khơng kém quan trọng mà chúng ta gặp phải trong nghiên cứu lý thuyết là vấn đề cỡ mẫu nhỏ, sự nhỏ của cỡ mẫu. Theo Goldberger, “Khi một bài báo nghiên cứu phàn nàn về đa cộng tuyến, đọc giả phải xem liệu những lời phàn nàn này cĩ cịn thuyết phục nếu “vấn đề cỡ mẫu nhỏ” được thay thế cho “vấn đề đa cộng tuyến”.42 Ơng ta đề nghị là người đọc phải quyết định số lần quan sát n nhỏ đến cỡ nào trước khi quyết định là họ cĩ vấn đề về cỡ mẫu nhỏ, như khi họ quyết định giá trị R2 cao cỡ nào trong một hàm hồi qui phụ trợ trước khi nĩi rằng vấn đề cộng tuyến là nghiêm trọng. 42 Goldberger, op cit., trang 250 Damodar N. Gujarati 30 Bin dịch: Thục Đoan Hiệu đính: Hào thi
  31. Chương trình Giảng dạy Kinh tế Fulbright Các phương pháp định lượng II Kinh tế lượng cơ sở - 3rd ed. Bài đọc Ch.10: Vấn đề đa cộng tuyến và cỡ mẫu nhỏ BÀI TẬP Câu hỏi 10.1. Trong mơ hình hồi qui tuyến tính k biến cĩ k biểu thức thơng thường để ước lượng k giá trị chưa biết. Những biểu thức thơng thường này đuợc cho trong (9.8.3). Giả sử là Xk là tổ hợp tuyến tính của các biến X cịn lại. Bằng cách nào bạn cho thấy là trong trường hợp này khơng thể ước lượng k hệ số hồi qui? 10.2. Xét một tập hợp các số liệu lý thuyết ở phần sau. Giả sử bạn muốn áp dụng mơ hình sau cho số liệu đã cho Yi = 1 + 2X2i + 3X3i + ui Y X2 X3 - 10 1 1 - 8 2 3 - 6 3 5 - 4 4 7 - 2 5 9 0 6 11 2 7 13 4 8 15 6 9 17 8 10 19 10 11 21 (a) Bạn cĩ thể ước lượng ba thơng số chưa biết hay khơng? Tại sao cĩ hoặc tại sao khơng? (b) Nếu khơng, hàm tuyến tính nào của các thơng số này, hàm ước lượng, bạn cĩ thể ước lượng được? Trình bày những tính tốn cần thiết 10.3. Nhớ lại chương 8, phần 5, ở đĩ chúng ta đã xét đến đĩng gĩp biên tế hoặc gia tăng của một biến giải thích. Ví dụ thảo luận ở đĩ liên quan đến hàm hồi qui của chi tiêu cho tiêu dùng cá nhân Y theo thu nhập khả dụng của cá nhân X2, và xu hướng X3. Khi chúng ta đưa biến X2 vào mơ hình trước và sau đĩ đưa biến X3 vào, ta cĩ bảng 8.7. Nhưng giả sử là chúng ta đưa X3 vào trước và sau đĩ đến X2. Bảng ANOVA tương ứng với thay đổi này như sau: Bảng ANOVA khi đưa X3 vào trước Nguồn thay đổi SS df MSS ESS do chỉ X3 Q1 = 64,536.2529 1 64,536.2529 ESS do thêm X2 Q2 = 1,428.8471 1 1,428.8471 ESS do X2 và X3 Q3 = 65,965.1000 2 32,982.5500 Do các biến cịn lại Q4 = 77.1693 12 6.4310 Tổng Q5 = 66,042.2693 Mặc dù ESS do X2 và X3 hợp lại thì giống nhau trong các bảng, nhưng vị trí giữa hai biến thì khác. Trong bảng 8.7, khi đưa X2 vào trước, đĩng gĩp của biến này vào ESS là 65,898.2353, nhưng khi đưa X2 vào như bảng trên, đĩng gĩp của biến này chỉ cĩ 1,428.8471. Điều này cũng đúng với X3. Bạn giải thích hiện tượng này như thế nào? Damodar N. Gujarati 31 Bin dịch: Thục Đoan Hiệu đính: Hào thi
  32. Chương trình Giảng dạy Kinh tế Fulbright Các phương pháp định lượng II Kinh tế lượng cơ sở - 3rd ed. Bài đọc Ch.10: Vấn đề đa cộng tuyến và cỡ mẫu nhỏ 10.4. Nếu quan hệ 1 X1i + 2 X2i + 3 X3i = 0 vẫn đúng với mọi giá trị cũa 1, 2, và 3, hãy ước 2 2 2 luợng r12. 3, r13. 2 và r23. 1. Cũng vậy, tìm R 1. 23 , R 2. 13, và R 3. 12 . Mức độ đa cộng tuyến trong 2 trường hợp này là gì? Lưu ý: R 1. 23 là hệ số xác định trong hàm hồi qui của biến Y theo X2 và X3 . Các giá trị R2 khác cũng được giải thích tương tự. 10.5 Xét mơ hình sau: Yt = 1 + 2Xt + 3Xt -1 + 4Xt - 2 + 5Xt - 3 + 6Xt - 4 + ut với Y = tiêu dùng, X = thu nhập, và t = thời gian. Mơ hình trên địi hỏi là chi tiêu cho tiêu dùng ở thời điểm t là một hàm khơng chỉ của thu nhập và thời gian mà cịn của thu nhập của những thời kỳ trước. Vì vậy, chi tiêu cho tiêu dùng trong quí 1 năm 1976 là một hàm của thu nhập trong quí đĩ và 4 quí của năm 1975. Mơ hình như vậy gọi là mơ hình trễ pha phân phối, (distributed lag models), và chúng ta sẽ thảo luận mơ hình này ở một chương sau. (a) Bạn cĩ nghĩ là cĩ vấn đề đa cộng tuyến trong mơ hình như vậy hay khơng và tại sao? (b) Nếu bạn nghĩ là cĩ cộng tuyến, bạn sẽ giải quyết như thế nào? 10.6. Xem ví dụ minh họa của phần 10.6. Bạn sẽ điều hịa sự khác biệt trong thiên hướng gia tăng tiêu dùng giữa (10.6.1) và (10.6.4) như thế nào? 10.7. Trong số liệu liên quan đến chuỗi thời gian kinh tế như GNP, nguồn cung tiền tệ, thu nhập, thất nghiệp, vv người ta thường nghi ngờ cĩ sự hiện diện của đa cộng tuyến. Tại sao? 10.8. Giả sử mơ hình Yi = 1 + 2X2i + 3X3i + ui với r23, hệ số tương quan giữa X2 và X3 , là 0. Vì vậy, một số người đề nghị là bạn sử dụng hàm hồi qui sau: Yi = 1 + 2 X2i + u1 i Yi = 1 + 3 X3i + u2 I ^ ^ ^ ^ (a) Liệu cĩ 2 =  2 và 3 =  3 hay khơng? Tại sao? ^ ^ ^ (b) Liệu  1 cĩ bằng 1 hoặc 1 hoặc bằng một số tổ hợp của chúng hay khơng? ^ ^ ^ ^ (c) Liệu cĩ var ( 2 ) = var ( 2 ) và var (3 ) = var ( 3 ) hay khơng? 10.9. Đề cập đến ví dụ minh họa của chương 7, ở đĩ chúng ta sử dụng hàm sản xuất của Cobb-Douglas cho khu vực nơng nghiệp của Đài Loan. Các kết quả của hàm hồi qui này cho ở (7.10.4) cho thấy là cả hệ số lao động và hệ số vốn đều cĩ ý nghĩa thống kê riêng biệt. (a) Hãy tìm xem các biến lao động và vốn cĩ tương quan cao hay khơng? (b) Nếu câu (a) bạn trả lời là cĩ, bạn cĩ thể bỏ biến lao động khỏi mơ hình và lập hàm hồi qui của biến sản lượng chỉ theo nhập luợng vốn hay khơng? (c) Nếu làm như vậy, bạn sẽ phạm phải thiên lệch đặc trưng loại gì? Hãy xác định bản chất của thiên lệch này. 10.10. Đề cập đến ví dụ 7.4. Với vấn đề này, ma trận tương quan cho như sau: 2 3 Xi Xi X i Xi 1 0.9742 0.9284 2 X i 1.0 0.9872 3 X i 1.0 (a) “Vì hệ số tương quan bậc 0 là rất cao, nên cĩ cĩ lẽ cĩ đa cộng tuyến nghiêm trọng.” Hãy bình luận câu nhận xét trên. Damodar N. Gujarati 32 Bin dịch: Thục Đoan Hiệu đính: Hào thi
  33. Chương trình Giảng dạy Kinh tế Fulbright Các phương pháp định lượng II Kinh tế lượng cơ sở - 3rd ed. Bài đọc Ch.10: Vấn đề đa cộng tuyến và cỡ mẫu nhỏ 2 3 (b) Bạn cĩ thể bỏ biến Xi và X i khỏi mơ hình được hay khơng? (c) Nếu bạn bỏ các biến trên, việc gì sẽ xảy ra với giá trị của hệ số của biến Xi ? 10.11. Hồi qui theo từng bước. Để quyết định tập hợp tốt nhất của các biến giải thích cho một mơ hình hồi qui, những nhà nghiên cứu thường dùng phương pháp hồi qui dạng sĩng. Trong phương pháp này chúng ta cĩ thể tiến hành bằng cách đưa từng biến X vào (hồi qui theo từng bước về phía trước) hoặc bằng cách đưa tồn bộ các biến X vào một hàm hồi qui đa biến rồi đẩy từng biến một ra ngồi (hồi qui theo từng bước về phía sau). Quyết định thêm hoặc bỏ một biến thường dựa trên cơ sở phần đĩng gĩp của biến đĩ vào ESS, như được đánh giá bằng kiểm định F. Với những gì bạn đã biết về đa cộng tuyến, bạn cĩ đề nghị một thủ tục nào khác hay khơng? Tại sao hoặc tại sao khơng? 10.12. Xác định và nêu lý do, các câu sau đây là đúng, sai hoặc khơng chắc chắn: (a) Mặc dù đa cộng tuyến hồn hảo, hàm ước lượng OLS là BLUE (b) Trong trường hợp đa cộng tuyến cao, khơng thể đánh giá mức độ ý nghĩa riêng của một hoặc nhiều hệ số hồi qui riêng phần 2 (c) Nếu một hàm hồi qui phụ trợ cho thấy là một R i cụ thể cĩ giá trị cao, thì cĩ bằng chứng xác đáng về tính cộng tuyến cao hay khơng. (d) Các hệ số tương quan từng đơi cao khơng cĩ nghĩa là cĩ đa cộng tuyến cao (e) Đa cộng tuyến thì vơ hại nếu mục tiêu của phân tích chỉ là dự báo (f) Nếu giữ các yếu tố khác khơng đổi, VIF càng cao thì các giá trị phương sai của hàm OLS càng cao (g) Dung sai (TOL) là một cơng cụ đo lường đa cộng tuyến tốt hơn VIF (h) Bạn sẽ khơng cĩ được giá trị R2 cao trong hàm hồi qui đa biến nếu mọi hệ số độ dốc riêng phần đều khơng cĩ ý nghĩa thống kê một cách riêng biệt theo kiểm định t (i) Trong hàm hồi qui của Y theo X2 và X3 , giả sử cĩ sự thay đổi nhỏ trong giá trị của X3. Điều ^ ^ này sẽ làm tăng var ( 3 ). Ở trạng thái cực đoan, nếu mọi X3 đều giống nhau thì var ( 3 ) là vơ hạn 10.13. (a) Chứng tỏ là nếu r1 i = 0 với i = 2,3, ,k thì R1. 23 k = 0 (b) Phát hiện này cĩ gì quan trọng đối với hàm hồi qui của biến X1 ( = Y) theo X2, X3, Xk? 10.14. GIả sử mọi hệ số tương quan bậc 0 của X1 (=Y), X2, , Xk đều bằng r. 2 (a) R 1. 23 k bằng bao nhiêu? (b) Các giá trị của các hệ số tương quan bậc 1 là gì? 10.15. Trong ma trận ký hiệu chúng ta đã thấy trong chương 9 ^  = (X’X)- 1 X’y ^ (a) Điều gì xảy ra với  khi cĩ cộng tuyến hồn hảo giữa các biến X? (b) Bằng cách nào bạn biết được cĩ tồn tại cộng tuyến hồn hảo? 10.16. Sử dụng ma trận ký hiệu chúng ta cĩ được ở (9.3.13) ^ var-cov (  ) = 2 (X’X)- 1 Xem các lý do của bạn cĩ đúng với các lý do của Arthur S. Goldberger và D> b. Jochems, “Lưu ý về tố thiểu từng bước (Stepwise Least-Square),” Journal of the American Statistical Association, số 56, tháng 3, 1961, trang 105- 110. Lựa chọn Damodar N. Gujarati 33 Bin dịch: Thục Đoan Hiệu đính: Hào thi
  34. Chương trình Giảng dạy Kinh tế Fulbright Các phương pháp định lượng II Kinh tế lượng cơ sở - 3rd ed. Bài đọc Ch.10: Vấn đề đa cộng tuyến và cỡ mẫu nhỏ Điều gì xảy ra với giá trị ma trận var-cov (a) khi cĩ đa cộng tuyến hồn hảo và (b) khi cộng tuyến cao nhưng khơng hồn hảo 10.17. Xét ma trận tương quan sau: X2 X3 Xk X2 1 r23 r2k R = X3 r32 1 r3k Xk rk2 rk3 1 Bằng cách nào bạn tìm được từ ma trận tương quan này (a) cĩ cộng tuyến hồn hảo hay khơng, (b) cĩ cộng tuyến chưa hồn hảo hay khơng, và (c) các biến X khơng tương quan. Gợi ý: Bạn cĩ thể dùng Rđể trả lời các câu hỏi này, với Rlà định thức của ma trận R. 10.18. Các biến giải thích trực giao. Giả sử trong mơ hình Yi = 1 + 2X2i + 3X3i + kXki + ui X2 đến Xk đều khơng tương quan. Những biến như vậy gọi là biến trực giao. Nếu là trường hợp này thì: (a) Cấu trúc của ma trận (X’X) sẽ là gì? ^ (b) Bạn cĩ được biểu thức  = (X’X)- 1 X’y bằng cách nào? ^ (c) Bản chất của ma trận var-cov của  là gì? (d) Giả sử là bạn đang tiến hành hồi qui và sau đĩ bạn muốn đưa một biến trực giao khác, biến Xk ^ ^ + 1 , vào mơ hình. Bạn cĩ phải tính lại tất cả mọi hệ số  2 và  k trước đây hay khơng? Tại sao cĩ và tại sao khơng? 10.19. Xét mơ hình sau: GNPt = 1 + 2Mt + 3Mt -1 + 4 (Mt - Mt -1) + ut với GNPt = GNP vào thời điểm t, Mt = nguồn cung tiền tệ ở thời điểm t, Mt -1 = nguồn cung tiền tệ tại thời điểm (t - 1) và (Mt - Mt -1) = thay đổi về nguồn cung tiền tệ giữa thời điểm t và thời điểm (t - 1). Mơ hình này địi hỏi là mức GNP ở thời điểm t là một hàm của nguồn cung tiền tệ ở thời điểm t và (t - 1) cũng như sự thay đổi nguồn cung tiền tệ giữa các thời kỳ này. (a) Giả sử bạn cĩ số liệu để ước luợng mơ hình trên, bạn cĩ thể ước lượng được mọi hệ số của mơ hình này hay khơng? Tại sao cĩ và tại sao khơng? (b) Nếu khơng, các hệ số nào cĩ thể ước lượng được? (c) Giả sử là số hạng 3Mt -1 khơng cĩ mặt trong mơ hình này. Câu trả lời của bạn cĩ giống câu (a) khơng? (d) Lập lại câu (c), với giả định là số hạng 2Mt khơng cĩ mặt trong mơ hình. 10.20. Chứng tỏ là (7.4.7) và (7.4.8) cũng cĩ thể được diễn tả như sau 2 ^ (yix2i ) (x 3i ) - (yix3i ) (x2ix3i )  = 2 2 2 2 (x 2i ) (x 3i ) (1- r 23) Damodar N. Gujarati 34 Bin dịch: Thục Đoan Hiệu đính: Hào thi
  35. Chương trình Giảng dạy Kinh tế Fulbright Các phương pháp định lượng II Kinh tế lượng cơ sở - 3rd ed. Bài đọc Ch.10: Vấn đề đa cộng tuyến và cỡ mẫu nhỏ 2 ^ (yix3i ) (x 2i ) - (yix2i ) (x2ix3i )  = 3 2 2 2 (x 2i ) (x 3i ) (1- r 23) với r23 là hệ số tương quan giữa X2 và X3 . ^ 10.21. Sử dụng (7.4.12) và (7.4.15), chứng tỏ là khi cĩ cộng tuyến hồn hảo thì các phương sai của  2 và ^  3 là vơ hạn. 10.22. Kiểm chứng lại phát biểu: các sai số chuẩn của tổng các hệ số độ dốc ước lượng từ (10.5.4) và (10.5.5) theo thứ tự là 0.1992 và 0.1825. (Xem phần 10.5). 10.23. Với mơ hình hồi qui k biến (9.1.1) cĩ thể thấy là phương sai của hệ số hồi qui riêng phần thứ k (k = 2, 3, , k) cĩ thể biểu diễn như sau 2 2 ^ 1  y 1 - R var ( k ) = 2 2 n - k  k 1 - R k 2 2 2 2 với  y = phương sai của Y,  k = phương sai của biến giải thích thứ k, R k = R từ hàm hồi qui 2 của Xk theo các biến X cịn lại, và R = hệ số xác định từ hàm hồi qui đa biến (9.1.1), đĩ là, hàm hồi qui của Y theo các biến X cịn lại. 2 ^ (a) Tất cả vẫn giữ nguyên, nếu  k tăng, chuyện gì sẽ xảy ra với var ( k )? Cĩ những liên quan gì đến vấn đề đa cộng tuyến? (b) Chuyện gì xảy ra với cơng thức trên khi cộng tuyến hồn hảo? ^ 2 2 (c) Phát biểu sau là đúng hay sai: “Phương sai của  k giảm khi R tăng, vì vậy ảnh hưởng của R k cao cĩ thể được bù lại bằng R2 cao.” 10.24. Căn cứ vào số liệu hàng năm của khu vực sản xuất của Hoa Kỳ trong thời gian 1899-1922, Dougherty cĩ được kết quả hồi qui sau: log Y = 2.81 - 0.53 log K + 0.91 log L + 0.047t (1) se = (1.38) (0.34) (0.14) (0.021) R2 = 0.97 F = 189.8 với Y = chỉ số của sản lượng thật, K = chỉ số của nhập luợng vốn thực, L = chỉ số nhập lượng của lao động thực, t = thời gian hoặc xu hướng. Sử dụng cùng số liệu, ơng ta cũng đã cĩ được hàm hồi qui sau: log (Y/L) = - 0.11 + 0.11 log (K/L) + 0.047t (2) se = (0.04) (0.15) (0.006) R2 = 0.65 F = 19.5 (a) Cĩ đa cộng tuyến trong hàm hồi qui (1) hay khơng? Làm sao bạn biết? (b) Trong hàm hồi qui (1), dấu tiên nghiệm của log K là gì? Các kết quả này cĩ phù hợp với kỳ vọng này khơng? Tại sao cĩ hoặc tại sao khơng? (c) Bạn chứng minh dạng hàm hồi qui (1) như thế nào:(Hướng dẫn: Hàm sản xuất Cobb - Douglas.) (d) Giải thích hàm hồi qui (1). Biến xu hướng đĩng vai trị gì trong hàm hồi qui này? (e) Tính logic của hàm hồi qui ước lượng (2) là gì? R. Stone đưa ra cơng thức này, “The Analysis of Market Demand,” (Phân tích nhu cầu thị trường), Journal of the Royal Statistical Society, số B7, 1945, trang 297. Cũng nhớ lại (7.5.6). muốn biết thêm, xem Peter Kennedy, A Guide to Econometrics, (Hướng dẫn Kinh tế lượng), 2d ed., The MIT Press, Cambridge, Mass., 1985, trang 156. Christopher Dougherty, Introduction to Econometrics, (Nhập mơn kinh tế lượng), Oxford University Press, New York, 1992, trang 159-160 Damodar N. Gujarati 35 Bin dịch: Thục Đoan Hiệu đính: Hào thi
  36. Chương trình Giảng dạy Kinh tế Fulbright Các phương pháp định lượng II Kinh tế lượng cơ sở - 3rd ed. Bài đọc Ch.10: Vấn đề đa cộng tuyến và cỡ mẫu nhỏ (f) Nếu cĩ đa cộng tuyến trong hàm hồi qui (1), thì vấn đề đa cộng tuyến này cĩ bị giảm bớt trong hàm hồi qui (2) hay khơng? Bằng cách nào bạn biết được? (g) Nếu hàm hồi qui (2) là một dạng giới hạn của hàm hồi qui (1), thì tác giả đã đặt ra sự giới hạn gì? (Hướng dẫn: quay lại phần phạm vi.) Bằng cách nào bạn biết được sự giới hạn này cĩ hiệu lực hay khơng? Bạn sử dụng kiểm định gì? Trình bày mọi tính tốn của bạn. (h) Các giá trị R2 của hai hàm hồi qui trên cĩ thể so sánh được hay khơng? Tại sao cĩ hoặc tại sao khơng? Bạn cĩ thể làm cho chúng trở thành so sánh được bằng cách nào, nếu như hiện tại chúng khơng thể so sánh được? Bài tốn 10.25. Klein và Goldberger đã cố gắng để sử dụng mơ hình hồi qui sau vào kinh tế Hoa Kỳ: Yi = 1 + 2X2i + 3X3i + 4X4i + ui với Y = tiêu dùng, X2 = thu nhập tiền lương, X3 = thu nhập khơng phải từ tiền lương, khơng phải từ nơng trại, và X4 = thu nhập từ nơng trại. Nhưng vì người ta kỳ vọng là X2, X3, và X4 cộng tuyến cao, nên họ đã cĩ được các giá trị ước lượng của 3 và 4 từ phân tích gộp là như sau: 3 = 0.752 và 4 = 0.6252 . Sử dụng các giá trị ước lượng này, họ thiết lập lại hàm tiêu dùng như sau: Yi = 1 + 2 (X2i + 0.75 X3i + 0.625X4i ) + ui = 1 + 2 Zi + ui với Zi = X2i + 0.75 X3i + 0.625X4i . (a) Hãy làm cho mơ hình đã hiệu chỉnh này thích hợp với các số liệu đi kèm và tìm các ước lượng của 1 đến 4. (b) Bạn giải thích biến Z như thế nào? Năm Y X2 X3 X4 Năm Y X2 X3 X4 1936 62.8 43.41 17.10 3.96 1946 95.7 76.73 28.26 9.76 1937 65.0 46.44 18.65 5.48 1947 98.3 75.91 27.91 9.31 1938 63.9 44.35 17.09 4.37 1948 100.3 77.62 32.30 9.85 1939 67.5 47.82 19.28 4.51 1949 103.2 78.01 31.39 7.21 1940 71.3 51.02 23.24 4.88 1950 108.9 83.57 35.61 7.39 1941 76.6 58.71 28.11 6.37 1951 108.5 90.59 37.58 7.98 1945* 86.3 87.69 30.29 8.96 1952 111.4 95.47 35.17 7.42 *Số liệu trong những năm chiến tranh 1942-1944 bị thiếu. Số liệu của những năm khác là hàng triệu của 1939 đơ - la. Nguồn: L. R. Klein và A. S. Goldberger, An Economic Model of the United States, (Mơ hình kinh tế của Mỹ) 1929-1952, North Holland Publishing Company, Amsterdam, 1964, trang 131 10.26. Bảng sau đây cho số liệu về nhập khẩu, GNP, và chỉ số giá tiêu dùng (CPI) của Mỹ trong thời kỳ 1970-1983. Hàng hĩa nhập khẩu, GNP, và CPI, Mỹ, 1970 – 1983 Năm Nhập khẩu hàng hĩa GNP (tỉ $) CPI, mọi hạng (triệu $) mục (1967 = 100) 1970 39,866 992.7 116.3 Damodar N. Gujarati 36 Bin dịch: Thục Đoan Hiệu đính: Hào thi
  37. Chương trình Giảng dạy Kinh tế Fulbright Các phương pháp định lượng II Kinh tế lượng cơ sở - 3rd ed. Bài đọc Ch.10: Vấn đề đa cộng tuyến và cỡ mẫu nhỏ 1971 45,579 1,077.6 121.3 1972 55,797 1,185.9 125.3 1973 70,499 1,326.4 133.1 1974 103,811 1,434.2 147.7 1975 98,185 1,549.2 161.2 1976 124,228 1,718.0 170.5 1977 151,907 1,918.3 181.5 1978 176,010 2,163.9 195.4 1979 212,028 2,417.8 217.4 1980 249,781 2,631.7 246.8 1981 265,086 2,957.8 272.4 1982 247,667 3,069.3 289.1 1983 261,312 3,304.8 298.4 Nguồn: Economic Report of the President, 1985. Số liệu về nhập khẩu từ bảng B-98 (trang 344), GNP từ bảng B-1 (trang 232) và CPI từ bảng B-52 (trang 291) Bạn hãy xem mơ hình sau: ln Nhập khẩut = 1 + 2 ln GNPt + 3 ln CPIt + ui (a) Ước lượng các thơng số của mơ hình này, sử dụng số liệu cho trong bảng. (b) Bạn cĩ nghi ngờ là cĩ đa cộng tuyến trong số liệu hay khơng? (c) Kiểm tra bản chất của cộng tuyến, sử dụng chỉ số điều kiện. (d) Lập hàm hồi qui: (1) ln Nhập khẩut = A1 + A2 ln GNPt (2) ln Nhập khẩut = B1 + B2 ln CPIt (3) ln GNPt = C1 + C2 ln CPIt Dựa vào những hàm hồi qui này, bạn cĩ thể nĩi gì về bản chất của đa cộng tuyến trong số liệu? ^ ^ (e) Giả sử là cĩ đa cộng tuyến trong số liệu nhưng  2 và  3 cĩ ý nghĩa riêng biệt ở mức ý nghĩa 5% và kiểm định F tồn diện cũng cĩ ý nghĩa. Trong trường hợp này chúng ta cĩ nên quan tâm về vấn đề cộng tuyến hay khơng? 10.27. Liên quan đến bài tập 7.23 về hàm nhu cầu gà ở Mỹ. (a) Sử dụng mơ hình logarit tuyến tính, hoặc logarit kép (double-log), để ước lượng các hàm hồi qui phụ trợ khác nhau. Cĩ bao nhiêu hàm này? (b) Từ những hàm hồi qui phụ trợ này, bạn quyết định xem hàm hồi qui nào thì cộng tuyến cao bằng cách nào? Bạn sử dụng kiểm định gì? Trình bày chi tiết các tính tốn của bạn. (c) Nếu cĩ cộng tuyến cao trong số liệu, những biến nào bạn sẽ bỏ đi để giảm mức độ trầm trọng của vấn đề cộng tuyến? Nếu bạn làm như vậy, bạn sẽ gặp phải vấn đề kinh tế lượng gì? (d) Bạn cĩ đề nghị nào khác cách bỏ một số biến để giảm bớt vấn đề cộng tuyến? Giải thích. 10.28. Bảng kèm theo đây trình bày số liệu về loại xe hơi chở khách mới được bán ở Mỹ như một hàm của nhiều biến. (a) Xây dựng một mơ hình tuyến tính hoặc logarit tuyến tính để ước lượng hàm cầu về xe ơ tơ ở Mỹ. (b) Nếu bạn quyết định chọn tất cả các biến hồi qui độc lập cho trong bảng làm biến giải thích, bạn cĩ nghĩ là sẽ gặp phải vấn đề đa cộng tuyến khơng? Tại sao? (c) Nếu gặp phải vấn đề đĩ, bạn sẽ giải quyết bằng cách nào? Nêu các giả định của bạn một cách rõ ràng và trình bày mọi tính tốn thật chi tiết. Damodar N. Gujarati 37 Bin dịch: Thục Đoan Hiệu đính: Hào thi
  38. Chương trình Giảng dạy Kinh tế Fulbright Các phương pháp định lượng II Kinh tế lượng cơ sở - 3rd ed. Bài đọc Ch.10: Vấn đề đa cộng tuyến và cỡ mẫu nhỏ Năm Y X2 X3 X4 X5 X6 1971 10,227 112.0 121.3 776.8 4.89 79,367 1972 10,872 111.0 125.3 839.6 4.55 82,153 1973 11,350 111.1 133.1 949.8 7.38 85,064 1974 8,775 117.5 147.7 1,038.4 8.61 86,784 1975 7,539 127.6 161.2 1,142.8 6.16 85,846 1976 9,994 135.7 170.5 1,252.6 5.22 88,752 1977 11,046 142.9 181.5 1,379.3 5.50 92,017 1978 11,194 153.8 195.3 1,551.2 7.78 96,048 1979 10,559 166.0 217.7 1,729.3 10.25 98,824 1980 8,979 179.3 247.0 1,918.0 11.28 99,303 1981 8,535 190.2 272.3 2,127.6 13.73 100,397 1982 4,980 197.6 286.6 2,261.4 11.20 99,526 1983 9,179 202.6 297.4 2,428.1 8.69 100,834 1984 10,394 208.5 307.6 2,670.6 9.65 105,005 1985 11,039 215.2 318.5 2,841.1 7.75 107,150 1986 11,450 224.4 323.4 3,002.1 6.31 109,597 Y = Xe hơi chở khách mới được bán (hàng ngàn), khơng điều chỉnh theo mùa X2 = Xe hơi mới, Chỉ số giá tiêu dùng,1967 = 100, khơng điều chỉnh theo mùa X3 = Chỉ số giá tiêu dùng, mọi mục, mọi người tiêu dùng thành thị, 1967 = 100, khơng điều chỉnh theo mùa X4 = thu nhập cá nhân cĩ thể chi tiêu được (PDI), tỉ đơ-la, khơng điều chỉnh theo mùa X6 = lực lượng lao động đơ thị cĩ nghề nghiệp (hàng ngàn), khơng điều chỉnh theo mùa Nguồn: Business Statistics, 1986, A Supplement to the Curent Survey of Business U. S. Deparment of Commerce Damodar N. Gujarati 38 Bin dịch: Thục Đoan Hiệu đính: Hào thi