Bài giảng Kinh tế lượng - Trần Kim Thanh

pdf 83 trang Gia Huy 2810
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Kinh tế lượng - Trần Kim Thanh", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfbai_giang_kinh_te_luong_tran_kim_thanh.pdf

Nội dung text: Bài giảng Kinh tế lượng - Trần Kim Thanh

  1. TRƯỜNG ĐẠI HỌC TÀI CHÍNH MARKETING KHOA CƠ BẢN BỘ MÔN TOÁN – THỐNG KÊ TRẦN KIM THANH (CHỦ BIÊN) NGUYỄN VĂN PHONG NGUYỄN TRUNG ĐÔNG BÀI GIẢNG KINH TẾ LƯỢNG MÃ SỐ: CS – K21 – 13 (LƯU HÀNH NỘI BỘ) TP. HỒ CHÍ MINH – 2015
  2. Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng LỜI NÓI ĐẦU Kinh tế lượng là môn học được đưa vào giảng dạy cho các lớp sinh viên thuộc hầu hết các chuyên ngành của trường Đại học Tài chính – Marketing. Vì vậy, một tài liệu được biên soạn thống nhất theo đề cương môn học là nhu cầu cần thiết cho các giảng viên và sinh viên. Để đáp ứng nhu cầu đó, được sự đồng ý của Bộ môn Toán – Thống kê, của Khoa Cơ Bản và của Ban Giám hiệu trường Đại học Tài chính – Marketing, chúng tôi biên soạn cuốn Bài giảng này. Tài liệu này trình bày những nội dung cơ bản, dựa trên đề cương học phần Kinh tế lượng của Bộ môn Toán – Thống kê, sử dụng Eviews 8 làm phần mêm hỗ trợ và được chia làm 7 chương và 4 bảng phụ lục thống kê: - Chương 1: Trình bày tổng quan về kinh tế lượng, những khái niệm liên quan đến số liệu, hàm hồi quy tổng thể, hàm hồi quy mẫu, mô hình kinh tế lượng. - Chương 2: Trình bày mô hình hồi quy hai biến, mô hình hồi quy đơn giản nhất, tuy ít hiện hữu, nhưng rất quan trọng về mặt phương pháp luận. Trong đó trình bày chi tiết phương pháp bình phương tối thiểu để ước lượng các hệ số hồi quy, cùng những bài toán thống kê cơ bản trên mô hình hồi quy hai biến: Ước lượng khoảng tin cậy cho các tham số mô hình; Kiểm định giả thuyết về mô hình. Phần cuối chương trình bày một số ứng dụng của mô hình hai biến và một số mô hình tuyến tính hóa được thường gặp trong thực tế. - Chương 3: Khảo sát mô hình hồi quy nhiều biến, trong đó trình bày phương pháp bình phương tối thiểu để tìm ước lượng cho các hệ số hồi quy, khảo sát hệ số xác định hiệu chỉnh, ma trận trương quan mẫu, các bài toán thống kê trên mô hình hồi quy nhiều biến: Ước lượng các tham số, kiểm định giả thuyết về mô hình, một kiểm định thường được ứng dụng nhiều trong mô hình hồi quy nhiều biến là kiểm định Wald. - Chương 4: Biến giả trong phân tích hồi quy. Chương này đề cập đến việc lượng hóa biến định tính (biến giả) để đưa vào mô hình hồi quy và sự cần thiết phải sử dụng biến giả, đồng thời giới thiệu kỹ thuật sử dụng biến giả để xử lý các vấn đề trong mô hình hồi quy. - Chương 5: Đề cập đến những vấn đề thực tế có thể xảy ra trong một mô hình hồi quy, mà chúng vi phạm giả thiết của phương pháp bình phương tối thiểu thông dụng, một phương pháp được sử dụng trong kinh tế lượng để ước lượng mô hình hồi quy tổng thể. Đó là các vấn đề: Đa cộng tuyến giữa các biến giải thích; Phương sai nhiễu thay đổi; Tự tương quan của nhiễu. Mỗi vấn đề này đều được đề cập với ba nội dung: Phân tích nguyên nhân; Cách phát hiện (thông qua các biểu hiện của mô hình, của đồ thị và qua các kiểm định); Biện pháp khắc phục. - Chương 6: Phân tích đặc trưng và lựa chọn mô hình, Chương này trình bày những vấn đề chính sau đây: Phân tích đặc trưng mô hình (Các thuộc tính của một mô hình tốt, các loại sai lầm chỉ định, cách tiếp cận để lựa chọn mô hình); Các kiểm định về sai lầm chỉ định; Ứng dụng hồi quy trong phân tích, dự báo.
  3. Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng - Chương phụ lục: Trình bày có tính chất hệ thống lại những vấn đề của Lý thuyết Xác suất – Thống kê toán, cần thiết cho việc phân tích và giải quyết các bài toán trên mô hình hồi quy của Kinh tế lượng, tạo cơ sơ nền tảng cho người học để nắm bắt tốt hơn nội dung bài giảng. Cuốn tài liệu này do TS. Trần Kim Thanh làm chủ biên và được biên soạn dựa trên cơ sở đề cương chi tiết của Bộ môn Toán - Thống kê, tổng hợp các bài giảng Kinh tế lượng qua nhiều năm giảng dạy, các tài liệu tham khảo và các ý kiến đóng góp quý báu của các giảng viên Bộ môn Toán - Thống kê và các đồng nghiệp. Nội dung của tài liệu được biên soạn phù hợp với thời lượng 3 tín chỉ, bao gồm 7 chương. Trong đó có những nội dung được trình bày trên lớp, có những nội dung yêu cầu sinh viên tự đọc với sự hướng dẫn của giáo viên. Sau mỗi chương đều có phần bài tập để người học thực hành, kèm theo những hướng dẫn cần thiết. Nhóm biên soạn tài liệu này gồm : - TS. Trần Kim Thanh (Chủ biên), biên soạn phần lý thuyết các chương. - ThS. Nguyễn Văn Phong, sưu tầm và biên soạn phần bài tập cho các chương 1,2, 3, 4. - ThS. Nguyễn Trung Đông, sưu tầm và biên soạn phần bài tập cho các chương 5, 6, đọc và chỉnh sửa bản in. Chúng tôi xin chân thành cảm ơn Bộ môn Toán – Thống kê và các đồng nghiệp đã đóng góp những ý kiến quý báu cho cuốn Bài giảng này. Hy vọng đây sẽ là một tài liệu đáp ứng được yêu cầu về giảng dạy và học tập đối với học phần Kinh tế lượng trong nhà trường. Nhóm biên soạn đã hết sức cố gắng để hoàn thành cuốn tài liệu này, tuy nhiên không tránh khỏi những thiếu sót. Chúng tôi mong được sự đóng góp ý kiến của các đồng nghiệp và bạn đọc tài liệu này ngày càng hoàn thiện hơn. Nhóm tác giả
  4. Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng Chương 1. TỔNG QUAN VỀ KINH TẾ LƯỢNG Chương này trình bày tổng quan về kinh tế lượng: Khái niệm về kinh tế lượng; mô hình kinh tế lượng, trong đó đặc biệt là các khái niệm về hàm hồi quy tổng thể, hàm hồi quy mẫu; các vấn đề cơ bản của kinh tế lượng. 1.1. Các khái niệm mở đầu 1.1.1. Khái niệm về kinh tế lượng Kinh tế lượng, theo thuật ngữ tiếng Anh là Econometrics. Theo đó hiểu một cách đơn giản thì kinh tế lượng là đo lường kinh tế. Một cách đầy đủ và chi tiết hơn thì Kinh tế lượng là khoa học nghiên cứu những vấn đề thực nghiệm của các quy luật kinh tế, là sự kết hợp chặt chẽ giữa các số liệu thực tế, lý thuyết kinh tế và công cụ toán học không thể thiếu được là lý thuyết Xác suất Thống kê kết hợp với các phần mềm vi tính hỗ trợ, nhằm lượng hóa các quy luật kinh tế nói riêng và thực tiễn nói chung thông qua những mô hình toán học phù hợp với thực tế, ước lượng các tham số, phân tích, đánh giá và dự báo các chỉ tiêu kinh tế, xã hội. Kinh tế lượng vì thế còn được áp dụng trong các lĩnh vực khoa học kỹ thuật, môi trường, dân số, giáo dục, v.v 1.1.2. Sơ đồ tổng quan về kinh tế lượng: Có thể hình dung một cách tổng quan về quá trình xây dựng và ứng dụng của kinh tế lượng qua sơ đồ sau: Nêu vấn đề cần nghiên cứu và các giả thuyết Thiết lập mô hình Thu thập, xử lý số liệu Ước lượng các tham số Phân tích, kiểm định mô hình (Không phù hợp) Đánh giá tính phù hợp của mô hình (phù hợp) Sử dụng mô hình: đánh giá, dự báo, ra quyết định, Bảng 1.1 a. Vấn đề nghiên cứu và các giả thuyết
  5. Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng Vấn đề nghiên cứu có thể dựa trên cơ sở lý thuyết kinh tế, kinh nghiệm thực tế, kết quả của những nghiên cứu trước đó. Từ đó cần phải xác định được các biến kinh tế và mối quan hệ giữa chúng. Mối quan hệ này là sự phụ thuộc giữa một biến, gọi là biến phụ thuộc hay biến cần được giải thích, đối với các biến còn lại, gọi là các biến giải thích (có nhiều tài liệu còn gọi là c+ác biến độc lập, nhưng một cách chính xác, ta nên gọi là các biến giải thích) Chẳng hạn, lý thuyết kinh tế chỉ ra rằng: Chỉ tiêu tiêu dùng tăng khi thu nhập tăng nhưng sự gia tăng trong tiêu dùng không nhiều như sự gia tăng trong thu nhập. Trên cơ sở này, ta xác định được hai biến kinh tế cần khảo sát là Thu nhập và Tiêu dùng, trong đó Tiêu dùng sẽ phụ thuộc vào Thu nhập và vấn đề cần nghiên cứu ở đây là: Khi thu nhập thay đổi 1 đơn vị thì tiêu dùng sẽ thay đổi một lượng là bao nhiêu? b. Thiết lập mô hình kinh tế lượng Lý thuyết kinh tế cho biết quy luật về mối quan hệ giữa các biến kinh tế một cách định tính, nhưng không lượng hóa được mối quan hệ này, tức là không nêu cụ thể dạng hàm biểu diễn mối quan hệ đó. Trên cơ sở các học thuyết kinh tế, sử dụng công cụ toán học, kinh tế lượng sẽ định dạng các mô hình cho các trường hợp cụ thể, tức là thiết lập mô hình kinh tế lượng. Trong lý thuyết xác suất, ta biết hàm hồi quy: (푌| ) = ( ) (1) là mô hình toán học mô tả sự phụ thuộc của giá trị trung bình (có điều kiện) của biến quan sát Y vào biến quan sát X. Tuy nhiên do tác động ngẫu nhiên mà các giá trị của biến Y thường lệch khỏi giá trị trung bình (quan hệ giữa Y và X là quan hệ phụ thuộc thống kê), nên độ lệch: 푈 = 푌 − (푌| ) là một biến ngẫu nhiên. Vì thế: 푌 = (푌| ) + 푈 Và mô hình sau đây được gọi là mô hình kinh tế lượng: (푌| ) = ( ) { (2) 푌 = ( ) + 푈 Trong đó số hạng U, gọi là số hạng nhiễu, là một biến ngẫu nhiên (nên còn gọi là sai số ngẫu nhiên), đại diện cho các tác động ngẫu nhiên của các yếu tố khác ngoài X. Chẳng hạn nếu X là thu nhập, Y là tiêu dùng thì U đại diện cho tác động của các yếu tố ngẫu nhiên khác ngoài thu nhập, như: hoàn cảnh gia đình, sở thích, tập quán tiêu dùng, ảnh hưởng đến việc tiêu dùng. c. Thu thập, xử lý số liệu Trong mô hình kinh tế lượng được xác lập, tức là đã xác lập được dạng của hàm hồi quy f(X), có các tham số chưa biết mà ta cần ước lượng. Chẳng hạn dạng hồi quy là tuyến tính, tức là f(X) = a + b.X Để ước lượng mô hình kinh tế lượng, ta cần tới việc thu thập và xử lý các số liệu về các biến trong mô hình.
  6. Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng d. Ước lượng các tham số: Các tham số trong mô hình kinh tế lượng là các hằng số chưa biết của tổng thể. Ở đây chúng ta sẽ dùng phương pháp thông dụng nhất, đó là phương pháp bình phương bé nhất thông thường (Ordinary Least Squares) hay cò gọi là phương pháp bình phương tối thiểu thông thường, viết tắt là: OLS. e. Kiểm định giả thuyết về tính phù hợp của mô hình Mục đích kiểm định giả thuyết là: - Xác định mức độ phù hợp về mặt lý thuyết của mô hình - Xác định mức độ phù hợp của dạng mô hình với số liệu điều tra và phát hiện dấu hiệu có thể bị vi phạm các giả thiết cổ điển của mô hình kinh tế lượng. Chẳng hạn về quan hệ thu nhập X – tiêu dùng Y, nếu ta định dạng mô hình kinh tế lượng là: (푌| ) = + . { 푌 = + . + 푈 thì do quan hệ giữa Y và X thực tế là đồng biến, tức là phải có > 0. Mặt khác do sự gia tăng trong tiêu dùng không nhanh nhiều như trong thu nhập, có nghĩa là
  7. Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng Trong 10 ngày tại tp. HCM → 푆ố 푙푖ệ 푡ℎ푒표 푡ℎờ푖 푖 푛. K. sát giá vàng: {Trong ngày hôm qua tại ∶ Hà Nội, tp. HCM, Đ. nẵng → 푆ố 푙푖ệ ℎé표. Trong 10 ngày tại: Hà Nội, tp. HCM, Đà nẵng → 푆ố 푙푖ệ ℎỗ푛 ℎợ . Việc phân loại số liệu là cần thiết đối với người sử dụng, vì mỗi loại số liệu đều có những đặc tính ưu việt hay hạn chế riêng đối với mô hình. b. Nguồn số liệu: Số liệu được sử dụng trong phân tích hồi quy được thu thập từ hai nguồn: Số liệu điều tra thực tế và số liệu thử nghiệm. Số liệu thử nghiệm nhận được từ việc tiến hành thử nghiệm trong những điều kiện nhất định nào đó (có thể do người thử nghiệm, quan sát đặt ra) để quan sát, đo đạc. Nguồn số liệu này thường xuất hiện trong các lĩnh vực khoa học, kỹ thuật. Chẳng hạn người ta áp dụng các chế độ canh tác khác nhau trên các thửa ruộng để quan sát tác động của chúng trên năng suất của một giống lúa. Số liệu thực tế không chịu tác động ảnh hưởng của người điều tra, quan sát. Chẳng hạn các số liệu về giá vàng, giá bất động sản, tỷ lệ hộ nghèo, mức thu nhập, không nằm trong sự kiểm soát của người điều tra, quan sát, là những số liệu thực tế. Đối với các số liệu thực tế, việc phân tích ảnh hưởng của một yếu tố nào đó đối với biến phụ thuộc sẽ khó khăn hơn do người ta không kiểm soát được những tác động của chúng. Chất lượng của số liệu là ở chỗ nó có tính khách quan, có phản ánh đúng thực chất của hiện tượng, đối tượng quan sát, nghiên cứu hay không. Có thể chỉ ra các nguyên nhân sau khiến cho chất lượng số liệu thường không hoàn hảo: - Vấn đề sai số trong các phép đo, quan sát. - Vấn đề sai số, sai lầm, bỏ sót trong quá trình thu thập số liệu. - Vấn đề lựa chọn phương pháp điều tra, chọn mẫu. - Mức độ tổng hợp và tính chất bảo mật của số liệu. Vậy chúng ta chỉ có thể tìm hàm hồi quy phù hợp nhất với số liệu đã có. 1.2.2. Hàm hồi quy tổng thể PRF (Population regression function) Trung bình có điều kiện (hay kỳ vọng có điều kiện) của biến Y theo tập biến (hay véc tơ) X là (푌| ) được gọi là hàm hồi quy tổng thể của Y theo X, tức là hàm hồi quy được xây dựng dựa trên kết quả nghiên cứu khảo sát tổng thể, viết tắt là PRF. Ví dụ 2: Tổng thể là 60 hộ gia đình ở một khu vực nhỏ với 2 tiêu chí quan sát: X (USD) là mức thu nhập hàng tuấn của một hộ, Y (USD) là mức chi tiêu 1 tuần của một hộ. Điều tra toàn bộ tổng thể ta có kết quả sau, trong đó 푌 là các giá trị của biến Y ứng với = , ở đây có nghĩa là mức chi tiêu 1 tuần của các hộ có cùng mức thu nhập hang tuần là = , còn 푛 là tổng số hộ có cùng mức thu nhập hang tuần là = và hàm PRF là (푌| ) có các giá trị tương ứng với giá trị của X được chỉ ra ở dòng cuối cùng của bảng tính sau:
  8. Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng X 80 100 120 140 160 180 200 220 240 260 Y 55 65 79 80 102 110 120 135 137 150 60 70 84 93 107 115 136 137 145 152 65 74 90 95 110 120 140 140 155 175 70 80 94 103 116 130 144 152 165 178 75 85 98 108 118 135 145 157 175 180 88 113 125 140 160 189 185 115 162 191 푌 푌 1 푌 2 푌 3 푌 4 푌 5 푌 6 푌 7 푌 8 푌 9 푌 10 푛 325 462 445 707 678 750 685 1043 966 1211 (푌| ) 65 77 89 101 113 125 137 149 161 173 Bảng 2: Khảo sát về thu nhập và chi tiêu của 60 hộ gia đình Trong bảng ta có: - Mức chi tiêu bình quân trong tuần của những hộ có cùng mức thu nhập 80USD là: 55+60+65+70+75 325 (푌| = 1 = 80) = 푌 = = = 65(푈푆 ), ; (푌| 10) = 173. 1 5 5 Nhờ phần mềm Eviews, hình 1.1.a cho thấy biểu đồ phân tán của chi tiêu Y theo thu nhập X, hình 1.1.b là đồ thị mô tả sự phụ thuộc của giá trị trung bình có điều kiện của tiêu dùng Y theo giá trị của thu nhập X. Y vs. X Y vs. X 200 200 180 180 160 160 140 140 Y 120 Y 120 100 100 80 80 60 60 40 40 40 80 120 160 200 240 280 40 80 120 160 200 240 280 X X Hình 1.1.a Hình 1.1.b Đặt: 푈 = 푌 − (푌| ) thì U là một biến ngẫu nhiên. Đó là sai số giữa biến quan sát Y với trung bình có điều kiện của Y theo X. Ta gọi U là sai số ngẫu nhiên. Trong ví dụ trên, ta có: 1 − (푌| = 1) = 55 − 65 = −10, 2 − (푌| = 1) = 60 − 65 = −5, 3 − (푌| = 1) = 65 − 65 = 0, 4 − (푌| = 1) = 70 − 65 = 5, 5 − (푌| = 1) = 75 − 65 = 10, 54 − (푌| = 10) = 150 − 173 = −23, 55 − (푌| = 10) = −21,
  9. Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng 56 − (푌| = 10) = 2, 57 − (푌| = 1) = 5, 58 − (푌| = 10) = 7, , 60 − (푌| = 10) = 18 Như vậy sai số ngẫu nhiên U tập trung khá đối xứng xung quanh số 0. Mặt khác ta có: = (푌 − (푌| )) = 푌 − 푌 = 0 . Điều này cho thấy sai số ngẫu nhiên U là đại lượng ngẫu nhiên có phân phối xấp xỉ phân phối chuẩn với giá trị trung bình EU = 0. Cần lưu ý rằng: Hàm hồi quy tổng thể PRF của Y theo X là một hàm của X, vì vậy nếu X là biến ngẫu nhiên thì (푌| ) là một biến ngẫu nhiên, nếu X là biến tất định (không ngẫu nhiên) thì (푌| ) là một hàm số tất định. Trong ví dụ trên, với tổng thể là 60 hộ gia đình thì (푌| ) là biến ngẫu nhiên có 10 giá trị: (푌| ) = 65, 푛ế = 80; (푌| ) = 77, 푛ế = 100, , (푌| ) = 173, 푛ế = 260. Với biến ngẫu nhiên U thỏa mãn một số tính chất nào đó (như là tính chất của sai số ngẫu nhiên), ta gọi: (푌| ) + 푈 là hàm hồi quy tổng thể ngẫu nhiên, hay PRF ngẫu nhiên của Y theo X. Cần nhớ rằng PRF ngẫu nhiên luôn là biến ngẫu nhiên. Mô hình: (푌| ) = ( ) (3 ) { 푌 = (푌| ) + 푈 (3 ) cho phép ta xấp xỉ biến cần giải thích Y bởi hàm hồi quy tổng thể ngẫu nhiên, gọi là mô hình kinh tế lượng. Trong mô hình (3a, 3b), ta vẫn gọi U là sai số ngẫu nhiên. Thành phần U xuất hiện trong mô hình với vai trò là tác động ngẫu nhiên của những yếu tố khác mà chúng không được đưa vào mô hình. Sự có mặt của U thể được giải thích bởi những nguyên nhân sau: * Ta không biết hết được các yếu tố ảnh hưởng đến biến phụ thuộc, tác động của chúng đối với biến phụ thuộc nằm ngoài khả năng nhận biết của chúng ta. * Ta không thể có được số liệu cho mọi yếu tố ảnh hưởng, kể cả khi biết chúng có ảnh hưởng đến biến phụ thuộc. * Mô hình sẽ trở nên quá phức tạp nếu ta đưa hết các yếu tố ảnh hưởng vào mô hình. Vì thế thông thường người ta chỉ giữ lại những yếu tố có ảnh hưởng quan trọng trong mô hình, các yếu tố khác có ảnh hưởng không được đưa vào sẽ nhập vào thành phần nhiễu. * Sai số ngẫu nhiên trong thu thập số liệu. Chú ý: a/ Nếu hàm PRF chỉ có 1 biến giải thích thì được gọi là hàm hồi quy đơn hay hồi quy hai biến. Nếu PRF có nhiều hơn 2 biến giải thích thì được gọi là hàm hồi quy nhiều chiều hay hồi quy bội, hồi quy nhiều biến. b/ Nếu số liệu điều tra là số liệu theo thời gian thì mô hình kinh tế lượng (3a), (3b) được quy ước viết: (푌| ) = ( ) (3 ′) { 푡 푡 푌푡 = (푌| 푡) + 푈푡 (3 ′) Trong đó chỉ số t biểu thị thời điểm hay thời kỳ của số liệu. Nếu số liệu điều tra là số liệu chéo thì mô hình kinh tế lượng (3a), (3b) được quy ước viết:
  10. Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng (푌| ) = ( ) (3 ′′) { 푖 푖 푌푖 = (푌| 푖) + 푈푖 (3 ′′) Trong đó i là chỉ số thứ tự được sắp của quan sát. c/ Việc định dạng hàm hồi quy tổng thể là vấn đề rất quan trọng, ảnh hưởng rất lớn đến tính phù hợp, tính chính xác của các ước lượng, đánh giá, dự báo hay ra các quyết định dựa trên mô hình. Đối với vấn đề này, ta cần dựa vào nhiều yếu tố, trước hết là bản chất của mối liên hệ giữa biến phụ thuộc với các biến giải thích trên cơ sở lý thuyết kinh tế. Về phương diện trực quan, ta dựa vào biểu đồ phân tán mô tả sự biến thiên của dãy các số liệu quan sát. Chẳng hạn trong ví dụ trên, dựa vào bản chất của mối liên hệ giữa tiêu dùng đối với thu nhập và biểu đồ phân tán của dãy các số liệu (tập trung khá gần với một đường thẳng), ta định dạng hàm PRF xác định và PRF ngẫu nhiên như sau: (푌| ) = ( ) = + (4 ) { 푌 = (푌| ) + 푈 = + + 푈 (4 ) Trong mô hình (4a, 4b): , là các tham số chưa biết được gọi là các hệ số hồi quy, trong đó gọi là tung độ độ gốc hay hệ số tự do hoặc hệ số bị chặn, gọi là độ dốc hay hệ số góc của đường thẳng hồi quy. d/ Mô hình hồi quy được gọi là tuyến tính nếu hàm hồi quy tuyến tính đối với các tham số của mô hình (lưu ý rằng nó có thể không tuyến tính theo biến giải thích). Từ nay về sau, trong giáo trình này, ta chỉ khảo sát mô hình hồi quy tuyến tính hoặc đưa được về dạng tuyến tính. Chẳng hạn các mô hình hồi quy sau đây là tuyến tính: 2 푌 = + 1 + 2 + 푈 ∶ ô ℎì푛ℎ 푃 표푙 푌 = 1 + 2푙푛 + 푈: ô ℎì푛ℎ 푙푖푛 − 푙표 1 푌 = + . + 푈: ô ℎì푛ℎ 푛 ℎị ℎ đả표 1 2 Các mô hình sau đây không phải là mô hình tuyến tính: 1 푌 = + + 푈 ( ) 1 푌 = + 푈 ( ) 1 + 푒 + Tuy nhiên (a) có thể đưa về mô hình tuyên tính: 1 푌 = ′ + + 푈 ( ′ = ) ( ′) (b) có thể đưa về mô hình tuyến tính: 1 ln ( − 1) = + + 푈′ ( ′) 푌 1.2.3. Hàm hồi quy mẫu SRF (Sample Regression Function) Trong thực tế, người ta thường không thể điều tra toàn bộ tổng thể. Khi đó thay vì điều tra tổng thể, ta chỉ có thể dựa vào mẫu và hàm hồi quy xây dựng trên mẫu được gọi là
  11. Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng hàm hồi quy mẫu, viết tắt là SRF (Sample Regression Function). Hàm hồi quy mẫu SRF là hình ảnh của hàm hồi quy tổng thể PRF thông qua mẫu điều tra. Tuy nhiên khi thay đổi mẫu thì nói chung hàm hồi quy mẫu thay đổi. Vậy với số liệu mẫu, làm sao xây dựng một hàm hồi quy mẫu SRF gần nhất hay xấp xỉ tốt nhất cho hàm hồi quy tổng thể PRF? Ký hiệu 푌̂ là hàm hồi quy mẫu SRF thì 푌̂ thực chất là một ước lượng của hàm hổi quy tổng thể PRF. Khi đã định dạng hàm hồi quy tổng thể PRF (có chứa các tham số chưa biết gọi là các tham số của mô hình) thì hàm hồi quy mẫu SRF được định dạng tương ứng. Khi đó việc tìm ước lượng 푌̂ cho PRF được quy về tìm các ước lượng cho các tham số chưa biết của mô hình. Chẳng hạn nếu PRF xác định và ngẫu nhiên được định dạng là tuyến tính: (푌| ) = + , { 푌 = (푌| ) + 푈 = + + 푈 thì hàm hồi quy mẫu được định dạng tương ứng là: ̂ ̂ {푌 = ̂ + 푌 = 푌̂ + 푈̂ = ̂ + ̂ + 푈̂ với ̂, ̂, 푈̂ tương ứng là các ước lượng của , , 푈. Ta gọi 푈̂ là phần dư hay thặng dư (residuals). Để tìm hàm hồi quy ước lượng 푌̂, người ta sử dụng phương pháp bình phương bé nhất sẽ được đưa vào trong chương sau. Chẳng hạn từ tổng thể 60 hộ gia đình trong ví dụ trên, ta lấy mẫu 10 hộ: X 80 100 120 140 160 180 200 220 240 260 Y 60 74 90 108 116 130 136 140 145 175 Y vs. X Từ mẫu này, biểu đồ phân tán của Y theo X 180 (được cho bởi Eviews) cho thấy các điểm 160 phân tán sắp xếp rất gần với một đường thẳng, kết hợp với bản chất mối quan hệ 140 giữa thu nhập và tiêu dùng, ta nhận dạng 120 Y (푌| ) = + 100 PRF: { 푌 = + + 푈 80 Do đó: 60 푌̂ = ̂ + ̂ SRF: { 40 푌 = ̂ + ̂ + 푈̂ 40 80 120 160 200 240 280 X Trong đó việc tìm các ước lượng ̂, ̂ sẽ Hình 1.2 được đề cập trong chương 2. Biểu đồ phân tán Y theo X từ mẫu
  12. Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng Chương 2. MÔ HÌNH HỒI QUY HAI BIẾN Mô hình hồi quy hai biến hay mô hình hồi quy đơn là dạng đơn giản nhất, tuy ít có ý nghĩa về mặt thực tế, nhưng lại là cơ sở cho việc khảo sát mô hình hồi quy bội. Trong chương này ta tập trung vào mô hình hồi quy tuyến tính hai biến với các vấn đề về ước lượng và kiểm định giả thuyết có liên quan. Nhắc lại rằng: Hồi quy hồi tuyến tính hai biến với biến giải thích X và biến phụ thuộc Y có: - Mô hình PRF (mô hình lý thuyết hay mô hình tổng thể): E(Y|X) = a + bX, (1a) { Y = E(Y|X) + U = a + bX + U (1b) Trong đó a, b là các hệ số hồi quy: a được gọi là hệ số bị chặn hay hệ số tự do, nó là tung độ gốc của đường thẳng hồi quy (1a); b được gọi là hệ số hồi quy của biến X, nó là độ dốc hay hệ số góc của đường thẳng hồi quy (1a). Để thấy được ý nghĩa của hệ số hồi quy b, từ (1a) và (1b), cho biến X lần lượt lấy giá trị x, x + 1, ta có: b = E(Y|X = x + 1) − E(Y|X = x) (2a) { b = Yx+1 − Yx − (Ux+1 − Ux) (2b) Theo (2a), b chính là lượng tăng hay giảm bình quân (theo dự báo qua mô hình) của biến phụ thuộc Y khi biến giải thích X tăng lên 1 đơn vị. Theo (2b), chính là lượng tăng hay giảm (theo dự báo qua mô hình) của biến phụ thuộc Y khi biến giải thích X tăng thêm 1 đơn vị trong điều kiện các yếu tố khác không thay đổi (vì khi đó: Ux+1 = Ux) - Mô hình SRF (hay mô hình ước lượng): Ŷ = â + b̂X (3a) { Y = Ŷ + Û = â + b̂X + Û (3b) Như vậy: b̂ chính là lượng tăng hay giảm bình quân (theo dự báo qua mô hình ước lượng) của biến phụ thuộc Y khi biến giải thích X tăng lên 1 đơn vị. Nói theo một cách khác: b̂ chính là lượng tăng hay giảm (theo dự báo qua mô hình ước lương) của biến phụ thuộc Y khi biến giải thích X tăng thêm 1 đơn vị trong điều kiện các yếu tố khác không thay đổi . 2.1. Ước lượng các tham số hồi quy Xét hồi quy tuyến tính hai biến với biến giải thích X và biến phụ thuộc Y có - Mô hình PRF (mô hình lý thuyết hay mô hình tổng thể): (푌| ) = + , { (2.1) 푌 = (푌| ) + 푈 = + + 푈 - Mô hình SRF (hay mô hình ước lượng): ̂ ̂ {푌 = ̂ + (2.2) 푌 = 푌̂ + 푈̂ = ̂ + ̂ + 푈̂
  13. Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng Trong phần này ta tìm các ước lượng ̂, ̂ cho các hệ số hồi quy , của mô hình tổng thể (2.1) tốt nhất theo nghĩa dưới đây. 2.1.1. Phương pháp bình phương bé nhất thông thường OLS (OLS = Ordinary Least Squares) Trước hết ta mô tả ý tưởng của phương pháp OLS như sau: Trong mặt phẳng Oxy, ta gọi các điểm 푖( 푖, 푌푖) là các điểm thực nghiệm (điểm quan sát) ̂푖( 푖, 푌̂푖) là các điểm hồi quy ước lượng, ̅̅̅̅̅ ̂2 ̂ 2 푖 = 1, 푛. Khi đó: 푈푖 = (푌푖 − 푌푖) là bình phương khoảng cách từ điểm quan sát 푖 đến điểm hồi quy ước lượng ̂푖. Ta muốn tìm các ước lượng ̂, ̂ cho các hệ số hồi quy , sao cho tổng bình phương các khoảng cách từ các điểm quan sát đến các điểm ước lượng là bé nhất. Điều này có nghĩa là: ̂ 푛 ̂2 푛 ̂ 2 퐹( ̂, ) = ∑푖=1 푈푖 = ∑푖=1(푌푖 − ̂ − 푖) → 푖푛 Vậy bài toán bây giờ là: tìm điểm ( ̂, ̂) mà tại đó hàm hai biến 퐹( ̂, ̂) đạt trị nhỏ nhất. 휕퐹 휕퐹 Ta có: = −2 ∑푛 (푌 − ̂ − ̂ ), = −2 ∑푛 (푌 − ̂ − ̂ ), 휕 ̂ 푖=1 푖 푖 휕 ̂ 푖=1 푖 푖 푖 Hệ phương trình: 푛 휕퐹 ∑(푌 − ̂ − ̂ ) = 0 = 0 푖 푖 ̂ = 푌̅ − ̂. ̅ 휕 ̂ 푖=1 ̅̅̅̅̅ ̅ ̅ { ⇔ 푛 ⇔ { . 푌 − . 푌 (∗) 휕퐹 ̂ = = 0 ̂ 푆2( ) 휕 ̂ ∑ 푖(푌푖 − ̂ − 푖) = 0 {푖=1 Tính: 휕2퐹 휕2퐹 휕2퐹 = = 2푛, = = 2 ∑푛 = 2푛 ̅, = = 2 ∑푛 2 = 2푛 ̅̅̅2̅ 휕 ̂2 휕 ̂휕 ̂ 푖=1 푖 휕훽̂2 푖=1 푖 ⟹ > 0, Δ = − 2 = 4푛2( ̅̅̅2̅ − ̅2) = 4푛2푆2( ) > 0 Suy ra hàm 퐹( ̂, ̂) đạt cực trị duy nhất tại điểm ( ̂, ̂) á đị푛ℎ ở푖 (∗) là điểm cực tiểu. Vì thế 퐹( ̂, ̂) đạt trị nhỏ nhất tại điểm này. ̅ ̅̅.̅푌̅− ̅.푌̅ Vậy: ̂ = 푌̅ − ̂. ̅, ̂ = là các ước lượng cần tìm. 푆2( ) Tóm lại: Bằng phương pháp bình phương bé nhất thông thường OLS, đối với mô hình hồi quy tuyến tính PRF của Y theo X là: (푌| ) = + , { 푌 = (푌| ) + 푈 = + + 푈
  14. Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng ta tìm được mô hình SRF (hay mô hình ước lượng): ̂ ̂ {푌 = ̂ + (2.3) 푌 = 푌̂ + 푈̂ = ̂ + ̂ + 푈̂ ̅ ̅̅.̅푌̅− ̅.푌̅ Trong đó: ̂ = 푌̅ − ̂. ̅, ̂ = (*) 푆2( ) 1 (Nhắc lại các đại lượng thống kê: ̅ = ∑푛 ∶ 푛 ì푛ℎ ẫ ủ 푛 푖=1 푖 푛 1 푌̅ = ∑ 푌 ∶ 푛 ì푛ℎ ẫ ủ 푌 푛 푖 푖=1 푛 1 ̅̅̅.̅푌̅ = ∑ . 푌 : 푛 ì푛ℎ ẫ ủ . 푌 푛 푖 푖 푖=1 푛 1 ̅̅̅2̅ = ∑ 2 ∶ 푛 ì푛ℎ ẫ ủ 2 푛 푖 푖=1 푆2( ) = ̅̅̅2̅ − ̅2 ∶ 푃ℎươ푛 푠 푖 ẫ ủ ) 2.1.2. Chú ý: a. Để thiết lập mô hình SRF (hay mô hình ước lượng), ta có thể lập bảng tính, sau này cùng với những tính toán phức tạp hơn, ta có thể sử dụng phần mềm hỗ trợ. b. Mô hình SRF (2) có thể viết lại dưới dạng: 푌̂ − 푌̅ = ̂( − ̅) { (2.4) 푌 − 푌̅ = ̂( − ̅) + 푈̂ ̅ ̅̅.̅푌̅− ̅.푌̅ Trong đó: ̂ = 푆2( ) Từ đây suy ra: * Hàm SRF tìm theo phương pháp OLS là = 푌̂ có đồ thị luôn đi qua điểm trung bình mẫu ( ̅, 푌̅) * Với một mẫu xác định thì hệ số hồi quy ̂ là số xác định, nó biểu thị lượng tăng hay giảm của trung bình biến phụ thuộc Y khi biến độc lập X tăng một đơn vị. Dấu của ̂ biểu thị xu thế thuận, nghịch của tương quan giữa Y và X. Khi đó trên mẫu này ta có: 푌̅̂ = 푌̅, 푈̂̅ = 0, 푌̂ = 푌̅̂ = 푌̅ = 푌, 푈̂ = 푈̂̅ = 0 = 푈. (2.5) * 푈̂ không tương quan với , 푈̂ không tương quan với 푌̂, 푡ứ 푙à: 표푣(푈̂, ) = 표푣(푈̂, 푌̂) = 0 (2.6)
  15. Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng c. Với một mẫu cụ thể thì ̂, ̂ là các hằng số xác định, nhưng khi mẫu thay đổi thì hệ thức (*) cho thấy rằng ̂, ̂ là các đại lượng ngẫu nhiên. d. Ký hiệu: = − ̅, = 푌 − 푌̅, ̂ = 푌̂ − 푌̅̂ , ̂ = 푈̂ − 푈̂̅ tương ứng là các độ lệch của các biến , 푌, 푌̂ , 푈̂ so với trung bình mẫu của chúng. Từ mô hình hồi quy SRF nói trên, ta có: ̂ = ̂. , ̂ = 푈̂, ̅ ̂̅̅.̅ ̂̅ = 0 푣à: = ̂ + ̂ (2.7) Ví dụ 1: Với một mẫu điều tra về mức thu nhập X và mức tiêu dùng Y gồm 10 hộ gia đình từ tổng thể 60 hộ trong ví dụ trước đây ở chương 1, ta có các số liệu sau: X 80 100 120 140 160 180 200 220 240 260 Y 60 74 90 108 116 130 136 140 145 175 Để thấy được các bước tính toán, vào Excel, lập bảng tính: X Y X2 Y2 X.Y Suy ra: 80 60 6400 3600 4800 1700 1174 ̅ = = 170, 푌̅ = = 100 74 10000 5476 7400 10 10 117,4 120 90 14400 8100 10800 140 108 19600 11664 15120 322000 ̅̅̅2̅ = = 32200, 160 116 25600 13456 18560 10 180 130 32400 16900 23400 148942 200 136 40000 18496 27200 푌̅̅̅2̅ = = 14894,2, 10 220 140 48400 19600 30800 240 145 57600 21025 34800 218380 ̅̅̅.̅푌̅ = = 21838 10 260 175 67600 30625 45500 Tổng: 1700 1174 322000 148942 218380 ̅̅̅.̅푌̅ − ̅. 푌̅ 21838 − 170.117,4 ̂ = = = 0,569657, 푆2( ) 32200 − 1702 ̂ = 푌̅ − ̂. ̅ = 117,4 − 0,569657.170 = 20,55831 푌̂ = 20,55831 + 0,569657. Vậy ta có mô hình SRF: { 푌 = 푌̂ + 푈̂ = 20,55831 + 0,569657. + 푈̂ Hệ số ̂ = 0,569657 cho thấy khi thu nhập của các hộ tăng thêm 1 USD thì bình quân mức tiêu dùng tăng lên 0,569657 USD. 2.2. Hệ số xác định
  16. Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng a. Các tổng bình phương độ lệch: Xét mô hình SRF (3) nhận được bằng phương pháp OLS. Ký hiệu: ̅̅2̅ 2 2 ̅ 2 2 ̅ 2 푆푆 = 푛 = ∑ 푖 = 푛푆 (푌) = ∑(푌푖 − 푌) = ∑ 푌푖 − 푛. (푌) (2.9) là tổng bình phương các độ lệch giữa các giá trị quan sát thực tế Yi và giá trị trung bình 푌̅ của các quan sát, còn gọi là tổng bình phương các độ lệch của Y (trên mẫu).(TSS = Total Sum of Squares ), nó cho thấy toàn bộ sự biến thiên của biến phụ thuộc Y. 2 2 2 ̅̅2̅ 2 ̂ ̅ ̂ 2 2 ̂ 푆푆 = 푛. ̂ = ∑ ̂푖 = ∑(푌푖 − 푌) = ( ) . ∑ 푖 = 푛푆 ( ). ( ) (2.10) là tổng bình phương các độ lệch giữa giá trị của biến hồi quy mẫu ước lượng của Y với giá trị trung bình của chúng, còn gọi là tổng bình phương độ lệch của Y được giải thích bởi SRF ( ESS: Explained Sum of Squares ). 2 ̅̅2̅ 2 ̂ 푅푆푆 = 푛. ̂ = ∑ ̂푖 = ∑(푌푖 − 푌푖) (2.11) là tổng bình phương các độ lệch giữa các giá trị quan sát 푌푖 và giá trị ước lượng (tính toán) 푌̂푖, còn được gọi là tổng bình phương các độ lệch của Y không được giải thích bởi SRF, hay tổng bình phương các phần dư (thặng dư) RSS do các yếu tố ngẫu nhiên gây ra (RSS: Residual Sum of Squares ). Nhận xét: Từ các tính chất của hàm SRF được chỉ ra ở trên, ta có: 2 ̂2 2 2 ∑ 푖 = . ∑ 푖 + ∑ ̂푖 (2.12) Hay 푆푆 = 푆푆 + 푅푆푆 (2.13) o b. Hệ số xác định 푆푆 푅푆푆 Từ (2.13) ta có: + = 1 (2.14) 푆푆 푆푆 Với một mẫu cụ thể, khi sử dụng phương pháp OLS, ta nhận được TSS là hằng số xác định, còn giá trị ESS và RSS còn thay đổi tùy theo dạng hàm hồi quy. Mức độ phù hợp của hàm hồi quy mẫu SRF (hay của mô hình kinh tế lượng) với các số liệu quan sát được đánh giá qua mức độ gần nhau giữa các giá trị ước lượng 푌̂푖 푣à á 푖á 푡 ị 푡ℎự 푡ế 푌푖. Vì thế tổng RSS càng bé (tức là càng gần về 0) thì SRF càng phù hợp.
  17. Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng Tuy nhiên ta lại không biết được RSS tăng đến hằng số nào thì mô hình kém phù hợp nhất. Vì vậy người ta đưa ra một đại lượng để đo mức độ phù hợp của hàm hồi quy mẫu SRF với các số liệu quan sát, gọi là hệ số xác định 푅2 như sau: 푬푺푺 푹푺푺 푹 = = − (2.15) 푻푺푺 푻푺푺 Từ định nghĩa, dễ thấy hệ số xác định 푅2 có các tính chất sau: Tính chất 1: 0 ≤ 푅2 ≤ 1 Tính chất 2: Khi 푅2 = 1 thì hàm hồi quy mẫu SRF thích hợp một cách hoàn hảo với các số liệu quan sát, khi đó 푌̂푖 = 푌푖, ∀푖 = 1,2, , 푛, ℎ 푅푆푆 = 0, ta nói tất cả các sai lệch của 푌푖 (so với trị trung bình) đều được giải thích bởi SRF Tính chất 3: Khi 푅2 = 0 thì hàm hồi quy mẫu SRF không thích hợp, tất cả các sai lệch của 푌푖 ( so với giá trị trung bình) đều không được giải thích bởi SRF (vì khi đó RSS = TSS, hay 푌̂푖 = 푌̅, ∀푖 = 1,2, , 푛.). Trong thực hành, đối với mô hình hồi quy hai biến, ta có thể sử dụng một trong các cách tính hệ số xác định như sau: 푆2( ) 푅2 = ̂2. (2.16) 푆2(푌) 2 2 (∑ 푖 푖) 푅 = 2 2 (2.17) (∑ 푖 )(∑ 푖 ) 2 2 2 푅 = 푌 = 푌̂ (2.18) ( 푌: ℎệ 푠ố 푡ươ푛 푞 푛 ẫ 푖ữ 푣à 푌; 푌̂ 푙à ℎệ 푠ố 푡ươ푛 푞 푛 ẫ 푖ữ 푣à 푌̂ ; lưu ý là phép biến đổi bậc nhất không làm thay đổi hệ số tương quan) Ví dụ 2: Với mẫu trong ví dụ 1 và các kết quả tính toán đã có thì: 2 2 ̅2 2 푆푆 = ∑ 푖 = ∑ 푌푖 − 푛. 푌 = 148942 − 10. (117,4) = 11114,4 ̂2 2 ̅2 2 2 푆푆 = (∑ 푖 − 푛. ) = (0,569657) . (322000 − 10. 170 ) = 10708,80022 푅푆푆 = 푆푆 − 푆푆 = 11114,4 − 10708,80022 = 405,59978 푆푆 10708,80022 푅2 = = = 0,9635 푆푆 11114,4 ̂ 2 Vì = 0,569657 > 0 푛ê푛 푌 = √푅 = √0,9635 = 0,98158 Như vậy trong hàm hồi quy SRF, biến X giải thích được 96,35% sự thay đổi của biến phụ thuộc Y, 3,65% sự thay đổi còn lại của Y do các yếu tố ngẫu nhiên khác gây ra. Xu thế tương quan ở đây là thuận. Hàm SRF phù hợp khá cao với mẫu quan sát. Chú ý: c1. Thực tế người ta không có một tiêu chuẩn chung để đánh giá mức độ cao thấp của 푅2 và không nên chỉ dựa vào 푅2 để đánh giá mức độ phù hợp của mô hình mà còn phải dựa vào các yếu tố khác như kinh nghiệm thực tế, khả năng dự báo chính xác, c2. Theo kinh nghiệm thực tế, đối với số liệu chuỗi thời gian thì 푅2 > 0,9 được xem phù hợp tốt, đối với số liệu chéo thì 푅2 > 0,7 được xem phù hợp tốt. c3. Theo công thức định nghĩa thì 푅2 chính là tỷ lệ hay phần trăm sự biến thiên của biến phụ thuộc Y được giải thích bởi mô hình. 2.3. Các giả thiết của phương pháp OLS
  18. Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng Mục đích của việc xây dựng mô hình kinh tế lượng là dựa vào đó người ta giải quyết các bài toán thống kê: phân tích, đánh giá, lựa chọn, ước lượng, dự báo, . Muốn có một mô hình ước lượng tốt thì trước hết các hệ số hồi quy ước lượng phải có những tính chất tốt. Để có được các ước lượng ̂ ℎ표 , ̂ ℎ표 tìm theo phương pháp OLS có các tính chất tốt, mô hình cần đáp ứng các điều kiện sau đây mà người ta thường gọi là các giả thiết của mô hình hồi quy tuyến tính cổ điển: Giả thiết 1: Mặc dù biến độc lập X là biến ngẫu nhiên, nhưng các giá trị của X thường được xác định trước, tức là phép lấy mẫu về biến X là không ngẫu nhiên. Chẳng hạn trong việc khảo sát quan hệ giữa tiêu dùng Y và thu nhập X thì các số liệu về mức thu nhập X đã được định trước. Giả thiết 2: Nhiễu U là đại lượng ngẫu nhiên có (푈| ) = 0, tức là nhiễu có giá trị trung bình bằng 0 và không phụ thuộc vào giá trị của X. Giả thiết 3: Nhiễu U có phương sai có điều kiện (푈| ) = 휎2 = 표푛푠푡 (không phụ thuộc vào các giá trị của X). Nhiễu U là mức độ dao động của các giá trị của biến Y xung quanh trung bình có điều kiện (푌| ). Giả thiết 3 có nghĩa là dao động này có biên độ không đổi khi giá trị của X thay đổi. Tuy nhiên trong thực tế, không phải giả thiết này lúc nào cũng được thỏa mãn. Chẳng hạn như chi tiêu của những người có mức thu nhập thấp và thu nhập cao thường có xu hướng khác nhau: Chi tiêu của nhóm thu nhập thấp thường chỉ tập trung vào những mặt hàng thiết yếu, nhưng ngoài những mặt hàng thiết yếu thì đối với nhóm thu nhập cao còn có các khoản chi tiêu cho những nhu cầu giải trí, mặt hàng xa xỉ, tức là không có sự đồng đều về chi tiêu giữa các nhóm này. Khi đó nếu ta quan sát thu nhập và chi tiêu của cà hai nhóm này thì dễ có hiện tượng phương sai nghiễu thay đổi. Giả thiết 4: Không có sự tương quan giữa các sai số ngẫu nhiên Giả thiết này được giải thích như sau: Sai số ngẫu nhiên 푈 = 푌 − (푌| ) là một biến quan sát mà ứng với mẫu ngẫu nhiên ( 1, 푌1), ( 2, 푌2), , ( 푛, 푌푛) là n biến ngẫu nhiên tương ứng: 푈1 = 푌1 − (푌| 1), 푈2 = 푌2 − (푌| 2), , 푈푛 = 푌푛 − (푌| 푛). Giả thiết không có sự tương quan giữa các sai số ngẫu nhiên có nghĩa là: 표푣(푈푖, 푈푗 ) = {(푈푖 − 푈푖). (푈푗 − 푈푗)} = 0, ∀푖 ≠ 푗 Giả thiết này có thể bị vi phạm khi đối tượng điều tra có sự ràng buộc, phụ thuộc nhau về tiêu chuẩn điều tra Y. Chẳng hạn: Khi khảo sát về thu nhập X và tiêu dùng Y mà đối tượng khảo sát là các thành viên trong một gia đình thì mặc dù các thành viên có mức thu nhập X khác nhau, nhưng những yếu tố ngoài thu nhập tác động lên chi tiêu như hoàn cảnh gia đình, tập quán, sở thích, thói quen tiêu dùng đều có thể tác động gần như tương đồng đến chi tiêu của các thành viên trong gia đình, điều này dẫn đến các tác động ngẫu nhiên có sự tương quan. Giả thiết 5: X và U không tương quan, tức là: 표푣(푈, ) = {(푈 − 푈). ( − )} = 0 Điều này cũng có nghĩa là các thành phần Xi của mẫu ngẫu nhiên về X không tương quan với sai số ngẫu nhiên Ui tương ứng, tức là: 표푣(푈푖, 푖 ) = {(푈푖 − 푈푖). ( 푖 − 푖)} = 0, ∀푖. Nếu biến giải thích X có tương quan với nhiễu U thì ta không thể tách rời ảnh hưởng của
  19. Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng biến giải thích X và của nhiễu lên biến phụ thuộc Y. Để minh họa cho giả thiết 5, ta quan sát thu nhập X và chi tiêu Y, với yếu tố hoàn cảnh gia đình là nhiễu có thể tác động lên hành vi tiêu dùng của thành viên trong gia đình thì giả thiết 5 ở đây là xem yếu tố hoàn cảnh gia đình không tác động đến thu nhập của thành viên đó. Giả thiết 6: Sai số ngẫu nhiên U là đại lượng ngẫu nhiên có phân phối chuẩn: 푈~ (0, 휎2). Chú ý: - Giả thiết 1 có thể được bỏ đi trong lý thuyết kinh tế lượng hiện đại - Một giả thiết khá hiển nhiên là cỡ mẫu n lớn hơn số tham số của mô hình . - Giả thiết về quy luật chuẩn của nhiễu được thỏa mãn khá rộng rãi trong thực tế và được ứng dụng để ước lượng, kiểm định và dự báo về các tham số trong mô hình, tuy nhiên giả thiết về phương sai không thay đổi có thể bị vi phạm. 2.4. Các tính chất của các hệ số hồi quy (푌| ) = + , Xét mô hình hồi quy PRF: { 푌 = (푌| ) + 푈 = + + 푈 ̂ ̂ có mô hình hồi quy ước lượng SRF: {푌 = ̂ + 푌 = 푌̂ + 푈̂ = ̂ + ̂ + 푈̂ ̂ các ước lượng ̂, nhận được nhờ dựa vào mẫu ( 1, 푌1), ( 2, 푌2), , ( 푛, 푌푛) nên chúng là các đại lượng ngẫu nhiên mà trên một mẫu cụ thể, chúng là các giá trị xác định và là các ước lượng điểm của các tham số , . Các tính chất tốt của ̂, ̂ tìm theo phương pháp OLS được chỉ ra trong định lý sau: Định lý Gauss – Markov: Với mô hình hồi quy tuyến tính cổ điển: (푌| ) = + , { 푌 = (푌| ) + 푈 = + + 푈 thì các ước lượng ̂, ̂ tìm theo phương pháp OLS là các ước lượng tuyến tính không chệch, có phương sai bé nhất trong lớp các ước lượng tuyến tính không chệch của các tham số , . Lưu ý: - Các ước lượng ̂, ̂ là các ước lượng tuyến tính do biểu thức của chúng là hàm tuyến tính theo các thành phần mẫu (푌1, 푌2, , 푌푛 ), cụ thể ta có: − ̅ ̂ = ∑푛 푌 ( = 푗 푙à ℎằ푛 푠ố, 푗 = 1,2, , 푛) 푗=1 푗 푗 푗 푛푆2( ) 1 ̂ = 푌̅ − ̂ . ̅ = ∑푛 ( − ̅) . 푌 푗=1 푛 푗 푗 - Các ước lượng ̂, ̂ là các ước lượng không chệch của các tham số , có nghĩa là: ̂ = , ̂ = . - Định lý Gauss – Markov cho thấy ̂, ̂ là các ước lượng hiệu quả nhất cho các tham số , . Tính tuyến tính, không chệch và hiệu quả nhất được gọi tắt là tính chất BLUE (BLUE: Bets Linear Unbiased Estimators).
  20. Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng 2 - Với X là biến quan sát có phân phối chuẩn (hoặc xấp xỉ chuẩn) Ν( 0 , 0 ) và với các giả thiết của phương pháp OLS thì biến phụ thuộc Y cũng có phân phối chuẩn (hoặc xấp 2 2 2 xỉ chuẩn) Ν( + 0 , 0 + 휎 ) . ̂ - Do các ước lượng ̂, là các hàm tuyến tính theo các thành phần mẫu (푌1, 푌2, , 푌푛 ) nên chúng có phân phối chuẩn (hoặc xấp xỉ chuẩn): ̂ ~ ( , 휎2) { ̂ ̂ 2 ~ ( , 휎 ̂ ) - Với các ước lượng ̂, ̂ tìm được bằng phương pháp OLS và với giả thiết mẫu về biến X là không ngẫu nhiên, ta có các công thức sau đây xác định phương sai, ký hiệu var(.) (var: variance) và độ lệch chuẩn (hay sai số chuẩn) của chúng , ký hiệu se(.) (se: standard error): ∑ 2 휎2 = 푣 ( ̂) = 푖 . 휎2 ; 푠푒( ̂) = √푣 ( ̂) ; (2.19) ̂ 푛2푆2( ) 𝜎2 휎2 = 푣 ( ̂) = ; 푠푒( ̂) = √푣 ( ̂) (Ở đâ 휎2 = 푣 푈). (2.20) ̂ n푆2( ) - Trong (2.19), (2.20) thì 휎2 = 푣 (푈) là phương sai nhiễu của tổng thể, nói chung chưa biết, người ta dùng một ước lượng điểm của 휎2 là: 푹푺푺 𝝈̂ = (RSS = TSS − ESS = n{푆2(푌) − 푆2( ). ̂2}; (2.21) 풏− 휎̂ = √휎̂2 được gọi là sai số chuẩn của hồi quy, ký hiệu là SER (SER: Standard Error of the Regression). Thay (2.21) vào (2.19), (2.20) ta nhận được các ước lượng điểm 푣 ̂ ( ̂), 푣 ̂ ( ̂) của 푣 ( ̂), 푣 ( ̂) là: ∑ 2 ∑ 2 푣 ̂ ( ̂) = 푖 . 휎̂2 = 푖 . RSS; (2.22) 푛2푆2( ) 푛2(푛 − 2)푆2( ) 𝜎̂2 RSS 푣 ̂ ( ̂) = = . n푆2( ) n(n−2)푆2( ) 2.5. Khoảng tin cậy cho các tham số trong mô hình (푌| ) = + , Xét mô hình hồi quy PRF: { (2.23) 푌 = (푌| ) + 푈 = + + 푈 ̂ ̂ có mô hình hồi quy ước lượng SRF: {푌 = ̂ + (2.24) 푌 = 푌̂ + 푈̂ = ̂ + ̂ + 푈̂ trong đó các ước lượng â, b̂ tìm theo phương pháp OLS. Chúng ta sẽ tìm khoảng tin cậy cho các hệ số hồi quy và phương sai nhiễu 2.5.1. Khoảng tin cậy cho các hệ số hồi quy Trong mục này ta dùng â, b̂ để ước lượng khoảng tin cậy cho các hệ số hồi quy , . * Với độ tin cậy: 훾 = 1 − 훼, ta có khoảng tin cậy cho là: (풏− ) (풏− ) ( ̂ − 풕휶 . 풔풆̂( ̂); ̂ + 풕휶 . 풔풆̂( ̂)) (2.25) * Với độ tin cậy: 훾 = 1 − 훼, ta có khoảng tin cậy cho là:
  21. Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng (풏− ) (풏− ) ( ̂ − 풕휶 . 풔풆̂( ̂); ̂ + 풕휶 . 풔풆̂( ̂)) (2.26) (푛−2) 훼 trong đó 푡훼 là giá trị tới hạn (critical value) mức của phân phối Student với n – 2 2 2 bậc tự do, tra từ bảng giá trị tới hạn của phân phối Student (bảng phụ lục I). Ví dụ 3: Với độ tin cậy 95%, dựa vào mẫu 1 về thu nhập X và tiêu dùng Y trong ví dụ 2, hãy ước lượng khoảng tin cậy cho các tham số , trong mô hình hồi quy tuyến tính (2.23). Giải: Ta có 2 2 2 푅푆푆 405,59978 ∑ 푖 . 𝜎̂ 휎̂ = = = 50,6999725; 푠푒̂( ̂) = √ 2 = 7,033554027; 푛−2 8 푛.∑ 푖 ̂ 𝜎̂2 50,6999725 푠푒̂( ) = √ 2 = √ 2 = 0,039196464 ∑ 푖 322000−10.170 훼 Với độ tin cậy 훾 = 1 − 훼 = 0,95 ⇒ = 0,025, 푡 ả푛 ó 푡(8) = 2,306 2 0,025 (푛−2) ̂ − 푡훼 . 푠푒̂( ̂) = 0,569657 − 2,306. 0,039196464 = 0,479269953 2 { (푛−2) ̂ + 푡훼 . 푠푒̂( ̂) = 0,569657 + 2,306. 0,039196464 = 0,660044046 2 Vậy với độ tin cậy 95%, dựa vào mẫu 1, ta có KTC cho là: (0,479269953 ; 0,660044046 ) Chú thích: Việc tìm khoảng tin cậy cho các hệ số hồi quy với ba mức độ tin cậy 90%, 95%, 99% có thể được thực hiện bởi Eviews 7, sau khi chạy hồi quy. 2.5.2. Khoảng tin cậy cho phương sai của nhiễu Với độ tin cậy 훾 = 1 − 훼, khoảng tin cậy cho phương sai nhiễu 휎2 là: (풏− ). 𝝈̂ (풏− ). 𝝈̂ ( ; ) (2.27) 흌휶/ 흌 −휶/ 2 2 trong đó: 휒훼 , 휒 훼 푙à á 푖á 푡 ị 푡ớ푖 ℎạ푛 ủ ℎâ푛 ℎố푖 퐾ℎ푖 − ì푛ℎ ℎươ푛 ,(푛 − 2) 1− 2 2 ậ 푡ự 표 (tra từ bảng phụ lục III) Ví dụ 4: Trong ví dụ trước với mẫu 1 về tiêu dùng Y và thu nhập X, ta ước lượng KTC cho 휎2 với độ tin cậy 95%. 훼 Với độ tin cậy 훾 = 1 − 훼 = 0,95 ⇒ = 0,025, tra bảng giá trị tới hạn của phân phối 2 2 2 Chi-Square với bậc tự do n – 2 = 8, ta có: 휒훼/2 = 17,5345 ; 휒1−훼/2 = 2,1797. (푛 − 2). 휎̂2 8.50,6999725 (푛 − 2). 휎̂2 8.50,6999725 2 = = 23,1315 ; 2 = = 186,0806 휒훼/2 17,5345 휒1−훼/2 2,1797 Vậy với độ tin cậy 95%, KTC cần tìm cho phương sai nhiễu 휎2 là: (23,1315; 186,0806 )
  22. Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng 2.6. Kiểm định giả thuyết về mô hình 2.6.1. Kiểm định giả thuyết về hệ số hồi quy Giả sử 휃 là một hằng số mà ta chưa biết và không thể biết chính xác. Dựa vào những thông tin nhất định, người ta có các nhận định sau: 휃 = 휃0, 휃 휃0, 휃 ≠ 휃0. Để xác minh nhận định nào là phù hợp với thực tế, là chấp nhận được – như đã biết trong lý thuyết kiểm định giả thuyết thống kê, tùy thuộc vào bản chất của từng vấn đề liên quan mà ta xác định đối thuyết là một trong ba nhận định: 휃 휃0, 휃 ≠ 휃0 để có một trong ba bài toán: - Kiểm định hai phía: 푖ả 푡ℎ ế푡 0: 휃 = 휃0, đố푖 푡ℎ ế푡 1: 휃 ≠ 휃0 - Kiểm định phía phải: 푖ả 푡ℎ ế푡 0: 휃 = 휃0, đố푖 푡ℎ ế푡 1: 휃 > 휃0 - Kiểm định phía trái: 푖ả 푡ℎ ế푡 0: 휃 = 휃0, đố푖 푡ℎ ế푡 1: 휃
  23. Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng thì ta bác bỏ giả thuyết 0, tạm thời chấp nhận đối thuyết 1. Nếu ngược lại thì tạm thời chấp nhận giả thuyết 0. bác bỏ đối thuyết 1. 2.6.1.2. Phương pháp giá trị tới hạn Đây chính là phương pháp kiểm định thông thường trong Thống kê, kiểm định giả thuyết về giá trị trung bình 휃0 = 휃̂ (푙ư ý: (â) = , E(b̂) = 푣à 휃 đó푛 푣 푖 푡 ò 푙à a ℎ표ặ ): 푡 0: 휃 = 휃0; đ푡 1: 휃 휃0( ℎả푖)/휃 ≠ 휃0(ℎ 푖 ℎí ). Tiêu chuẩn kiểm định với mức ý nghĩa : 휃̂−휃 푊 = {푡 = 0 푡(푛−2)} , 푛ế đố푖 푡ℎ ế푡 : 휃 > 휃 , (2.30) 푠푒̂(휃̂) 훼 1 0 휃̂−휃 푊 = { |푡| = | 0| > 푡(푛−2)} , 푛ế đố푖 푡ℎ ế푡 : 휃 ≠ 휃 , (2.31) 푠푒̂(휃̂) 훼/2 1 0 (푛−2) (푛−2) Bước 1: ả푛 ℎâ푛 푣ị 푆푡 푒푛푡, 푡ì 푖á 푡 ị 푡ớ푖 ℎạ푛 푡훼 ℎ표ặ 푡훼 . 2 휃̂ − 휃 퐁ướ퐜 : ự 푣à표 푠ố 푙푖ệ , 푡í푛ℎ 푡 = 0 푣à 푠표 푠á푛ℎ 푣ớ푖 푖á 푡 ị 푡ớ푖 ℎạ푛 푠푒̂(휃̂) * Nếu W xảy ra thì bác bỏ 0, chấp nhận 1 * Nếu W không xảy ra thì tạm thời chấp nhận 0, bác bỏ 1. 2.6.1.2. Phương pháp giá trị p-value 휃̂−휃 Bước 1: Từ mẫu điều tra, tính giá trị: 푡 = 0 . 0 푠푒̂(휃̂) Bước 2: Tính: − 푣 푙 푒 = 푃(|푡| > |푡0|), 푡 là biến ngẫu nhiên có phân phối Student với (푛 − 2) bậc tự do. ( − 푣 푙 푒 được cung cấp bởi phần mềm ứng dụng) Bước 3: Với mức ý nghĩa 훼 cho trước, quy tắc kiểm định là: − Đố푖 푣ớ푖 푖ể đị푛ℎ 2 ℎí : 푛ế − 푣 푙 푒 8.433803) = 0.0004
  24. Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng 2 2 Với mức ý nghĩa 훼 cho trước, hãy kiểm định giả thuyết 0: 휎 = 휎0 với đối thuyết 2 2 2 2 2 2 1: 휎 ≠ 휎0 /휎 > 휎0 /휎 휎0 휒 > 휒훼 Giá trị p – value − 푣 푙 푒 1 − 훼 2 2 (푛−2)𝜎̂ 2 푮풉풊 풉ú: ừ 푠ố 푙푖ệ 푡í푛ℎ: 휒 = 2 ; 휒훼 푡 푡ừ ả푛 푖á 푡 ị 𝜎0 푡ớ푖 ℎạ푛 ủ ℎâ푛 ℎố푖 ℎ푖 − ì푛ℎ ℎươ푛 (푛 − 2) ậ 푡ự 표 Bảng 2.1 Ví dụ 6: Xét mẫu 1 về tiêu dùng Y và thu nhập X, với mức ý nghĩa 5%, ta muốn xác minh xem phương sai 휎2 của nhiễu có vượt quá 1000 hay không. Giải: Đây là bài toán kiểm định giả thuyết về phương sai nhiễu: 2 2 푡 0: 휎 = 휎0 = 50 { 2 Đ푡 1: 휎 > 50 2 2 (푛−2)휎̂ Với phương pháp khoảng tin cậy, tiêu chuẩn bác bỏ 0 là: 푊 = {휎0 ≤ 2 } 휒훼 Với độ mức ý nghĩa 훼 = 0,05 tra bảng giá trị tới hạn của phân phối Chi-Square với bậc tự do n – 2 = 8, ta có: 2 2 2 2 2 휒훼 = 15,5073; 휎̂ = 50,6999725 ⇒ (푛 − 2)휎̂ : 휒훼 = 26,0586 ⇒ 휎0 = 50 ∈ KTC Do đó nhận 0: p.sai nhiễu chưa vượt quá 50
  25. Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng 2.6.3. Kiểm định giả thuyết về sự phù hợp của mô hình Như đã biết hệ số xác định R2 càng gần 1 thì mô hình càng có ý nghĩa, hệ số xác định R2 càng gần 0 thì mô hình càng ít có ý nghĩa. Để đánh giá mức độ thích hợp của mô hình hồi quy, nghĩa là xem mô hình hồi quy giải thích được bao nhiêu % sự thay đổi của biến phụ thuộc Y ta dùng hệ số xác định R2. Vì vậy, với mẫu cụ thể, khi nhận được kết quả với một mô hình hồi quy ta quan tâm đến việc đánh giá xem hệ số xác định R2 có khác không có ý nghĩa thống kê hay không. Điều này có nghĩa là ta cần kiểm định giả thuyết 2 2 0: R = 0, với đối thuyết 1: R > 0. 2 Trong trường hợp mô hình hồi quy hai biến, giả thuyết 0: R = 0 có nghĩa là biến giải thích X không ảnh hưởng đến biến phụ thuộc Y, tức là tương đương với điều kiện: = 0. 2 Để kiểm định giả thuyết 0: R = 0, người ta thường dùng hai phương pháp: Phương pháp giá trị tới hạn và phương pháp p – value như sau: 2.6.3.1. Phương pháp giá trị tới hạn Tiêu chuẩn bác bỏ giả thuyết 0: 푊 = {F > 퐹훼(1, 푛 − 2)} (2.32) (퐹훼(1, 푛 − 2)푙à 푖á 푡 ị 푡ớ푖 ℎạ푛 ủ ℎâ푛 ℎố푖 퐹, ậ 푡ự 표(1, 푛 − 2)); 푆푆/1 푅2.(푛−2) F = = (2.33) 푅푆푆/(푛−2) 1−푅2 Bước 1: Tra bảng giá trị tới hạn của phân phối F để tìm 퐹훼(1, 푛 − 2) Bước 2: Dựa vào số liệu, tính F và so sánh với giá trị tra bảng 퐹훼(1, 푛 − 2): - Nếu W xảy ra thì bác bỏ 0, chấp nhận 1. - Nếu W không xảy ra thì chấp nhận 0, bác bỏ 1. Lưu ý: Giá trị của thống kê F có thể được cho bởi các phần mềm ứng dụng. 2.6.3.2. Phương pháp giá trị p – value Tiêu chuẩn bác bỏ giả thuyết 0: − 푣 푙 푒 퐹0), 퐹 푙à ℎâ푛 ℎố푖 퐹푖푠ℎ푒 푣ớ푖 2 ậ 푡ự 표 (1, 푛 − 2); 푅2. (푛 − 2) 퐹 = . 0 1 − 푅2 Bước 1: Từ mẫu điều tra, tính F0. Bước 2: Tính − 푣 푙 푒 = 푃(퐹 > 퐹0) và so sánh với 훼 Lưu ý: Giá trị của thống kê F và p – value của thống kê F có thể được cung cấp bởi các phần mềm ứng dụng. Ví dụ 7: Xét mẫu 1 về tiêu dùng Y và thu nhập X, với mức ý nghĩa 5%, ta muốn xác minh 푌̂ = 20,55831 + 0,569657. xem mô hình SRF: { 푌 = 푌̂ + 푈̂ = 20,55831 + 0,569657. + 푈̂ có phù hợp (với mẫu điều tra) hay không. Giải: Ta dùng phương pháp giá trị tới hạn: Tra bảng F ta có 퐹훼(1, 푛 − 2) = 퐹0,05(1; 8) = 5,318 푆푆 10708,80022 Theo kết quả tính toán trước đây, ta có: 푅2 = = = 0,9635 ⇒ 퐹 = 푆푆 11114,4 0 푅2.(푛−2) 8 .0,9635 = = 211,178 > 퐹 (1; 8) = 5,318 . Vậy ta bác bỏ giả thuyết và 1−푅2 1−0,9635 0,05 0 cho rằng mô hình SRF phù hợp với mẫu điều tra.
  26. Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng 2.6.4. Một số chú ý trong kiểm định giả thuyết về mô hình a. Khi giải quyết bài toán kiểm định về mô hình, nếu không nói gì về mức ý nghĩa 훼 thì nhầm định 훼 = 5%. Chẳng hạn khi kiểm định về hệ số hồi quy: − Đố푖 푣ớ푖 푖ể đị푛ℎ 2 ℎí : 푛ế − 푣 푙 푒
  27. Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng Việc thay đổi đơn vị đo của các biến không ảnh hưởng đến những tính chất của các ước lượng nhận được theo phương pháp OLS. Ví dụ 8: Với một mẫu điều tra về mức thu nhập X (USD) và mức tiêu dùng Y (USD) gồm 10 hộ gia đình từ tổng thể 60 hộ trong ví dụ trước đây ở chương 1, ta có các số liệu sau: X 80 100 120 140 160 180 200 220 240 260 Y 60 78 90 108 114 132 138 144 150 174 Hãy thiết lập SRF tuyến tính mô tả sự phụ thuộc của Tiêu dùng tính theo EUR và thu nhập tính theo ngàn VNĐ, biết 1 USD = 20 ngàn VNĐ, 1 EUR = 1,2 USD. Giải: Từ số liệu ta tính được: ̂ = 0,578182; ̂ = 20,50909 SRF tuyến tính của Y theo X là: 푌̂ = 20,50909 + 0,578182. (*) Gọi X’ là mức thu nhập hàng tuần của một hộ tính theo ngàn VNĐ, Y’ là mức tiêu dùng hàng tuần của một hộ tính theo EUR. - Nếu chuyển số liệu trên sang cho X’, Y’ ta có bảng số liệu: X’ 1600 2000 2400 2800 3200 3600 4000 4400 4800 5200 Y’ 50 65 75 90 95 110 115 120 125 145 Tính trực tiếp ta có: ̂′ = 0,024091; ̂′ = 17,09091 SRF tuyến tính của Y’ theo X’ là: 푌̂′ = 17,09091 + 0,024091. ′ ( ) - Nếu dùng công thức đổi đơn vị đo (2.37), từ giả thiết: 1 1 푌′ = . 푌; ′ = 20. , 푡ứ 푙à = , ℎ = 20 1,2 1,2 ta có: ̂′ = . ̂ = 17,09091; ̂′ = ̂ = 0,024091 ℎ Tức là ta nhận lại đúng như kết quả tính trực tiếp ( ) 1 1 Nhận xét: Để nhận được kết quả (2.38), ta chỉ cần thay trong (2.37): 푌 = 푌′; = ′. ℎ 2.7. Trình bày kết quả hồi quy Chúng ta chỉ có thể thực hiện bằng cách tính tay trong một số trường hợp đơn giản.Nói chung chúng ta phải thực hiện các bước tính toán nhờ vào các phần mềm hỗ trợ như: Eviews (Econometrics Views), Rats (Regression Analysis Tempral Series). a/ Trường hợp đơn giản, khi không dùng phần mềm ứng dụng để chạy hồi quy, cần trình bày các kết quả tính: - Các hệ số hồi quy và hồi quy ước lượng SRF: 푌̅̅̅̅− ̅푌̅ ̂ = ; ̂ = 푌̅ − ̂. ̅; 푌̂ = ̂ + ̂. 푆2( ) - Các tổng bình phương các độ lệch: TSS, ESS, RSS 푆푆 = 푛. 푆2(푌); 푆푆 = 푛 ̂. 푆2( ); 푅푆푆 = 푆푆 − 푆푆
  28. Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng 푆푆 푆2( ) 푅푆푆 - Hệ số 푅2, 휎̂: 푅2 = = . ̂; 휎̂ = √ 푆푆 푆2( ) 푛−2 - Sai số chuẩn của các hệ số hồi quy (nếu cần): 푠푒̂( ̂), 푠푒̂( ̂), 𝜎̂ ̅̅̅2̅ 𝜎̂ 푠푒̂( ̂) = . √ ; 푠푒̂( ̂) = 푆( ) 푛 푆( )√푛 ̂ 푅2.(푛−2) - Các g.trị của thống kê t và F (nếu cần): 푡 = ; 퐹 = 푠푒̂( ̂) 1−푅2 Chẳng hạn trong ví dụ trên, ta có kết quả hồi được tính toán trực tiếp và trình bày như sau: * ̂ = 0,578182; ̂ = 20,50909; 푌̂ = 20,50909 + 0,578182. ; * 푅푆푆 = 257,8909; 푆푆 = 11289,60013; 푆푆 = 11031,70923; 푆푆 푅푆푆 * 푅2 = = 0,977157; 휎̂ = √ = 5,677708; 푆푆 푛−2 * 푠푒̂( ̂) = 5,608465; 푠푒̂( ̂) = 0,031255; ̂ 푅2.(푛−2) * 푡 = = 3,656810; 퐹 = = 342,2132 푠푒̂( ̂) 1−푅2 b/ Với sự trợ giúp của Eviews, các kết quả của việc phân tích hồi quy được chỉ ra các thông tin trong bảng dưới đây: Dependent Variable: Method: Least Squares Date: Time: Sample: Included observations: Variable Coefficient Std. Error t-Statistic Prob. R-squared Mean dependent var Adjusted R-squared S.D. dependent var S.E. of regression Akaike info criterion Sum squared resid Schwarz criterion Log likelihood Hannan-Quinn criter. F-statistic Durbin-Watson stat Prob(F-statistic) Bảng 2.2
  29. Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng Chú giải: * Dependent Variable: Biến phụ thuộc * Method: Least Squares: Phương pháp (ước lượng): Phương pháp bình phương bé nhất * Date: Time: : ngày giờ (thực hiện) * Sample: : Mẫu sử dụng hay phạm vi quan sát được sử dụng * Included observations: : Tổng số quan sát trong mẫu thực hiện * Cột Variable : cho biết danh sách các biến giải thích trong mô hình. Lưu ý là C dùng để chỉ hằng số trong hàm hồi quy tương ứng với hằng số a, cũng được coi là một biến (biến hằng). * Cột Coefficient: Cho biết giá trị của các hệ số hồi quy ước lượng ̂ 푣à ̂ tương ứng với C và X * Cột Std. Error: cho biết giá trị của các sai số chuẩn: 푠푒̂( ̂), 푠푒̂( ̂) * Cột t-Statistic: cho biết giá trị của thống kê t ứng với giả thuyết tham số hồi quy = 0 (lấy cột Coefficient chia cho cột Std. Error) * Cột Prob. : cho biết giá trị p – value của thống kê t tương ứng. * R-squared: hệ số xác định R2; Mean dependent var.: trung bình mẫu của biến phụ thuộc (푌̅) * Adjusted R-squared : Hệ số xác định điều chỉnh 푅̅2 * Sum Squared resid : RSS (tổng bình phương các phần dư) * Log likelihood : Ln hàm hợp lý * Durbin – Watson stat: Thống kê Durbin – Watson * S.D. dependent var.:Độ lệch mẫu điều chỉnh của biến phụ thuộc Y (S’(Y)) * S.E. of regression: sai số chuẩn của hàm hồi quy: 휎̂, * Akaike info criterion: tiêu chuẩn Akaike * Schwarz criterion: Tiêu chuẩn Schwarz * F- statistic: thống kê F * Hannan-Quinn criterion: Tiêu chuẩn Hannan-Quinn * Prob(F- statistic): Xác suất P(F > F- statistic) (p-value của thống kê F) Chẳng hạn, với số liệu trong ví dụ trên 180 về Tiêu dùng Y (USD) và thu nhập 160 X (USD) của 10 hộ, Eviews cung cấp biểu đồ phân tán (hình bên) của Y theo 140 X. Các điểm phân tán rất gần xung quanh một đường thẳng. Đây là cơ sở 120 Y trực quan để ta nhận dạng hồi quy PRF 100 của Y theo X là dạng bậc nhất 푌̂ = + . 80 và kết quả hồi quy được cho bởi 60 Eviews như sau và chúng ta có thể thấy được sự trùng hợp kết quả giữa hai cách: 40 tính toán trực tiếp và sử dụng phần mềm 40 80 120 160 200 240 280 ứng dụng X
  30. Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng Dependent Variable: Y Method: Least Squares Date: 06/24/15 Time: 12:00 Sample: 1 10 Included observations: 10 Variable Coefficient Std. Error t-Statistic Prob. C 20.50909 5.608465 3.656810 0.0064 X 0.578182 0.031255 18.49901 0.0000 R-squared 0.977157 Mean dependent var 118.8000 Adjusted R-squared 0.974301 S.D. dependent var 35.41751 S.E. of regression 5.677708 Akaike info criterion 6.487829 Sum squared resid 257.8909 Schwarz criterion 6.548346 Log likelihood -30.43914 Hannan-Quinn criter. 6.421442 F-statistic 342.2132 Durbin-Watson stat 1.562483 Prob(F-statistic) 0.000000 Ví dụ 9: Các số liệu về thu nhập (Y) và tiêu dùng (C) trong khoảng thời gian từ năm 1958 đến năm 1988 được cho ở bảng dưới đây. Sử dụng phần mềm Eviews để chạy hồi quy của thu nhập Y theo tiêu dùng C (lưu ý là khi khai biến tiêu dùng, hoặc ta để nguyên tên tiêu dùng, hoặc ta dùng một ký tự khác C (vì ký tự C mặc định là hệ số bị chặn trong mô hình): Năm C Y Năm C Y Năm C Y 1958 873.8 1494.9 1969 1298.9 2208.4 1980 1883.7 2958.7 1959 899.8 1525.7 1970 1337.7 2271.3 1981 1960.9 3115.2 1960 919.7 1551.1 1971 1405.8 2365.6 1982 2004.4 3192.3 1961 932.9 1539.3 1972 1456.6 2423.3 1983 2000.4 3187.2 1962 979.3 1629.1 1973 1492 2416.2 1984 2024.2 3248.7 1963 1005.1 1665.2 1974 1538.7 2484.8 1985 2050.7 3166 1964 1025.1 1708.7 1975 1621.8 2608.5 1986 2145.9 3277.6 1965 1069 1799.4 1976 1689.6 2744 1987 2239.9 3492 1966 1108.3 1873.3 1977 1674 2729.3 1988 2313 3570 1967 1170.6 1973.3 1978 1711.9 2695 1968 1236.3 2087.6 1979 1803.9 2826.7 Bảng 2.3 2,400 a/ Với mẫu điều tra này, Eviews cho ta 2,200 biểu đồ phân tán của TIEUDUNG theo Y(thu nhập) sau: Biểu đồ này cho thấy 2,000 1,800 các điểm quan sát thực nghiệm rất gần G N U một đường thẳng, đây là hình ảnh trực D 1,600 U E I quan cho phép ta nhận dạng hồi quy của T 1,400 TIEUDUNG theo thu nhập Y là tuyến 1,200 tính, nên mô hình kinh tế lượng ở đây được nhận dạng là: 1,000 ( 푈 푈 |푌) = + . 푌 800 { 1,200 1,600 2,000 2,400 2,800 3,200 3,600 푈 푈 = + 푌 + 푈 b/ Hồi quy tiêu dùng (C) theo thu nhập (Y) cho kết quả sau: Y
  31. Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng Dependent Variable: TIEUDUNG Method: Least Squares Included observations: 31 Variable Coefficient Std. Error t-Statistic Prob. C -161.5118 22.37920 -7.217049 0.0000 Y 0.684186 0.008848 77.32386 0.0000 R-squared 0.995173 Mean dependent var 1512.061 Adjusted R-squared 0.995007 S.D. dependent var 448.3518 S.E. of regression 31.68220 Akaike info criterion 9.811728 Sum squared resid 29109.09 Schwarz criterion 9.904243 F-statistic 5978.979 Durbin-Watson stat 0.683880 Prob(F-statistic) 0.000000 Bảng 2.4 Từ bảng 2.4, ta có: hàm hồi quy SRF ước lượng của TIEUDUNG theo Y là: 푈 푈 = −161,5118 + 0,684186. 푌 + 푈̂ R2 = 0,995173, ̂ 2 = 0.684186 > 0 푛ê푛 푈 푈 , 푈 푈 ̂ = √푅 = √0.995173 ≈ 0.9976 , cho thấy mô hình phù hợp rất tốt với số liệu điều tra, biến X giải thích được 99.52% sự thay đổi của biến Y; 0.48% còn lại là do tác động của nhiễu ngẫu nhiên không đưa vào mô hình. Hệ số ̂ = 0,684186 cho thấy khi thu nhập Y tăng 1(đơn vị tiền tệ) thì bình quân TIEUDUNG tăng 0,684186 (đơn vị tiền tệ). c/ Tiến hành ước lượng khoảng tin cậy cho các hệ số hồi quy a, b, Eviews cho kết quả sau: Coefficient Confidence Intervals Included observations: 31 90% CI 95% CI 99% CI Variable Coefficient Low High Low High Low High C -161.5118 -199.5368 -123.4867 -207.2823 -115.7412 -223.1975 -99.82605 Y 0.684186 0.669152 0.699221 0.666090 0.702283 0.659797 0.708576 Bảng 2.5 Theo đó, các khoảng tin cậy tương ứng với các độ tin cậy 90%, 95%, 99%: - cho a là: (-199.5368 , -123.4867); (-207.2823, -115.7412); (-223.1975, -99.82605) - cho b là: ( 0.669152, 0.699221); ( 0.666090, 0.702283); (0.659797, 0.708576) d/ Tiến hành kiểm định các giả thuyết: 0: = 0; 0: = 0 bằng phương pháp p – value, căn cứ vào cột Prob trong bảng hồi quy, đối với cả a và b, ta đều thấy: p – value
  32. Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng tra bảng với α = 0,05, có: 흌휶 = 45,7223; 흌 휶 = 16,0471. Từ đó: − (푛−2). 𝜎̂2 29.1003,7618 (푛−2). 𝜎̂2 29.1003,7618 2 = = 636,64978 ; 2 = = 1813,97836 휒훼 45,7223 휒1−훼/2 16,0471 2 Khoảng tin cậy cần tìm cho phương sai nhiễu là: (636,64978, 1813,97836) 2.8. Một số ứng dụng của mô hình hồi quy tuyến tính Trong mục này, ta giới thiệu một số mô hình phi tuyến có thể tuyến tính hóa được và những mô hình thực tế có liên quan. 2.8.1. Một số khái niệm cần thiết 2.8.1.1. Biên tế và hệ số co giãn Giả sử đại lượng Y là hàm của đại lượng X: Y = f(X), khi đó các số gia ∆푿, ∆풀 còn được ∆푿 ∆풀 gọi là các lượng thay đổi tuyệt đối của X và của Y và , được gọi là lượng thay đổi 푿 풀 tương đối của X và của Y. * Ta gọi đại lượng sau đây là biên tế của Y theo X: 푴풀푿 = ∆풀/∆푿 (2.40) Ta có: ∆푌 = 푌 . ∆ , như vậy biên tế của Y theo X cho biết lượng thay đổi tuyệt đối của biến phụ thuộc Y khi biến độc lập thay đổi 1 đơn vị. Với giả thiết f(X) có đạo hàm, ′ khi ∆ khá nhỏ ta có: 푴풀푿 ≈ 풇 (푿). (2.41) ∆풀/풀 * Hệ số co giãn của Y theo X là: 푬 = (2.42) 풀푿 ∆푿/푿 ∆푌 ∆ Từ (2.42) suy ra: = . . Như vậy hệ số co giãn 푬 là lượng thay đổi (%) của 푌 푌 풀푿 biến phụ thuộc Y khi X thay đổi 1%. Khi ∆ khá nhỏ ta có: ∆풀/풀 ∆풀 풀 풀 푬 = = . ≈ 풇′(푿). (2.43) 풀푿 ∆푿/푿 ∆푿 푿 푿 Chú ý: - Biên tế phụ thuộc vào các đơn vị đo của X và Y, nhưng hệ số co giãn thì không phụ thuộc vào đơn vị đo của các biến. 2.8.1.2. Mô hình hồi quy qua gốc tọa độ Mô hình hồi quy qua gốc tọa độ là một trường hợp riêng của mô hình hồi quy tuyến tính với tung độ gốc a = 0. Hàm hồi quy qua gốc tọa độ có thể viết dưới dạng: (푌| ) = . ̂ ̂ 푃푅퐹: { ; 푆푅퐹: {푌 = . (2.44) 푌 = . + 푈 푌 = ̂ . + 푈̂ trong đó, ước lượng ̂ của b được tìm bằng phương pháp OLS, 2 ̂2 ̂ 𝜎 2 2 ∑ 푈푖 푅푆푆 hơn nữa ta có: 푣 ( ) = 2 ; 휎 ó ướ 푙ượ푛 : 휎̂ = = ∑ 푖 푛−1 푛−1 2.8.2. Một số mô hình tuyến tính hóa được: Mục này giới thiệu một số mô hình hồi quy phi tuyến thường gặp mà bằng phép đổi biến thích hợp có thể đưa được về mô hình tuyến tính. 2.8.1.1. Mô hình tuyến tính Log
  33. Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng Xét mô hình: 푌 = 훾. . 푒푈 (훾 > 0) (2.46) Đây là một mô hình phi tuyến. tuy nhiên mô hình này có dạng tương đương: 푙푛푌 = + . 푙푛 + 푈 ( 푣ớ푖 = 푙푛훾) (2.47) gọi là mô hình tuyến tính log. Đặt Y* = lnY, X* = lnX thì (2.47) có dạng: Y* = a + b. X* + U là mô hình hồi quy tuyến tính đối với các biến X*, Y* và nếu các giả thiết của mô hình hồi quy tuyến tính được thỏa mãn thì ta có thể tìm các ước lượng ̂, ̂ cho a, b (và do đó có ước lượng 훾̂ = 푒 ̂ cho 훾) bằng phương pháp OLS. 푌 Với mô hình (2.47), ta có: = . , hệ số co giãn của mô hình là: 푌 푌/푌 푌 = = . = 푌/ / 푌 Vì thế mô hình tuyến tính log, hay mô hình tuyến tính kép còn có các tên gọi: mô hình hệ số co giãn không đổi, mô hình log – log. Ta biết rằng các ước lượng ̂, ̂ tìm theo phương pháp OLS là các ước lượng không chệch cho a, b. Trong khi ước lượng 훾̂ = 푒 ̂ tương ứng lại là ước lượng chệch cho 훾. Tuy nhiên trong thực tế, người ta chú ý nhiều đến vai trò của hệ số b, nên 훾̂ = 푒 ̂ là ước lượng chệch cho 훾 không phải là vấn đề đáng quan ngại. 2.8.1.2. Mô hình bán logarit (semi log) Đó là mô hình chỉ có một biến xuất hiện dưới dạng logarit. Mô hình này được chia làm 2 dạng: a. Mô hình log – lin: 풍풏풀 = + . 푿 + 푼 (2.48) ∆푌 ∆푌 푒 .∆ −1 Ta có: = = . 푌 ≈ . 푌; = 푌 ≈ . 푌 ∆ ∆ 푌 ∆ Trong nghiên cứu thực nghiệm, mô hình dạng log-lin thích hợp cho các trường hợp như khảo sát tốc độ tăng trưởng hay suy thoái của các biến kinh tế tầm vĩ mô: lượng cung tiền, thâm hụt thương mại, năng suất, dân số, lao động, GDP, GNP, Cần lưu ý sự khác biệt giữa mô hình log-lin và mô hình có xu hướng tuyến tính là mô hình có dạng: 푌 = + . 푡 + 푈 (2.49) Tùy thuộc vào việc ta quan tâm tới ước lượng thay đổi tương đối hay tuyệt đối của biến phụ thuộc theo thời gian mà lựa chọn mô hình nào. Nếu quan tâm tới lượng thay đổi tuyệt đối của biến phụ thuộc thì mô hình có xu hướng tuyến tính tỏ ra thích hợp hơn. Vì biến phụ thuộc xuất hiện dưới hai dạng khác nhau nên không thể so sánh hệ số xác định R2 của hai mô hình này. Ngoài ra cần lưu ý là cả hai mô hình này chỉ thích hợp với các biến có số liệu chuỗi thời gian có tính chất dừng, tức là trung bình và phương sai của các biến này không phụ thuộc vào thời điểm quan sát đầu và thời điểm quan sát cuối mà chỉ phụ thuộc vào khoảng cách giữa hai thời điểm này. 풕 Ví dụ 10: Xét công thức lãi suất gộp: 풀풕 = 풀 . ( + 풓) trong đó r là tốc độ tăng trưởng gộp theo thời gian của Y; Y0 là giá trị của Y tại t = 0, Yt là lãi suất gộp tại thời điểm t. Ta có: 풍풏풀풕 = + . 풕 ( = 푙푛푌0, = 푙푛(1 + )) Đưa thêm vào sai số ngẫu nhiên, ta nhận được mô hình log-lin: 풍풏풀풕 = + . 풕 + 푼풕
  34. Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng ∆푌푡 푌푡 ∆푌푡 푡 Như vậy: 푡/푡 = ∆푡 = . ≈ . 푡 = 푙푛(1 + ). 푡 ( ℎ푖 ∆푡 ℎá é): hệ số b > 0 ( 0), nhưng mức tăng có khuynh hướng giảm dần (biểu thị đường cong có hướng dốc xuống tiến về giá trị 0). Khi tỷ lệ thất nghiệp vượt quá mức tỷ lệ thất nghiệp tự nhiên UN, tiền lương sẽ giảm (tương ứng Y
  35. Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng c3. Quan hệ chi tiêu Y của người tiêu dùng đối với một loại hàng và tổng thu nhập X biểu diễn bằng đường cong Engel (hình 2.6) Theo Lý thuyết kinh tế: chi tiêu hàng hóa tăng khi thu nhập tăng. Tuy nhiên đối với một loại hàng hóa thì thu nhập của người tiêu dùng phải đạt không dưới một mức tối thiểu – b/a, mà người ta gọi là ngưỡng thu nhập hay thu nhập tới hạn, thì người tiêu dùng mới sử dụng loại hàng này. Mặt khác nhu cầu về loại hàng này là có hạn, tức là dù thu nhập có còn tăng lên bao nhiêu đi nữa thì người tiêu dùng cũng không tiêu thụ thêm loại hàng này nữa, đó là mức tiêu dùng bão hòa a của loại hàng này. Cần lưu ý rằng mối quan hệ thu nhập – tiêu dùng ở đây được xét đối với một loại hàng hóa có đặc điểm nhất định nào đó, chẳng hạn là mặt hàng xa xỉ, mà không phải là nhu yếu phầm thông thường. Mô hình nghịch đảo thích hợp cho những trường hợp này. Nếu quan hệ là tổng chi tiêu và thu nhập thì mô hình tuyến tính theo biến tỏ ra thích hợp hơn. - Bảng sau đây chỉ ra một số đặc tính cần lưu ý của các mô hình hồi quy phi tuyến hai biến thông dụng nói trên, trong đó để đơn giản cho trình bày, ta để ở dạng mô hình toán học, còn mô hình kinh tế lượng tương ứng phải cộng thêm thành phần sai số ngẫu nhiên, đồng thời công thức dẫn xuất từ biên tế là công thức gần đúng và chỉ có ý nghĩa khi X thay đổi nhỏ. Mô hình Dạng hàm Hệ số Hệ số co Ý nghĩa của hệ số góc góc giãn *Tuyến Y = a + b.X b Lượng thay đổi của Y khi X tăng 1 đơn vị. . tính 푌 *Tuyến lnY = b.Y/X . b Khi X tăng 1% thì Y thay đổi b%. tính log a + b.lnX . (log kép) *Log –lin lnY = a + b.X b.Y b.X Khi X tăng 1 đơn vị thì Y thay đổi 100b% 1 *Lin –log Y = a + b.lnX b.(1/X) b. Khi X tăng 1% thì Y thay đổi b/100 đơn vị. 푌 푌 = + *Nghịch 1 1 − . 2 − . đảo 푌 Bảng 2.6 Lưu ý: Trong thực hành, đối với mô hình hồi quy ước lượng, trong công thức hệ số co giãn, hệ số góc, người ta thay giá trị của một biến bởi trung bình mẫu của biến đó 2.8.3. So sánh hệ số xác định giữa các mô hình
  36. Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng Một tiêu chí quan trọng để đánh giá sự phù hợp của hàm hồi quy là hệ số xác định R2. Tuy nhiên khi có nhiều hàm hồi quy khác nhau thì ta nên chọn hàm hồi quy nào một khi ta dựa vào tiêu chuẩn R2 lớn nhất? Với những mô hình hồi quy khác nhau, để so sánh các hệ số xác định, cần phải đảm bảo các yêu cầu chung sau đây: - Điều tra quan sát ở các mô hình có cùng cỡ mẫu. - Các mô hình có cùng số biến độc lập. Nếu điều này không thỏa thì ta sẽ dùng hệ số xác định hiệu chỉnh 푅̅2 mà ta sẽ xác định sau. - Các biến phụ thuộc xuất hiện trong các hàm hồi quy phải cùng dạng hoặc được đưa về cùng dang (điều này không yêu cầu đối với các biến giải thích) Ví dụ 11: Có số liệu về số lượng máy điện thoại Y (ngàn cái) và X là GDP tính theo đầu người (tính theo đô la Singapore) từ 1960 đến 1981: Năm X Y Năm X Y Năm X Y 1961 1365 37 1968 1974 59 1975 3575 141 1962 1409 38 1969 2204 67 1976 3784 163 1963 1549 41 1970 2462 78 1977 4025 196 1964 1416 42 1971 2723 90 1978 4286 223 1965 1473 45 1972 3033 102 1979 4628 262 1966 1589 48 1973 3317 114 1980 5038 291 1967 1757 54 1974 3487 126 1981 5472 317 Bảng 2.7 Nguồn: D.N.Gujarati 350 a/ Biểu đồ phân tán của Y theo X, 300 và kết quả hồi quy ước lượng cho mô hình 250 푌 = + . + 푈 200 được Eviews cung cấp như sau: Y 150 100 50 0 1,000 2,000 3,000 4,000 5,000 6,000 Dependent Variable: Y Method: Least Squares Hình 2.7 X Sample: 1961 1981 Included observations: 21 Variable Coefficient Std. Error t-Statistic Prob. C -69.28657 11.40038 -6.077568 0.0000 X 0.065862 0.003613 18.22724 0.0000 R -squared 0.945905 Mean dependent var 120.6667 Adjusted R-squared 0.943058 S.D. dependent var 88.76167 S.E. of regression 21.18084 Akaike info criterion 9.034464 Sum squared resid 8523.930 Schwarz criterion 9.133942 Log likelihood -92.86187 Hannan-Quinn criter. 9.056053 F-statistic 332.2324 Durbin-Watson stat 0.155590 Prob(F-statistic) 0.000000 B ảng 2.8
  37. Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng b/ Biểu đồ phân tán của Y theo T (biến xu thế: 350 T = 1, ứng với năm 1961, T = 2 ứng với năm 300 1962, ) và kết quả hồi quy ước lượng cho 250 mô hình: 200 푌 = + . + 푈 Y được Eviews cung cấp như sau: 150 100 50 Dependent Variable: Y 0 Method: Least Squares 0 4 8 12 16 20 24 Sample: 1961 1981 Hình 2.8 T Included observations: 21 Variable Coefficient Std. Error t-Statistic Prob. C -25.90476 14.99410 -1.727663 0.1003 T 13.32468 1.194127 11.15851 0.0000 R-squared 0.867607 Mean dependent var 120.6667 Adjusted R-squared 0.860639 S.D. dependent var 88.76167 S.E. of regression 33.13568 Akaike info criterion 9.929491 Sum squared resid 20861.50 Schwarz criterion 10.02897 Log likelihood -102.2597 Hannan-Quinn criter. 9.951081 F-statistic 124.5123 Durbin-Watson stat 0.120083 Prob(F-statistic) 0.000000 Bảng 2.9 350 c/ Biểu đồ phân tán của Y theo ln(X) 300 và kết quả hồi quy ước lượng cho mô hình: 푌 = + . ln( ) + 푈 250 được Eviews cung cấp như sau: 200 Y 150 Hình 2.9 100 Dependent Variable: Y 50 Method: Least Squares 0 Sample: 1961 1981 7.2 7.4 7.6 7.8 8.0 8.2 8.4 8.6 8.8 Included observations: 21 LOG(X) Variable Coefficient Std. Error t-Statistic Prob. C -1244.184 133.2847 -9.334780 0.0000 LOG(X) 173.5521 16.91942 10.25756 0.0000 R-squared 0.847043 Mean dependent var 120.6667 Adjusted R-squared 0.838992 S.D. dependent var 88.76167 S.E. of regression 35.61630 Akaike info criterion 10.07388 Sum squared resid 24101.90 Schwarz criterion 10.17336 Log likelihood -103.7757 Hannan-Quinn criter. 10.09547 F-statistic 105.2176 Durbin-Watson stat 0.135336 Prob(F-statistic) 0.000000 Bảng 2.10
  38. Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng d/ Biểu đồ phân tán của lnY theo X 6.0 và kết quả hồi quy ước lượng cho mô hình: 5.6 ln̂ (푌) = + . 5.2 được Eviews cung cấp như sau: ) 4.8 Y ( G O L 4.4 Hình 2.10 4.0 Dependent Variable: LOG(Y) Method: Least Squares 3.6 Date: 06/27/15 Time: 13:10 Sample: 1961 1981 3.2 1,000 2,000 3,000 4,000 5,000 6,000 Included observations: 21 X Variable Coefficient Std. Error t -Statistic Prob. C 2.967819 0.042584 69.69393 0.0000 X 0.000547 1.35E-05 40.49965 0.0000 R-squared 0.988549 Mean dependent var 4.544341 Adjusted R-squared 0.987946 S.D. dependent var 0.720615 S.E. of regression 0.079116 Akaike info criterion -2.145401 Sum squared resid 0.118929 Schwarz criterion -2.045923 Log likelihood 24.52671 Hannan-Quinn criter. -2.123812 F-statistic 1640.222 Durbin-Watson stat 0.524373 Prob(F-statistic) 0.000000 Bảng 2.11 8.8 8.6 e/ Biểu đồ phân tán của ln(Y) theo ln(X) 8.4 và kết quả hồi quy ước lượng cho mô hình: 8.2 ̂ ) ln (푌) = + . ln ( ) X ( G 8.0 được Eviews cung cấp như sau: O L 7.8 Hình 2.10 7.6 Dependent Variable: LOG(Y) Method: Least Squares 7.4 Sample: 1961 1981 7.2 Included observations: 21 3.2 3.6 4.0 4.4 4.8 5.2 5.6 6.0 LOG(Y) Variable Coefficient Std. Error t -Statistic Prob. C -7.366443 0.403580 -18.25275 0.0000 LOG(X) 1.514555 0.051231 29.56312 0.0000 R-squared 0.978723 Mean dependent var 4.544341 Adjusted R-squared 0.977603 S.D. dependent var 0.720615 S.E. of regression 0.107845 Akaike info criterion -1.525860 Sum squared resid 0.220978 Schwarz criterion -1.426381 Log likelihood 18.02153 Hannan-Quinn criter. -1.504270 F-statistic 873.9783 Durbin-Watson stat 0.313608 Prob(F-statistic) 0.000000 Bảng 2.11
  39. Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng 350 k/ Biểu đồ phân tán của Y theo 1/X và kết quả hồi quy ước lượng cho mô hình: 300 Ŷ = + 250 được Eviews cung cấp như sau: 200 Y 150 100 Hình 2.11 Dependent Variable: Y 50 Method: Least Squares 0 Sample: 1961 1981 .0001 .0002 .0003 .0004 .0005 .0006 .0007 .0008 Included observations: 21 1/X Variable Coefficient Std. Error t -Statistic Prob. C 286.3879 25.71385 11.13749 0.0000 1/X -389006.6 55153.22 -7.053198 0.0000 R -squared 0.723627 Mean dependent var 120.6667 Adjusted R-squared 0.709081 S.D. dependent var 88.76167 S.E. of regression 47.87532 Akaike info criterion 10.66547 Sum squared resid 43548.87 Schwarz criterion 10.76495 Log likelihood -109.9874 Hannan-Quinn criter. 10.68706 F-statistic 49.74760 Durbin-Watson stat 0.135977 Prob(F-statistic) 0.000001 Bảng 2.12 h/ Từ các biểu đồ và các kết quả hồi quy cho các mô hình a/, b/, c/ và k/, nhận thấy mô hình a/ có 푅2 = 0,945905 là lớn nhất. Trong hai mô hình d/ và e/ thì mô hình d/ có hệ số 푅2 = 0,988549 cao hơn. Kết hợp so sánh hệ số xác định và biểu đồ phân tán, ta chọn mô hình d/: ln(푌) = 2,967819 + 0,000547. + 푈̂ m/ Hệ số co giãn của Y theo X hoặc T trong các mô hình hồi quy ước lượng: - Tính các giá trị thống kê của các biến X, Y, T, X.Y nhờ Eviews: Y X T X*Y Mean (Trung bình mẫu) 120.6667 2884.095 11.00000 455777.7 Median (Trung vị) 90.00000 2723.000 11.00000 245070.0 Maximum 317.0000 5472.000 21.00000 1734624. Minimum 37.00000 1365.000 1.000000 50505.00 Std. Dev.(Độ lệch mẫu) 88.76167 1310.726 6.204837 501633.9 Skewness (Hệ số bất đối xứng) 0.964006 0.418868 6.34E-17 1.301942 Kurtosis (Hệ số nhọn) 2.667312 1.946650 1.794545 3.574871 Sum 2534.000 60566.00 231.0000 9571332. Sum Sq. Dev.(Tổng các bình phương độ lệch) 157572.7 34360076 770.0000 5.03E+12 Observations (Cỡ mẫu) 21 21 21 21 * Với mô hình a/ 푌̂ = −69,28657 + 0,065862. ,
  40. Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng ̅ 2884,095 = ̂. = 0,065862. = 1,574190 푌/ 푌̅ 120,6667 * Với mô hình b/ 푌̂ = −25,90476 + 13,32468. , ̅ 11 = ̂. = 13,32468. = 15,821043 푌/ 푌̅ 120,6667 * Với mô hình c/ 푌̂ = −1244,184 + 173,5521. ln ( ), 1 1 = ̂. = 173,5521. = 1,438277 푌/ 푌̅ 120,6667 * Với mô hình d/ ln̂ (푌) = 2,967819 + 0,000547. , ̂ 푌/ = . ̅ = 0,000547. 2884,095 = 1,577900 * Với mô hình e/ ln̂ (푌) = −7,366443 + 1,514555. 푙푛( ), ̂ 푌/ = = 1,514555 389006,6 * Với mô hình h/ 푌̂ = 286,3879 − , 1 389006,6 = − ̂. = − = −0,853501 푌/ 푌̅̅̅̅ 455777,7 Ví dụ 12: Bảng sau cho biết tổng giá trị sản phẩm nội địa GDP(tỷ USD) của một quốc gia theo thời gian X(X=1 ứng với 1972, X = 2 ứng với 1973, , X = 20 ứng với 1991) từ 1972 đến 1991: X GDP X GDP X GDP X GDP 1 1207 6 1974 11 3150 16 4540 2 1350 7 2233 12 3405 17 4900 3 1459 8 2489 13 3777 18 5251 4 1586 9 2708 14 4039 19 5522 5 1768 10 3030 15 4269 20 5678 Bảng 2.13 a. Vẽ Line Graph của GDP theo thời gian X. b. Vẽ biểu đồ phân tán của GDP theo X và cho nhận xét. ̂ c. Hãy ước lượng mô hình: 푃푡 = + . 푡 + 푈푡. Nêu ý nghĩa của hệ số ước lượng . d. Ước lượng mô hình trên với GDP tính theo đô la hiện hành trong giai đoạn 1972-1987. Sử dụng mô hình ước lượng này để dự báo GDP cho các năm 1988, 1989, 1990, 1991. e. Vẽ Line Graph của GDP thực tế và GDP dự báo từ 1972 đến 1991. Giải: a-b/ Line Graph và biểu đồ phân tán của GDP theo thời gian: 6,000 6,000 5,000 5,000 4,000 4,000 Y GDP 3,000 3,000 2,000 2,000 1,000 1,000 0 2 4 6 8 10 12 14 16 18 20 22 0 4 8 12 16 20 24 X X Hình 2.12a Hình 2.12b
  41. Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng b/ Từ biểu đồ nhận thấy các điểm quan sát tập trung gần một đường thẳng, đó là cơ sở để nhận dạng hồi quy là: 푃푡 = + . 푡 + 푈푡. c/ Chạy hồi quy của Y theo X, bảng kết quả nhận được dưới đây cho ta SRF ngẫu nhiên của GDP theo X: 푃푡 = 625.1053 + 246.8233. 푡 + 푈̂푡 Dependent Variable: GDP Method: Least Squares Included observations: 20 Variable Coefficient Std. Error t-Statistic Prob. C 625.1053 71.44939 8.748924 0.0000 X 246.8233 5.964480 41.38220 0.0000 R-squared 0.989598 Mean dependent var 3216.750 Adjusted R-squared 0.989020 S.D. dependent var 1467.881 S.E. of regression 153.8096 Akaike info criterion 13.00395 Sum squared resid 425833.0 Schwarz criterion 13.10352 F-statistic 1712.487 Durbin-Watson stat 0.286667 Prob(F-statistic) 0.000000 Bảng 2.14 ̂ = 246.8233 cho thấy đây là mức tăng bình quân hàng năm của GDP là 246.8233 tỷ USD. d/ Chạy hồi quy của GDP theo X từ 1972 đến 1987, nhận được bảng kết quả hồi quy: Dependent Variable: GDP Method: Least Squares Included observations: 16 Variable Coefficient Std. Error t-Statistic Prob. C 736.6250 63.44092 11.61120 0.0000 X 229.3971 6.560904 34.96425 0.0000 R-squared 0.988678 Mean dependent var 2686.500 Adjusted R-squared 0.987869 S.D. dependent var 1098.384 S.E. of regression 120.9771 Akaike info criterion 12.54555 Sum squared resid 204896.4 Schwarz criterion 12.64212 F-statistic 1222.498 Durbin-Watson stat 0.396588 Prob(F-statistic) 0.000000 Bảng 2.15 SRF ngẫu nhiên của GDP theo X: 푃푡 = 736,6250 + 229,3971. 푡 + 푈̂푡 * Sử dụng mô hình ước lượng này để dự báo GDP cho các năm1988, 1989, 1990, 1991, có nghĩa là lần lượt thay X t bởi các giá trị 17, 18, 19, 20 tương ứng với số thứ tự của các năm trên. Eviews cung cấp kết quả dự báo như sau:
  42. Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng Modified: 1972 1991 // fit(f=actual) ydb 4636.375 (dự báo GDP 1988) 4865.772 (dự báo GDP 1989) 5095.169 (dự báo GDP 1990) 5324.566 (dự báo GDP 1991) e/ Line Graph của GDP thực tế và GDP dự báo từ 1972 đến 1991: 6,000 5,000 4,000 3,000 2,000 1,000 0 1972 1974 1976 1978 1980 1982 1984 1986 1988 1990 GDP YDB Hình 2.13
  43. Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng Bài tập. 1. Bảng số liệu sau là về Y là biến tổng sản phẩm được sản xuất của một ngành công nghiệp trong vòng 15 năm của một quốc gia và chi phí về vốn X1 và lao động X2 để sản xuất của ngành đó, với X3 là biến xu thế (biến thời gian) Năm Y X1 X2 X3 Năm Y X1 X2 X3 1 8911.4 120.753 281.5 1 9 23052.6 153.714 616.7 9 2 10873.2 122.242 284.4 2 10 26128.2 164.783 695.7 10 3 11132.5 125.263 289.9 3 11 29563.7 176.864 790.8 11 4 12086.5 128.539 375.8 4 12 33367.6 188.146 816.0 12 5 12767.5 131.427 375.2 5 13 38354.8 205.841 848.4 13 6 16347.1 134.267 402.5 6 46868.3 221.748 873.4 14 14 7 19542.7 139.038 478.0 7 54308.9 239.715 999.2 15 8 21075.9 146.450 553.4 8 15 a/ Vẽ biểu đồ phân tán của: a1. Y theo X1, Y theo X2, Y theo X3, Y theo X3. a2. lnY theo lnX1, lnY theo lnX2, lnY theo lnX3. b. Chạy hồi quy SRF cho các mô hình và cho biết hệ số xác định: Y = a + b.X1 + U, Y = a + b.X2 + U, Y = a + b.X3 + U. lnY = a + blnX1 + U, lnY = a + blnX2 + U, lnY = a + blnX3 + U. c. Ước lượng khoảng tin cậy 95% cho các hệ số của X1, X2, X3 ở các mô hình trên. 2. Số liệu về tổng chi phí Y và sản lượng X được cho như sau: X 1 2 3 4 5 6 7 8 9 10 Y 195 225 242 245 258 260 275 298 350 425 a. Vẽ biểu đồ phân tán và line Graph của Y theo X. b. Từ số liệu, chạy hồi quy ước lượng SRF cho các mô hình: 1. Y = a + bX + U, b2. Y = a + blnX + U, b3. lnY = a + bX + U, b4. lnY = a + blnX + U. c. Sử dụng các mô hình SRF ở trên để ước lượng tổng chi phí khi sản lượng X = 12. 3. Số liệu về lợi nhuận Y(tỷ VNĐ) và doanh thu X(tỷ VNĐ) của một số doanh nghiệp thuộc một ngành dịch vụ ở Tp. Hồ Chí Minh năm 2004 cho ở bảng sau: Y 15 17 20 21 24 26 27 35 X 120 130 145 149 155 162 165 174 a/ Vẽ biểu đồ phân tán của Y theo X và cho nhận xét. b/ Dựa vào bảng số liệu, sử dụng phương pháp OLS, hãy thiết lập mô hình hồi quy SRF ngẫu nhiên: Y = â + b̂X + Û của lợi nhuận Y theo doanh thu X.
  44. Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng c/ Ước lượng khoảng tin cậy 95% cho các hệ số hồi quy trong mô hình: Y = a + bX + U. d/ Ước lượng khoảng tin cậy 95% cho phương sai nhiễu trong mô hình: Y = a + bX + U. e/ Dựa vào mẫu, hãy kiểm định giả thuyết về sự phù hợp của mô hình: Y = a + bX + U. 4. Giả sử có số liệu điều tra về lãi suất ngân hàng X(% /năm) và tổng vốn đầu tư Y(tỷ đồng) ở một địa phương A qua 10 năm liên tục như sau: X 7,0 7,0 6,5 6,5 6,0 6,0 5,5 5,5 5,0 4,3 Y 29 32 32 34 34 36 45 47 50 54 a. Vẽ biểu đồ phân tán và đường hồi quy thực nghiệm của Y theo X. b. Lập mô hình hồi quy tuyến tính SRF của Y theo X. Cho biết ý nghĩa thực tế của hệ số hồi quy ước lượng. c. Với số liệu nói trên, xác minh Y có phụ thuộc thống kê vào X hay không. d. Dựa vào số liệu trên, trong mô hình PRF, với độ tin cậy 90%, 95%, 99%, hãy chỉ ra các khoảng tin cậy tương ứng cho lượng thay đổi bình quân vốn đầu tư khi lãi suất tăng 1% (trong điều kiện các yếu tố ảnh hưởng khác không đổi) e. Xác định khoảng tin cậy cho phương sai nhiễu với độ tin cậy 95%. HD: - SRF ngẫu nhiên của Y theo X: 푌 = 96,76232 − 9,690104. + 푈̂ Hệ số hồi quy ước lượng: ̂ = −9,690104, cho thấy khi lãi suất ngân hàng tăng 1% (trong điều kiện các yếu tố khác không đổi) thì bình quân vốn đầu tư trên địa bàn địa phương A giảm 9,690104 tỷ đồng. - Việc xác minh Y có phụ thuộc thống kê vào X hay không, chính là kiểm định giả thuyết về hệ số hồi quy b: 푖ả 푡ℎ ế푡 0: = 0, đố푖 푡ℎ ế푡 1: ≠ 0. 5. Để ước lượng cho mô hình hồi quy bậc nhất PRF: Y = a + b.X + U, trong đó X là lãi suất ngân hàng (%/năm), Y là tổng vốn đầu tư (tỷ đồng) của một địa phương, từ mẫu điều tra, Eviews cho kết sau đây: Dependent Variable: Y Method: Least Squares Included observations: 10 Variable Coefficient Std. Error t-Statistic Prob. C 96.76232 6.255720 15.46781 0.0000 X -9.690104 1.044814 -9.274481 0.0000 R-squared 0.914908 Mean dependent var 39.30000 Adjusted R-squared 0.904272 S.D. dependent var 8.832390 S.E. of regression 2.732742 Akaike info criterion 5.025344 Sum squared resid 59.74302 Schwarz criterion 5.085861 Log likelihood -23.12672 Hannan-Quinn criter. 4.958957 F-statistic 86.01600 Durbin-Watson stat 1.612948 Prob(F-statistic) 0.000015 Bảng 2.7
  45. Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng a/ Số liệu được sử dụng là loại số liệu gì? Viết SRF ước lượng cho PRF nói trên. b/ Với mức ý nghĩa 5%, hãy cho biết mô hình SRF thu được có phù hợp với kết quả điều tra hay không. c/ Hãy cho biết hệ số xác định và nêu ý nghĩa của nó. d/ Tính các tổng bình phương các độ lệch: TSS, ESS, RSS. e/ Sử dụng SRF nói trên để dự báo tổng vốn đầu tư của địa phương này khi lãi suất ngân hàng là 8%/năm. g/ Hãy viết mô hình SRF tuyến tính của vốn đầu tư tính theo USD, với tỷ giá quy đổi là: 1 USD = 20000 VND, sử dụng công thức 1000000000 HD: Sử dụng công thức đổi đơn vị đo, với ℎ = 1, = = 50000. 20000 6/ Từ bảng số liệu về các biến X, Y, ta có biểu đồ phân tán và bảng kết quả hồi quy sau: Dependent Variable: Y 2.6 Method: Least Squares 2.5 Sample: 1970 1980 2.4 Variable Coefficient Std. Error Prob. 2.3 Y C 2.691124 0.121622 0.0000 2.2 X -0.479529 0.114022 0.0023 2.1 R-squared 0.662757 2.206364 2.0 Prob(F-statistic) 0.002288 1.9 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0 X 2.6 Dependent Variable: Y Method: Least Squares 2.5 Sample: 1970 1980 2.4 Variable Coefficient Std. Error Prob. 2.3 Y C 2.184839 0.036200 0.0000 2.2 LOG(X) -0.552059 0.117262 0.0011 2.1 R -squared 0.711210 Prob(F-statistic) 0.001108 2.0 1.9 -.4 -.2 .0 .2 .4 .6 .8 LOG(X) Dependent Variable: LOG(Y) .95 Method: Least Squares Sample: 1970 1980 .90 Variable Coefficient Std. Error Prob. .85 ) Y ( G .80 O C 1.009965 0.051630 0.0000 L X -0.220278 0.048403 0.0014 .75 R-squared 0.697076 .70 Prob(F-statistic) 0.001384 .65 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0 X
  46. Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng Dependent Variable: LOG(Y) .95 Method: Least Squares .90 Sample: 1970 1980 .85 Variable Coefficient Std. Error Prob. ) Y ( G .80 O C 0.777418 0.015242 0.0000 L LOG(X) -0.253046 0.049374 0.0006 .75 R-squared 0.744800 .70 Prob(F-statistic) 0.000624 .65 -.4 -.2 .0 .2 .4 .6 .8 LOG(X) 2.6 Dependent Variable: Y Method: Least Squares 2.5 Sample: 1970 1980 2.4 Variable Coefficient Std. Error Prob. 2.3 C 1.577738 0.131788 0.0000 Y 1/X 0.578952 0.117100 0.0008 2.2 R-squared 0.730893 2.1 Prob(F-statistic) 0.000798 2.0 1.9 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1/X a/ Từ kết quả trên, bạn chọn mô hình SRF nào? Tại sao? b/ Với mô hình SRF đã được chọn, hãy dự báo giá trị của Y khi X = 2,0. 7. Bảng số liệu sau khảo sát về nhu cầu tiêu thụ cà phê ở Mỹ trong thời kỳ 1970 – 1980, trong đó X là giá một tách cà phê, Y là số tách mà một người dùng trong một ngày: Năm Y X Năm Y X Năm Y X 1970 2.57 0.77 1974 2.25 0.76 1978 1.97 1.39 1971 2.5 0.74 1975 2.2 0.75 1979 2.06 1.2 1972 2.35 0.72 1976 2.11 1.08 1980 2.02 1.17 1973 2.3 0.73 1977 1.94 1.81 a/ Hãy thiết lập SRF ước lượng cho mô hình PRF: 푙푛푌 = + . 푙푛 + 푈 b/ Từ SRF thiết lập được, giá trị của hệ số ̂ ước lượng cho b nói lên điều gì? c/ Hãy ước lượng khoảng tin cậy cho mức tăng hay giảm bình quân của lượng tiêu thụ (%) ở quốc gia này khi giá bán lẻ cà phê tăng 1%. 8. Theo số liệu của Tổng cục thống kê Việt nam về biến X là Tổng sản phẩm trong nước GDP và biến phụ thuộc Y(tỷ đồng) là chi tiêu tiêu dùng cá nhân trong thời kỳ 1995 – 2003, có bảng dưới đây:
  47. Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng Năm X Y Năm X Y Năm X Y 1995 195,567 142,916 1998 244,596 172,498 2001 292,535 190,577 1996 213,833 155,909 1999 256,272 176,976 2002 313,247 205,114 1997 231,264 165,125 2000 273,666 182,420 2003 336,243 221,545 a/ Hãy vẽ biểu đồ phân tán của Y theo X, cho nhận xét. b/ Hãy thiết lập mô hình SRF ước lượng cho mô hình PRF: 푌 = + . + 푈 9. Xét mô hình hồi quy Parabol: 푌 = + . 2 + 푈 a/ Hãy xác định biên tế và hệ số co giãn của Y theo X. b/ Sử dụng phương pháp bình phương tối thiểu thông dụng OLS để tìm các ước lượng ̂, ̂ cho 푣à . c/ Hãy thiết lập SRF: 푌 = ̂ + ̂. 2 + 푈̂ (trong đó ̂, ̂ được tính bởi công thức tìm được ở b/) từ bảng số liệu sau: X 1 2 3 4 5 6 7 8 9 10 Y 1,8 6 9,5 18 25 38 48 66 80 103 HD: Đặt X’ = X2 1 10/ Xét mô hình hồi quy = + . + 푈 푙푛푌 a/ Hãy xác định biên tế và hệ số co giãn của Y theo X b/ Sử dụng phương pháp OLS để tìm các ước lượng ̂, ̂ cho 푣à . 1 c/ Thiết lập SRF: = ̂ + ̂. + 푈̂ (trong đó ̂, ̂ được tính bởi công thức tìm được ở 푙푛푌 b/) từ bảng số liệu sau: X 1 2 3 4 5 6 7 8 9 Y 2 6 10 18 25 38 49 65 81 HD: Đặt Y’ = 1/lnY.
  48. Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng Chương 3. HỒI QUY NHIỀU BIẾN Trong thực tế, một đại lượng kinh tế không phải chỉ phụ thuộc vào một biến số kinh tế khác mà phụ thuộc vào nhiều biến số kinh tế khác nhau. Chẳng hạn nhu cầu về một loại hàng hóa không chỉ có phụ thuộc vào thu nhập của người tiêu dùng mà còn phụ thuộc vào nhiều yếu tố khác như: giá bán, thị hiếu của người tiêu dùng, Do đó mô hình hồi quy hai biến ở chương trước chưa đáp ứng được yêu cầu của thực tế. Chương này khảo sát mô hình hồi quy nhiều biến, tức là mô hình mà trong đó biến phụ thuộc được xét trong sự phụ thuộc vào hai hoặc nhiều hơn hai biến giải thích, cùng với các bài toán thống kê như ước lượng, kiểm định, . Các ý tưởng, phương pháp và kết quả nghiên cứu hồi quy hai biến là cơ sở cho việc nghiên cứu mô hình hồi quy nhiều biến hay hồi quy bội. 3.1. Hàm hồi quy tổng thể và hàm hồi quy mẫu nhiều biến 3.1.1. Các khái niệm Giả sử ta đang quan tâm đến véc tơ quan sát k chiều: (Y, X1, X2, , Xk-1), trong đó biến Y phụ thuộc vào k – 1 biến X1, X2, , Xk-1 . Khi đó trung bình có điều kiện của Y với điều kiện véc tơ ngẫu nhiên X = (X1, X2, , Xk-1) là hàm của X = (X1, X2, , Xk-1): (푌| ) = (푌|( 1, 2, , −1)) = ( ) = ( 1, 2, , −1) Ta gọi hàm này là hàm hồi quy tổng thể PRF của Y theo X = (X1, X2, , Xk-1), hay PRF nhiều biến. Như đã biết, hàm hồi quy xây dựng trên mẫu gọi là hàm hồi quy mẫu, viết tắt là SRF. Để hình dung được SRF, ta cần nhắc lại rằng: quan hệ giữa Y và X là phụ thuộc thống kê, ứng với mỗi giá trị = ( 1, 2, , −1) ủ 푣é 푡ơ = ( 1, 2, , −1) không phải chỉ có một giá trị của Y, mà có cả một phân bố các giá trị của Y, nghĩa là có cả một biến quan sát mà ta ký hiệu là 푌 . Trung bình mẫu của biến 푌 là 푌̅ được gọi là trung bình mẫu có điều kiện của Y với điều kiện = ( 1, 2, , −1) 푙ấ 푖á 푡 ị = ( 1, 2, , −1) . Khi đó SRF của Y theo = ( 1, 2, , −1) là hàm của véc tơ ngẫu nhiên = ( 1, 2, , −1) , nhận giá trị là 푌̅ khi = ( 1, 2, , −1) 푙ấ 푖á 푡 ị = ( 1, 2, , −1). Ta vẫn dùng ký hiệu 푌̂ để chỉ hàm hồi quy mẫu, đó là một ước lượng của hàm hồi quy tổng thể PRF: 푌̂ = ̂( ). Ta đưa vào biến ngẫu nhiên U là tác động của những yếu tố ngẫu nhiên khác ngoài 1, 2, , −1 không được đưa vào, khiến cho giá trị của Y lệch khỏi (푌| ). Như vậy ta có mô hình sau đây gọi là mô hình PRF nhiều biến: (푌| ) = ( ) = ( , , , ) { 1 2 −1 (3.1) 푌 = (푌| ) + 푈 Vẫn như trong hồi quy hai biến, ta gọi U là sai số ngẫu nhiên hay thặng dư. Ta có 푈̂ = 푌 − 푌̂ là một ước lượng của sai số ngẫu nhiên U. 푌̂ = ̂( ) Mô hình SRF nhiều biến là: { (3.2) 푌 = 푌̂ + 푈̂
  49. Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng Trong phần tiếp theo của chương này, ta khảo sát mô hình hồi quy nhiều biến, tuyến tính theo biến và theo các tham số, tức là: (푌| , , , ) = + . + . + ⋯ + . PRF:{ 1 2 −1 0 1 1 2 2 −1 −1 (3.3) 푌 = 0 + 1. 1 + 2. 2 + ⋯ + −1. −1 + 푈 푌̂ = ̂ + ̂ + ̂ + ⋯ + ̂ SRF: { 0 1 1 2 2 −1 −1 (3.4) 푌 = ̂0 + ̂1 1 + ̂2 2 + ⋯ + ̂ −1 −1 + 푈̂ ̅̅̅̅̅̅̅̅̅̅ 푣ớ푖 0: hệ số tự do; 푗: hệ số hồi quy riêng theo biến thứ 푗, 푗 = 1, − 1 ̅̅̅̅̅̅̅̅̅̅ ̂푗 là ước lượng của 푗, 푗 = 1, − 1. Hệ số 푗 cho biết ảnh hưởng riêng của biến 푗 lên trung bình có điều kiện của 푌 khi các biến còn lại không thay đổi. Đó là lượng tăng (nếu 푗 > 0) hay giảm (nếu 푗
  50. Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng 3.2. Hệ số xác định và hệ số tương quan Với mẫu ngẫu nhiên kích thước n về véc tơ quan sát (Y, X1, X2, , Xk-1) là: (푌푖, 1푖, 2푖, , −1,푖), 푖 = 1,2, , 푛 ta định nghĩa các tổng bình phương độ lệch như trước đây: ̅ 2 2 ̅ 2 ̅ 2 푆푆 = ∑(푌푖 − 푌) = ∑ 푌푖 − 푛. (푌) = 풴 . 풴 − 푛. (푌) ; (3.6) 2 푻 2 푆푆 = ∑(푌̂푖 − 푌̅) = ̂ . ( 퓧 . 풴) − 푛. (푌̅) ; (3.7) ̂2 푅푆푆 = ∑ 푈푖 = 푆푆 − 푆푆 (3.8) Các tổng bình phương các độ lệch TSS, ESS, RSS trong mô hình hồi quy nhiều biến có ý nghĩa như các tổng bình phương các độ lệch tương ứng trong mô hình hồi quy hai biến. 푅푆푆 푆푆 Hệ số xác định là: 푅2 = 1 − = (3.9) 푆푆 푆푆 Ý nghĩa và tính chất của hệ số xác định giống như trước đây đã chỉ ra trong chương trước. Ngoài ra ta cần lưu ý các kết quả khảo sát sau đây: 2 * 푆푆 = ∑(푌푖 − 푌̅) có bậc tự do là (n – 1) và không phụ thuộc vào số biến độc lập trong mô hình. ̂2 * 푅푆푆 = ∑ 푈푖 có bậc tự do là (n – k ) và có giá trị giảm khi số biến giải thích trong mô hình tăng 푅푆푆 푆푆 * 푅2 = 1 − = có giá trị tăng theo số biến giải thích trong mô hình. 푆푆 푆푆 Vì vậy khi số biến giải thích càng nhiều thì 푅2 càng lớn, tuy nhiên khi đó mô hình sẽ phức tạp hơn và khó phân tích hơn. Ngoài ra, khi có nhiều biến giải thích thì khả năng có tương quan cao giữa chúng dễ xảy ra, đồng thời bậc tự do của ESS và RSS sẽ giảm đi. Do đó cần thận trọng cân nhắc giữa việc đưa thêm biến giải thích vào để tăng trị số của R2 với độ phức tạp phức tạp của mô hình cũng sẽ tăng lên. 3.2.1. Hệ số xác định hiệu chỉnh (Adjusted R – squared) Trong mô hình hồi quy nhiều biến, khi đưa vào nhiều biến giải thích thì số bậc tự do bị giảm đi. Để hạn chế bất lợi này, người ta điều chỉnh hệ số xác định bằng cách đưa thêm bậc tự do của các tổng bình phương vào công thức sau để có hệ số xác định hiệu chỉnh: 푅푆푆 1 − 푅̅2 = 1 − 푛 − = 푅2 + (1 − 푅2). (3.10) 푆푆 푛 − 푛 − 1 Hệ số xác định hiệu chỉnh 푅̅2 có các tính chất sau: * 푅̅2 ≤ 푅2 ≤ 1, ℎ푖 > 0 * Khi k càng lớn thì 푅̅2 à푛 푛ℎỏ ℎơ푛 푅2. * 푅̅2 có thể ≤ 0 ( ℎ푖 đó 푞 ướ : 푅̅2 = 0). 푅̅2 được sử dụng để thay thế cho 푅2 khi xem xét có nên đưa thêm biến giải thích mới vào mô hình hay không. Thường thì một biến giải thích nên được đưa thêm vào khi nó làm tăng giá trị của 푅̅2 và hệ số hồi quy của biến này phải khác không một cách có ý nghĩa thống kê. 3.2.2. Hệ số tương quan (Coefficient of Correlation)
  51. Bộ môn Toán – Thống kê Bài giảng Kinh tế lượng Nhắc lại: với 2 biến ngẫu nhiên 휉 푣à 휁: Hệ số tương quan giữa chúng là: (휉 − 휉)(휁 − 휁) 휌휉휁 = √푣 휉√푣 휁 Hệ số tương quan đo mức độ phụ thuộc tương quan tuyến tính giữa hai biến. Với mẫu ngẫu nhiên kích thước n về véc tơ quan sát (Y, X1, X2, , Xk-1) là: (푌푖, 1푖, 2푖, , −1,푖), 푖 = 1,2, , 푛 * Hệ số tương quan mẫu giữa biến phụ thuộc Y và biến giải thích Xj là 푌̅̅ ̅̅𝑗̅−푌̅. ̅푗 ∑ 푖. 푗푖 0푗 = = (3.11) 푆(푌).푆( 푗) 2 2 √∑ 푖 .∑ 푗푖 * Hệ số tương quan mẫu giữa các biến 푠 푣à 푗 푙à: ̅̅̅푠̅ ̅̅𝑗̅− ̅푠. ̅푗 ∑ 푠푖. 푗푖 푠푗 = = (3.12) 푆( 푠).푆( 푗) 2 2 √∑ 푠푖.∑ 푗푖 푡 표푛 đó 푖 = 푌푖 − 푌̅ ; 푗푖 = 푗푖 − ̅푗 , 푖 = 1,2, , 푛; 푗 = 1,2, , − 1 * Ma trận các hệ số tương quan mẫu là: 1 ⋯ 0, −1 01 1 ⋯ 1, −1 푅 = [ 10 ] ⋮ ⋮ ⋯ ⋮ −1,0 −1,1 ⋯ 1 Lưu ý: Đối với mô hình hồi quy nhiều biến, việc tính toán trực tiếp các biểu thức có liên quan nói trên là rất khó khăn, phức tạp. Để thực hiện các tính toán này, cần dựa vào các phần mềm ứng dụng. Trong tài liệu này, chúng ta sử dụng phần mềm Eviews hỗ trợ. 3.2.3. Hệ số tương quan mẫu riêng phần (Partial correlation coefficients) (Tham khảo) Hệ số tương quan được xét ở trên còn được gọi là hệ số tương quan bậc 0, xét mối tương quan giữa 2 biến mà không quan tâm đến sự thay đổi của các biến còn lại. Trong mô hình hồi quy k biến, để xét mối tương quan riêng phần giữa biến phụ thuộc Y và một biến giải thích Xj nào đó, ta phải cố định (k – 2) biến còn lại, khi đó ta có hệ số tương quan riêng phần bậc (k – 2). * Với mô hình 3 biến: Y(biến phụ thuộc), X1, X2. a. Để xác định hệ số tương quan riêng của Y và X1 (loại bỏ tác động của X2) tiến hành như sau: ̂ - Chạy hồi quy của Y theo X2 và xác định: 푌̂ = 훼̂0 + 훽0. 2 ̂ - Chạy hồi quy của X1 theo X2 và xác định: ̂1 = 훼̂1 + 훽1. 2 - Loại bỏ tác động của X2 lên Y và của X2 lên X1 bằng cách: ∗ ∗ Đặ푡 푌 = 푌 − 푌̂; 1 = 1 − ̂1 ∗ ∗ - Hệ số tương quan riêng giữa Y và X1 chính là hệ số tương quan giữa 푌 푣à 1 b. Các công thức tính các hệ số tương quan riêng phần bậc 1: − . = 01 02 12 : 01.2 2 2 √(1 − 02)(1 − 12)