Bài giảng Kinh tế lượng (Dùng cho đào tạo tín chỉ Bậc Đại học) - Nguyễn Mạnh Hiếu

pdf 153 trang Gia Huy 19/05/2022 2740
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Kinh tế lượng (Dùng cho đào tạo tín chỉ Bậc Đại học) - Nguyễn Mạnh Hiếu", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfbai_giang_kinh_te_luong_dung_cho_dao_tao_tin_chi_bac_dai_hoc.pdf

Nội dung text: Bài giảng Kinh tế lượng (Dùng cho đào tạo tín chỉ Bậc Đại học) - Nguyễn Mạnh Hiếu

  1. TRƯỜNG ĐẠI HỌC PHẠM VĂN ĐỒNG KHOA KINH TẾ BÀI GIẢNG MƠN: KINH TẾ LƯỢNG (Dùng cho đào tạo tín chỉ - Bậc đại học) Người biên soạn: Th.S Nguyễn Mạnh Hiếu Năm 2020
  2. MỤC LỤC DANH MỤC TỪ VIẾT TẮT ii CHƯƠNG 1: CÁC KHÁI NIỆM CƠ BẢN 1 1.1. Khái niệm kinh tế lượng 1 1.2. Phương pháp luận nghiên cứu 1 1.3. Phân tích hồi quy 4 1.4. Số liệu cho phân tích hồi quy 11 1.5. Hàm hồi quy tổng thể (PRF) 13 1.6. Sai số ngẫu nhiên 17 1.7. Hàm hồi quy mẫu 19 CHƯƠNG 2: MƠ HÌNH HỒI QUY HAI BIẾN. ƯỚC LƯỢNG VÀ KIỂM ĐỊNH GIẢ THIẾT 21 2.1. Phương pháp bình phương nhỏ nhất (OLS) 21 2.2. Các giả thiết cơ bản của phương pháp bình phương nhỏ nhất 24 2.3. Độ chính xác của các ước lượng bình phương nhỏ nhất 25 2.4. Hệ số R2 đo độ phù hợp của hàm hồi quy mẫu 26 2.5. Phân bố xác suất của yếu tố ngẫu nhiên 28 2.6. Khoảng tin cậy và kiểm định giả thiết về các hệ số hồi quy 28 2.7. Kiểm định sự phù hợp của hàm hồi quy 39 2.8. Phân tích hồi quy và dự báo 40 Chương 3: HỒI QUY BỘI 43 3.1. Mơ hình hồi quy 3 biến 43 3.2. Các giả thiết cơ bản của mơ hình 43 i
  3. 3.3. Ước lượng các tham số 44 3.4. Phương sai của các ước lượng 46 3.5. Mơ hình hồi quy k biến. Phương pháp ma trận 46 3.6. Ước lượng các tham số của mơ hình k biến 48 3.7. Ma trận hiệp phương sai của các ước lượng 50 3.8. Tính chất của các ước lượng bình phương nhỏ nhất 50 3.9. Hệ số xác định bội và hệ số xác định bội đã hiệu chỉnh 51 3.10. Ma trận tương quan 52 3.11. Hệ số tương quan riêng phần 53 3.12. Khoảng tin cậy và kiểm định giả thiết 54 3.13. Kiểm định sự phù hợp của hàm hồi quy 55 3.14. Hồi quy cĩ điều kiện ràng buộc - Kiểm định thu hẹp hàm hồi quy 55 3.15. Dự báo 59 3.16. Một số dạng của hàm hồi quy 60 Chương 4: HỒI QUY VỚI BIẾN GIẢ 65 4.1. Bản chất của biến giả 65 4.2. Lập biến giả 66 4.3. Mơ hình hồi quy cĩ chứa biến giả 67 4.4. Hồi quy tuyến tính từng khúc 71 4.5. So sánh 2 hồi quy 73 Chương 5: ĐA CỘNG TUYẾN 78 5.1. Bản chất đa cộng tuyến 78 5.2. Ước lượng khi cĩ đa cộng tuyến 79 5.3. Hậu quả của đa cộng tuyến 81 ii
  4. 5.4. Phát hiện sự tồn tại của đa cộng tuyến 83 5.5. Biện pháp khắc phục đa cộng tuyến 88 Chương 6: PHƯƠNG SAI CỦA SAI SỐ THAY ĐỔI 92 6.1. Nguyên nhân của phương sai của sai số thay đổi 92 6.2. Ước lượng khi cĩ phương sai của sai số thay đổi 94 6.3. Hậu quả của phương sai của sai số thay đổi 95 6.4. Phát hiện phương sai của sai số thay đổi 98 6.5. Biện pháp khắc phục phương sai của sai số thay đổi 110 Chương 7: TỰ TƯƠNG QUAN 114 7.1. Nguyên nhân của hiện tượng tự tương quan 114 7.2. Ước lượng khi cĩ tự tương quan 118 7.3. Hậu quả của tự tương quan 120 7.4. Phát hiện cĩ tự tương quan 120 7.5. Biện pháp khắc phục tự tương quan 134 Chương 8: CHỌN MƠ HÌNH VÀ KIỂM ĐỊNH VIỆC CHỈ ĐỊNH MƠ HÌNH 140 8.1. Các thuộc tính của một mơ hình tốt 140 8.2. Các loại sai lầm chỉ định. 141 8.3. Phát hiện các sai lầm chỉ định 144 8.4. Kiểm định tính phân bố chuẩn của U 147 TÀI LIỆU THAM KHẢO 148 iii
  5. DANH MỤC TỪ VIẾT TẮT Từ viết tắt Tiếng Anh Tiếng Việt Bình phương nhỏ nhất thơng OLS Ordinary Least Squares thường PRF Population Regression Function Hàm hồi quy tổng thể SRF Sample Regression Function Hàm hơi quy mẫu ii
  6. CHƯƠNG 1: CÁC KHÁI NIỆM CƠ BẢN 1.1. Khái niệm kinh tế lượng “Kinh tế lượng” được dịch từ chữ “Econometrics” cĩ nghĩa là “Đo lường kinh tế”. Thuật ngữ này do A.Kragnar Frích (Giáo sư kinh tế học người Na uy, đạt giải thưởng Nobel về kinh tế năm 1969) sử dụng lần đầu tiên vào khoảng năm 1930. Năm 1936, Tibergen, người Hà lan trình bày trước Hội đồng kinh tế Hà Lan một mơ hình kinh tế lượng đầu tiên, mở đầu cho một phương pháp nghiên cứu mới về phân tích kinh tế. Năm 1939, ơng xây dựng một số mơ hình tương tự cho Mỹ. Năm 1950, nhà kinh tế được giải thưởng Nobel là Lawrence Klein đã đưa ra một số mơ hình mới cho nước Mỹ và từ đĩ kinh tế lượng được phát triển trên phạm vi tồn thế giới. Hiện nay Lawrence Klein cầm đầu một dự án quốc tế (Link Project) với mơ hình kinh tế thế giới dùng để dự báo kinh tế thế giới hàng năm cho Liên hiệp quốc. Kinh tế lượng là một mơn khoa học về đo lường các mối quan hệ kinh tế diễn ra trong thực tế. Kinh tế lượng ngày nay là sự kết hợp giữa lý thuyết kinh tế hiện đại, thống kê tốn và máy vi tính, nhằm định lượng các mối quan hệ kinh tế, dự báo khả năng phát triển hay diễn biến của các hiện tượng kinh tế và phân tích nĩ, làm cơ sở cho việc hoạch định các chính sách kinh tế. 1.2. Phương pháp luận nghiên cứu Việc nghiên cứu, phân tích kinh tế lượng được thực hiện theo trình tự các bước sau đây: Bước 1: Nêu vấn đề lý thuyết cần phân tích và các giả thiết về mối quan hệ giữa các biến kinh tế. Chẳng hạn: Khi nghiên cứu mối quan hệ giữa mức tiêu dùng và thu nhập của các hộ gia đình. Theo lý thuyết của kinh tế học vi mơ ta cĩ thể nêu giả thiết: mức tiêu dùng của các hộ gia đình phụ thuộc theo quan hệ cùng chiều với thu nhập khả dụng của họ (Thu nhập sau khi trừ thuế và tiết kiệm). Bước 2: Thiết lập các mơ hình tốn học để mơ tả quan hệ giữa các biến kinh tế. Lý thuyết kinh tế học cho biết quy luật về mối quan hệ giữa các chỉ tiêu kinh tế, nhưng 1
  7. khơng nêu rõ dạng hàm. Kinh tế lượng phải dựa vào các học thuyết kinh tế để định dạng các mơ hình cho các trường hợp cụ thể. Chẳng hạn, khi nghiên cứu mối quan hệ giữa lượng cầu và giá cả của một loại hàng, ta cĩ thể dùng hàm tuyến tính hoặc hàm phi tuyến để diễn tả mối quan hệ này. Giả sử ta chọn đường cầu dạng tuyến tính thì mơ hình này cĩ dạng: D = a + bp Trong đĩ: D là lượng cầu và p là giá cả của loại hàng đĩ; a, b là các tham số của mơ hình. D là biến phụ thuộc hay cịn gọi là biến cần được giải thích và p là biến độc lập hay biến giải thích,. Bước 3: Thu thập số liệu. Khác với các mơ hình kinh tế dạng tổng quát, các mơ hình kinh tế lượng được xây dựng xuất phát từ số liệu thực tế. Trong thống kê tốn và kinh tế lượng, người ta phân biệt số liệu của tổng thể và số liệu của mẫu. Số liệu của tổng thể là số liệu của tồn bộ các đối tượng (phần tử) mà ta cần nghiên cứu. Số liệu của mẫu là số liệu của một tập hợp con được lấy ra từ tổng thể. Chẳng hạn để nghiên cứu nhu cầu về một loại hàng hố nào đĩ, thì số liệu tổng thể là số liệu về lượng hàng được mua của tất cả các hộ gia đình ở mọi nơi trong một quốc gia. Trong thực tế ta khơng cĩ điều kiện để thu thập tất cả số liệu của tổng thể mà chỉ thu thập được số liệu mẫu. Bước 4: Ước lượng các tham số của mơ hình. Các ước lượng này là các giá trị thực nghiệm của các tham số trong mơ hình. Chúng khơng những cho các giá trị bằng số mà cịn phải thoả mãn các điều kiện, các tính chất mà mơ hình địi hỏi. Trong các trường hợp đơn giản, các tham số thường được ước lượng bằng phương pháp bình phương tối thiểu. Trong các trường hợp phức tạp thì phải dùng các phương pháp khác. Bước 5: Phân tích kết quả. Dựa trên lý thuyết kinh tế để phân tích và đánh giá kết qủa nhận được xem cĩ phù hợp với lý thuyết kinh tế hay khơng. Kiểm định các giả thiết thống kê đối với các ước lượng nhận được (Do các ước lượng được xác định từ số liệu thống kê thực tế). 2
  8. Bước 6: Dự báo. Nếu như mơ hình phù hợp với lý thuyết kinh tế thì cĩ thể sử dụng mơ hình để dự báo sự phát triển của biến phụ thuộc trong các chu kỳ tiếp theo với sự thay đổi của biến độc lập. Bước 7: Sử dụng mơ hình để kiểm tra hoặc đề ra các chính sách kinh tế. Các bước trên đây cĩ nhiệm vụ khác nhau trong quá trình phân tích một vấn đề kinh tế và chúng dược thực hiện theo một trình tự nhất định. Tìm ra bản chất của vấn đề kinh tế khơng phải là một việc đơn giản. Vì vậy quá trình trên đây phải được thực hiện lặp lại nhiều lần cho đến khi ta thu được một mơ hình phù hợp. Cĩ thể minh hoạ quá trình phân tích kinh tế lượng bằng một sơ đồ như sau: Hình 1.1. Sơ đồ minh họa quá trình phân tích kinh tế lượng Quá trình xây dựng và áp dụng mơ hình kinh tế lượng địi hỏi trước hết phải cĩ sự hiểu biết về lý thuyết kinh tế học, sau đĩ là những kiến thức về lý thuyết xác suất và thống kê tốn, cuối cùng là các phần mềm của kinh tế lượng. Các kết quả rút ra từ việc phân tích các mơ hình kinh tế lượng cũng địi hỏi phải được suy xét từ nhiều phía. Chẳng hạn các ước lượng cho thấy mối quan hệ nhân quả giữa hai chỉ tiêu kinh tế, nhưng điều 3
  9. đĩ khơng chứng minh hay khẳng định là trong thực tế cĩ mối quan hệ nhân quả như vậy. Điều khẳng định phải do người nghiên cứu kinh tế lượng suy xét. Từ khi ra đời đến nay kinh tế lượng đã cung cấp cho các nhà kinh tế một cơng cụ sắc bén để đo lường mối quan hệ của các biến kinh tế. Ngày nay phạm vi ứng dụng của kinh tế lượng đã vượt quá phạm vi kinh tế, lan sang các lĩnh vực khác như xã hội học, vũ trụ học, Với sự địi hỏi phải phân tích định lượng các hiện tượng kinh tế, kiểm định sự phù hợp các giả thiết trong quá trình hoạch định các chính sách, cũng như ra các quyết định tác nghiệp, việc dự báo cĩ độ tin cậy cao, tất cả đã làm cho kinh tế lượng cĩ một vai trị ngày càng quan trọng, khơng ngừng hồn thiện và phát triển. Sự phát triển của máy tính và tin học đã là tăng thêm sức mạnh cho kinh tế lượng, giúp cho các nhà kinh tế kiểm chứng được các lý thuyết kinh tế cĩ phù hợp hay khơng để cĩ những quyết định đúng đắn trong hoạt động kinh doanh của doanh nghiệp và hoạch định các chính sách, các chiến lược kinh tế - xã hội. 1.3. Phân tích hồi quy 1.3.1. Định nghĩa: Phân tích hồi quy là nghiên cứu sự phụ thuộc của một biến (biến phụ thuộc), vào một hay nhiều biến khác (các biến giải thích), với ý tưởng là ước lượng (hay dự đốn) giá trị trung bình của biến phụ thuộc trên cơ sở các giá trị biết trước của các biến giải thích. Ví dụ: (1) Xét đồ thị phân tán ở hình 1.2, trong đĩ mơ tả phân phối về chiều cao của học sinh nam tính theo độ tuổi cố định từ 9-15. 4
  10. Hình 1.2. Phân phối về chiều cao theo độ tuổi Rõ ràng khơng phải tất cả học sinh nam ở một độ tuổi nhất định cĩ xu hướng cĩ cùng chiều cao. Nhưng chiều cao trung bình tăng lên theo độ tuổi (tất nhiên tới độ tuổi nhất định). Như vậy, nếu biết được tuổi, ta cĩ thể dự đốn được chiều cao trung bình tương ứng với độ tuổi đĩ của học sinh nam. (2) Một nhà kinh tế cĩ thể nghiên cứu sự phụ thuộc của chi tiêu cho tiêu dùng cá nhân vào thu nhập cá nhân thực tế. Một phân tích như vậy cĩ thể cĩ ích trong việc ước lượng xu thế tiêu dùng biên tế (MPC), tức là, mức thay đổi trung bình về chi tiêu cho tiêu dùng khi thu nhập thực tế thay đổi một đơn vị giá trị. (3) Một nhà kinh tế lao động cĩ thể muốn nghiên cứu tỷ lệ thay đổi tiền lương trong mối quan hệ với tỷ lệ thất nghiệp. Các số liệu trong quá khứ được biểu diễn trên đồ thị phân tán như trong hình 1.3 là một thí dụ về đường cong phillips. Đường cong này liên quan đến sự thay đổi về tiền lương đối với tỷ lệ thất nghiệp. Căn cứ vào đường cong này cĩ thể cho phép nhà kinh tế lao động dự đốn được mức thay đổi trung bình về tiền lương tại một tỷ lệ thất nghiệp cho trước. 5
  11. Tỷ lệ thay đổi thay lệ Tỷ lương tiền Tỷ lệ thất nghiệp Hình 1.3. Đường cong Phillips giả thiết Một kiến thức như thế cĩ thể cĩ ích trong việc phân tích quá trình lạm phát kinh tế, bởi vì sự tăng tiền lương thường được phản ánh trong giá cả gia tăng. (4) Một nhà kinh doanh độc quyền cĩ thể định giá cả hay sản lượng (nhưng khơng thể cả hai), cĩ thể muốn biết phản ứng của mức cầu đối với sản phẩm khi giá cả thay đổi. Một thử nghiệm như vậy cĩ thể đưa tới sự ước lượng độ co dãn về giá cả (nghĩa là tính phản ứng của giá cả) đối với mức cầu của sản phẩm và cĩ thể trợ giúp cho việc xác định mức giá tạo ra lợi nhuận cao nhất. (5) Trong kinh tế học tiền tệ, người ta biết rằng, khi các yếu tố khác khơng đổi, mức lạm phát (π) càng cao thì tỷ lệ thu nhập mà người dân muốn giữ dưới dạng tiền mặt (k) càng thấp. Điều này được minh họa trong hình 1.4. Phân tích định lượng về mối quan hệ này sẽ tạo điều kiện cho nhà kinh tế tiền tệ dự đốn được lượng tiền, tính theo tỷ lệ thu nhập, mà người dân muốn giữ dưới dạng tiền mặt ở các mức. 6
  12. Tỷ lệ thu thu lệ Tỷ nhậpdưới dạng (k) tiền 1 2 3 4 5 6 7 8 Tỷ lệ lạm phát Hình 1.4. Lượng tiền được giữ trong quan hệ với lạm phát (6) Giám đốc tiếp thị của một cơng ty muốn biết mức cầu đối với sản phẩm của cơng ty cĩ quan hệ như thế nào với chi phí quảng cáo. Một nghiên cứu như thế sẽ cĩ ích cho việc xác định độ co dãn của cầu đối với chi phí quảng cáo. Tức là, tỷ lệ phần trăm thay đổi về mức cầu khi ngân sách quảng cáo thay đổi 1%. Điều này cĩ thể cĩ ích khi xác định ngân sách quảng cáo “tối ưu”. (7) Ngân hàng XYZ muốn tăng lượng tiền huy động. Ngân hàng này muốn biết mối quan hệ giữa lượng tiền gửi và lãi suất tiên gửi, cụ thể hơn họ muốn biết khi tăng lãi suất thêm 0,1% thì lượng tiền gửi sẽ tăng trung bình là bao nhiêu. Trong thực tế hoạt động kinh doanh cĩ vơ số các ví dụ về sự phụ thuộc của một biến vào một hay nhiều biến khác mà người học cĩ thể đưa ra. Các kỹ thuật phân tích hồi quy trình bày trong chương này nhằm nghiên cứu sự phụ thuộc như thế giữa các biến số. Ta ký hiệu: Y- biến phụ thuộc (hay biến được giải thích) Xi - biến độc lập (hay biến giải thích) tại quan sát thứ i. 7
  13. Trong đĩ, biến phụ thuộc Y là đại lượng ngẫu nhiên, cĩ quy luật phân phối xác suất nào đĩ. Các biến độc lập Xi khơng phải là biến ngẫu nhiên, giá trị của chúng được cho trước. 1.3.2. Nhiệm vụ của phân tích hồi quy • Ước lượng giá trị trung bình của biến phụ thuộc với giá trị đã cho của biến độc lập; • Kiểm định giả thiết về bản chất của sự phụ thuộc; • Dự đốn giá trị trung bình của biến phụ thuộc khi biết giá trị của các biến độc lập; • Kết hợp các vấn đề trên. 1.1.3. Một số vấn đề cần lưu ý trong phân tích hồi quy: - Phân biệt quan hệ thống kê và quan hệ hàm số: Vấn đề mấu chốt trong phân tích hồi quy là sự phụ thuộc thống kê của biến phụ thuộc vào một hay nhiều biến giải thích. Biến phụ thuộc là đại lượng ngẫu nhiên, cĩ phân phối xác suất. Các biến giải thích thì giá trị của chúng đã biết. Biến phụ thuộc là ngẫu nhiên vì cĩ rất nhiều nhân tố tác động đến nĩ mà ta khơng thể đưa tất cả các yếu tố đĩ vào mơ hình được. Ứng với mỗi giá trị đã biết của biến độc lập cĩ thể cĩ nhiều giá trị khác nhau của biến phụ thuộc. Trong quan hệ hàm số các biến khơng phải là ngẫu nhiên; ứng với mỗi giá trị của biến độc lập cĩ duy nhất một giá trị của biến phụ thuộc. Phân tích hồi quy khơng nghiên cứu các quan hệ hàm số. Ví dụ: Doanh thu kinh doanh về một sản phẩm, dịch vụ nào đĩ phụ thuộc vào giá cả của chính doanh nghiệp, giá của các doanh nghiệp cạnh tranh khác, thị phần của chính doanh nghiệp, thị hiếu của người tiêu dùng, là một quan hệ thống kê. Các biến giá cả sản phẩm, dịch vụ, thị phần, thị hiếu, là các biến độc lập; doanh thu sản phẩm, dịch vụ là biến phụ thuộc, là đại lượng ngẫu nhiên. Khơng thể dự báo một cách chính xác doanh thu cho một năm tương lai nào đĩ, vì: + Cĩ thể cĩ sai số trong dãy số thống kê. 8
  14. + Cĩ rất nhiều nhân tố khác cùng ảnh hưởng đến doanh thu của sản phẩm, dịch vụ mà ta khơng thể liệt kê hết và nếu cĩ cũng khơng thể tách được ảnh hưởng riêng của từng nhân tố đến biến doanh thu cho dù ta cĩ đưa thêm vào bao nhiêu biến giải thích khác. Trong hình học ta đều biết chu vi của hình vuơng bằng 4 lần chiều dài của một cạnh, tức Y = 4X. Trong đĩ Y là chu vi của hình vuơng và X là chiều dài của một cạnh hình vuơng đĩ. Vậy ở đây X và Y cĩ mối quan hệ hàm số, ứng với mỗi giá trị của X ta chỉ cĩ một giá trị duy nhất của Y. Phân tích hồi quy khơng xét các quan hệ này. - Hàm hồi quy và quan hệ nhân quả: Phân tích hồi quy nghiên cứu quan hệ giữa một biến phụ thuộc với một hoặc nhiều biến độc lập khác. Điều này khơng địi hỏi giữa biến phụ thuộc và các biến độc lập phải cĩ mối quan hệ nhân quả. Nếu như quan hệ nhân quả tồn tại thì nĩ phải được xác lập dựa trên các lý thuyết kinh tế khác. Ví dụ, luật cầu nĩi rằng trong điều kiện các biến (yếu tố) khác khơng thay đổi thì nhu cầu một loại hàng hĩa¸ tỷ lệ nghịch với giá của hàng hĩa đĩ, hay trong ví dụ trên ta cĩ thể dự đốn doanh thu dựa vào giá cả, thị phần, thị hiếu, nhưng khơng thể dự báo thị hiếu khách hàng dựa trên doanh thu được. Mặc dù phân tích hồi quy dựa trên ý tưởng sự phụ thuộc của một biến số kinh tế vào biến số kinh tế khác nhưng bản thân kỹ thuật phân tích hồi quy khơng bao hàm quan hệ nhân quả. Một ví dụ điển hình của sự nhầm lẫn hai khái niệm này tiến hành hồi quy số vụ trộm ở một thành phố với số nhân viên cảnh sát của thành phố. Gọi Y là số vụ trộm trong một năm và X là số nhân viên cảnh sát. Khi chúng ta hồi quy Y theo X, nếu chúng ta tìm được mối quan hệ đồng biến của Y và X cĩ ý nghĩa thống kê thì phân tích hồi quy này cho kết luận: “Tăng số lượng nhân viên cảnh sát sẽ làm tăng số vụ trộm”. Rõ ràng phân tích này sai lầm trong việc nhận định mối quan hệ nhân quả. Số cảnh sát tăng lên là do sự tăng cường của lực lượng cảnh sát trong bối cảnh số vụ trộm tăng lên. Vậy đúng ra chúng ta phải hồi quy số cảnh sát theo số vụ trộm hay X theo Y.Vậy trước khi phân tích hồi quy chúng ta phải nhận định chính xác mối quan hệ nhân quả. Một sai lầm phổ biến nữa trong phân tích kinh tế lượng là quy kết mối quan hệ nhân quả giữa hai biến số trong khi trong thực tế chúng đều là hệ quả của một nguyên nhân khác. Ví dụ chúng ta phân tích hồi quy giữa số giáo viên và số phịng học trong 9
  15. tồn ngành giáo dục. Sự thực là cả số giáo viên và số phịng học đều phụ thuộc vào số học sinh. Như vậy phân tích mối quan hệ nhân quả dựa vào kiến thức và phương pháp luận của mơn khác chứ khơng từ phân tích hồi quy. - Hồi quy và tương quan: Phân tích tương quan chỉ cho thấy độ mạnh yếu của mối quan hệ tuyến tính giữa hai biến số. Phân tích tương quan cũng khơng thể hiện mối quan hệ nhân quả.Ví dụ chúng ta xét quan hệ giữa hai biến số X là số bệnh nhân bị xơ gan và Y là số lít rượu được tiêu thụ của một nước. Chúng ta cĩ thể nhận được hệ số tương quan cao giữa X và Y. Hệ số tương quan (r) được xác định như sau: cov(X, Y) cov(Y, X) rXY = = = rYX SXSY SYSX Với: ∑푛 ( − ̅)(푌 −푌̅) 표푣( , 푌) = (( − ̅)(푌 − 푌̅)) = 푖=1 푖 푖 푛 ∑푛 ( − ̅)2 ∑푛 (푌 −푌̅)2 1 S S = √ 푖=1 푖 √ 푖=1 푖 = √∑푛 ( − ̅)2(푌 − 푌̅)2 X Y 푛 푛 푛 푖=1 푖 푖 푛 ∑푖=1( 푖− ̅)(푌푖−푌̅) Suy ra: rXY = rYX = 푛 ̅ 2 ̅ 2 √∑푖=1( 푖− ) (푌푖−푌) Qua đẳng thức này chúng ta cũng thấy trong phân tích tương quan vai trị của hai biến là như nhau và hai biến đều là ngẫu nhiên. Phân tích hồi quy của X theo Y cho ta biết trung bình số bệnh nhân bị xơ gan là bao nhiêu ứng với lượng tiêu dùng rượu cho trước. Chúng ta khơng thể đảo ngược hồi quy thành Y theo X. Phân tích hồi quy dựa trên giả định biến độc lập là xác định trong khi biến phụ thuộc là ngẫu nhiên. Chúng ta tìm giá trị kỳ vọng của biến phụ thuộc dựa vào giá trị cho trước của của biến độc lập. Hồi quy và tương quan khác nhau về mục đích và kỹ thuật. Phân tích tương quan trước hết là đo mức độ kết hợp tuyến tính giữa hai biến. Ví dụ, mức độ quan hệ giữa nghiện thuốc lá và ung thư phổi, giữa kết quả thi mơn lý và mơn tốn. Nhưng phân tích hồi quy lại ước lượng hoặc dự báo một biến trên cơ sở giá trị đã cho của các 10
  16. biến khác. Về kỹ thuật, trong phân tích hồi quy các biến khơng cĩ tính chất đối xứng. Biến phụ thuộc là đại lượng ngẫu nhiên. Các biến giải thích thì giá trị của chúng đã được xác định. Trong phân tích tương quan khơng cĩ sự phân biệt giữa các biến, chúng cĩ tính chất đối xứng. 1.4. Số liệu cho phân tích hồi quy Thành cơng của bất kỳ một sự phân tích kinh tế nào đều phụ thuộc vào việc sử dụng các số liệu thích hợp và phụ thuộc vào phương pháp xử lý các số liệu đố, do vậy phần này sẽ trình bày đơi nét về bản chất, nguồn gốc và những hạn chế của số liệu mà ta sẽ gặp phải trong phân tích kinh tế nĩi chung và phân tích hồi quy nĩi riêng. 1.4.1. Các loại số liệu (dữ liệu) Cĩ 4 loại số liệu: số liệu chéo (cross-sectional data), số liệu chuỗi thời gian (time series data), số liệu chéo gộp (pooled cross-sections data), và số liệu mảng (panel data). Số liệu chéo cung cấp thơng tin của nhiều đối tượng (ví dụ như: các cá nhân, các hộ gia đình, các tỉnh/thành, các quốc gia, ) tại một thời điểm hoặc một khoảng thời gian nhất định. Bảng 1.1. Ví dụ minh họa số liệu chéo Diện tích, dân số và mật độ dân số của một số địa phương năm 2017 Dân số trung bình Mật độ dân số Địa phương Diện tích (Km2) (Nghìn người) (Người/km2) Đà Nẵng 1284,9 1064,1 828,0 Quảng Ngãi 5152,5 1261,6 245,0 Quảng Nam 10574,7 1493,8 141,0 Bình Định 6066,2 1529,0 252,0 Phú Yên 5023,4 904,4 180,0 Số liệu chuỗi thời gian cung cấp thơng tin của một đối tượng tại nhiều thời điểm khác nhau mang tính chu kỳ (ví dụ như ngày, tháng, quý, năm, ). Bảng 1.2. Ví dụ minh họa số liệu chuỗi thời gian Diện tích, dân số và mật độ dân số của tỉnh Quảng Ngãi giai đoạn 2013-2017 11
  17. Diện tích Dân số trung bình (Nghìn Mật độ dân số Năm (Km2) người) (Người/km2) 2013 5.152,0 1.236,3 240,0 2014 5.152,7 1.241,4 241,0 2015 5.152,7 1.246,4 242,0 2016 5.152,3 1.251,5 243,0 2017 5.152,5 1.261,6 245,0 Số liệu chéo gộp là dạng số liệu gồm nhiều số liệu chéo với cùng các chỉ tiêu về thơng tin của đối tượng. Như vậy, dạng số liệu này phản ánh thơng tin của nhiều đối tượng khác nhau tại nhiều thời điểm khác nhau khơng mang tính chu kỳ thời gian. Bảng 1.3. Ví dụ minh họa số liệu chéo gộp Diện tích, dân số và mật độ dân số của một số địa phương Diện tích Dân số trung bình Mật độ dân số Năm Địa phương (Km2) (Nghìn người) (Người/km2) 2015 Đà Nẵng 1.285,4 1.028,8 800,0 2015 Quảng Nam 10.438,4 1.480,3 142,0 2015 Quảng Ngãi 5.152,7 1.246,4 242,0 2016 Bình Định 6.066,1 1.524,6 251,0 2016 Phú Yên 5.023,5 899,4 179,0 2016 Khánh Hồ 5.137,7 1.213,8 236,0 2017 Ninh Thuận 3.355,3 607,0 181,0 2017 Bình Thuận 7.943,9 1.230,4 155,0 Số liệu mảng (số liệu bảng) cung cấp thơng tin của nhiều đối tượng theo chu kỳ thời gian. Kiểu số liệu này bao gồm hai loại khác nhau là số liệu mảng cân bằng (balanced panel data) và số liệu mảng khơng cân bằng (unbalanced panel data). Số liệu mảng cân bằng thể hiện sự khơng đổi về đối tượng được phản ánh thơng tin qua các thời kỳ, trong khi đĩ số liệu mảng khơng cân bằng thể sự thiếu hụt đối tượng được phản ánh thơng tin qua các thời kỳ. Bảng 1.4. Ví dụ minh họa số liệu mảng (khơng cân bằng) Diện tích, dân số và mật độ dân số của một số địa phương Dân số trung bình Mật độ dân số Năm Địa phương Diện tích (Km2) (Nghìn người) (Người/km2) 2015 Quảng Nam 10.438,4 1.480,3 142,0 2015 Quảng Ngãi 5.152,7 1.246,4 242,0 2015 Bình Định 6.050,6 1.519,7 251,0 12
  18. 2016 Quảng Nam 10.575,0 1.487,7 141,0 2016 Quảng Ngãi 5.152,3 1.251,5 243,0 2017 Quảng Nam 10.574,7 1.493,8 141,0 2017 Quảng Ngãi 5.152,5 1.261,6 245,0 2017 Bình Định 6.066,2 1.529,0 252,0 1.4.2. Nguồn số liệu • Tập hợp các số liệu cĩ thể được thu thập và cung cấp bởi: • Các cơ quan Nhà nước. • Các tổ chức quốc tế. • Các đơn vị sản xuất, kinh doanh. • Các cá nhân 1.5. Hàm hồi quy tổng thể (PRF) Ta xét ví dụ sau: Ví dụ 1: Giả sử ở một địa phương cĩ 60 hộ gia đình và chúng ta quan tâm đến việc nghiên cứu mối quan hệ giữa Y- chi tiêu tiêu dùng hàng tuần của các gia đình và X - thu nhập khả dụng hàng tuần của các hộ gia đình. Nĩi một cách khác là chúng ta muốn dự đốn mức trung bình của chi tiêu tiêu dùng hàng tuần khi biết thu nhập hàng tuần của hộ gia đình. Để thực hiện điều này, giả sử ta chia 60 hộ thành 10 nhĩm cĩ thu nhập tương đối như nhau, chênh lệch thu nhập giữa các nhĩm là như nhau và bằng 20USD. Các số liệu về mức chi tiêu tương ứng với mức thu nhập của các hộ gia đình được ghi trong bảng 1.5. Bảng 1.5. Thu nhập và chi tiêu của hộ gia đình X 80 100 120 140 160 180 200 220 240 260 55 65 79 80 102 110 120 135 137 150 Y 60 70 84 93 107 115 136 137 145 152 65 74 90 95 110 120 140 140 155 175 70 80 94 103 116 130 144 152 165 178 75 85 98 108 118 135 145 157 175 180 88 113 125 140 160 189 185 115 162 191 325 462 445 707 678 750 685 1043 966 1211 Bảng số liệu trên được giải thích như sau: 13
  19. Với thu nhập trong một tuần, chẳng hạn X = 100USD thì cĩ hộ gia đình mà chi tiêu trong tuần của các hộ gia đình trong nhĩm này lần lượt là: 65; 70; 74; 80; 85 và 88. Tổng chi tiêu trong tuần của 6 hộ gia đình trong nhĩm này là 462USD. Như vậy mỗi cột của bảng cho ta một phân phối của chi tiêu trong tuần (Y) với mức thu nhập (X) đã cho. Từ số liệu của bảng 1.5 ta dễ dàng tính được xác suất cĩ điều kiện: Chẳng hạn: P(Y = 85/X = 100) =1/6; P(Y = 90/X = 120) = 1/5; Bảng tính các xác suất cĩ điều kiện cho trong bảng 1.6 ̅̅̅̅̅̅ ̅̅̅̅̅̅ Trong đĩ (푌⁄ 푖) = ∑푖=1 푌푗푃(푌 = 푌푗⁄ = 푖) (với j = 1, 60 và i = 1, 10) là kỳ vọng tốn cĩ điều kiện của Y (điều kiện là X = Xi). Chẳng hạn: E(Y/100) = 65*1/6 + 70*1/6 + 74*1/6 + 80*1/6 + 85*1/6 + 88*1/6 = 77. Bảng 1.6. Xi X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 80 100 120 140 160 180 200 220 240 260 1/5 1/6 1/5 1/7 1/6 1/6 1/5 1/7 1/6 1/7 1/5 1/6 1/5 1/7 1/6 1/6 1/5 1/7 1/6 1/7 1/5 1/6 1/5 1/7 1/6 1/6 1/5 1/7 1/6 1/7 P(Y/Xi) 1/5 1/6 1/5 1/7 1/6 1/6 1/5 1/7 1/6 1/7 1/5 1/6 1/5 1/7 1/6 1/6 1/5 1/7 1/6 1/7 1/6 1/7 1/6 1/6 1/7 1/6 1/7 1/7 1/7 1/7 E(Y/Xi) 65 77 89 101 113 125 137 149 161 173 Biểu diễn các điểm (Xi; Yj) và các điểm [Xi; E(Y/Xi)] trên đơ thị, ta được (như hình 1.2): 14
  20. Hình 1.5. Thu nhập và chi tiêu hàng tuần của 60 hộ gia đình Trên hình 1.5, ta thấy trung bình cĩ điều kiện của mức chi tiêu trong tuần nằm trên đường thẳng cĩ hệ số gĩc dương. Khi thu nhập tăng thì mức chi tiêu cũng tăng. Một cách tổng quát, E(Y/Xi) là một hàm của Xi. E(Y/Xi) = f(Xi) (1.1) Hàm (1.1) được gọi là hàm hồi quy tổng thể (PRF - population regression funcsion). Nếu PRF cĩ một biến độc lập thì được gọi là hàm hồi quy đơn (hồi quy 2 biến), nếu cĩ từ 2 biến độc lập trở lên thì gọi là hàm hồi quy bội (Hồi quy k biến). Hàm hồi quy tổng thể cho ta biết giá trị trung bình của biến Y sẽ thay đổi như thế nào khi biến X nhận các giá trị khâc nhau. Để xác định dạng của hàm hồi quy tổng thể người ta thường dựa vào đồ thị biểu diễn sự biến thiên của dãy các số liệu quan sát về X và Y kết hợp với việc phân tích bản chất của vấn đề nghiên cứu. Chúng ta xét trường hợp đơn giản nhất là PRF cĩ dạng tuyến tính. E(Y/ Xi) = β1 +β2 Xi (1.2) 15
  21. Trong đĩ: β1, β2 là các tham số chưa biết nhưng cố định, và được gọi là các hệ số hồi quy. β1 là hệ số tự do (hệ số tung độ gốc). β1 cho biết giá trị trung bình của biến phụ thuộc Y là bao nhiêu khi biến độc lập X nhận giá trị bằng 0. Điều này chỉ đúng về mặt tốn học, trong các trường hợp cơ thể ta phải kết hợp với lý thuyết kinh tế và điều kiện thực tế của vấn đề nghiên cứu để nêu ý nghĩa của β1 cho phù hợp. Trong thực tế cĩ nhiều trường hợp β1 khơng cĩ ý nghĩa. Chẳng hạn, xét hàm: E(Y/ Xi) = β1 + β2 Xi Trong đĩ: Y là lượng hàng bán được của một loại hàng; X là giá của loại hàng đĩ. Trường hợp này β1 khơng phải là lượng hàng bán được trung bình khi X (giá bán) bằng 0. Vì trong thực tế khơng cĩ mặt hàng nào bán với giá bằng 0. Hàm hồi quy nêu trên phản ánh mối quan hệ của lượng hàng bán được và giá bán và hàm này chỉ cĩ ý nghĩa khi X nhận giá trị trong một khoảng (X1; X2) nào đĩ. Ngồi khoảng này thì hàm trên khơng cĩ ý nghĩa. Khi đĩ ta cần hiểu β1 chỉ là giao điểm của đường thẳng biểu diễn hàm hồi quy nêu trên với trục tung. Ta cĩ thể minh họa bằng hình 1.6 dưới đây. Hình 1.6. Hàm hồi quy mẫu 16
  22. β2 là hệ số gĩc (hệ số độ dốc), β2 cho biết giá trị trung bình của biến phụ thuộc (Y) sẽ thay đổi (tăng hoặc giảm) bao nhiêu đơn vị khi giá trị của biến độc lập (X) tăng một đơn vị với điều kiện các yếu tố khác khơng thay đổi. Thật vậy: giả sử X tăng 1 đơn vị, khi đĩ giá trị của X sau khi tăng ( X' ) sẽ bằng i i ' giá trị của X trước khi tăng (Xi) cộng với 1. Tức ta cĩ X = Xi + 1. Khi đĩ: ' Nếu β2 > 0 thì E(Y/ X ) > E(Y/ Xi) khi đĩ giá trị trung bình của Y sẽ tăng. i ' Nếu β2 < 0 thì E(Y/ X ) < E(Y/ Xi) khi đĩ giá trị trung bình của Y sẽ giảm. E(Y/ i Xi) là trung bình của Y với điều kiện X nhận giá trị Xi. Thuật ngữ “tuyến tính” ở đây được hiểu theo hai nghĩa: tuyến tính đối với tham số và tuyến tính đối với các biến. 2 Ví dụ: E(Y/ Xi) = β1 +β2 X là hàm tuyến tính đối với tham số, nhưng khơng i tuyến tính đối với biến; E(Y/ Xi) = β1 + √β2Xi là hàm tuyến tính đối với biến, nhưng phi tuyến đối với tham số. Hàm hồi quy tuyến tính luơn được hiểu là tuyến tính đối với các tham số, nĩ cĩ thể khơng tuyến tính đối với biến. Giá trị quan sát thứ i của biến phụ thuộc Y được ký hiệu là Yi Ký hiệu Ui là chênh lệch giữa Yi và E(Y/ Xi): Ui = Yi - E(Y/ Xi) Hay: Yi = E(Y/ Xi) + Ui (1.3) Ui là đại lượng ngẫu nhiên, người ta gọi Ui là yếu tố ngẫu nhiên (hoặc nhiễu). Nếu E(Y/Xi) là tuyến tính đối với Xi thì: Yi = β1 + β2Xi + Ui 1.6. Sai số ngẫu nhiên Như đã trình bày ở trên Ui là chênh lệch giữa giá trị quan sát Yi với giá trị trung bình của nĩ tính theo hàm hồi quy. Ui là đại lượng ngẫu nhiên, Ui cĩ thể nhận giá trị âm hoặc dương, người ta gọi Ui là sai số ngẫu nhiên (hoặc nhiễu) và (1.3) được gọi là hàm hồi quy tổng thể ngẫu nhiên. 17
  23. Giả sử, ta cĩ hàm hồi quy tổng thể E(Y/Xi); v× E(Y/Xi) là giá trị trung bình của biến Y với giá trị Xi đã biết, cho nên các giá trị cá biệt Yi khơng phải bao giờ cũng trùng với E(Y/Xi), mà chúng xoay quanh E(Y/Xi). Đường hồi quy tổng thể đi qua điểm trung bình cĩ điều kiện của Y thì E(Ui/Xi) = 0. Nhưng (1.3) chỉ ra rằng ngồi các biến giải thích đã cĩ trong mơ hình cịn cĩ các biến khác ảnh hưởng đến biến phụ thuộc Y. Nhưng trung bình ảnh hưởng của các biến này đến biến phụ thuộc bằng 0 và do vậy khơng cần phải đưa các yếu tố này vào mơ hình. Sự tồn tại của Ui bởi một số lý do sau đây: - Ngồi Xi đã được đưa vào mơ hình, rất cĩ thể cịn cĩ các biến khác chưa xem xét tới cũng cĩ ảnh hưởng tới Yi, nên Ui đại diện cho các biến đĩ. - Ngay cả khi biết các biến bị loại khỏi mơ hình là các biến nào, khi đĩ ta cĩ thể xây dựng mơ hình hồi quy bội, nhưng cĩ thể khơng cĩ các số liệu cho các biến này. - Ngồi các biến đã cĩ mặt trong mơ hình cịn cĩ một số biến khác nhưng ảnh hưởng của chúng đến Y rất nhỏ. Trong trường hợp này, chúng ta cũng sử dụng Ui đại diện cho chúng. - Về mặt kỹ thuật và kinh tế, chúng ta muốn cĩ một mơ hình đơn giản nhất cĩ thể được. Nếu như chúng ta cĩ thể giải thích được hành vi của biến Y bằng một số nhỏ nhất các biến giải thích và nếu như ta khơng biết tường minh những biến khác là những biến nào cĩ thể bị loại ra khỏi mơ hình thì ta dùng yếu tố Ui để thay cho tất cả các biến này. Trên đây là một vài lý do về sự tồn tại của Ui, Ui giữ vai trị đặc biệt trong phân tích hồi quy, chúng phải thỏa mãn những điều kiện nhất định thì việc hồi quy mới cĩ ý nghĩa. Sẽ là sai lầm nghiêm trọng nếu như sử dụng một cơng cụ mà khơng biết những điều kiện để sử dụng nĩ cĩ được thõa mãn hay khơng. Tuy nhiên, trong thực tiễn những điều kiện này khơng phải bao giờ cũng được thõa mãn và người học cĩ thể tìm thấy cách phát hiện và cách khắc phục nếu như cĩ một số giả thiết của mơ hình khơng được thõa mãn. Những vấn đề này sẽ được đề cập từ chương 5 trở đi. 18
  24. 1.7. Hàm hồi quy mẫu Trong thực tế, nhiều khi ta khơng cĩ điều kiện để điều tra tồn bộ tổng thể. Khi đĩ ta chỉ cĩ thể ước lượng giá trị trung bình của biến phụ thuộc từ số liệu của mẫu. Hơn nữa cũng vì lý do trên mà việc xây dựng hàm hồi quy tổng thể gây tốn kém về thời gian và kinh phí một cách khơng cần thiết. Trong thống kê học đã đưa ra phương pháp điều tra chọn mẫu, cho phép lấy ra từ tổng thể chung một số mẫu số liệu nhất định để nghiên cứu, phân tích và suy rộng kết quả (ước lượng) cho tổng thể chung với một xác suất tin cậy cho trước. Việc xây dựng hàm hồi quy mẫu (SRF - the sample regression function) cũng dựa trên nguyên tắc đĩ, nghĩa là từ số liệu mẫu ta tiến hành xây dựng hàm hồi quy mẫu và dùng nĩ để ước lượng các tham số cho hàm hồi quy tổng thể. Tổng thể bao gồm các số liệu mẫu thường được gọi là tổng thể mẫu. Giả sử từ một tổng thể chung cĩ N phần tử (đơn vị tổng thể) ta lấy ra tổng thể N 푛 N 푛 mẫu cĩ n phần tử (n << N). Như vậy sẽ cĩ tấtC cả cách lấy mẫu, trongC đĩ là tổ hợp chập n của N phần tử được xác định theo cơng thức: N! Cn = (1.4) N n!(N−n)! Như vậy, cĩ bao nhiêu lần chọn mẫu, ta cĩ bấy nhiêu hàm hồi quy mẫu. Vấn đề đặt ra là đường hồi quy mẫu nào là thích hợp với PRF. Câu hỏi này chưa trả lời được bởi lẽ PRF chưa biết. Cũng giống như ước lượng một tham số, ta sẽ ước lượng PRF bằng SRF mà SRF này cĩ tính chất: tuyến tính, khơng chệch và cĩ phương sai nhỏ nhất. Nếu hàm hồi quy tổng thể cĩ dạng tuyến tính thì hàm hồi quy mẫu cĩ dạng: ̂ ̂ 푌̂푖 = 훽1 + 훽2 푖 (1.5) Trong đĩ: 푌̂푖: là ước lượng điểm của E(Y/Xi) ̂ 훽1: là ước lượng điểm của 훽1 ̂ 훽2: là ước lượng điểm của 훽2 Dạng ngẫu nhiên của (1.5): ̂ ̂ 푌푖 = 훽1 + 훽2 푖 + 푒푖 (1.6) 19
  25. Trong đĩ: ei là ước lượng điểm của Ui và gọi là phần dư. Bản chất của phân tích hồi quy là nghiên cứu sự phụ thuộc của một biến (biến phụ thuộc), vào một hay nhiều biến khác (biến giải thích),với ý tưởng là ước lượng (hay dự đốn) giá trị trung bình của biến phụ thuộc trên cơ sở các giá trị biết trước của các biến giải thích. Nhiệm vụ của phân tích hồi quy là ước lượng giá trị trung bình của biến phụ thuộc với giá trị đã cho của biến độc lập; Kiểm định giả thiết về bản chất của sự phụ thuộc; Dự báo giá trị trung bình của biến phụ thuộc khi biết giá trị của các biến độc lập và kết hợp các vấn đề trên. Phân tích hồi quy chỉ nghiên cứu mối quan hệ thống kê giữa các biến. Để cĩ kết quả sát với thực tế cần phân biệt các loại số liệu và ưu nhược điểm và cách xử lý nguồn số liệu. Hàm hồi quy tuyến tính luơn được hiểu là tuyến tính đối với các tham số, nĩ cĩ thể khơng tuyến tính đối với biến. Hàm hồi quy tổng thể là hàm được nghiên cứu trên tồn bộ tổng thể. Hàm hồi quy mẫu là hàm được xây dựng trên cơ sở một mẫu. Sử dụng hàm hồi quy mẫu ta ước lượng được giá trị trung bình của biến phụ thuộc từ số liệu của một mẫu. Hàm hồi quy tổng thể ngẫu nhiên: Yi = E(Y/Xi) + Ui ̂ ̂ Hàm hồi quy mẫu dạng ngẫu nhiên: 푌푖 = β1 + β2Xi + ei 20
  26. CHƯƠNG 2: MƠ HÌNH HỒI QUY HAI BIẾN. ƯỚC LƯỢNG VÀ KIỂM ĐỊNH GIẢ THIẾT 2.1. Phương pháp bình phương nhỏ nhất (OLS) ̂ ̂ Để tìm hàm 푌̂푖 = β1 + β2Xi ta dùng phương pháp OLS do nhà tốn học Đức là Carl Friedrich Gauss đưa ra. Nội dung của phương pháp như sau: Giả sử chúng ta cĩ một mẫu gồm n cặp quan sát (Yi, Xi), i = 1÷ n. Theo phương pháp bình phương nhỏ nhất, ta phải tìm Ŷi sao cho nĩ càng gần với giá trị thực (Yi) càng ̂ ̂ tốt, tức phần dư: ei = 푌푖 − 푌̂푖 = 푌푖 − β1 − β2Xi càng nhỏ càng tốt. Ta cĩ thể minh hoạ bằng đồ thị sau: ek Yi en ei e3 Ŷi e1 e2 X1 X2 Xi X3 Xk Xn Hình 2.1. Phần dư (e) Do ei (i = 1̅̅̅,̅n̅) cĩ thể dương, cĩ thể âm, nên ta cần tìm SRF sao cho tổng bình ̂ ̂ phương của các phần dư đạt cực tiểu. Tức β1 , β2 phải thoả mãn điều kiện: n 2 n ̂ ̂ 2 ∑i=1 ei = ∑i=1(Yi − β1 − β2Xi) (*) Điều kiện (*) cĩ nghĩa là tổng bình phương các sai lệch giữa giá trị thực tế quan sát được (Yi) và giá trị tính theo hàm hồi quy mẫu (Ŷi) là nhỏ nhất. Về mặt hình học, 21
  27. biểu thức (*) phản ánh tổng bình phương các khoảng cách từ các điểm quan sát tới ̂ ̂ đường hồi qui mẫu là nhỏ nhất, tức đường hồi quy mẫu với β1 , β2 thoả mãn điều kiện (*) sẽ là đường thẳng “gần nhất” với tập hợp các điểm quan sát, do vậy nĩ được coi là đường thẳng “tốt nhất”, “phù hợp nhất” trong lớp các đường hồi quy mẫu cĩ thể dùng để ước lượng hàm hồi quy mẫu (SRF). ̅̅̅̅̅ n 2 ̂ ̂ Do Yi, Xi (i = 1, n) đã biết, nên ∑i=1 ei là hàm số của β1 , β2. Vì vậy, ta cần tìm ̂ ̂ β1 , β2 sao cho: ̂ ̂ n ̂ ̂ 2 f(β1 , β2) = ∑i=1(Yi − β1 − β2Xi) ➔ min ̂ ̂ Tức β1 , β2 là nghiệm của hệ phương trình sau: n ∂f(β̂, β̂) 1 2 = ∑ 2(Y − β̂ − β̂X )(−1) = 0 ̂ i 1 2 i ∂β1 i=1 ̂ ̂ n ∂f(β1, β2) = ∑ 2(Y − β̂ − β̂X )(−X ) = 0 ∂β̂ i 1 2 i i { 2 i=1 Hay: 푛β̂ + β̂ ∑푛 X = ∑푛 Y { 1 2 푖=1 i 푖=1 i (2.1) ̂ 푛 ̂ 푛 2 푛 β1 ∑푖=1 Xi + β2 ∑푖=1 Xi = ∑푖=1 XiYi Hệ phương trình (2.1) gọi là hệ phương trình chuẩn. Giải hệ phương trình này ta được: n ̅ ̅ ̂ ∑i=1 XiYi−nX.Y β2 = n 2 ̅ 2 (2.2) ∑i=1 Xi −n(X) ̂ ̂ β1 = 푌̅ − β2 ̅ (2.3) ̂ Ta cũng cĩ thể tính β2 theo cơng thức sau đây: n ̅ ̅ ̂ ∑i=1(Xi−X)(Yi−Y) β2 = n ̅ 2 (2.4) ∑i=1(Xi−X) Thí dụ 2.1: Bảng sau đây cho số liệu về mức chi tiêu tiêu dùng (Y-đơla/tuần) và thu nhập hàng tuần (X-đơla/tuần) của một mẫu gồm 10 hộ gia đình. Giả sử Y và X cĩ mối quan hệ tương quan tuyến tính. Hãy ước lượng hàm hồi quy của Y theo X. 22
  28. Yi 70 65 90 95 110 115 120 140 155 150 Xi 80 100 120 140 160 180 200 200 240 260 Giải: từ các số liệu quan sát của X và Y cho ở bảng trên ta tính được: 10 10 10 2 10 ∑푖=1 Yi = 1110; ∑푖=1 Xi = 1700; ∑i=1 Xi = 322000; ∑i=1 XiYi = 205500; 1110 1700 Y̅ = = 111; X̅ = = 170. 10 10 n ̅ ̅ ∑i=1 XiYi − nX. Y = 205500 − 10 × 170 × 111 = 16800 n 2 ̅ 2 2 ∑i=1 Xi − n(X) = 322000 − 10 × 170 = 33000 n ̅ ̅ ̂ ∑i=1(Xi−X)(Yi−Y) 16800 β2 = n ̅ 2 = = 0,5091 ∑i=1(Xi−X) 33000 ̂ ̂ β1 = Y̅ − β2X̅ = 111 − 0,5091 × 170 = 24,4545 Vậy hàm hơi quy tuyến tính mẫu của chi tiêu cho tiêu dùng theo thu nhập là: 푌̂푖 = 24,4545 + 0,5091Xi ̂ Giá trị β1 = 24,4545 là tung độ gốc của đường hồi quy mẫu, chỉ mức chi tiêu tiêu dùng trung bình hàng tuần khi mà thu nhập hàng tuần bằng 0. Tuy nhiên đây là sự giải thích máy mĩc số hạng tung độ gốc. Trong phân tích hồi qui, cách giải thích theo nghĩa đen của số hạng tung độ gốc như thế này khơng phải lúc nào cũng cĩ ý nghĩa, mặc dù trong thí dụ chúng ta đang xét, nĩ cĩ thể được lập luận rằng một hộ gia đình khơng cĩ bất cứ thu nhập nào (do thất nghiệp, bị sa thải, ) cĩ thể duy trì mức chi tiêu tiêu dùng tối thiểu (hoặc từ vay mượn, hoặc từ tiết kiệm, hoặc trợ cấp xã hội ). Nhưng nĩi chung người ta phải sử dụng độ nhạy cảm trong việc giải thích số hạng tung độ gốc đối với X nhận các giá trị trong một khoảng nào đĩ khi quan sát. Với thí dụ mà ta đang xét thì khơng thể coi số 0 là một trong các giá trị quan sát của X. ̂ β2 = 0,5091 chỉ ra rằng, xét các giá trị của X nằm trong khoảng (80; 260), khi thu nhập tăng 1 USD/tuần thì chi tiêu tiêu dùng của hộ gia đình tăng trung bình khoảng 0,51 USD/tuần. 23
  29. 2.2. Các giả thiết cơ bản của phương pháp bình phương nhỏ nhất Trong phân tích hồi qui, mục đích của chúng ta là ước lượng, dự báo về tổng thể, ̂ ̂ tức là ước lượng E(Y/Xi), β1, β2 tìm được bằng phương pháp OLS là các ước lượng điểm của β1, β2. Chúng ta chưa biết chất lượng của các ước lượng này như thế nào. Chất lượng của các ước lượng phụ thuộc vào: + Dạng hàm của mơ hình được lựa chọn. + Phụ thuộc vào các Xi và Ui. + Phụ thuộc vào kích thước mẫu (n). Về dạng của mơ hình chúng ta sẽ đề cập ở phần sau. Ở đây chúng ta sẽ nĩi về các giả thiết đối với Xi và Ui. Theo các giả thiết này thì các ước lượng tìm được bằng phương pháp OLS là tuyến tính, khơng chệch và cĩ phương sai nhỏ nhất. Giả thiết 1: Các biến độc lập Xi là phi ngẫu nhiên, tức là giá trị của chúng được xác định trước. Giả thiết này là đương nhiên, vì phân tích hồi qui được đề cập là phân tích hồi qui cĩ điều kiện, phụ thuộc vào các giá trị Xi đã cho. Đương nhiên các giá trị Xi khơng bằng nhau. Giả thiết 2: Kỳ vọng của yếu tố ngẫu nhiên Ui bằng 0, tức là E(Ui/Xi) = 0. Giả thiết này cĩ nghĩa là các yếu tố khơng cĩ trong mơ hình, Ui đại diện cho chúng và khơng cĩ ảnh hưởng một cách cĩ hệ thống đến giá trị trung bình của Ŷ1 . Cĩ thể nĩi các giá trị Ui dương triệt tiêu với các giá trị Ui âm sao cho trung bình của chúng ảnh hưởng lên 푌̂푖 bằng 0. Giả thiết 3: Các Ui ( i=1,n ) cĩ phương sai bằng nhau, tức là: 2 Var(Ui/Xi) = Var(Uj/Xj) = σ ∀ i ≠ j (2.5) Giả thiết này cĩ nghĩa là phân phối cĩ điều kiện của Y với giá trị đã cho của X cĩ phương sai bằng nhau, các giá trị cá biệt của Y xoay quanh giá trị trung bình với mức độ chênh lệch như nhau. Giả thiết 4: Khơng cĩ sự tương quan giữa các Ui: Cov(Ui; Uj) = 0 ∀ i ≠ j (2.6) 24
  30. Giả thiết này cĩ nghĩa Ui là ngẫu nhiên. Sai số ở quan sát này khơng ảnh hưởng tới sai số ở quan sát khác. Giả thiết 5: Ui và Xi khơng tương quan với nhau: Cov(Ui, Xi) = 0 (2.7) Giả thiết 5 là cần thiết vì nếu U và X cĩ tương quan với nhau thì ta khơng thể tách ảnh hưởng riêng biệt của chúng đến Y, trong khi đĩ U lại đại diện cho các yếu tố khơng cĩ mặt trong mơ hình. Giả thiết 5 sẽ thoả mãn nếu X là phi ngẫu nhiên. Định lý Gauss- Markov: Với các giả thiết từ 1÷5 của phương pháp OLS, các ước lượng của phương pháp bình phương nhỏ nhất sẽ là các ước lượng tuyến tính, khơng chệch và cĩ phương sai nhỏ nhất trong lớp các ước lượng tuyến tính khơng chệch. ̂ ̂ Đối với hàm hồi qui 2 biến, theo định lý trên thì β1, β2 tương ứng là các ước lượng tuyến tính, khơng chệch (khơng thiên lệch) và cĩ phương sai nhỏ nhất của β1, β2 tổng thể. Khái niệm khơng thiên lệch: Các tham số ước lượng tự thân chúng là các biến ngẫu nhiên và do đĩ tuân theo phân phối thống kê. Nguển nhân là vì những lần thử khác nhau của một cuộc nghiên cứu sẽ cho các kết quả ước lượng tham số khác nhau. Nếu chúng ta lặp lại nghiên cứu với số lần thử lớn, ta cĩ thể đạt được nhiều giá trị ước lượng. Sau đĩ chúng ta cĩ thể tính tỷ số số lần mà những ước lượng này rơi vào một khoảng giá trị xác định. Kết quả sẽ cho ra phân phối của các ước lượng mẫu.Phân phối này cĩ giá trị trung bình và phương sai. Nếu trung bình của phân phối mẫu là tham số thực (trong trường hợp này là β1, β2), thì đây là ước lượng khơng chệch. Độ khơng chệch rõ ràng là điều luơn được mong muốn, bởi vì, ở mức trung bình giá trị ước lượng sẽ bằng giá trị thực tế, mặc dù trong một số trường hợp cá biệt thì điều này cĩ thể khơng đúng. 2.3. Độ chính xác của các ước lượng bình phương nhỏ nhất ̂ ̂ Theo phương pháp OLS, các ước lượng β1, β2 được xác định theo cơng thức (2.2) và (2.3). Các ước lượng này là đại lượng ngẫu nhiên, với các mẫu khác nhau ta cĩ ước lượng khác nhau. Vì phương sai hay độ lệch chuẩn đặc trưng cho độ phân tán hay tập trung của đại lượng ngẫu nhiên, nên ta dùng chúng để đo chất lượng của các ước 25
  31. lượng. Với các giả thiết của phương pháp OLS, phương sai và độ lệch chuẩn của các ước lượng được xác định bởi các cơng thức sau: 2 ̂ σ Var(β2) = n ̅ 2 (2.8) ∑i=1(Xi−X) 2 n 2 ̂ σ ∑i=1 Xi Var(β1) = n ̅ 2 (2.9) n ∑i=1(Xi−X) ̂ ̂ se(β2) = √Var(β2) (2.10) ̂ ̂ se(β1) = √Var(β1) (2.11) 2 Trong đĩ: σ = Var(Ui) và se là sai số chuẩn Trong các cơng thức trên, nếu σ2 chưa biết thì σ2 được ước lượng bằng ước lượng khơng chệch của nĩ là σ̂2. ∑n e2 σ̂2 = i=1 i (2.12) n−2 σ̂ = √σ̂2 là sai số tiêu chuẩn 2.4. Hệ số R2 đo độ phù hợp của hàm hồi quy mẫu Cơng thức xác định hệ số xác định R2: ESS RSS R2 = = 1 − (TSS = ESS + RSS) (2.13) TSS TSS Trong đĩ: TSS (Total Sum of Squares) là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát với giá trị trung bình của chúng. n ̅ 2 n 2 ̅2 TSS = ∑i=1(Yi − Y) = ∑i=1 Yi − nY (2.14) ESS (Explained Sum of Squares) là tổng bình phương của tất cả các sai lệch giữa giá trị của biến Y tính theo hàm hồi quy mẫu với giá trị trung bình. Phần này đo độ chính xác của hàm hồi quy. n ̂ ̅ 2 ̂2 n ̅ 2 ESS = ∑i=1(Yi − Y) = β2 ∑i=1(Xi − X) (2.15) 26
  32. RSS (Residual Sum of Squares) là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát của biến Y và các giá trị nhận được từ hàm hồi quy mẫu. n 2 n ̂ 2 RSS = ∑i=1 ei = ∑i=1(Yi − Yi) (1.16) Nếu hàm hồi qui mẫu phù hợp tốt với các số liệu quan sát thì ESS sẽ càng lớn hơn RSS. Nếu tất cả các giá trị quan sát của Y đều nằm trên SRF thì ESS sẽ bằng TSS và do đĩ RSS = 0. Ngược lại, nếu hàm hồi qui mẫu kém phù hợp với các giá trị quan sát thì RSS sẽ càng lớn hơn ESS. Ta cĩ thể minh họa nhận xét trên bằng đồ thị bên dưới (Hình 2.2) 푌푖 Yi − Ŷi Yi − Y̅ Ŷi − Y̅ Hình 2.2. Tính R2 Từ cơng thức tổng quát (2.13), kết hợp với các cơng thức tính TSS (2.14) và ESS (2.15), ta viết lại cơng thức tính Hệ số xác định R2 như sau: 2 n ̂ ̅ 2 ̂ n ̅ 2 2 2 2 ESS ∑i=1(Yi−Y) β2 ∑i=1(Xi−X) ̂ 𝜎 R = = n ̅ 2 = n ̅ 2 = β2 × 2 (2.17) TSS ∑i=1(Yi−Y) ∑i=1(Yi−Y) 𝜎푌 Ta cĩ: 0 ≤ R2 ≤ 1 27
  33. Đặc biệt với R2 = 1 thì đường hồi qui mẫu phù hợp “hồn hảo”, tất cả các sai lệch của Y (so với giá trị trung bình) đều giải thích được bởi mơ hình hồi qui. Khi R2 = 0 chứng tỏ X và Y khơng cĩ quan hệ. Đại lượng R2 gọi là hệ số xác định (coefficient of determination) và được sử dụng để đo mức độ phù hợp của hàm hồi qui mẫu. 2.5. Phân bố xác suất của yếu tố ngẫu nhiên Mục đích của phân tích hồi quy khơng phải là chỉ suy đốn về β1, β2 hay PRF mà cịn phải kiểm tra bản chất của sự phụ thuộc, cịn phải thực hiện các dự đốn khác. Nếu tiến hành lấy mẫu nhiều lần, ta sẽ nhận được tập hợp nhiều giá trị khác nhau của ̂ ̂ β1 , β2 tạo thành một đại lượng ngẫu nhiên. Ta cần phải tìm hiểu và nghiên cứu luật phân phối xác suất của hai loại tham số này. Các phân phối này phụ thuộc vào phân phối của Ui. Để giải quyết vấn đề này, ta cần bổ sung thêm giả thiết sau: 2 Giả thiết 6: Ui cĩ phân phối chuẩn với kỳ vọng bằng 0 và phương sai là σ đĩ ̂ ̂ 2 các tham số mẫu β1 , β2 và σ̂ cĩ các tính chất sau: + Chúng là các ước lượng khơng chệch. + Cĩ phương sai cực tiểu. + Khi số quan sát đủ lớn thì các ước lượng này xấp xỉ giá trị thực của phân phối. ̂ 2 β1−β1 + β̂~N(β , σ̂ ), từ tính chất này suy ra: Z = ~N(0, 1) 1 1 β1 σ β̂1 ̂ 2 β2−β2 + β̂~N(β , σ̂ ), từ tính chất này suy ra: Z = ~N(0, 1) 2 2 β2 σ β̂2 (n−2)σ̂2 Đại lượng ngẫu nhiên cĩ luật phân phối χ2 với độ tự do là (n-2), tức là σ2 (n−2)σ̂2 ~χ2 . σ2 (n−2) ̂ ̂ 2 + Hàm hồi quy mẫu 푌̂푖 phụ thuộc vào β1 , β2 và σ̂ cĩ phân phối chuẩn và kỳ 2 vọng tốn là đường hồi quy lý thuyết trong tổng thể chung, tức là Ŷi~N(β1+β2Xi, σ ). 2.6. Khoảng tin cậy và kiểm định giả thiết về các hệ số hồi quy 2.6.1. Khoảng tin cậy của các hệ số hồi quy: 28
  34. ̂ ̂ β1 , β2 mà chúng ta đã tìm được ở phần trên là ước lượng điểm của β1, β2. Ước lượng này cĩ độ tin cậy như thế nào? Như chúng ta đã biết, một ước lượng đơn cĩ nhiều khả năng khác với giá trị đúng. Trong thống kê, độ tin cậy của một ước lượng điểm được đo bằng sai số chuẩn của nĩ. Do vậy, thay vì chỉ dựa vào ước lượng điểm, ta cĩ thể xây dựng một khoảng xung quanh giá trị ước lượng điểm, để xác suất mà giá trị đúng của tham số cần ước lượng nằm trong khoảng này là 1-α, tức là: ̂ ̂ P(β1 − ε ≤ β1 ≤ β1 + ε) = 1 − α ̂ ̂ hoặc P(β2 − ε ≤ β2 ≤ β2 + ε) = 1 − α (2.18) ̂ ̂ ̂ ̂ Vì β1 , β2 là đại lượng ngẫu nhiên nên khoảng (βi − ε; βi + ε) (với i = 1÷2) là khoảng ngẫu nhiên; 1-α được gọi hệ số tin cậy (hay độ tin cậy). α (0 ≤ α ≤ 1) được gọi là mức ý nghĩa, ɛ được gọi là độ chính xác của ước lượng ̂ ̂ (ɛ ≥ 0); βi − ε được gọi là giới hạn tin cậy dưới và βi + ε được gọi là giới hạn tin cậy trên. Biểu thức (2.18) mang ý nghĩa là: nếu ta tiến hành xây dựng khoảng tin cậy ̂ ̂ (βi − ε; βi + ε) nhiều lần với hệ số tin cậy 1-α thì tính trung bình, cĩ 100*(1-α) phần trăm số lần các khoảng này chứa giá trị đúng của βi (với i = 1÷2). Quá trình xác định khoảng tin cậy của βi (với i = 1÷2) được tiến hành như sau: Bước 1: ̂ ̂ Xác định các tham số β1 , β2 và phương sai, sai số chuẩn của các tham số đĩ. Bước 2: β̂i−βi Từ giả thiết 6, ta cĩ Z = ~N(0, 1) với i = 1÷2. Tạo biến t1, t2 là các biến σ β̂i ̂ ̂ chuẩn hĩa đối với β1 , β2, để đưa về dạng phân phối chuẩn hĩa N(0,1). Trong đĩ : β̂−β t = 1 1 ~T(n − 2) 1 σ β̂1 β̂−β Và t = 2 2 ~T(n − 2) (2.19) 2 σ β̂2 Bước 3: Xác định và đánh giá khoảng tin cậy 29
  35. Các giá trị khác nhau của t1, t2 là những đại lượng ngẫu nhiên tuân theo luật phân phối chuẩn, cịn các giá trị lý thuyết tương ứng của chúng được liệt kê trong bảng T, cĩ ký hiệu tα/2(n-2), được hiểu là: với độ tin cậy 1- α hoặc ở ngưỡng xác suất p nào đĩ, ta tra bảng T ứng với giá trị α/2 và độ tự do (n-2) sẽ nhận được giá trị tới hạn t α/2(n-2) dùng để ̂ ̂ xác định khoảng tin cậy của β1, β2. Vì t α/2(n-2) là giá trị tới hạn nên p = 1 - α chính là xác suất để các giá trị t1, hoặc t2 khơng vượt quá giá trị này. Cĩ nghĩa là: P(-tα/2;(n-2) ≤ ti ≤ tα/2;(n-2)) = 1 – α với i = 1÷2. β̂−β Vì t = i i i σ β̂i Nên suy ra P(β̂ - tα/2;(n-2)*σ ≤ β ≤ β̂ + tα/2;(n-2)*σ ) = 1-α với i = 1÷2. i β̂i i i β̂i ̂ ̂ ̂ ̂ βi- tα/2;(n-2)×se(βi) ≤ βi ≤ βi+ tα/2;(n-2)× se(βi) chính là khoảng tin cậy hay miền chấp nhận của βi với xác suất tin cậy là 1-α. Ta cĩ thể viết ngắn gọn như sau: Với hệ số tin cậy (độ tin cậy) 1-α, khoảng tin cậy của βi (với i = 1÷2) là: ̂ ̂ βi ± tα/2;(n-2)× se(βi) (2.20) Trong đĩ: tα/2 là giá trị của đại lượng ngẫu nhiên T phân phối theo qui luật Student với bậc tự do (n-2) sao cho P (|T| > tα/2) = α. 2.6.2. Khoảng tin cậy của (푛−2)𝜎̂2 Ở giả thiết 6 ta cĩ 휒2 = , đây là đại lượng ngẫu nhiên phân phối theo qui 𝜎2 luật χ2 (n-2). Do đĩ khoảng tin cậy của σ2 (với hệ số tin cậy 1 - α ) được xác định từ biểu thức: (푛−2)𝜎̂2 푃 (휒2 ≤ ≤ 휒2 ) = 1 − 훼 1−훼⁄2 𝜎2 훼⁄2 2 2 (푛−2)𝜎̂ 2 (푛−2)𝜎̂ Hay 푃 ( 2 ≤ 𝜎 ≤ 2 ) = 1 − 훼 (2.21) 휒훼⁄2 휒1−훼⁄2 2 2 2 Trong đĩ: 휒훼⁄2; 휒1−훼⁄2 là các giá trị của ước lượng ngẫu nhiên χ phân phối theo quy luật “khi bình phương” với bậc tự do là n-2 thỏa mãn điều kiện: 30
  36. 2 2 2 2 푃(휒 ≥ 휒훼⁄2) = 훼⁄2; 푃(휒 ≥ 휒1−훼⁄2) = 1 − 훼⁄2. Để tìm các giá trị này ta tra bảng 휒2( ) (hoặc dùng hàm CHINV trong Excel). 2.6.3. Kiểm định giả thiết về các hệ số hồi quy Kiểm định giả thiết thống kê được phát biểu đơn giản như sau: Kết quả tìm được dựa trên số liệu thu thập từ thực tế cĩ phù hợp với một giả thiết nêu ra hay khơng? Từ “phù hợp” được dùng ở đây được hiểu là “đủ” sát với giá trị giả thiết nêu ra để ta khơng bác bỏ giả thiết đã nêu. Như vậy, nếu căn cứ vào một lý thuyết hay kinh nghiệm từ trước ̂ là ta tin rằng hệ số gĩc (β2) trong thí dụ 1 bằng 0,8 thì giá trị quan sát (β2) là 0,5091 được tính từ mẫu cĩ phù hợp với giả thiết phát biểu khơng? Nếu phù hợp ta khơng bác bỏ giả thiết; nếu khơng phù hợp thì ta bác bỏ giả thiết nêu trên. Trong thống kê tốn, giả thiết phát biểu (giả thiết cần kiểm định) được gọi là giả thiết khơng và ký hiệu là H0. Một mệnh đề đối lập với H0 được gọi là giả thiết đối và được ký hiệu là H1. Chẳng hạn, giả thiết khơng là: H0: β2 = 0,8; khi đĩ giả thiết đối cĩ thể là H1: β2 ≠ 0,8, hoặc H1: β2 > 0,8, hoặc H1: β2 < 0,8. Lý thuyết kiểm định xây dựng các qui tắc hay thủ tục để quyết định bác bỏ hay khơng bác bỏ giả thiết khơng. Cĩ hai cách tiếp cận bổ sung lẫn nhau để xây dựng qui tắc đĩ, gọi là kiểm định bằng khoảng tin cậy và kiểm định ý nghĩa. Cả hai phương pháp này đều dựa trên cơ sở: Đã xác định được qui luật phân phối xác suất của đại lượng ngẫu nhiên được dùng là tiêu chuẩn kiểm định (thống kê kiểm định). Phần lớn các giả thiết mà ta tiến hành kiểm định là đưa ra các phát biểu hay khẳng định liên quan đến (các) giá trị hay (các) tham số đặc trưng của thống kê kiểm định. 2.6.3.1. Kiểm định giả thiết bằng phương pháp khoảng tin cậy: Để minh hoạ cho phương pháp này, ta trở lại với thí dụ tiêu dùng – thu nhập đã xét ở phần trên. Giả sử ta cho rằng giá trị đúng của β2 là 0,3 tức ta kiểm định giả thiết H0: β2 = 0,3; với H1: β2 ≠ 0,3. 31
  37. ̂ Giả thiết đối nêu trên là giả thiết hai phía. β2 quan sát được cĩ “phù hợp” với giả thiết H0 hay khơng? Để trả lời câu hỏi này, ta cĩ thể căn cứ vào khoảng tin cậy của β2 mà ta đã tìm được ở phần trên: (0,4268 < β2 < 0,5914) ̂ ̂ Như vậy: với xác suất 1–α, khoảng ngẫu nhiên (β2 - ε ; β2 + ε ) chứa được β2. Vì ̂ ̂ 1 –α khá lớn, nên theo nguyên lý xác suất lớn, ta cĩ thể coi biến cố (β2 - ε ; β2 + ε ) hầu như chắc chắn xẩy ra trong một phép thử. Với mẫu cụ thể (được coi là một phép thử) ta ̂ ̂ sẽ tìm được khoảng (β2 - ε ; β2 + ε ). Nếu thấy giá trị β2 nằm trong khoảng này thì khơng bác bỏ H0; ngược lại nếu β2 nằm ngồi khoảng này thì bác bỏ H0. Ta cĩ thể minh hoạ qui tắc trên bằng hình sau: Bác bỏ giả Các giá trị của β2 nằm Bác bỏ giả thiết H0 nếu trong khoảng này là hợp lý thiết H0 nếu β2 nằm theo H0 với độ tin cậy 1–α β2 nằm trong miền . Do vậy khơng bác bỏ H0 trong miền này nếu β2 nằm trong miền này này ̂ ̂ ̂ ̂ β2- tα/2;(n-2)Se(β2) β2+tα/2;(n-2)Se(β2) Hình 2.3. Kiểm định giả thiết bằng phương pháp khoảng tin cậy Qui tắc quyết định: Thiết lập một khoảng tin cậy (với hệ số tin cậy 1–α) cho β2. Nếu β2 (theo H0) nằm trong khoảng tin cậy này thì khơng bác bỏ giả thiết H0; Nếu β2 nằm ngồi khoảng này thì ta bác bỏ H0. Theo qui tắc này, trong ví dụ giả thiết H0 là: β2 = 0,3. Vì β2 nằm ngồi khoảng (0,4268; 0,5914). Do vậy ta bác bỏ giả thiết H0. (với mức ý nghĩa 5%). Kiểm định một phía hay một đuơi: Đi khi ta cĩ một tiên nghiệm hay kỳ vọng lý thuyết mạnh rằng giả thiết đối là một phía hay theo một hướng chứ khơng phải theo hai phía như vừa xét ở trên. Chẳng hạn, trong ví dụ tiêu dùng - thu nhập, nếu dựa vào lý thuyết kinh tế hay một cơng trình nghiên cứu thực nghiệm trước đây cho thấy xu thế tiêu dùng biên lớn hơn 0,3, khi đĩ ta cĩ thể 32
  38. nêu giả thiết đối như sau: H1: β2 > 0,3. Thủ tục kiểm định giả thiết này cĩ thể được suy ra một cách dễ dàng từ (2.20), nhưng trong thực tế, để kiểm định giả thiết này, ta thường áp dụng phương pháp kiểm định ý nghĩa. 2.6.3.2. Kiểm định giả thiết bằng phương pháp kiểm định ý nghĩa: Kiểm định ý nghĩa là một thủ tục mà các kết quả của mẫu được sử dụng để kiểm chứng tính đúng đắn hay sai lầm của một giả thiết khơng. Chẳng hạn cần kiểm định giả thiết H0: βi = β*; H1: βi ≠ β* Quyết định chấp nhận hay bác bỏ H0 dựa vào giá trị của thống kê kiểm định thu được từ số liệu của mẫu. β̂−β∗ Trong giả thiết 6, ta cĩ đại lượng ngẫu nhiên t = i tuân theo phân phối t với se(β̂i) n-2 bậc tự do. Nếu giá trị của βi đúng như giả thiết khơng đã nêu thì giá trị của t cĩ thể được tính từ mẫu đã cho, t đĩng vai trị là thống kê kiểm định. Từ đĩ ta cĩ khoảng tin cậy như sau: ∗ β̂i−β P (−tα⁄2 ≤ ≤ tα⁄2) = 1 − α (2.22) se(β̂i) Với β* là giá trị của βi theo H0. (2.22) biểu thị khoảng chứa t với xác suất 1– α nếu như βi = β*. Theo ngơn ngữ kiểm định giả thiết, khoảng (-tα/2; tα/2) thiết lập ở (2.22) được gọi là miền chấp nhận của giả thiết khơng (với mức ý nghia α). Vùng nằm ngồi miền chấp nhận được gọi là miền bác bỏ của H0. tα/2 được gọi là giá trị tới hạn; α được gọi là mức ý nghĩa của kiểm định (α chính là xác suất mắc phải sai lầm loại I, sai lầm mắc phải khi ta bác bỏ giả thiết khơng khi nĩ đúng. Nguyên nhân mắc sai lầm là do α. Bên cạnh đĩ cĩ sai lầm loại II, đĩ là sai lầm khi giả thiết H0 sai nhưng lại được chấp nhận. Chúng ta muốn sao cho xác suất mắc sai lầm loại II là tối thiểu. Nếu gọi p là xác suất mắc sai lầm loại II, khi đĩ xác suất bác bỏ giả thiết H0 sai là 1- p, nĩi cách khác, 1 – p là xác suất khơng mắc phải sai lầm loại II và 1 – p được gọi là lực kiểm định). Do ta sử dụng phân phối t, nên thủ tục kiểm định này thường được gọi là kiểm định t. Theo phương pháp kiểm định ý nghĩa, một thống kê được xem lµ cĩ ý nghĩa về 33
  39. mặt thống kê nếu giá trị của thống kê kiểm định nằm ở miền bác bỏ, trong trường hợp này, giả thiết khơng bị bác bỏ. Tương tự, một thống kê được xem là khơng cĩ ý nghĩa về mặt thống kê nếu giá trị của thống kê kiểm định nằm ở miền chấp nhận. Trong tình huống này, giả thiết khơng khơng bị bác bỏ. Trong ví dụ đang xét, vì cĩ 10 quan sát, nên số bậc tự do bằng 8. Với mức ý nghĩa α, chẳng hạn là 5%, tra bảng ta tìm được giá trị tới hạn tα/2 = 2,306. Vậy miền chấp nhận giả thiết H0: β2 = 0,3 (với giả thiết đối H1: β2 ≠ 0,3) là: (-2.306 β* hoặc βi β* thì miền bác bỏ nằm về phía bên phải miền chấp nhận. Nếu H1: βi tα⁄2 * * Phía phải βi ≤ β βi > β t > tα * * Phía trái βi ≥ β βi < β t < -tα Nếu ta kiểm định giả thiết H0: β2 = 0 với giả thiết đối H1: β2 ≠ 0 thì cĩ nghĩa là ta kiểm định giả thiết cho rằng biến X khơng ảnh hưởng đến biến Y. Thí dụ: Với số liệu ở thí dụ 2, ta kiểm định giả thiết H0: β2 = 0 với giả thiết đối H1: β2 ≠ 0 với mức ý nghĩa 5%. ̂ ̂ Phần trên ta đã tính được: β2 = 0,5091 và se(β2)= 0,035742; Vậy: 34
  40. 0,5091 − 0 푡 = = 14,243 0,035742 Với mức ý nghĩa a = 5% và bậc tự do n -2 = 8 thì t0,025 = 2,306. Vì |t| = 14,243 > t0,025(8) nên ta bác bỏ giả thiết H0. Tức biến thu nhập (X) thực sự cĩ ảnh hưởng tới biến chi tiêu (Y). 2.6.3.3. Kiểm định giả thiết về σ2 2 2 2 2 Giả sử ta cần kiểm định giả thiết: H0: σ = σ0; H1: σ ≠ σ0 với mức ý nghĩa α. Quy tắc kiểm định giả thiết trên cĩ thể tĩm tắt ở bảng sau: Loại giả thiết Giả thiết H0 Giả thiết H1 Miền bác bỏ 2 2 2 2 2 2 Hai phía σ = σ0 σ ≠ σ0 휒 > 휒훼/2 hoặc 2 2 휒 > 휒1−훼/2 2 2 2 2 2 2 Phía phải σ ≤ σ0 σ > σ0 휒 > 휒훼 2 2 2 2 2 2 Phía trái σ ≥ σ0 σ < σ0 휒 < 휒1−훼 2 2 Ví dụ: Với số liệu ở ví dụ 2, ta hãy kiểm định giả thiết H0: σ = 85 với H1: σ ≠ 85 với mức ý nghĩa 5%. Ở phần trên ta đã tính được 𝜎̂2 = 42,15875; vâỵ: (10 − 2)42,15875 χ2 = = 3,968 85 2 2 χ훼/2 = χ0,025(8) = 17,5345 2 2 χ1−훼/2 = χ0,975(8) = 2,1797 2 Vì χ = 3,968 khơng thuộc miền bác bỏ, nên khơng bác bỏ giả thiết H0. 2.6.3.4. Một số chú ý khi kiểm định giả thiết ● Ý nghĩa của việc “chấp nhận” và “bác bỏ” một giả thiết Khi áp dụng phương pháp kiểm định ý nghĩa, chẳng hạn kiểm định t, ta kết luận: chấp nhận giả thiết khơng khi giá trị t nằm ở miền chấp nhận. điều đĩ khơng cĩ nghĩa giả thiết khơng là đúng. Tại sao? Để trả lời câu hỏi này ta trở lại ví dụ về tiêu dùng-thu nhập và giả sử H0: β2 = 0,5. Khi đĩ dễ dàng tính được t = 0.25. Với α = 5% ta chấp nhận H0. Nhưng bây giờ hãy giả sử H0: β2 = 0,48, áp dụng cơng thức, ta sẽ tính được t = 0,82, và như vậy theo qui tắc kiểm định, ta cũng kết luận là “chấp nhận H0”. Giả thiết 35
  41. nào đúng trong hai giả thiết khơng này? điều đĩ ta khơng biết. Do vậy, khi nĩi “chấp nhận giả thiết khơng” ta phải luơn nhận thức rằng, cịn nhiều giả thiết khơng nữa cũng cĩ thể hồn tồn phù hợp với số liệu. Trong thực hành, tốt hơn là ta nên kết luận rằng cĩ thể chấp nhận giả thiết khơng hoặc là nĩi”chưa cĩ cơ sở để bác bỏ giả thiết khơng” chứ khơng nên nĩi là chấp nhận nĩ. ● Lập giả thiết khơng và giả thiết đối Với các giả thiết khơng và giả thiết đối cho trước thì việc kiểm định chúng là dễ dàng. Nhưng làm sao cĩ thể thiết lập được các giả thiết này? Khơng hề cĩ một qui tắc bất di bất dịch nào. Thường thì tình huống trong nghiên cứu sẽ gợi ý về tính chất của giả thiết khơng và giả thiết đối. Ví dụ, xét mơ hình hồi qui: Ei = β1 + β2σi , trong đĩ Ei là suất sinh lợi kỳ vọng của chứng khốn i; σi là độ lệch chuẩn của suất sinh lợi. Do suất sinh lợi và rủi ro được dự đốn cĩ quan hệ đồng biến, vì vậy, giả thiết đối tự nhiên cho giả thiết khơng (β2 = 0) sẽ là β2 > 0. Tức là, ta sẽ khơng xem xét các giá trị β2 < 0. Nhưng khi xem xét trường hợp mức cầu tiền tệ. Một trong các yếu tố ảnh hưởng tới mức cầu tiền tệ là thu nhập. Các nghiên cứu trước đây về hàm cầu tiền tệ chỉ ra rằng độ co giãn của mức cầu tiền tệ đối với thu nhập (tỷ lệ thay đổi % về mức cầu tiền tệ khi thu nhập thay đổi 1%) thường nằm trong khoảng từ 0,7 đến 1,3. Do vậy trong một nghiên cứu mới về mức cầu tiền tệ, nếu ta lập giả thiết khơng là hệ số co giãn của mức cầu tiền tệ đối với thu nhập là bằng 1 (tức là H0: β2 = 1) thì giả thiết đối cĩ thể là: H1: β2 ≠ 1. Như vậy, cĩ thể dựa vào các kỳ vọng lý thuyết hay nghiên cứu kinh nghiệm trước đây hoặc cả hai để thiết lập các giả thiết. Nhưng mặc dù các giả thiết được lập như thế nào đi nữa thì điều vơ cùng quan trọng là nhà nghiên cứu phải thiết lập các giả thiết trước khi điều tra thực nghiệm. Nếu khơng, nhà nghiên cứu sẽ phạm phải việc lập luận vịng quanh hay cố ước đốn cho phù hợp với kết quả thực nghiệm. Tức là, nếu thiết lập các giả thiết sau khi xem xét các kết quả thực nghiệm, ta cĩ thể muốn thiết lập các giả thiết để biện minh cho kết quả tìm được. Phải tránh cách làm này bằng mọi giá, ít nhất là đê tạo sự khách quan trong nghiên cứu. ● Lựa chọn mức ý nghĩa α 36
  42. Khi tiến hành kiểm định giả thiết, việc ta bác bỏ hay khơng bác bỏ giả thiết khơng phụ thuộc nhiều vào α, mức ý nghĩa hay xác suất phạm phải sai lầm loại I (xác suất bác bỏ giả thiết đúng). Tại sao α hay được cố định ở mức 1%, 5% hay nhiều nhất là 10%. Trong thực tế, việc ấn định mức ý nghĩa α khơng phải là bất khả xâm phạm; mọi giá trị khác cũng cĩ thể được lựa chọn. Nhưng việc lựa chọn giá trị thích hợp của α sẽ khơng cần thiết nếu ta sử dụng giá trị p của thống kê kiểm định. Giá trị p sẽ được đề cập ở mục tiếp theo. ● Mức ý nghĩa chính xác: Giá trị p Thay vì kiểm định với một giá trị α cho trước, thì người ta cho rằng nên định rõ các giả thuyết cơ sở H0 và giả thuyết H1, sau đĩ thu thập số liệu mẫu và xác định mức độ khẳng định việc bác bỏ giả thuyết H0. Mức độ khẳng định này thường được gọi là giá trị p (p-value) của kiểm định. Cách xác định: H0: θ = θ0; H1: θ ≠ θ0. ( ̅−휃) 푛 Từ mẫu ta tìm được giá trị quan sát của tiêu chuẩn kiểm định: = √ 푞푠 𝜎 Giá trị p của kiểm định (tức là mức độ khẳng định việc bác bỏ H0) là xác suất để giá trị quan sát của X̅ lớn hơn θ0 nếu giả thuyết H0 là đúng. Giá trị này cĩ thể tính bằng cách sử dụng giá trị quan sát (Tqs) của tiêu chuẩn kiểm định và tìm xác suất để T > Tqs Giá trị p-Value càng nhỏ thì mức độ khẳng định của mẫu về việc bác bỏ H0 càng rõ rệt hơn, hay H0 càng kém tin cậy hơn. Ta cĩ cơng thức tính giá trị p cho kiểm định giả thuyết thống kê: + Nếu H1: θ > θ0 thì p-value = p(T>Tqs) + Nếu H1: θ |Tqs|) Trong thực tế việc kiểm định theo giá trị p-value thường được tiến hành theo nguyên tắc: Nếu p-value > 0,1thì ta nĩi chưa cĩ cơ sở để bác bỏ H0. Nếu 0,05 < p-value < 0,1 thì cần cân nhắc cẩn thận khi bác bỏ H0. 37
  43. Nếu 0,01 α thì chưa cĩ cơ sở để bác bỏ H0. Từ số liệu của một mẫu, ta tính được giá trị của tiêu chuẩn kiểm định (ví dụ thống kê t). Trong ví dụ tiêu dùng-thu nhập nêu trên, khi kiểm định giả thiết H0: β2 = 0 với H1: β2 ≠ 0, ta đã tính được t = 14,243. Khi đĩ ta cĩ thể tính được: P(|t|> 14,243). Xác suất này được gọi là giá trị p (giá trị xác suất). Nĩ cũng được gọi là mức ý nghĩa quan sát hay mức ý nghĩa chính xác mà giả thiết khơng cĩ thể bị bác bỏ. Các phần mềm kinh tế lượng đều cho giá trị p trong bảng kết quả. Ở trên chúng ta đã biết, nếu số liệu khơng hỗ trợ giả thiết khơng, thì |t| tính được theo giả thiết khơng sẽ “lớn” và như vậy giá trị p ứng với t sẽ “nhỏ”. Nĩi cách khác, với cỡ mẫu cho trước, khi t tăng lên, giá trị p giảm đi, và do vậy ta cĩ thể bác bỏ giả thiết khơng với mức tin cậy càng cao. ● Mối quan hệ giữa giá trị p và mức ý nghĩa α. Nếu ta tạo thĩi quen cố định α bằng giá trị p của thống kê kiểm định (ví dụ thống kê t), thì khơng hề cĩ mâu thuẫn giữa hai giá trị. Nĩi cách khác, ta nên từ bỏ cách cố định α một cách tuỳ ý và đơn giản là chọn giá trị p của thống kê kiểm định. Người nghiên cứu tự quyết định cĩ bác bỏ giả thiết khơng tại giá trị p tính được hay khơng? Nếu trong một ứng dụng, giá trị p của thống kê kiểm định là 0,145 và nếu người nghiên cứu muốn bác bỏ giả thiết khơng tại mức ý nghĩa (chính xác) này thì cứ việc thực hiện. Khơng cĩ gì sai nêu chấp nhận xác suất sai lầm nếu bác bỏ giả thiết khơng khi giả thiết đĩ đĩng 14,5%. Tương tự, nếu trong ví dụ tiêu dùng- thu nhập, nếu ta kiểm định giả thiết H0: β1 = 0 với H1; β1 ≠ 0 và sử dụng phần mềm Stata, thì giá trị p tương ứng sẽ là 0,005. khơng cĩ gì sai nếu nhà nghiên cứu muốn chọn mức ý nghĩa là 5%, tức khơng muốn xác suất phạm phải sai lầm nhiều hơn 5 trong 1000 lần. 38
  44. ● Thang đo: Giả sử trong mơ hình: (1) Yi = β1 + β2Xi + Ui (trong đĩ Yi tính bằng đơn vị ngàn đồng) * * (2) Yi = α1 + α2Xi + Vi (trong đĩ Yi tính bằng đơn vị đồng) Điều gì sẽ xảy ra khi ta thay đổi đơn vị tính? * Yi = 1000Yi thay vào (2) ta cĩ: α α V 1000Y = α + α X + V ➔ Y = 1 + 2 X + i i 1 2 i i i 1000 1000 i 1000 α α V Vậy: β = 1 ; β = 2 ; U = i 1 1000 2 1000 i 1000 Hay α1 = 1000β1; α2 = 1000β2; Vi = 1000Ui Kết luận: Việc thay đổi đơn vị đã làm cho các hệ số ước lượng và các sai số chuẩn của chúng tăng 1000 lần, cịn r2 khơng thay đổi. ta cĩ thể làm tương tự với sự thay đổi đơn vị của các biến khác. 2.7. Kiểm định sự phù hợp của hàm hồi quy Phần này sẽ trình bày việc phân tích hồi qui theo quan điểm của phân tích phương sai, nĩ cung cấp cho chúng ta một cách khác, hữu ích trong việc giải quyết vấn đề phán đốn thống kê. 푆푆 Ở phần trên, ta đã biết : TSS = ESS + RSS và 푅2 = , nên: 푆푆 ESS = R2*TSS và RSS = (1-R2)TSS. 2 ̂ ̂ 𝜎 훽2−훽2 ̅ 2 Do 훽2 cĩ phân phối chuẩn N (훽2, 2) nên √∑( 푖 − ) ~ (0,1) ∑( 푖− ̅) 𝜎 Và với: (훽̂−훽 )2 (푛−2)𝜎̂2 ∑ 푒2 푆 = 2 2 ∑( − ̅)2 ~휒2(1); 푆 = = 푖 ~휒2(푛 − 2) 1 𝜎2 푖 2 𝜎2 𝜎2 2 2 2 2 푆1/1 (훽̂2−훽2) ∑( 푖− ̅) (훽̂2−훽2) ∑( 푖− ̅) ➔ 퐹 = = 2 = 2 ~퐹(1, 푛 − 2) 푆2/(푛−2) ∑ 푒푖 /(푛−2) 𝜎̂ Chúng ta kiểm định giả thiết: H0: β2 = 0 với H1: β2 ≠ 0. Để kiểm định giả thiết trên ta áp dụng quy tắc kiểm định sau: 39
  45. 2 2 (훽̂2) ∑( 푖− ̅) Tính 퐹 = . Nếu F>Fα(1.n-2) thì bác bỏ giả thiết H0. Mặt khác: 𝜎̂2 (훽̂)2 ∑( − ̅)2 푆푆/1 푅2× 푆푆/1 푅2(푛−2) 퐹 = 2 푖 = = = 𝜎̂2 푅푆푆/(푛−2) (1−푅2)× 푆푆/(푛−2) 1−푅2 Cho nên quá trình phân tích phương sai cho phép ta đưa ra các phán đốn thống kê về độ thích hợp của hàm hồi quy. Cĩ thể tĩm tắt quá trình phương sai bằng bảng sau: Nguồn biến Tổng bình phương Bậc tự Phương sai thiên do Từ hàm hồi ∑(푌̂ − 푌̅)2 = (훽̂)2 ∑( − ̅)2 1 (훽̂)2 ∑( − ̅)2 quy (ESS) 푖 2 푖 2 푖 Từ các yếu ∑ 푒2 n-2 tố ngẫu 푖 nhiên TSS 2 n-1 ∑(푌푖 − 푌̅) 2.8. Phân tích hồi quy và dự báo Trên cơ sở số liệu mẫu ở thí dụ 2, ta cĩ hàm hồi quy mẫu: 푌̂푖 = 24,4545 + 0,5091 푖 Ta cĩ thể dùng hàm hồi quy mẫu này để “dự đốn” hay “dự báo” chi tiêu cho tiêu dùng (Y) trong tương lai ứng với một mức thu nhập (X) cho trước. Cĩ hai loại dự báo: Dự báo trung bình cĩ điều kiện của Y với giá trị X = X0. Dự báo giá trị cá biệt của biến phụ thuộc, tức là với X = X0 tìm giá trị Y = Y0. 2.8.1. Dự báo giá trị trung bình Giả sử X = X0, ta muốn dự báo E(Y/X0) = β1 + β2X0. Đường hồi quy mẫu cho ta ước lượng điểm của E(Y/X0) là: ̂ ̂ 푌̂0 = 훽1 + 훽2 0 Trong đĩ, 푌̂0 là ước lượng điểm, khơng chệch và cĩ phương sai nhỏ nhất của E(Y/X0). Tuy nhiên 푌̂0 vẫn sai khác so với giá trị thực của nĩ. 40
  46. 푌̂0 cĩ phân phối chuẩn với kỳ vọng tốn là β1 + β2X0 và phương sai là: 2 ̂ 2 1 ( 0− ̅) ̂ ̂ (푌0) = 𝜎 [ + 2]; 푆푒(푌0) = √ (푌0) (2.23) 푛 ∑( 푖− ̅) Với hệ số tin cậy 1-α, dự báo khoảng của E(Y/X0) là: [푌̂0 − 푡훼⁄2푠푒(푌̂0) tα/2) = α. ̂ ̂ 푌̂0 = 훽1 + 훽2 0 2 ̂ 2 1 ( 0− ̅) (푌0 − 푌0) = 𝜎 [1 + + 2] 푛 ∑( 푖− ̅) 푆푒(푌0 − 푌̂0) = √ (푌0 − 푌̂0) (2.26) Thí dụ: Với số liệu cho ở ví dụ 2, hãy dự báo giá trị trung bình và giá trị cá biệt của chi tiêu cho tiêu dùng khi thu nhập ở mức 100USD/tuần với hệ số tin cậy 95%? Giải: ̂ ̂ Ta cĩ: 푌̂0 = 훽1 + 훽2 0 = 24,4545 + 0,5091 ∗ 100 = 75,3636 1 (100−170)2 (푌̂ ) = 42,15875 [ + ] = 10,4758 0 10 33000 ˆ se( Y0 ) = 3,2366; Với hệ số tin cậy 95% và bậc tự do là 8 thì tα/2 = t0,025 = 2,306. Vậy dự báo khoảng của chi tiêu cho tiêu dùng khi thu nhập ở mức 100USD/tuần với hệ số tin cậy 95% là: 75,3636 ± 2,306* 3,2366. Hay: 67,9 < E(Y/X = 100 < 82,8 Để dự báo giá trị riêng biệt, trước hết ta tính: 41
  47. 1 (100−170)2 (푌 − 푌̂ ) = 42,15875 [1 + + ] = 52,63457 0 0 10 33000 ˆ se(Y0 - Y0 ) = 7,25497. Vậy dự báo khoảng chi tiêu tiêu dùng khi thu nhập ở mức 100USD/tuần với hệ số tin cậy 95% là: 75,3636 ± 2,306*7,25497. Hay: 58,6 < Y0 < 92,1 So sánh kết quả này với kết quả về dự báo khoảng của giá trị trung bình ta thấy khoảng tin cậy của giá trị riêng biệt (Y0) rộng hơn khoảng tin cậy của E(Y/X0). 42
  48. Chương 3: HỒI QUY BỘI 3.1. Mơ hình hồi quy 3 biến Giống như trong mơ hình 2 biến, hàm hồi quy 3 biến của tổng thể (PRF) cĩ dạng: E(Y/X2, X3) = β1 + β2X2i + β3X3i (3.1) PRF là kỳ vọng cĩ điều kiện của biến Y với giá trị đã cho của các biến X2, X3. Trong đĩ: Y là biến phụ thuộc; X2, X3 là biến độc lập. β1: Hệ số tự do (hệ số chặn), đây chính là giá trị trung bình của biến Y khi X2 = X3 = 0. β 2, β3 : Các hệ số hồi quy riêng. Yi là giá trị của biến Y tại quan sát thứ i, khi đĩ: Yi = E(Y/X2i, X3i) + Ui = β1 + β2X2i + β3X3i + Ui Ui là yếu tố ngẫu nhiên, sự tồn tại cđa Ui đã được giải thích ở chương 1. 3.2. Các giả thiết cơ bản của mơ hình (1) Các Ui cĩ kỳ vọng bằng 0: E(Ui/X2i, X3i) = 0 (Ɐi) (2) Khơng cĩ sự tương quan giữa các Ui: Cov(Ui,Uj) = 0 (Ɐi ≠ j) 2 (3) Các Ui thuần nhất: Var(Ui) = σ (4) Giữa các biến giải thích X2, X3 khơng cĩ quan hệ tuyến tính. 2 (5) Ui cĩ phân bố chuẩn N(0, σ ) Trong mơ hình hồi quy bội cĩ thêm một giả thiết mới, giả thiết 4, giữa các biến X2, X3 khơng cĩ quan hệ tuyến tính. Nếu X2, X3 cĩ quan hệ tuyến tính với nhau thì người ta nĩi rằng cĩ hiện tượng đa cộng tuyến (sẽ được nghiên cứu ở chương 5). Chúng ta giải thích một cách sơ lược về giả thiết này. Các giả thiết khác đã được nêu ở chương 2 đều thỏa mãn. 43
  49. Về mặt hình thức, nếu như cĩ hiện tượng cộng tuyến giữa các biến giải thích và trong mơ hình cĩ tất cả các biến này thì chúng ta khơng thể tách được ảnh hưởng của từng biến lên biến phụ thuộc Y. Thật vậy: Giả sử: X2i = 3X3i Khi đĩ: Yi = β1 + β2X2i + β3X3i + Ui = β1 + 3β2X3i + β3X3i + Ui = β1 + (3β2 + β3)X3i + Ui ’ ’ Đặt β3 = 3β2 + β3 ➔ Yi = β1 + β3 X3i + Ui Như vậy, trên thực tế ta cĩ mơ hình hai biến mà khơng phải là mơ hình ba biến. ’ ’ Ước lượng mơ hình này bằng phương pháp OLS ta tìm được β1 và β3 , β3 là ảnh hưởng ’ kết hợp của X2 và X3 lên Y. Chúng ta khơng cĩ cách nào để tách riêng trong β3 bao nhiêu là của β2. Giả thiết 4 nĩi rằng hàm PRF chỉ chứa các biến giải thích mà chúng khơng phải là hàm tuyến tính của một vài biến giải thích nào đã cĩ trong mơ hình. Ý nghĩa của các hệ số β2, β3 E(Y/X2, X3) = β1 + β2X2i + β3X3i ∂E = β2. Điều này cĩ nghĩa là khi ta giữ nguyên yếu tố X3 (X3 = constant) thì ∂X2 giá trị trung bình của biến phụ thuộc Y sẽ thay đổi (tăng hoặc giảm tùy thuộc vào dấu của β2) β2 đơn vị cho mọi đơn vị tăng của yếu tố X2. ∂E = β3. Điều này cĩ nghĩa là khi ta giữ nguyên yếu tố X2 (X2 = constant) thì ∂X2 giá trị trung bình của biến phụ thuộc Y sẽ thay đổi (tăng hoặc giảm tùy thuộc vào dấu của β3) β3 đơn vị cho mợi đơn vị tăng (giảm) của yếu tố X3. Như vậy hệ số hồi quy riêng (hệ số gĩc) phản ánh ảnh hưởng của một biến giải thích đối với giá trị trung bình của biến phụ thuộc khi giá trị của biến giải thích khác cĩ trong mơ hình là khơng đổi. 3.3. Ước lượng các tham số Để ước lượng các tham số của mơ hình: 44
  50. E(Y/X2, X3) = β1 + β2X2i + β3X3i Chúng ta sử dụng phương pháp OLS, tư tưởng chính của phương pháp này đã được trình bày ở chương 2. Giả sử chúng ta cĩ n quan sát, quan sát thứ i cĩ 3 giá trị ứng với Y, X2 và X3, ký hiệu (Y, X2, X3). Hồi quy hàm mẫu SRF được xây dựng từ n quan sát này cĩ dạng: ̂ ̂ ̂ Ŷi = β1 + β2X2i + β3X3i (3.2) ̂ Trong đĩ: βi là các ước lượng của βi (với i = 1,2,3) Khi đĩ hàm ngẫu nhiên mẫu cĩ dạng: ̂ ̂ ̂ Yi = β1 + β2X2i + β3X3i + ei; ei là phần dư ứng với quan sát thứ i. ̂ ̂ ̂ ei = Yi − Ŷi = Yi − β1 − β2X2i − β3X3i (3.3) ̂ Phương pháp OLS tính giá trị của các tham số βi sao cho: n 2 n ̂ ̂ ̂ 2 RSS = ∑i=1 ei = ∑i=1(Yi − β1 − β2X2i − β3X3i) → Min. ̂ Các tham số βi được tính từ hệ phương trình chuẩn sau đây: ̂ ̂ ̂ β1 + β2X̅̅2̅ + β3X̅̅3̅ = Y̅ ̂ n ̂ n 2 ̂ n n β1 ∑i X2i + β2 ∑i X2i + β3 ∑i X2iX3i = ∑i YiX2i ̂ n ̂ n ̂ n 2 n β1 ∑i X3i + β2 ∑i X2iX3i + β3 ∑i X3i = ∑i YiX3i Trong đĩ: ∑푛 ∑푛 ∑푛 푌 ̅̅̅ = 푖 2푖; ̅̅̅ = 푖 3푖; 푌̅ = 푖 푖 2 푛 3 푛 푛 Đặt 푖 = 푌푖 − 푌̅푖; 2푖 = 2푖 − ̅̅2̅; 3푖 = 3푖 − ̅̅3̅ Giải hệ phương trình ta được: ̂ ̂ ̂ β1 = Y̅ − β2X̅̅2̅ − β3X̅̅3̅ (3.4) 푛 푛 2 푛 푛 ̂ (∑푖=1 푖 2푖)(∑푖=1 3푖)−(∑푖=1 푖 3푖)(∑푖=1 2푖 3푖) β2 = 푛 2 푛 2 푛 2 (3.5) (∑푖=1 2푖)(∑푖=1 3푖)−(∑푖=1 2푖 3푖) 45
  51. 푛 푛 2 푛 푛 ̂ (∑푖=1 푖 3푖)(∑푖=1 2푖)−(∑푖=1 푖 2푖)(∑푖=1 2푖 3푖) β2 = 푛 2 푛 2 푛 2 (3.6) (∑푖=1 2푖)(∑푖=1 3푖)−(∑푖=1 2푖 3푖) 3.4. Phương sai của các ước lượng Phương sai và độ lệch chuẩn của các ước lượng OLS được cho bởi các cơng thức sau: n 2 2 ̂ ∑i=1 x3i 2 σ Var(β2) = n 2 n 2 n 2 σ = n 2 2 (3.7) (∑i=1 x2i)(∑i=1 x3i)−(∑i=1 x2ix3i) ∑i=1 x2i(1−r23) ̂ ̂ Se(β2) = √Var(β2) (3.8) n 2 2 ̂ ∑i=1 x2i 2 σ Var(β3) = n 2 n 2 n 2 σ = n 2 2 (3.9) (∑i=1 x2i)(∑i=1 x3i)−(∑i=1 x2ix3i) ∑i=1 x3i(1−r23) ̂ ̂ Se(β3) = √Var(β3) (3.10) 2 2 ̂ ̂ −r23σ cov(β2, β3) = (3.11) 2 n 2 n 2 (1−r23)√∑i=1 x2i ∑i=1 x3i Trong đĩ: r23 là hệ số tương quan mẫu giữa biến X2 và X3. n 2 2 (∑i=1 x2ix3i) r23 = n 2 n 2 (3.12) ∑i=1 x2i ∑i=1 x3i ̅̅̅̅2 n 2 ̅̅̅̅2 n 2 ̅̅̅̅̅̅̅̅ n ̂ 1 X2 ∑i=1 x3i+X3 ∑i=1 x2i−2X2X3 ∑i=1 x2ix3i 2 Var(β1) = [ + n 2 n 2 n 2 ] σ (3.13) n (∑i=1 x2i)(∑i=1 x3i)−(∑i=1 x2ix3i) 2 Trong các cơng thức trên σ là phương sai của Ui nhưng chưa biết, ước lượng khơng chệch của σ2 là: ∑n e2 RSS σ̂2 = i=1 i = (3.14) n−3 n−3 k=3 là số tham số của mơ hình, trong trường hợp tổng quát, nếu mơ hình cĩ k tham số (β1, β2, , βk), thì: RSS σ̂2 = (3.15) n−k 3.5. Mơ hình hồi quy k biến. Phương pháp ma trận 3.5.1. Hàm hồi quy tổng thể 46
  52. Hàm hồi qui tổng thể trong trường hợp k biến cĩ dạng : Yi = β1 + β2X2i + β3X3i + + βkXki + Ui Trong đĩ: β1 là hệ số tự do; βj (j = 1,2,3, ,k) là các hệ số hồi qui riêng. Giả sử ta cĩ n quan sát, mỗi quan sát gồm k giá trị (Yi, X2i, ., Xki) với i =1÷ n. Khi đĩ: Y1 = β1 + β2X21 + β3X31 + + βkXk1 + U1 Y2 = β1 + β2X22 + β3X32 + + βkXk2 + U2 (3.20) Yn = β1 + β2X2n + β3X3n + + βkXkn + Un Ký hiệu : Y1 U1 1 X21 X31 Xk1 Y U 1 X X X Y = [ 2] ; β = [β β β ] ; U = [ 2]; X = [ 22 32 k2 ] 1 2 k Yn Un 1 X2n X3n Xkn Khi đĩ ta cĩ : (3.20) cĩ thể viết dưới dạng ma trận như sau : Y = Xβ + U. 3.5.2. Các giả thiết Phần này sẽ nhắc lại các giả thiết mơ hình hồi quy tuyến tính cổ điển được trình bày bằng cách phát biểu bình thường và bằng ngơn ngữ ma trận. Ký hiệu : U E(U ) U2 U U U U U U 1 1 1 1 2 1 3 1 n U E(U ) 2 E(U) = E [ 2] = [ 2 ] ; UUT = U2U1 U2 U2U3 U2Un 2 Un E(Un) [UnU1 UnU2 UnU3 Un] Giả thiết 1: E(Ui) = 0 Ɐi hay E(U) = 0 0 ∀i ≠ j Giả thiết 2: E(U , U ) = { i j σ2 i = j Hay E(UU’) = σ2I (I là ma trận đơn vị cấp n) 47
  53. Giả thiết 3: X2, X3, , Xk đã được xác định hay ma trận X đã được xác định. Giả thiết 4: Khơng cĩ hiện tượng đa cộng tuyến giữa các biến giải thích hay hạng của ma trận X bằng k: R(X) = k. 2 2 Giả thiết 5: Ui~N(0, σ ) ∀i hay U~N(0, σ I) (Dùng để kiểm định giả thiết và tìm khoảng tin cậy) Giả thiết 2 cĩ thể viết đầy đủ như sau: 2 U1 U1U2 U1U3 U1Un 2 E(UUT) = E U2U1 U2 U2U3 U2Un 2 [UnU1 UnU2 UnU3 Un ] 2 E(U1 ) E(U1U2) E(U1U3) E(U1Un) 2 = E(U2U1) E(U2) E(U2U3) E(U2Un) 2 [E(UnU1) E(UnU2) E(UnU3) E(Un)] 1 0 0 0 1 0 E(UUT) = σ2 [ ] = σ2I 0 0 1 Với I là ma trận đơn vị cấp n. Ma trận (3.20) gọi là ma trận hiệp phương sai của Ui. Các phần tử trên đường chéo chính là phương sai của Ui, các phần tử ngồi đường chéo chính là hiệp phương sai. Giả thiết 4 nĩi rằng hạng của ma trận X bằng số cột của ma trận này, nghĩa là các cột của ma trận X là độc lập tuyến tính. Hay nĩi cách khác đi khơng cĩ hiện tượng cộng tuyến giữa các biến độc lập, về mặt tốn học cĩ nghĩa khơng tồn tại các số λ2, , λk trong đĩ cĩ ít nhất một λi ≠ 0 để: λ2X2i + λ3X3i + + λkXki = 0 (Ɐi = 1̅̅̅,̅n̅) 3.6. Ước lượng các tham số của mơ hình k biến Hàm hồi quy mẫu SRF cĩ dạng: ̂ ̂ ̂ Ŷi = β1 + β2X2i + ⋯ + βkXki (Dạng kỳ vọng) 48
  54. ̂ ̂ ̂ Yi = β1 + β2X2i + ⋯ + βkXki + ei (Dạng ngẫu nhiên) Hay Y = Xβ̂ + e e1 e 2 ̂ Trong đĩ: e = [ ] = Y − Xβ en Các ước lượng OLS được tìm bằng cách: n 2 n ̂ ̂ ̂ 2 ∑1 ei = ∑i=1(Yi − β1 − β2X2i − ⋯ − βkXki) → Min n 2 ∑1 ei là tổng bình phương các phần dư (RSS). T T T T Ta ký hiệu X , Y , β̂ , e tương ứng là các ma trận chuyển vị của X, Y, β̂, e. Tức là : 1 1 1 X X X XT = [ 21 22 2n] ; YT = [Y , Y , Y ] 1 2 n Xk1 Xk2 Xkn ̂T ̂ ̂ ̂ T β = [β1, β2, βk] ; e = [e1, e2, en] Khi đĩ : n T 2 ̂ T ̂ T ̂T T ̂ e e = ∑ ei = (Y − Xβ) (Y − Xβ) = (Y − β X )(Y − Xβ) i=1 = YTY − β̂TXTY − YTXβ̂ + β̂TXTXβ̂ = YTY − 2β̂TXTY + β̂TXTXβ̂ (Vì β̂TXTY = YTXβ̂) Hệ phương trình cĩ dạng : ∂(eTe) = −2XTY + 2XTXβ̂ ⇒ XTY = XTXβ̂ ∂β̂ Vậy β̂ = (XTX)−1XTY Trong đĩ ma trận (XTX) cĩ dạng như sau: 49
  55. n ∑ X2i ∑ X3i ∑ Xki 2 ∑ X2i ∑ X2i ∑ X2iX3i ∑ X2iXki (XTX) = 2 [∑ Xki ∑ XkiX2i ∑ XkiX3i ∑ Xki ] 3.7. Ma trận hiệp phương sai của các ước lượng Để kiểm tra giả thiết, tìm khoảng tin cậy, cũng như thực hiện các suy luận thống ̂ ̅̅̅̅̅ ̂ ̂ kê khác cần phải tìm Var(βi); i = 1, k và Cov(βi, βj). Phương pháp ma trận cho phép chúng ta tìm chúng một cách dễ dàng. Ma trận hiệp phương sai của β̂ Var(β̂) Cov(β̂, β̂) Cov(β̂, β̂) 1 1 2 1 k ̂ ̂ ̂ ̂ ̂ Cov(β̂) = Cov(β1, β2) Var(β2) Cov(β1, βk) ̂ ̂ ̂ ̂ ̂ [Cov(βk, β1) Cov(βk, β2) Var(βk)] Để tìm Cov(β̂) ta áp dụng cơng thức: β̂ = σ2(XTX)−1 Trong cơng thức trên (XTX)−1 là ma trận nghịch đảo của ma trận (XTX), σ2 là 2 Var(Ui), nhưng chưa biết nên ta phải dùng ước lượng khơng chệch của σ là: ∑푛 푒2 𝜎̂2 = 푖=1 푖 (푛 − ) 3.8. Tính chất của các ước lượng bình phương nhỏ nhất Trong mơ hình hồi quy bội các ước lượng OLS cĩ các tính chất giống như trong mơ hình hồi quy hai biến. ở đây chỉ nêu ra các tính chất. (1) Đường hồi quy bội đi qua điểm trung bình của quan sát (Y̅). (2) Ŷ̅ = Y̅ n (3) ∑i=1 ei = 0 (4) Các phần dư ei khơng tương quan với các biến độc lập, nghĩa là: 50
  56. n ̅̅̅̅̅ ̅̅̅̅̅ ∑i=1 eiXji = 0 (Với i = 1, n và j = 1, k) ̂ n ̂ (5) Các phần dư ei khơng tương quan với Yi: ∑i=1 eiYi = 0 ̂ ̂ (6) Từ cơng thức tính se(β2) và se(β3) ta thấy rằng nếu như giữa X2 và X3 cĩ ̂ ̂ quan hệ tuyến tính chặt chẽ, r23 ≈ ±1 thì Var(β2) và Var(β3) rất lớn. Do đĩ sẽ khĩ khăn trong việc đốn nhận giá trị thực của β2 và β3. Vấn đề này sẽ được giải quyết đầy đủ hơn ở chương 6. ̂ ̂ 2 (7) Từ cơng thức xác định Var(β2) và Var(β3), ta thấy chúng tỷ lệ thuận với σ n 2 n 2 và r23, tỷ lệ nghịch với ∑i=1 x2i ∑i=1 x3i. Như vậy, sự biến thiên của Xji càng lớn thì ̂ Var(βj) càng nhỏ, hay βj được ước lượng càng chính xác. ̂ (8) βj là các ước lượng tuyến tính, khơng chệch và cĩ phương sai nhỏ nhất trong lớp các ước lượng tuyến tính khơng chệch của βj. 3.9. Hệ số xác định bội và hệ số xác định bội đã hiệu chỉnh Trong mơ hình hồi quy hai biến, r2 đo độ thích hợp của hàm hồi quy. Nĩ chính là tỷ lệ của tồn bộ sự biến đổi của biến phụ thuộc Y do biến giải thích X gây ra. Trong mơ hình hồi quy bội tỷ lệ của tồn bộ sự khác biệt của biến Y do X2, X3 gây ra được gọi là hệ số xác định bội, ký hiệu R2. ̂ n ̂ n n 2 2 ESS β2 ∑i=1 yix2i+β3 ∑i=1 yix3i ∑i=1 ei R = = n 2 = 1 − n 2 (3.16) TSS ∑i=1 yi ∑i=1 yi 0 ≤ R2 ≤ 1. Nếu R2 = 1, nghĩa là đường hồi quy giải thích 100% sự thay đổi của Y. Nếu R2 = 0, cĩ nghĩa là mơ hình khơng giải thích sự thay đổi nào của Y Một tính chất quan trọng của R2 là: nĩ là hàm khơng giảm của số biến giải thích n 2 n ̅ 2 cĩ trong mơ hình. Đễ dàng thấy rằng ∑i=1 yi = ∑i=1(Yi − Y) khơng phụ thuộc vào số n 2 biến giải thích trong mơ hình, nhưng ∑i=1 ei là hàm giảm của số này. Do đĩ, nếu tăng số biến giải thích trong mơ hình thì R2 cũng tăng. Vấn đề đặt ra là khi nào thì đưa thêm biến giải thích mới vào mơ hình? Khơng thể dùng R2 làm tiêu chuẩn để xem xét việc đưa hay khơng đưa thêm một 2 n ̅ 2 biến giải thích vào mơ hình. Bởi vì R cịn phụ thuộc vào số bậc tự do của ∑i=1(Yi − Y) 51
  57. n ̂̅ 2 và ∑i=1(Yi − Y) tương ứng là (n-k) và (n-1). Trong đĩ k là số tham số (kể cả hệ số chặn) của mơ hình. Để so sánh hai mơ hình cĩ cùng biến phụ thuộc chỉ khác nhau số biến độc lập, người ta sử dụng hệ số xác định bội đã điều chỉnh R̅2 để cân nhắc khi xem xét việc thêm biến giải thích mới vào mơ hình. n 2 2 ̅2 ∑i=1ei ⁄(n−k) σ̂ 2 n−1 R = 1 − n 2 = 1 − 2 = 1 − (1 − R ) (3.17) ∑i=1yi ⁄(n−1) yy n−k R̅2 cĩ các tính chất sau: - Nếu k > 1, R̅2 ≤ R2 ≤ 1, điều này cĩ nghĩa là nếu số biến giải thích tăng lên thì R̅2 tăng chậm hơn so với R2. - R2 ≥ 0, nhưng R̅2 cĩ thể âm. Như vậy khi R̅2 cịn tăng thì việc đưa thêm biến vào mơ hình là hợp lý. Tuy nhiên cịn phải kiểm định hệ số hồi quy tương ứng với biến mới đưa vào cĩ thực sự khác 0 hay khơng. Trong thực tế, ta nên dùng hệ số xác định nào? Như Theil lưu ý, dùng R̅2 tốt hơn R2 bởi vì R2 cĩ khuynh hướng cho ra một bức tranh quá lạc quan về độ thích hợp của hồi quy. Đặc biệt là khi số lượng các biến giải thích khơng quá nhỏ so với số lượng các lần quan sát. Trong các phần mềm kinh tế lượng đều đưa ra đồng thời cả hai hệ số. 3.10. Ma trận tương quan Giả sử ta cĩ mơ hình hồi quy bội: Yi =β1+β2X2i +β3X3i + +βkXki +Ui Ký hiệu rtj là hệ số tương quan giữa biến thứ t và thứ j. Nếu t = 1thì r1j là hệ số tương quan giữa các biến Y và biến Xj. n 2 n 2 ∑i=1(yixji) ∑i=1(xtjxji) r1j = n 2 n 2 ; rtj = n 2 n 2 ∑i=1 yi ∑i=1 xji ∑i=1 xtj ∑i=1 xji Trong đĩ: xji = Xji − X̅j Dễ dàng nhận thấy rằng: rti = rjt; rjj = 1 52
  58. r11r12r13 r1k 1 r12r13 r1k r21r22r23 r2k r21 1 r23 r2k R = = [rk1rk2rk3 rkk] [ rk1rk2rk3 1 ] 3.11. Hệ số tương quan riêng phần Ta đã biết hệ số tương quan r đo mức độ phụ thuộc tuyến tính giữa hai biến. đối với mơ hình hồi quy 3 biến: Yi = β1 + β2X2i + β3X3i + Ui Ta định nghĩa: r12,3 là hệ số tương quan giữa biến Y và X2 trong khi X3 khơng đổi. r13,2 là hệ số tương quan riêng giữa biến Y và X3 trong khi X2 khơng đổi. r23,1 là hệ số tương quan riêng giữa X2 và x3 trong khi Y khơng đổi. Ta cĩ thể chứng minh các cơng thức sau: r12−r13r23 r12,3 = ; 2 2 √(1−r13)(1−r23) r12−r13r23 r12,3 = ; 2 2 √(1−r13)(1−r23) r12−r13r23 r12,3 = 2 2 √(1−r13)(1−r23) Hệ số tương quan riêng đã được định nghĩa như trên được gọi là hệ số tương quan bậc nhất. Từ “bậc” ở đây ngụ ý chỉ số hạng sau dấu phẩy vì thế r12,34 là hệ số tương quan riêng bậc 2; cịn r12, r13 là các hệ số tương quan bậc khơng. Giữa hệ số xác định bội và các hệ số tương quan bậc khơng và hệ số tương quan bậc nhất cĩ các mối liên hệ sau: 2 2 2 r12+r13−2r12r13r23 R = 2 ; 1−r23 2 2 2 2 R = r12 + (1 − r12)r13,2; 2 2 2 2 R = r13 + (1 − r13)r12,3 53
  59. Ma trận R nĩi ở trên được gọi là ma trận hệ số tương quan riêng cấp 0. 3.12. Khoảng tin cậy và kiểm định giả thiết Với giả thiết U ~ N(0, σ2) ta cĩ thể kiểm định giả thiết, tìm khoảng tin cậy cho các hệ số hồi quy riêng. β̂~N(β, σ2(XTX)−1) ̂ 2 Thành phần βicĩ phân phối chuẩn với kỳ vọng βi và phương sai bằng σ nhân với phần tử nằm trên dịng thứ i và cột i của ma trận (XTX)-1 hay chính là phần tử thứ i trên đường chéo chính của ma trận Cov(β̂) Tuy nhiên do σ2 chưa biết, nên ta phải dùng ước lượng khơng chệch của σ2 là: ∑n e2 σ̂2 = i=1 i n − k β̂−β Khi đĩ t = i i cĩ phân bố t(n-k). Với tiêu chuẩn này cĩ thể tìm khoảng tin cậy, se(β̂i) kiểm định giả thiết về các hệ số hồi quy riêng. Khoảng tin cậy với hệ số tin cậy 1-α của βi được xác định: β̂ − β P (−t (n − k) tα⁄2(n − k) ∗ ∗ Bên trái βi ≥ βi βi βi t > tα⁄2(n − k) ∗ Nếu βi = 0 , chúng ta muốn kiểm định biến độc lập X, khơng ảnh hưởng đến biến phụ thuộc. 54
  60. 3.13. Kiểm định sự phù hợp của hàm hồi quy 2 H0: β2 = β3 = = βk, hay R = 0 2 H1: Khơng phải tất cả các hệ số hồi quy riêng đồng thời bằng 0, hay R > 0 ESS⁄(k−1) Đại lượng ngẫu nhiên F = tuân theo phân phối F với k-1 và n-k bậc tự RSS⁄(n−k) do. Ta cĩ: ESS⁄(k − 1) (n − k)ESS n − k ESS n − k ESS/TSS F = = = × = × RSS⁄(n − k) (k − 1)RSS k − 1 TSS − ESS k − 1 1 − ESS/TSS n − k R2 R2/(k − 1) = × = k − 1 1 − R2 (1 − R2)/(n − k) Như vậy giữa F và R2 cĩ liên quan với nhau. R2 càng lớn thì F càng lớn. Khi R2 2 = 0 thì F = 0. Khi R = 1thì F vơ hạn. Do vậy việc kiểm định giả thiết H0: β2 = β3 2 = = βk = 0 cũng là kiểm định giả thiết cho rằng R (trong tổng thể) bằng 0. Để kiểm định giả thiết trên, ta áp dụng qui tắc kiểm định sau đây: R2/(k−1) - Tính F theo cơng thức: F = (1−R2)/(n−k) - Với mức ý nghĩa α, tra bảng phân phối Fisher-Snedecor với bậc tự do n1 = (k- 1) và n2 = (n-k) để tìm giá trị Fα(k-1; n-k). Trong đĩ n là số quan sát, k là số biến trong mơ hình hồi quy (kể cả biến phụ thuộc). Fα(k-1;n-k) là giá trị thoả mãn điều kiện: P[F > Fα(k − 1, n − k)] = α - Nếu F > Fα(k-1; n-k) thì ta bác bỏ giả thiết H0, tức là các hệ số hồi quy khơng 2 đồng thời bằng 0 (hay R ≠ 0 cĩ ý nghĩa). Ngược lại, nếu F < Fα(k-1;n-k) thì ta khơng bác 2 bỏ giả thiết H0, tức là các hệ số hồi quy đồng thời bằng 0 (hay R = 0 cĩ ý nghĩa). 3.14. Hồi quy cĩ điều kiện ràng buộc - Kiểm định thu hẹp hàm hồi quy Giả sử chúng ta cĩ hàm hồi quy: (U) Y = β1 + β2 X2i + β3 X3i + + βm Xmi + βm+1 X(m+1)i + + βki Xki + Ui (R) Y = β1 + β2 X2i + β3 X3i + + βm Xmi + Vi 55
  61. Trong đĩ (U) là mơ hình khơng giới hạn và (R) là mơ hình giới hạn. Bây giờ ta kiểm định giả thiết: H0: βm+1 = βm+2 = = βk = 0 Mơ hình (U) chứa k hệ số hồi quy chưa biết và mơ hình (R) chứa m hệ số hồi quy chưa biết. Do đĩ mơ hình (R) cĩ ít hơn k – m thơng số so với (U). Câu hỏi chúng ta sẽ nêu ra là k – m biến bị loại cĩ ảnh hưởng liên kết cĩ ý nghĩa đối với Y hay khơng? Giả sử, những biến bị loại này khơng cĩ ảnh hưởng cĩ ý nghĩa đối với Y, chúng ta sẽ khơng kỳ vọng tổng bình phương sai số của mơ hình (R) (RSSR) quá khác biệt với tổng bình phương sai số của mơ hình (U) (RSSU). Nĩi cách khác, sai biệt RSSR – RSSU cĩ vẻ rất nhỏ. Nhưng giá trị này nhỏ như thế nào? Chúng ta biết RSS rất nhạy với đơn vị đo lường, vì vậy cĩ thể làm cho giá trị này lơn hơn hay nhỏ hơn chỉ đơn giản bằng cách thay đổi thang đo. “Nhỏ” hoặc “lớn” được xác định bằng cách so sánh sai biệt trên RSSU, tổng bình phương sai số của mơ hình khơng giới hạn (U). Nếu giá trị đầu “nhỏ” tương đối so với giá trị sau, chúng ta kết luận là việc loại bỏ các biến Xm+1, Xm+2,. , Xk khơng thay đổi RSS đủ cĩ thể tin là các hệ số của chúng cĩ ý nghĩa. Ta đã biết là các tổng bình phương độc lập cĩ phân phối khi bình phương (χ2) . 2 Vì vậy, RSSU/σ là phân phối khi bình phương với n – k bậc tự do. Cĩ thể thấy trong 2 giả thiết H0 là vì tính chất cộng của khi bình phương, (RSSR – RSSU)/σ cũng là phân phối khi bình phương với bậc tự do bằng số biến số loại bỏ trong (R). Chúng ta thấy, tỷ số của hai phân bố khi bình phương độc lập cĩ phân phối F cĩ hai thơng số: bậc tự do cho tử số của tỷ số, bậc tự do cho mẫu số. Trị thống kê sẽ căn cứ trên trị số F. Các bước thơng thường để kiểm định F (kiểm định Wald) như sau: Bước 1: Giả thiết H0: βm+1 = βm+2 = = βk = 0, giả thiết đối là H1: cĩ ít nhất một trong những giá trị β khơng bằng khơng. Giả thiết H0 cĩ k – m ràng buộc. Bước 2: Trước tiên hồi quy Y cĩ hệ số chặn theo X2, X3,. , Xk và tính tổng bình phương sai số RSSU. Tiếp đến hồi quy Y cĩ hệ số chặn, theo X2, X3,. , Xmvà tính tổng bình phương sai số RSSR. 56
  62. 2 Ta đã biết là RSSU/σ tuân theo phân phối khi bình phương với bậc tự do df = n 2 – k. Tương tự với giả thiết H0: RSSR/σ tuân theo phân phối khi bình phương với bậc tự do df = n – m. Cĩ thể thấy là chúng độc lập và với tính chất cộng được của phân phối 2 khi bình phương, sai biệt của chúng là (RSSU - RSSR)/σ cũng là phân phối khi bình phương với bậc tự do bằng sai biệt về bậc tự do, nghĩa là dfR – dfU. Lưu ý là dfR – dfU cũng bằng k – m, là số ràng buộc trong giả thiết H0. Chúng ta đã định nghĩa phân phối F là tỷ số của hai biến ngẫu nhiên phân phối khi bình phương độc lập. Điều này cho ta trị thống kê: 2 2 (RSSR−RSSU)/(dfR−dfU) (RSSR−RSSU)/(k−m) (RU−RR)/(k−m) Fc = = = 2 (a) RSSU/dfU RSSU/(n−k) (1−RU)/(n−k) Với R2 lệ số xác định chưa điều chỉnh. Chia cho bậc tự do ta được tổng bình phương trên một bậc tự do. Với giả thiết H0, Fc cĩ phân phối F với k – m bậc tự do đối với tử số và n – k bậc tự do đối với mẫu số. Bước 3: Từ số liệu trong bảng F tương ứng với bậc tự do k – m cho tử số và n – k cho mẫu số và với mức ý nghĩa cho trước, ta cĩ Fα;k-m,n-k sao cho diện tích bên phải của Fα;k-m,n-k là α. Bước 4: Bác bỏ giả thiết H0 ở mức ý nghĩa α nếu Fc > Fα;k-m,n-k. Đối với phương pháp giá trị p, tính giá trị p = P(F >Fc│H0) và bác bỏ giả thiết H0 nếu giá trị p nhỏ hơn mức ý nghĩa α. Hãy xem xét một trường hợp đặc biệt của kiểm định Wald trong hai mơ hình sau: (U) Y = β1 + β2X2 + β3X3 + + βkXk + U (SR) Y = β1 + V Mơ hình (U) là mơ hình hồi quy bội với β1 là số hạng chặn. Trong mơ hình (SR), tất cả các biến ngoại trừ số hạng chặn bị loại bỏ khỏi mơ hình. Chúng ta đặt k – 1 ràng buộc β2 = β3 = = βk = 0. Giả thiết này nghĩa là: khơng cĩ một hệ số nào trong mơ hình (trừ hệ số chặn) cĩ ý nghĩa thống kê. Cĩ thể thực hiện kiểm định Wald cho giả thuyết này. Nếu giả thuyết khơng bị bác bỏ, chúng ta kết luận là khơng cĩ biến nào cĩ thể giải thích một cách liên kết thay đổi của Y. Điều này cĩ nghĩa là chung ta cĩ một mơ hình xấu và phải thiết lập 57
  63. lại mơ hình này. RSSU là tổng bình phương sai số của mơ hình đầy đủ. Để vcos RSSSR, 2 ̂ trước hết chúng ta cực tiểu ∑Vt = ∑(Yt – β1) . Dễ dàng chứng minh được là: β1 = Y. Do đĩ, ta cĩ: 2 RSSSR = ∑(Yt - Y ) giống như tổng bình phương tồn phần (TSSU) của mơ hình (U) (đây cũng là tổng bình phương của mơ hình (SR)). Trị thống kê F trở thành: 2 (TSSR−RSSU)/(k−1) ESSU/(k−1) R /(k−1) Fc = = = 2 (b) RSSU/(n−k) RSSU/(n−k) (1−R )/(n−k) Giá trị này cĩ thể được tính từ R2 chưa điều chỉnh của mơ hình đầy đủ. Các chương trình hồi quy đều cung cấp trị thống kê F này trong phần tĩm tắt thống kê của mơ hình. Nhiệm vụ đầu tiên là phải đảm bảo rằng giả thiết H0 của kiểm định F này bị bác bỏ, nghĩa là Fc > Fα;k-1,n-k. Nếu khơng, chúng ta cĩ một mơ hình trong đĩ khơng cĩ biến độc lập nào giải thích được những thay đổi trong biến phụ thuộc, vì vậy, mơ hình cần được thiết lập lại. Cĩ sự khác biệt giữa hai loại kiểm định F cần được lưu ý. Cơng thức (b) khơng thể ứng dụng chỉ khi một số ít các biến bị loại bỏ. Nĩ cĩ thể ứng dụng được khi mơ hình giớ hạn chỉ cĩ một số hạng chặn. Trị thống kê F in từ chương trình máy tính kiểm định tính thích hợp chung, trong khi trị thống kê F ở cơng thức (a) dùng để kiểm định xem một nhĩm các hệ số cĩ khác khơng một cách cĩ ý nghĩa thống kê hay khơng. Cũng cần lưu ý, kiểm định F luơn là kiểm định một phía. Tính trị thống kê F khi mơ hình khơng cĩ số hạng chặn: Trong phần trên chúng ta đã nĩi về các sai biệt của các số đo R2 giữa hai mơ hình, một mơ hình cĩ số hạng chặn và mơ hình thứ hai khơng cĩ số hạng chặn và lập luận rằng cĩ thể sử dụng cùng một cơng thức cho cả hai trường hợp để so sánh mức độ thích hợp tương đối của chúng. Tuy nhiên khi tính tỷ số F cơng thức được sử dụng sẽ khác. Để giải thích vì sao lại như vậy, chúng ta sẽ xem xét hai mơ hình sau: (A) Y = β2X2 + β3X3 + + βkXk + U (B) Y = w Với số hạng chặn bị loại bỏ. Lưu ý mơ hình khơng giới hạn bây giờ chỉ cĩ k – 1 thơng số (cĩ nghĩa số bậc tự do là n – k + 1) và mơ hình giới hạn (B) khơng cĩ thơng số 58
  64. nào. Để kiểm định độ thích hợp chung của mơ hình, giả thuyết khơng lại là: H0: β2 = β3 = = βk = 0 và giả thuyết đối tương tự như trước. Kiểm định Wald cũng cĩ thể áp 2 dụng ở đây và cơng thức thích hợp là cơng thức (a). Đặt RSSA = ∑ et là tổng bình phương sai số của mơ hình (A). Trong mơ hình (B) tổng bình phương sai số sẽ là RSSB 2 = ∑ Yt . Giá trị F được tính bởi : 2 2 2 (RSSB−RSSA)/(k−1) (∑ Yt −∑ et )/(k−1) ∑ Ŷt /(k−1) Fc = = = (c) RSSA/(n−k+1) RSSA/(n−k) RSSA/(n−k) Bởi vì khai triển ∑ Y2 = ∑ Ŷ + ∑ e2 trong đĩ khơng cĩ số hạng chặn. Với giả thiết khơng, tổng này cĩ phân phối F với k – 1 và n – k + 1 bậc tự do. Tiêu chuẩn để chấp nhận/ bác bỏ H0 cũng tương tự. Giá trị thống kê F đại diện cho mơ hình (B) kiểm định giả thuyết là số hạng chặn bằng khơng. Vì chỉ cĩ một hệ số sẽ bị loại khỏi đây, giá trị F là bình phương của trị thống kê t. Lưu ý cơng thức (c) được dùng để kiểm định độ thích hợp chung hồn tồn khác với cơng thức (b). 3.15. Dự báo Chúng ta cĩ thể sử dụng mơ hình hồi quy vào dự báo: dự báo giá trị trung bình và dự báo giá trị cá biệt. 1 0 X2 0 X3 0 0 Cho X = . . Dự báo giá trị trung bình: E(Y|X ). . . 0 [Xk] ̂ ̂ ̂ T ̂ Ŷ = β1 + β2X2i + ⋯ + βkXki = X β Với X = X0 ta cĩ : 0 0T ̂ 0 0T ̂ 0 (Ŷ0/X ) = X β ➔var(Ŷ0⁄X ) = X var(β)X ̂ 0 2 0T T −1 0 ̂ 2 T −1 var(Y0⁄Xi ) = σ X (X X) X vì var(β) = σ (X X) Nhưng 𝜎2 chưa biết nên phải dùng ước lượng khơng chệch là 𝜎̂2 của nĩ: ̂ 0 2 0T T −1 0 var(Y0⁄Xi ) = σ̂ X (X X) X 59
  65. ̂ 0 2 0T T −1 0 se(Y0⁄Xi ) = √σ̂ X (X X) X ̂ ̂ 0 0 ̂ ̂ 0 Y0 − tα/2(n−k)se(Y0⁄Xi ) ≤ E(Y/X ) ≤ Y0 + tα/2(n−k)se(Y0⁄Xi ) Dự báo giá trị cá biệt: T ̂ 0 0T ̂ 2 Yi = X β + ei ⇒ Var(Y0/X ) = Var(X β) + σ 0 2 0T T −1 0 Var(Y0/X ) = σ̂ [1 + X (X X) X ] 0 2 0T T −1 0 Se(Y0/X ) = √σ̂ [1 + X (X X) X ] 0 0 0 Ŷ0 − t α se(Y0⁄X ) ≤ (Y0/X ) ≤ Ŷ0 + tα/2(n−k)se(Y0⁄X ) 2(n−k) Với việc trình bày mơ hình hồi quy bằng ngơn ngữ ma trận đã cung cấp cho chúng ta một cơng nghệ mà nhờ đĩ cĩ thể sử dụng kỹ thuật tính tốn, tự động hố tồn bộ quá trình tính tốn, phân tích và dự báo. Mơ hình hồi quy nhiều biến được giải một cách nhanh chĩng nhờ phần mềm Eview, MFIT hoặc phần mềm Stata. 3.16. Một số dạng của hàm hồi quy 3.16.1. Hàm cĩ hệ số co giãn khơng đổi – Hàm Cobb-Douglas β2 Hàm Cobb-Douglas cĩ dạng: Y = β1X Hàm này là hàm phi tuyến đối với X và phi tuyến đối với tham số β2. Tuy nhiên cĩ thể biến đổi về dạng tuyến tính đối với tham số. Lấy ln hai vế, ta cĩ: LnY = lnβ1 + β2lnX Đặt: β1’ = lnβ1; Y’ = lnY ; X’ = lnX Ta cĩ : Y’ = β1’ + β2lnX’ Đây là mơ hình giản đơn mà ta đã biết. Ta cĩ thể minh hoạ hàm ban đầu và hàm sau khi biến đổi bằng đồ thị: 60
  66. Hình 3.1 Hình 3.2 Hàm Cobb-Douglas cĩ thể mở rộng cho trường hợp cĩ nhiều biến giải thích: β2 β3 βm Y = β1X2 X3 Xm Bằng phép biến đổi, ta cĩ: LnY = lnβ1 + β2lnX2 + β3lnX3 + + βmlnXm Chúng ta dễ dàng cĩ hàm tuyến tính đối với các tham số. Trong hàm Cobb- Douglas, hệ số co dãn của Y đối với Xi bằng βi. 3.16.2. Hàm tăng trưởng t Cĩ dạng: Yt = β(1+r) Trong đĩ t là biến thời gian. Hàm này thường dùng để đo sự tăng trưởng của yếu tố Yt theo thời gian, r là tỷ t lệ tăng trưởng. Ở năm (thời kỳ) t = 0, ta cĩ Y0 = β, do đĩ Yt = Y0 (1+r) Biến đổi hàm về dạng tuyến tính đối với tham số: LnYt = lnY0 + tln(1+r). ' Đặt: Y = lnY ; β0 = lnY0 ; β1 =ln(1+r) ' Khi đĩ: Y = β0 + β1t Dễ dàng ước lượng được hàm này và từ đĩ tìm được Y0 và r. 3.16.3. Hàm dạng Hypecbol: 61
  67. β Cĩ dạng: Y = β + 2 1 X Hàm này là phi tuyến đối với X, nhưng tuyến tính đối với các tham số. Sau đây là một số trường hợp quan trọng của hàm này: - β1, β2 > 0, khi đĩ đồ thị cĩ dạng hình 3.3: Trong trương hợp này cĩ mức tiệm cận dưới, dù cĩ tăng đến đâu. Y khơng thể nhỏ hơn β1. Hàm này thường được dùng khi phân tích chi phí trung bình để sản xuất ra một đơn vị sản phẩm. - β1> 0; = β2 0 khi đĩ đồ thị cĩ dạng hình 3.5. Đây là đường cong Phillips 62
  68. Y Hình 3.3 X Y Hình 3.4 X Y Hình 3.5 X 3.16.4. Hàm cĩ dạng đa thức 2 Y = β0 + β1X + β2 X - Mơ hình đa thức bậc 2 2 3 Y = β0 + β1X + β2 X + β3X - Mơ hình đa thức bậc 3 2 k Y = β0 + β1X + β2 X + + βk X - Mơ hình đa thức bậc k Hàm này thường được sử dụng để nghiên cứu quan hệ giữa chi phí và số lượng sản phẩm được sản xuất ra trong một thời kỳ nhất định. Chẳng hạn Y – tổng chi phí; X- Số sản phẩm. Nếu như xây dựng được hàm này thì ta dễ dàng tìm được chi phí trung bình và chi phí biên. 63
  69. Y Y TC MC AC X X Hình 3.6 Hình 3.7 TC: Tổng chi phí; MC: Chi phí biên; AC: Chi phí trung bình. Trên đây là một số dạng của mơ hình hồi quy. Tất nhiên cịn rất nhiều dạng khác. Trong thực tế để vận dụng mơ hình này hay mơ hình khác trước hết phải hiểu được quan hệ giữa các biến, tính chất của mơ hình (các dạng hàm) muốn vận dụng. 64
  70. Chương 4: HỒI QUY VỚI BIẾN GIẢ 4.1. Bản chất của biến giả Trong các mơ hình hồi quy tuyến tính mà chúng ta đã xem xét ở các chương trước thì các biến giải thích đều là các biến định lượng. Các biến đĩ cĩ thể nhận gía trị bằng số. Chẳng hạn tiền lương của cán bộ, doanh số bán ra của một cửa hàng, chi tiêu cho quảng cáo, lượng cung tiền, là những biến định lượng. Nhưng trong thực tế cĩ nhiều trường hợp các biến giải thích (hoặc thậm chí cả biến phụ thuộc) là biến chất lượng (biến định tính). Trong chương này chúng ta sẽ nghiên cứu hồi quy khi biến giải thích là biến định tính. Biến chất lượng như đã nĩi ở trên thường chỉ ra cĩ hoặc khơng cĩ một thuộc tính nào đĩ, chẳng hạn như nam hay nữ; khu vực tư nhân hay nhà nước, vấn đề đặt ra là làm thế nào để lượng hĩa được những thuộc tính như vậy. Trong phân tích hồi quy người ta sử dụng kỹ thuật gọi là kỹ thuật biến giả. Kỹ thuật này cho phép ta lượng hĩa được những thuộc tính như vậy. Chẳng hạn để giải thích cho việc một số thanh niên vào trường đại học, một số khác thì khơng, chúng ta tạo ra biến giả mà nhận gía trị là 1 nếu thanh niên vào đại học và nhận gía trị là 0 nếu thanh niên đĩ khơng vào đại học. Chúng ta cũng sẽ chỉ ra biến giả cĩ thể được sử dụng như thế nào trong phạm vi hồi quy để giải thích cho sự kiện là cĩ những quan sát trong phạm trù (thuộc tính) đã cho gắn với một tập các tham số hồi quy cịn các quan sát khác trong phạm trù thứ 2 (hoặc thứ 3) lại gắn với những tham số hồi quy khác. Biến giả được sử dụng trong mơ hình hồi quy giống như biến định lượng thơng thường. Giả sử một cơng ty sử dụng hai quá trình sản xuất (ký hiệu quá trình sản xuất A và quá trình sản xuất B) để sản xuất ra một loại sản phẩm. Giả sử sản phẩm thu được từ mỗi một quá trình sản xuất là đại lượng ngẫu nhiên cĩ phân phối chuẩn và cĩ kỳ vọng khác nhau nhưng phương sai như nhau. Chúng ta cĩ thể biểu thị quá trình sản xuất đĩ như một phương trình hồi quy Yi = β1 + β2Di + Ui (4.1) Trong đĩ: Yi là sản lượng sản phẩm gắn với quá trình thứ i 65
  71. Di là biến giả nhận một trong hai giá trị: 1 Nếu sản lượng sản phẩm thu được từ quá trình sản xuất A D = { i 0 Nếu sản lượng sản phẩm thu được từ quá trình sản xuất B Mơ hình hồi quy trên đây giống như mơ hình hồi quy 2 biến mà chúng ta đã gặp trước đây chỉ khác là biến số lượng X được thay bằng biến giả D. Căn cứ vào mơ hình này chúng ta cĩ thể biết được sản lượng trung bình do quá trình sản xuất A cĩ khác với sản lượng trung bình do quá trình sản xuất B tạo ra hay khơng? Hệ số chặn β1 của hồi quy tuyến tính đo sản lượng trung bình gắn với quá trình sản xuất B, trong khi đĩ độ dốc β2 của đường hồi quy đo sự khác nhau về sản lượng sinh ra do việc thay đổi từ quá trình sản xuất B đến quá trình sản xuất A. Điều này cĩ thể thấy bằng 2 cách lấy giá trị kỳ vọng cả 2 vế của phương trình (4.1) ứng với Di = 0 và Di = 1: (푌푖| 푖 = 0) = 훽1 (푌푖| 푖 = 1) = 훽1 + 훽2 4.2. Lập biến giả Thủ tục biến giả cĩ thể dễ dàng mở rộng cho trường hợp cĩ nhiều hơn 2 phạm trù. Chẳng hạn trong thí dụ ở trên ta giả thiết cĩ 3 quá trình sản xuất khác nhau cĩ thể sử dụng để sản xuất ra sản phẩm và người ta hy vọng giải thích cho vấn đề là sản lượng được sản xuất ra cho mỗi quá trình cĩ thể khơng như nhau. Trong trường hợp này ta sẽ đưa vào 2 biến giả là D1 và D2. Chúng ta sẽ xét mơ hình: Yi = β1 + β2D1i + β3D2i + Ui (4.2) Trong đĩ: 1 nếu sản lượng sản phẩm thu được từ quá trình sản xuất A D = { 1 0 nếu sản lượng sản phẩm thu được từ quá trình khác 1 nếu sản lượng sản phẩm thu được từ quá trình sản xuất B D = { 2 0 nếu sản lượng sản phẩm thu được từ quá trình khác Như vậy 3 quá trình sản xuất này được biểu thị dưới dạng các kết hợp sau của các giá trị biến giả: 66
  72. Quá trình sản xuất D1 D2 A 1 0 B 0 1 C 0 0 Bằng việc lấy kỳ vọng cho mỗi một trong 3 trường hợp này chúng ta cĩ thể giải thích kết quả hồi quy: (푌푖| 1 = 1; 2 = 0) = 훽1 + 훽2 (푌푖| 1 = 0; 2 = 1) = 훽1 + 훽3 (푌푖| 1 = 0; 2 = 0) = 훽1 Hệ số chặn của hồi quy biểu thị giá trị kỳ vọng của sản lượng do quá trình sản xuất C tạo ra. Hệ số gĩc thứ nhất do sự thay đổi trung bình về sản lượng do việc chuyển từ quá trình sản xuất C sang quá trình sản xuất A và hệ số gĩc thứ 2 tức là β3 do thay đổi trung bình về sản lượng khi thay đổi từ quá trình sản xuất C sang quá trình sản xuất B. Kiểm định giả thuyết H0 : β2 = 0 cĩ nghĩa là khơng cĩ số khác nhau giữa quá trình sản xuất A và quá trình sản xuất C. Giả thuyết H0 : β3 = 0 cũng cĩ ý nghĩa tương tự nhưng lại so sánh 2 quá trình sản xuất B và C. 4.3. Mơ hình hồi quy cĩ chứa biến giả 4.3.1. Hồi quy với một biến lượng và một biến chất 4.3.1.1. Trường hợp khi biến chất chỉ cĩ hai phạm trù Trong trường hợp này, mơ hình hồi quy sẽ đơn giản vì theo chú ý ở trên khi biến chất cĩ 2 phạm trù thì chỉ cần đặt 1 biến giả là đủ. Thí dụ ta xét mơ hình sau: Yi = β1 +β2Di + β3Xi + Ui (4.3) Trong đĩ : Yi : là tiền lương hàng tháng của một cơng nhân cơ khí i Xi : là bậc thợ của cơng nhân i , Di = 1 nếu cơng nhân i làm việc trong khu vực tư nhân Di = 0 nếu cơng nhân i làm việc trong khu vực quốc doanh. 67