Bài giảng Toán cao cấp 1 - Chương 5c: Hồi quy và tương quan

pdf 15 trang Hùng Dũng 05/01/2024 230
Bạn đang xem tài liệu "Bài giảng Toán cao cấp 1 - Chương 5c: Hồi quy và tương quan", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfbai_giang_toan_cao_cap_1_chuong_5c_hoi_quy_va_tuong_quan.pdf

Nội dung text: Bài giảng Toán cao cấp 1 - Chương 5c: Hồi quy và tương quan

  1. 19/10/2017 CHƯƠNG 5C Tương quan • Hai biến được nói là có tương quan nếu chúng có quan hệ với nhau, chính xác hơn, sự thay đổi của biến này có ảnh hưởng đến thay đổi của HỒI QUI VÀ TƯƠNG biến còn lại. • Ký hiệu (x,y) là cặp giá trị quan sát được của hai QUAN biến X, Y. • Ta có thể vẽ đồ thị của các quan sát thông qua biểu đồ phân tán (scatter diagram) Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Ví dụ Biểu đồ phân tán • Một công ty nghiên cứu ảnh hưởng của quảng cáo tới • Biến độc lập: doanh số bán hàng. Dữ liệu quảng cáo và doanh thu chi phí quảng từng tháng được thu thập như sau: cáo Chi phí quảng cáo 1,3 0,9 1,8 2,1 1,5 • Biến phụ thuộc: doanh số bán Tổng doanh số 151,6 100,1 199,3 221,2 170,0 hàng tháng tới • Hãy vẽ biểu đồ phân tán. Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Hệ số tương quan Pearson Hệ số tương quan Pearson n n • Ký hiệu: r hay rX,Y • Ký hiệu: r hay rX,Y  xi x y i y  xi x y i y i 1 i 1 • Công thức: rXY, • Công thức: rXY, n2 n 2 n2 n 2  xi x .  y i y  xi x .  y i y i 1 i 1 i 1 i 1 • Trong đó n là số lượng quan sát • Trong đó n là số lượng quan sát n  xi x y i y cov x , y i 1 rXY, ; cov x , y n xy x. y xy x. y .  n 1    X Y rXY, 22 2 2 22 2 2 n2 n 2 n x  x . n  y  y x x . y y  xi x  y i y  2 i 1;  2 i 1 XYn 1 n 1 Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến 1
  2. 19/10/2017 Trung bình; phương sai và hiệp phương sai Đánh giá hệ số tương quan • Đối với quan sát mẫu • Miền giá trị: 1 rXY, 1 • Ta có: n n x y • Nếu 1 r 0 thì tương quan âm. r càng x x xi y y y  i XY, XY x 1 2n i 1; y 1 2 n i 1 gần -1 thì mối liên hệ tuyến tính nghịch giữa X, n n n n n n Y càng mạnh x2 y 2 x2 x 2 x 2i y 2 y 2 y 2  i • Nếu 0 r 1 thì tương quan dương. r càng x2 1 2n i 1; y 2 1 2 n i 1 XY, XY n n n n gần -1 thì mối liên hệ tuyến tính thuận giữa X, Y n x y càng mạnh x y x y  i i xy 1 1n n i 1 • r càng gần 0 thì quan hệ tuyến tính càng yếu. n n XY Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Đánh giá hệ số tương quan Ví dụ • Hãy tính hệ số tương quan Pearson giữa chi phí quảng cáo và doanh số trong ví dụ sau. Chi phí quảng cáo 1,3 0,9 1,8 2,1 1,5 Tổng doanh số 151,6 100,1 199,3 221,2 170,0 tháng tới Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Ví dụ Ví dụ X Y X2 Y2 XY x 1,52 x2 2,48 y 168,44 1,3 151,6 1,69 22.982,56 197,08 • Ta có: 2 0,9 100,1 0,81 10.020,01 90,09 y 30110,5 xy 273,086 1,8 199,3 3,24 39.720,49 358,74 • Hệ số tương quan: 2,1 221,2 4,41 48.929,44 464,52 273,086 1,52.168,44 1,5 170,0 2,25 28.900,00 255,00 rXY 0,993371434 2 2 7,6 842,2 12,40 150.552,50 1.365,43 2,48 1,52 30110,5 168,44 Σ Σ Σ2 Σ2 Σ • Hoặc: 5 5 n n n n 5 xi 7,6 y i 842,2   n xi y i  x i.  y i i 1 i 1 i 1 i 1 i 1 5.1365, 43 7,6*842, 2 rXY 0,993371434 2 2 2 2 5 5 5 n n n n 5.12,4 7,6 5.150552,5 842,2 2 2 nx2 x . n y 2 y x 12,40 y 150.552,50 x y 1365,43 i  i  i  i i  i  i i i 1 i 1 i 1 i 1 i 1 i 1 i 1 Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến 2
  3. 19/10/2017 Ví dụ Ví dụ • Các giá trị trung bình • Số liệu về thời gian quảng cáo trên truyền hình 12,4 150552,5 1365,43 x2 2,48; y 2 30110,5; xy 273,086 và lượng sản phẩm tiêu thụ ở một công ty sản 5 5 5 xuất đồ chơi trẻ em như sau: • Độ lệch chuẩn: Thời gian 28 37 44 36 47 35 26 29 33 32 31 28 12,4 150552,5 1365,43 x2 2,48; y 2 30110,5; xy 273,086 Lượng tiêu thụ 41 32 49 42 38 33 27 24 35 30 34 25 5 5 5 XY 0,460435  46,61634 • Thời gian: phút/tuần • Hệ số tương quan • Lượng tiêu thụ: 1000sp/tuần r 0,993371 • Hãy tính hệ số tương quan mẫu và cho kết luận Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Ví dụ Hệ số tương quan Spearman • Đáp số: r=0,63882 • Hệ số tương quan hạng • Kết luận: mối liên hệ tương quan giữa thời gian • Ký hiệu R quảng cáo và số sản phẩm tiêu thụ được là • Công thức: tương quan thuận, ở mức trung bình. 6 d 2 R 1  n n 2 1 • Trong đó n là cỡ mẫu và d là hiệu số của các hạng. Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Hệ số tương quan Spearman Ví dụ • Khi tuyển dụng, một công ty đánh giá các ứng viên thông • Ta lập bảng sau: Hạng Hạng Hiệu Hiệu số bình qua phỏng vấn và bài kiểm tra. Khi phỏng vấn, các ứng viên Ứng viên được đánh giá từ A (xuất sắc) đến E (không phù hợp) và phỏng vấn kiểm tra số phương bài kiểm tra được tính theo thang điểm 100. Kết quả của 5 1 1,5 4 -2,5 6,25 ứng viên như sau: 2 3 3 0 0 3 1,5 5 -3,5 12,25 Ứng viên 1 2 3 4 5 4 4 1 3 9 Điểm phỏng vấn A B A C D 5 5 2 3 9 Điểm bài thi 60 61 50 72 70 0 36,50 • Tính hệ số tương quan hạng Spearman và cho nhận xét 6 d 2 6 * 36, 50 R 1  1 0, 825 n n 2 1 5. 25 1 Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến 3
  4. 19/10/2017 Ví dụ Ví dụ • Một chuyên gia được Loại rượu Hương vị Giá tiền • Ta lập bảng sau: Hạng Hạng Hiệu Hiệu số bình yêu cầu nếm thử 8 A 1 2,49 Loại rượu hương vị giá tiền số phương loại rượu có giá dưới B 2 2,99 A 4 $. Hương vị các loại C 3 3,49 B rượu được xếp hạng D 4 2,99 C từ 1 (dở nhất) đến 8 E 5 3,59 D (ngon nhất). Bảng F 6 3,99 E tổng hợp xếp hạng và G 7 3,99 F giá cả các loại rượu H 8 2,99 G như sau: H • Hãy tính hệ số tương quan hạng Spearman và cho 0 36,50 kết luận Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Phân tích hồi quy Liên hệ hàm số và liên hệ thống kê • Phân tích hồi quy được sử dụng để xác định • Liên hệ hàm số: Y=aX+b mối liên hệ giữa: • Với một giá trị của X, có 1 giá trị duy nhất của Y – Một biến phụ thuộc Y (biến được giải thích) • Liên hệ thống kê: Y=aX+b – Một hay nhiều biến độc lập X1, X2, ,Xn (còn được • Ví dụ: X: thời gian tự học; Y: điểm cuối kỳ gọi là biến giải thích) • Biến phụ thuộc Y phải là biến liên tục • Một giá trị của X có thể có nhiều giá trị của Y • • Các biến độc lập X1, X2, , Xn có thể là biến liên Dữ liệu X: dữ liệu mẫu tục, rời rạc hay phân loại. • Dữ liệu mẫu tìm đường hồi quy mẫu dự đoán cho đường hồi quy tổng thể. Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Ví dụ Ví dụ • Một công ty muốn ước lượng hàm chi phí cho một sản • Mặc dù những điểm quan sát phẩm. Giá trị của hàm chi phí được xác định tại một không cùng nằm trên một vài mức sản xuất như sau. đường thẳng nhưng tương quan tuyến tính rất mạnh • Công ty muốn xấp xỉ hàm chi phí bằng một hàm tuyến tính: y a. x b • Ta cần xác định các hệ số a, b sao cho đường thẳng trên xấp xỉ tốt nhất cho hàm chi phí. Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến 4
  5. 19/10/2017 Thặng dư (residual) Tổng bình phương thặng dư • Ta có: 2 2 2 2 Fab , 4 2 ab 6 5 ab 7 6 ab 8 9 ab Fa 304292 a 44 b F b 5044 a 8 b AFBFCF aa 292 ab 44 bb 8 ACB 2 292 * 8 44 2 0 • Điểm dừng: M(0,58; 3,06) • Hàm số F(a,b) đạt cực tiểu tại M. • Ta cần xác định a, b sao cho tổng bình phương thặng dư nhỏ nhất. Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Phương trình hồi quy Ví dụ • Số liệu về doanh số và số lượng nhân viên kinh doanh • Vậy phương trình cần tìm là: trong các khu vực của công ty X như sau: y 0, 58 x 3, 06 Khu vực Doanh số Số nhân viên kinh doanh • Dự đoán: A 236 11 • Chi phí khi sản xuất 2000 sản B 234 12 phẩm? C 298 18 • Hàm chi phí biên? D 250 15 • Hàm chi phí trung bình? E 246 13 F 202 10 • Hãy tìm mô hình tuyến tính dự đoán doanh số theo số nhân viên kinh doanh Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Tổng quát Tổng quát F n • Giả sử có n quan sát (x1,y1), (x2,y2), ,(xn,yn) • Ta có: y a. x b .2 x  k k k a i 1 • Ta cần xác định đường thẳng y=a.x+b sao cho tổng F n y a. x b .2 1  k k bình phương của các thặng dư là nhỏ nhất. b i 1 • Hay cần cực tiểu hóa hàm số sau: • Tìm điểm dừng: n 2 a y b. x F a,. b y a x b  k k n n n F i 1 0 n x y x y a k k  k  k xy x. y • Chú ý: b k 1 k 1 k 1 F 2 2 0 n n 2 x2 x • a, b: là hai ẩn cần tìm b n x x  k  k k 1 k 1 • xk; yk là các giá trị đã biết. n n n A F 2 x2 B F 2 x C F 2 aa k ab  k bb  i 1 i 1 i 1 Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến 5
  6. 19/10/2017 Tổng quát Ví dụ • Số liệu về doanh số và số lượng nhân viên kinh doanh • Ta có: trong các khu vực của công ty X như sau: a y b. x n Khu vực Doanh số Số nhân viên kinh doanh x x y y  k k xy x. y A 236 11 b k 1 n 2 2 2 B 234 12 x x x x  k C 298 18 k 1 D 250 15 • Đường hồi quy luôn đi qua điểm ( ; ) E 246 13 F 202 10 • Hãy tìm mô hình tuyến tính dự đoán doanh số theo số nhân viên kinh doanh Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Ví dụ Ý nghĩa các hệ số hồi quy • Hệ số tương quan Pearson: r=0,948 • Giữa doanh số và số nhận viên kinh doanh có tương quan tuyến tính mạnh; có thể giả sử doanh số phụ thuộc tuyến tính theo số lượng nhân viên kinh doanh Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Chú ý Ứng dụng kinh tế • Phương pháp trên gọi là hồi quy tuyến tính • Nhu cầu sử dụng dầu nhiên liệu để sưởi ấm nhà ở Hoa • Phương pháp bình phương thặng dư nhỏ nhất Kỳ đã giảm đều đặn trong nhiều thập kỷ. Bảng sau liệt kê tỷ lệ hộ gia đình ở Hoa Kỳ sưởi ấm bằng dầu nhiên có thể áp dụng đối với các dạng hàm khác như: liệu từ 1960 đến 2009. Sử dụng hồi quy tuyến tính để hàm bậc 2; bậc 3; bậc 4; logarit; hàm mũ và ước lượng tỷ lệ hộ gia đình sử dụng dầu nhiên liệu vào hàm lũy thừa năm 1995 • Trong trường hợp đó ta có các tên gọi hồi quy tương ứng • Đáp số: 12,44% Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến 6
  7. 19/10/2017 Thực hành Excel Hồi quy tuyến tính • Vấn đề: có hai biến quan sát X và Y • Ta cần tìm phương trình thể hiện mối liên hệ giá trị giữa Y và X • Y: biến phụ thuộc; X: biến độc lập • Dùng mô hình hồi quy đơn giản nhất: hồi quy tuyến tính • Có thể sử dụng các mô hình khác: phi tuyến; bậc 2; bậc 3; mũ; logarit Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Hồi quy tuyến tính Hồi quy tuyến tính • X và Y có tương quan tuyến tính mạnh • Với giá trị quan sát được ta có: • Ta giả sử X và Y có mối quan hệ tuyến tính với nhau. yi b1 b 2 x i u i • Mô hình như sau: y b1 b 2 x u • yi : giá trị quan sát được của Y khi X nhận giá trị là x . • β1 ∶ hệ số chặn (intercept) i • x : giá trị quan sát thứ i của X. • β2: hệ số góc (slope) i • u : sai số ngẫu nhiên khi X nhận giá trị x . • u: sai số ngẫu nhiên (nhiễu ngẫu nhiên, nhiễu i i trắng) Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Giả định về mô hình Giả định về mô hình • Giả thiết 1: Các giá trị Xi được xác định trước và • Minh họa giả định 3 không phải là đại lượng ngẫu nhiên. • Giả thiết 2: Kỳ vọng hoặc trung bình số học của các sai số là bằng 0 (zero conditional mean), nghĩa là E = 0 • Giả thiết 3: Các sai số có phương sai bằng nhau (homoscedasticity). 2 V = σ Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến 7
  8. 19/10/2017 Giả định về mô hình Hàm hồi quy tổng thể • Hàm hồi quy tổng thể • Giả thiết 4: Các sai số không có sự tương quan, nghĩa là EYXXX | i 1  2 Cov( , ) = E( ) = 0, nếu i j YX 1  2 • Giả thiết 5: Các sai số độc lập với biến giải • Đối với một quan sát cụ thể ta có: thích. Cov(, Xi) = 0 Yi 1  2 X i u i • Giả thiết 6: Đại lượng sai số ngẫu nhiên có phân • Mô hình chỉ có một biến phụ thuộc Y và một biến giải 2 phối chuẩn ~ N(0, σ ) thích X. • và gọi là hệ số chặn (intercept) và hệ số góc (slope) của đường thẳng hồi quy. Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Hàm hồi quy mẫu SRF PRF và SRF • Ta ít khi có số liệu của cả tổng thể mà chỉ có số Y SRF ˆ liệu của mẫu (số liệu quan sát được) b 2 • Ta dùng số liệu mẫu để ước lượng tổng thể PRF b • Hàm hồi quy mẫu: 2    YXi 1  2 i b 1 bˆ • Đối với quan sát thứ i: 1 X    Yi 1  2 X i u i Hệ số hồi quy trong hàm hồi quy PRF và SRF Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến 46 PRF và SRF Hồi quy tổng thể và hồi quy mẫu Trong đó Dạng tổng quát Đối với quan sát thứ i • là ước lượng cho b1. Mô hình hồi y b b x u y b b x u 1 2 i1 2 i i • là ước lượng cho b2. quy tổng thể Đường hồi  b b x  b b x • y 1 2 yi 1 2 i là ước lượng cho Y hay E(Y|Xi) quy tổng thể • Ta sử dụng phương pháp bình phương nhỏ Mô hình hồi       y b b x u yi b1 b2 x i u i 1 2 nhất thông thường (OLS) để tìm ; quy mẫu Đường hồi       y b1 b2 x yi b1 b2 x i quy mẫu Bài giảng Toán Cao cấp 1 47 Nguyễn Văn Tiến Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến 8
  9. 19/10/2017 Chú ý Ước lượng OLS Tình trạng Biện pháp • Tìm giá trị của β1; β2 sao cho: Hệ số β1 Tham số Ước lượng n n 2 u2 y   x Hệ số β Không xác định được Kiểm định i  i1 2 i Phương sai sai số 2 chính xác giá trị i 1 i 1 Hệ số Biến ngẫu nhiên • Đạt giá trị nhỏ nhất (pp bình phương tối thiểu) Hệ số Có thể tính được giá trị trên mẫu đã • Dễ thấy: chọn x2 y x xy xy x y Phương sai thặng dư  ;  2 Dùng để ước lượng cho các tham số 12 2 2 mẫu x2 x x 2 x tổng thể n x x y y  i i    i 1  y  x 2 n 1 2 2 x x  i i 1 Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Hệ số hồi quy mẫu Một số tính chất • • Là các ước lượng của β1; β2 Giá trị trung bình các hệ số hồi quy mẫu:   EE ;   • Dạng biểu diễn khác: 1 1 2 2 • Phương sai các hệ số hồi quy mẫu: n x x y 2  i i n x x  i 1 i x 2  c y; c  1 2   2 n i i i n VV   2 2 1 n2 2 n 2 i 1 n xi x x i x x x x x    i  i i 1 i 1 i 1 i 1  1 y  2 x • Ta dùng các kết quả trên để ước lượng giá trị của các hệ số hồi quy tổng thể β1; β2 • Nhưng giá trị của 2 chưa xác định. Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Một vài tính chất Một vài tính chất • Kỳ vọng và phương sai của giá trị hồi quy • Ta có: n n 2    ui yi b1 b2 x i 0 1 x0 x   E y x y V y  2 i 1 i 1 0 0 0 0 n n 2  xi x n n n n i 1     ui  yi yi 0  y i  y i y i y i 2 i 1 i 1 i 1 i 1 1 x0 x V y y  2 1 0 0 n n 2  xi x i 1 Chú ý số 1 Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến 9
  10. 19/10/2017 Ký hiệu Ký hiệu • Để thuận tiện ta ký hiệu như sau: • Ta có: n n 2 2 S x x S x x y y x x x x xx i xy  i i 21 0 2 1 0 i 1 i 1 V y  ; V y y  1 0 n S 0 0 n S SSSxu ??? yy ??? uy ??? xx xx • Ta có: S  xy ;;;  y  x E   E   2 1 2 1 1 2 2 S xx 2 x 2  1 2   VV   1 n S 2 S xx xx Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Tách nhóm biến thiên: khái niệm Đo sự biến thiên của dữ liệu • TSS = tổng của các mức độ khác biệt bình • Tổng bình phương toàn phần (Total Sum of Squares) phương giữa từng giá trị yi và trị số trung bình n 2 TSS y y của y.  i i 1 • Tổng bình phương hồi quy (Regression Sum of • ESS = tổng của các mức độ khác biệt bình Squares) phương giữa các giá trị quan sát và giá trị dự n  2 đoán của y. RSS  yi y i 1 • RSS = tổng của các mức độ khác biệt bình • Tổng bình phương sai số (Residual Sum of Squares) phương giữa giá trị dự đoán của y và trị số n 2  trung bình của y. ESS y y  i i i 1 Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Các tổng bình phương độ lệch Các tổng bình phương độ lệch n 2 • Khi điểm quan sát càng gần đường thẳng ước RSS  y y  i Y i 1 lượng thì “độ thích hợp” càng cao, có nghĩa là ESS SRF càng nhỏ và RSS càng lớn.  y y 2 Tổng chênh lệch • Tham số đo độ thích hợp: = 0 R 1 RSS  n 2 • R2 càng lớn càng tốt y TSS y y i  i ESS i 1 • ESS: biến thiên không giải thích được yi n 2 ESS y  y • RSS: biến thiên giải thích được  i i i 1 • R2 nhỏ nghĩa là nhiều biến thiên của Y không giải Xi X thích được bằng X. Cần phải thêm nhiều biến khác Ý nghĩa hình học của TSS, RSS và ESS vào mô hình. Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến 59 Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến 10
  11. 19/10/2017 Hệ số xác định Hệ số xác định • Coefficient of determination • Đánh giá mô hình tìm được có giải thích tốt cho • Là tỷ lệ của tổng sự biến thiên trong biến phụ mối liên hệ giữa biến phụ thuộc Y và biến độc thuộc gây ra bởi sự biến thiên của các biến độc lập X hay không. lập (biến giải thích) so với tổng sự biến thiên • Là bình phương của hệ số tương quan mẫu toàn phần. 2 2 x x x2 x • Tên gọi: R_bình phương (R squared) RSS 2 i 2 R 2   22 2 2 • Ký hiệu: TSS 2 2 RSS y y y y R  i 2 TSS 2 R rXY • Dễ thấy: 0 R 2 1 Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Tính chất của hệ số xác định R2 Ước lượng cho phương sai sai số 2 2 • 0≤ R ≤1 • Ta có: n  2 ui • Cho biết % sự biến động của Y được giải thích bởi n2 n 2    2 i 1 2 các biến số X trong mô hình. E  yi y i E  ui n 2  E  i 1 i 1 n 2 2 • R =1: đường hồi quy phù hợp hoàn hảo n • 2  2 R =0: X và Y không có quan hệ ui • Đặt  ESS • R2 càng lớn càng tốt ˆ 2 i 1 n 2 n 2 • Đối với dữ liệu chuỗi thời gian thì R2 thường lớn hơn 0,9. Nếu thấp hơn 0,6 hay 0,7 thì xem là thấp • Ta dùng đại lượng này để xấp xỉ cho phương sai • Với dữ liệu chéo thì R2 khoảng 0,6 hay 0,7 cũng sai số 2 chưa hẳn thấp Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến 63 Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Ước lượng và dự báo Công thức ước lượng β1 1. Ước lượng hệ số góc Khoảng tin cậy (1 − ) của hệ số b1 2. Ước lượng hệ số chặn  ;   3. Ước lượng phương sai sai số 11 1 1 4. Dự báo giá trị trung bình Trong đó: 5. Dự báo điểm 1 ̅ = ⁄ − 2 . . + = − 2 Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến 11
  12. 19/10/2017 Công thức ước lượng β2 Công thức ước lượng 2 • Khoảng tin cậy của phương sai sai số tổng thể: Khoảng tin cậy (1 − ) của hệ số b2   2 ESS ESS  ;    2; 2 22 2 2  /2 n 2  1 /2 n 2 Trong đó: 1 = = ⁄ − 2 . . − 2 Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Dự báo Dự báo giá trị Y0 • Cho X nhận giá trị là x0. Ta tiến hành dự báo: Khoảng tin cậy mức 1 − cho giá trị thực của Y0: • Trung bình của Y khi X = x0. Ký hiệu: 0   • Giá trị cụ thể của Y khi X = x0. Ký hiệu: E(Y0|X0) YYY0 0  1; 0  1 • Công thức chung:  • Giá trị ước lượng ± Sai số 1 t /2 n 2 . SE ( Y 0 Y 0 ) 2 x x   1 0 SE( Y0 Y 0 )  1 n S xx Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Dự báo giá trị E(Y/X0) Bổ sung kiến thức về phân phối xác suất Khoảng tin cậy mức 1 − cho giá trị thực của Y0: • Phân phối chuẩn • Phân phối Student   EYXYY(/)(;)0 0  2 0  2 • Phân phối Khi bình phương Với:   2 t /2 n 2 . SE ( Y 0 ) 2 x x   1 0 SE() Y0  n S xx Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến 12
  13. 19/10/2017 Phân vị mức alpha và cách xác định Giá trị tới hạn 2 (n; α) • Với phân phối chuẩn • Giá trị tới hạn mức α (0 ≤ ≤ 1) là số thực ký • Với phân phối Student hiệu 2(n;) sao cho với Z~ 2(n) thì: • Với phân phối Khi bình phương 2 PZ  n; 2 n; Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến 74 Bảng giá trị tới hạn Khi bình phương Ví dụ 5 • Cho Z   2 20 • Tìm các xác suất sau: a) P Z a 0,95 hay  2 20;0,95 b) P Z 8,2604 ? c) P 10,8508 Z 31,4104 ? Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến 75 Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến 76 Giá trị tới hạn (, ) Bảng giá trị tới hạn Student • Giá trị tới hạn mức α (0 ≤ ≤ 1) là số thực ký hiệu (, ) sao cho với Z~ (n) thì: P Z t n; t n;0 t n ;1 t n;0,5 0 t n ;1 t n ; n t n;  Z Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến 77 Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến 78 13
  14. 19/10/2017 Ví dụ 6 Ví dụ • Cho • Quan sát sự biến động của nhu cầu gạo Y Z t 15 (tấn/tháng) vào đơn giá X (ngàn đồng/kg) ta • Tìm các giá trị tới hạn và xác suất sau: được các số liệu cho ở bảng. Hãy lập mô hình hôi quy mẫu biễu diễn mối phụ thuộc về nhu a) P Z a 0,025 hay t 15;0,025 ? cầu vào đơn giá gạo b) P Z 2,602 ? Xi 1 4 2 5 5 7 Yi 10 6 9 5 4 2 c) P 2,0343 Z 2,9467 ? d) P Z b 0,975 hay t 15;0,975 ? Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến 79 Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Ví dụ Ví dụ • Ta lập bảng sau: • Ta có: Stt Xi Yi XiYi X^2 n 1 1 10 10 1 Yi X i n X Y ˆ i 1 111 6.4.6 2 4 6 24 16 b2 n 2 1,375 3 2 9 18 4 2 2 120 6.(4)  Xi n.( X ) 4 5 5 25 25 i 1 5 5 4 20 25 ˆ ˆ 6 7 2 14 49 b1 YX b 2 6 ( 1,375).4 11,5 sum 24 36 111 120 24 36 • Ta có: XY 4 6 Yˆ 11,5 1,375 .X 6 6 i i Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Nhận xét Giải hồi quy bằng máy tính ˆ Yi 11,5 1,375 .X i 1. Bật tần số: Shift+Mode+↓ +4+1 (Freq On • X và Y có quan hệ nghịch biến 2. Chọn Mode Regression: Mode+3+2(chọn A+Bx) • = 11,5 nên nhu cầu tối đa là 11,5 tấn/tháng 3. Nhập dữ liệu theo cột 4. Kiểm tra và nhấn AC thoát • = −1,375 nên khi giá tăng 1000 đồng/kg thì 5. Xem kết quả: Shift +1+ 3,4,5 (tùy theo Sum, nhu cầu trung bình sẽ giảm 1,375 tấn/tháng với Var hay Reg) các yếu tố khác trên thị trường không đổi. Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến 84 14
  15. 19/10/2017 Bài tập 1 Bài tập 1 Thu thập số liệu về điểm học tập của học sinh và Xi 45 60 30 90 75 45 105 60 mức thu nhập hàng năm của bố mẹ ta có bảng số Yi 8,75 7,5 6,25 8,75 7,5 5,0 9,5 6,5 liệu sau: Xi 45 60 30 90 75 45 105 60 b) Với độ tin cậy 95% hãy ước lượng hệ số chặn, hệ số góc và phương sai sai số. Yi 8,75 7,5 6,25 8,75 7,5 5,0 9,5 6,5 c) Với độ tin cậy 90%, dự đoán điểm và điểm Hãy tìm hàm hồi quy mẫu và tính các đặc trưng trung bình khi thu nhập là 80 của nó Xi: thu nhập (triệu/năm) Yi: điểm trung bình Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến 85 Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến 86 Bài tập 2 Số liệu về tỷ lệ lạm phát và lãi suất trong năm 2011 của 6 quốc gia như sau: Lãi suất Y (%) 7 11 20 10 16 14 Lạm phát X (%) 3 8 17 8 12 12 a) Ước lượng và viết phương trình hồi quy tuyến tính = 1 + 2 + b) Tìm hệ số xác định và giải thích ý nghĩa c) Dự đoán lãi suất trung bình khi lạm phát là 10%. Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến 87 Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến 15