Hồi quy lasso kết hợp với hồi quy ridge trong phân tích kinh tế
Bạn đang xem tài liệu "Hồi quy lasso kết hợp với hồi quy ridge trong phân tích kinh tế", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
Tài liệu đính kèm:
- hoi_quy_lasso_ket_hop_voi_hoi_quy_ridge_trong_phan_tich_kinh.pdf
Nội dung text: Hồi quy lasso kết hợp với hồi quy ridge trong phân tích kinh tế
- INTERNATIONAL CONFERENCE FOR YOUNG RESEARCHERS IN ECONOMICS & BUSINESS 2019 ICYREB 2019 HỒI QUY LASSO KẾT HỢP VỚI HỒI QUY RIDGE TRONG PHÂN TÍCH KINH TẾ LASSO REGRESSION COMBINED WITH RIDGE REGRESSION IN ECONOMIC ANALYSIS Võ Thị Lệ Uyển, Phạm Hoàng Uyên Trường Đại học Kinh tế - Luật, Đại học Quốc gia Thành phố Hồ Chí Minh uyenvtl@uel.edu.vn TÓM TẮT Trong ước lượng các tham số của mô hình hồi quy, bên cạnh phương pháp OLS, phương pháp LASSO cũng đang được sử dụng rộng rãi với ưu điểm là tính không phụ thuộc vào P value trong quá trình xác định các hệ số thật sự có ý nghĩa thống kê. Bài báo này thảo luận về hồi quy LASSO và hồi quy RIDGE như là một công cụ thống kê nhằm giải quyết các vấn đề hồi quy như ước lượng tham số, lựa chọn mô hình. Ứng dụng thực nghiệm trong bài báo này là trong phân tích các yếu tố ảnh hưởng đến tiền lương của nhân viên bằng việc sử dụng mô hình tuyến tính theo cả hai phương pháp OLS và LASSO kết hợp với RIDGE. Mục tiêu là tìm ra các biến có tác động cao hơn đến tiền lương nhân viên và cho thấy hồi quy LASSO kết hợp với RIDGE là một phương pháp thay thế hiệu quả cho hồi quy OLS mà không phải dùng P-value. Từ khóa: Hồi quy, hồi quy OLS, hồi quy RIDGE, hồi quy LASSO, P-value. ABSTRACT In estimating the parameters of the regression model, besides the OLS method, LASSO method is also widely used with the advantage of being independent of P value in the determination of the actual statistical significant coefficients. This paper discusses LASSO and RIDGE regression as a statistical tool to solve regression problems such as parameter estimation and model selection. The empirical application in this paper is in analyzing the factors affecting employees' salaries by using a linear model with both methods of OLS regression and LASSO in combination with RIDGE. The goal is to find variables that have a higher impact on employee salaries and show that LASSO regression combined with RIDGE is an effective alternative to OLS regression without using P-value. Keywords: Regression, OLS regression, RIDGE regression, LASSO regression, P-value. 1. Giới thiệu Như chúng ta đã biết, trong ước lượng các tham số của mô hình hồi quy bằng phương pháp OLS, để lựa chọn tập hợp các biến độc lập có ảnh hưởng thật sự đến biến phụ thuộc các nhà nghiên cứu thường dùng P-value để ra quyết định. Tuy nhiên, hiện nay việc sử dụng P-value để thực hiện kiểm tra giả thuyết, ở một mức độ nào đó, đã không còn hiệu lực như trong đã đề cập trong [1] và [2]. Bởi vì P-value là một bước tiến lớn trong việc làm cho suy luận thống kê trở nên đáng tin cậy hơn, do đó vẫn có một số lượng lớn các nhà thống kê đang cố gắng "cứu P-value". Điều đó sẽ dẫn đến các cuộc nghiên cứu để tìm ra các phương pháp cần thiết khác, không dùng P-value, để thực hiện kiểm tra giả thuyết một cách hợp lý như trong [3]. Bài báo sử dụng một phương pháp mới để ước lượng các tham số trong các mô hình tuyến tính, phương pháp hồi quy LASSO (Least Absolute Shrinkage and Selection Operator) kết hợp với hồi quy RIDGE. Ý tưởng đằng sau mô hình hồi quy LASSO là giả định rằng một số biến giải thích trong hồi quy được liên kết với các tham số bằng 0. Dựa trên ý tưởng đó, các tham số của mô hình hồi quy tuyến tính được ước lượng bằng phương pháp tối thiểu hóa tổng bình phương phần dư với điều kiện ràng buộc là tổng giá trị tuyệt đối của các hệ số nhỏ hơn một hằng số. Vì bản chất của ràng buộc này, phương pháp hồi quy LASSO có xu hướng thu nhỏ các tham số và tạo ra một số các tham số chính xác bằng không và từ đó đưa ra sự lựa chọn chính xác một tập hợp con của các tham số hồi quy mà không cần kiểm định giả thuyết, do đó không cần dùng P-value; đồng thời thể hiện sự ổn định mô hình hồi quy ngay cả trong trường hợp có đa cộng tuyến giữa các biến giải thích. Hơn nữa, cũng vì bản chất của ràng buộc này, bài 1315
- INTERNATIONAL CONFERENCE FOR YOUNG RESEARCHERS IN ECONOMICS & BUSINESS 2019 ICYREB 2019 toán cực trị có ràng buộc này có nghiệm không nhất quán, vì vậy chúng ta không thể chứng minh được LASSO là tốt hơn OLS. Tuy nhiên, dựa trên MSE, về mặt dự báo, chúng ta có thể chứng minh được hồi quy RIDGE là tốt hơn hẳn hồi quy OLS. Hồi quy RIDGE và hồi quy Lasso gần đây đã được sử dụng rộng rãi trong việc lựa chọn mô hình, đặc biệt là trong lý thuyết và ứng dụng của khoa học máy tính. Trong [4] hồi quy RIDGE đã được áp dụng theo cách tiếp cận kết hợp giữa mã hóa homomorhpic và các mạch bị cắt xén Yao. Trong đó, hồi quy RIDGE cũng cho thấy kết quả tốt vượt trội trong việc lựa chọn mô hình khi có sự tồn tại của đa tuyến [5], [6]. Tuy nhiên, hồi quy RIDGE thường được sử dụng khi tất cả các biến giải thích trong mô hình đều có ảnh hưởng đến biến phụ thuộc. Trong trường hợp không gian tìm kiếm có nhiều biến giải thích không liên quan, thì hồi quy LASSO có thể tìm ra và trả về mô hình có chứa các biến quan trọng nhất. Trong [7] bài báo đã thử nghiệm hồi quy LASSO và kết quả đã chỉ ra rằng LASSO có kết quả dự báo được cải thiện hơn rất nhiều. Ngoài ra, trong [8] đã cho thấy hồi quy LASSO hữu ích như thế nào trong việc ước lượng cho các mô hình mạng lưới tâm lý học. Cũng trong [8], bài báo đã chứng minh rằng ước lượng LASSO có thể mang lại một mô hình thưa (SPARSE model) có kết quả hơn hẳn bằng cách sử dụng các tham số tăng theo cấp số nhân trong không gian tìm kiếm đang được điều tra. Vì những lí do trên, chúng tôi đề xuất một phương pháp hồi quy mới là kết hợp giữa LASSO để lựa chọn tập hợp các biến có ảnh hưởng đến biến phụ thuộc và hồi quy RIDGE dựa trên các biến đã lựa chọn để ược lượng các hệ số và dự báo. 2. Cơ sở lý thuyết và phương pháp nghiên cứu 2.1. Cơ sở lý thuyết 2.1.1. Hồi quy OLS Giả sử chúng ta có k biến giải thích X1, X2, , Xk có khả năng ảnh hưởng đến Y và giả sử mối quan hệ giữa chúng là tuyến tính, trong đó X1 là vectơ cột có cấp n 1gồm tất cả các phần tử đều bằng 1. Khi đó, mô hình hồi quy tuyến tính OLS đa biến tổng quát có dạng: k . (1) yi xij j i j 1 T Trong đó 12, , , k là các tham số cần tìm; xij là quan sát thứ i của biến thứ j với jk 1; ; i là sai số ngẫu nhiên của mô hình với các giả thuyết OLS: Ei i 0; 2 Vari i ; (2) Covi ij, j 0; k Mục tiêu của bài toán hồi quy là tìm mô hình ước lượng: ˆ ˆ . Trong đó, các hệ yi xij j j 1 ˆ số j ;jk 1; được gọi là các hệ số ước lượng của các tham số j ;jk 1; . Với một mẫu dữ liệu gồm n ˆ quan sát, các hệ số j được ước tính dựa trên bài toán tìm cực trị của hàm: ˆ 1 2 nk ˆ ˆˆˆ 2 S yi x ij j với (3) ij 11 ˆ k 1316
- INTERNATIONAL CONFERENCE FOR YOUNG RESEARCHERS IN ECONOMICS & BUSINESS 2019 ICYREB 2019 T Công thức (3) có thể được viết như sau: SY ˆˆˆ XY X . (4) Nếu XXT không suy biến, véctơ ˆ được xác định bằng phương trình sau: 1 ˆ XTT XX Y (5) Trong (5), nếu ma trận XXT khả nghịch thì nghiệm ˆ là xác định và duy nhất. Tuy nhiên, khi ma trận không khả nghịch, hay còn gọi là có đa cộng tuyến giữa các biến giải thích, thì việc xác định ˆ là không thể hoặc không chính xác. Ngoài ra, mô hình tuyến tính được ưa dùng do dễ sử dụng, dễ cài đặt và việc diễn giải kết quả khá dễ hiểu. Tuy nhiên, lớp những mô hình tuyến tính cần những giả định như sai số có phân bố chuẩn, dữ liệu quan hệ tuyến tính để có được những kết quả dự báo hợp lý. Ngoài ra, kết quả hồi quy dùng mô hình tuyến tính thường có lỗi dự báo cao và gặp khó khăn khi dữ liệu phức tạp như: i. Có số liệu trống (missing value), ii. Số liệu không phải dạng số, iii. Số lượng biến gấp nhiều lần so với số lượng mẫu (hay k >> n), điều này xảy ra trong trường hợp chúng ta có một số lượng lớn các biến giải thích được cho là quan trọng nhưng lại có ít quan sát. Ngay cả trong trường hợp nk , để giảm số lượng biến giải thích trong mô hình hồi quy, chúng ta thường tiến hành theo hai bước như sau: Bước 1, sử dụng ước lượng bình phương tối thiểu trên tất cả các biến X1, X2, , Xk và sau đó dựa vào P-value thực hiện kiểm định giả thuyết: H0 :0 j H01:m m m p 0 hoặc (6) H :0 1 j H10: vs H để xác định và loại trừ những biến giải thích không ảnh hưởng đến biến phụ thuộc Y. Bước 2, thử lại mô hình mới với các biến giải thích còn lại. Sau đó dựa vào các hệ số R 2 , AIC, để so sánh và lựa chọn tập hợp con của các biến giải thích mà có ảnh hưởng đến biến phụ thuộc Y. Nhưng việc lựa chọn tập hợp các biến giải thích có ảnh hưởng đến biến phụ thuộc bằng kiểm định dựa theo P-value có thể không còn phù hợp nữa vì việc dùng P-value để ra quyết định đã được chứng minh là không còn chính xác như đã nêu trong [1] và [2]. Vì những lí do trên, cần có một phương pháp hồi quy tốt hơn thay thế cho hồi quy OLS. Và chúng tôi đề xuất phương pháp hồi quy LASSO kết hợp hồi quy RIDGE. 2.1.2. Hồi quy LASSO Chúng ta đang sống trong thời đại mà số lượng cơ sở dữ liệu đang tăng lên ở mức không ngờ so với những thập kỷ trước. Vì vậy, cần phải sử dụng các mô hình tính toán có thể xử lý lượng dữ liệu phong phú một cách chính xác hơn. Có nhiều phương pháp khác nhau để xử lý các vấn đề của hồi quy OLS, nhưng trong bài báo này, chúng tôi sẽ chỉ xem xét hồi quy LASSO kết hợp RIDGE như là một phương pháp thay thế hiệu quả cho hồi quy OLS. Phương pháp LASSO là cũng phương pháp hồi quy tuyến tính đa biến có hiệu chỉnh mô hình, trong ˆ phương pháp này các hệ số j ,jk 1; được ước tính dựa trên bài toán tìm cực trị của hàm: 2 nk ˆˆ ˆ S yi x ij j với điều kiện ràng buộc: || ||1 t . (7) ij 11 k ˆˆ ˆ Trong đó || ||1 |j | là chuẩn 1 của vectơ và t là một hằng số lớn hơn 0. j 1 1317
- INTERNATIONAL CONFERENCE FOR YOUNG RESEARCHERS IN ECONOMICS & BUSINESS 2019 ICYREB 2019 Bài toán cực trị có điều kiện tương đương bài toán Largrange như sau: 2 nkk ˆˆˆ Ly ,| x | i ij jj (8) ijj 111 Trong đó λ là nhân tử Largrange dùng để điều chỉnh mô hình, chuẩn 1 được dùng cho việc dự đoán các tham số. k ˆˆ Tuy nhiên, vì || ||||1 j là hàm lồi ( nhưng không phải là hàm lồi nghiêm ngặt nên có thể có j 1 nhiều hơn một nghiệm) nhưng không khả vi. Do đó, không có công thức nghiệm cụ thể cho bài toán LASSO như trong [9], [10]. Rõ ràng, hồi quy LASSO phụ thuộc vào tham số thu nhỏ λ để xác định các hệ số nào sẽ có giá trị bằng không. Tuy nhiên, chúng ta không thể sử dụng các đạo hàm riêng để tìm ra phương án tối ưu của bài toán Largrange này vì (8) không khả vi, [9]. Có một cách trực tiếp để xác định tham số λ đó là sử dụng phương pháp Cross-validation. Một cách thường được sử dụng của phương pháp Cross-validation là chia tập training ra k tập con không có phần tử chung, có kích thước gần bằng nhau. Tại mỗi lần kiểm thử , được gọi là run, một trong số k tập con được lấy ra làm validata set. Mô hình sẽ được xây dựng dựa vào hợp của k – 1 tập con còn lại. Cách làm này còn có tên gọi là k-fold cross validation. Cuối cùng, chúng ta sẽ chọn λ nào cung cấp cho chúng ta trung n 2 ei bình bình phương của các train error và validation error nhỏ nhất, nghĩa là MSE i 1 nhỏ nhất, trong n đó ei là chênh lệch giữa giá trị dự báo và giá trị thực. Mối quan hệ giữa λ và t được cho bởi công thức [5]: 11 YXXX'''' I XX I XY t (9) Với X, Y cho trước và λ tìm được bằng phương pháp Cross-validation, dựa vào (9) ta có thể xác định được của t trong điều kiện ràng buộc của (7). Trong trường hợp λ đủ lớn sẽ có một số tham số hồi quy tiến dần về 0, do đó chúng không đóng vai trò gì trong mô hình hồi quy, với các biến có tham số hồi quy bằng 0 ta có thể loại khỏi mô hình. Phương pháp LASSO có thể được minh họa bằng hình 1: Hình 1: Hồi quy LASSO 1318
- INTERNATIONAL CONFERENCE FOR YOUNG RESEARCHERS IN ECONOMICS & BUSINESS 2019 ICYREB 2019 Vùng hình thoi xung quanh gốc tọa độ trong Hình 1 là ràng buộc ||||2ˆ . Các hình elip là tập hợp các bậc khác nhau dùng để tối ưu hóa hàm mục tiêu. Nghiệm tối ưu cho hồi quy LASSO sẽ được tìm thấy ở một góc của hình thoi trên vì chúng ta đang tối thiểu hóa một hàm mục tiêu lồi nghiêm ngặt theo điều kiện ràng buộc là hình thoi ở gốc tọa độ. Vì nghiệm tối ưu xảy ra ở một góc của hình thoi nên chúng ta sẽ có một số tham số có giá trị bằng không. 2.1.3. Hồi quy RIDGE Xét lại mô hình hồi quy tuyến tính, ở dạng ma trận, trong các phần trước: YX (10) Trong đó YR n , Rn , Rk và ma trận dữ liệu X là ma trận có cấp nk . Hồi quy RIDGE là cũng phương pháp hồi quy tuyến tính đa biến có hiệu chỉnh mô hình, trong ˆ ˆ phương pháp này các hệ số 0 và j ,jk 1; được ước tính dựa trên bài toán tìm cực trị của hàm: ˆ 0 2 ˆ nkk 1 Lyxˆˆˆˆ, 2 với ˆ (11) Riij jj 0 R ijj 111 ˆ k ˆ Gọi R là nghiệm của bài toán (11), 22 ˆˆ'' ˆ 1 Nghiệm của bài toán này là: RR XXIXYYX R . arg min (12) 22 ˆ 2 ˆ 2 Trong (12), YX R là hàm lồi và R là hàm lồi nghiêm ngặt, do đó hàm số ở (11) là lồi 2 2 nghiêm ngặt nên (11) có duy nhất nghiệm, trong [9]. Hơn nữa, ma trận XXIT luôn khả nghịch nên (11) luôn có duy nhất nghiệm. Như vậy, RIDGE giải quyết được vấn đề đa cộng tuyến trong OLS, trong [10]. Một số tính chất của hồi quy RIDGE: i. Ước lượng RIDGE là một ước lượng chệch. Ta có: 11 EEXXIXYEXXIXXˆ '''' R 1 XXIXX'' Suy ra: 1 b ˆˆ E X'' X I X X 1 XXIXXI'' . 11 XXIXXXXIXXI'''' . . 0 1319
- INTERNATIONAL CONFERENCE FOR YOUNG RESEARCHERS IN ECONOMICS & BUSINESS 2019 ICYREB 2019 ii. Phương sai của ước lượng RIDGE 11 Var ˆ 2 XX ' I XXXX ' ' I Để so sánh hiệu quả dự báo của OLS và RIDGE, ta tiến hành so sánh MSE của OLS và RIDGE. ' 2' 1 Biết rằng, khi ma trận XX khả nghịch thì MSEtrOLS X X . Bây giờ chúng ta cần tính MSE của RIDGE ( MSER ) và chứng minh rằng MSEMSEOLSR . ' ˆˆˆ '' 1 Ta có: MSERRRR tr Var tr bb . Đặt A X X IX X. , khi đó 1 ' ta có: MSE 2 trAXX ' A ' ' AIAI . Suy ra, MSE MSE . R OLS R Phương pháp hồi quy LASSO cho phép chúng ta lựa chọn tập hợp các biến có ảnh hưởng đến biến phụ thuộc Y mà không cần tiến hành kiểm định, do đó không cần sử dụng P-value. Tuy nhiên, phương pháp LASSO không có công thức nghiệm nên không thể chứng minh được LASSO tốt hơn hẳn so với OLS. Trong khi đó, hồi quy RIDGE được chứng minh tốt hơn OLS về độ chính xác của dự báo, nhưng bản thân hồi quy RIDGE không thể lựa chọn tập hợp các biến giải thích có ảnh hưởng đến biến phụ thuộc mà không dùng kiểm định, không dùng P-value. Do đó, để có một thay thế hiệu quả cho OLS, ta cần kết hợp LASSO và RIDGE. 2.2. Phương pháp nghiên cứu Đối với bài báo này, vì chỉ nhằm mục đích so sánh hai phương pháp hồi quy OLS và LASSO kết hợp RIDGE nên trong bài báo đã sử dụng bộ dữ liệu về tiền lương của nhân viên trong [11] và hàm tiền lương Mincer. Biến phụ thuộc trong mô hình là tiền lương hiện tại trong 1 năm (Salary, USD) hoặc ln(salary), các biến độc lập là: tuổi (age); vị trí công việc (Jobcat) gồm 3 vị trí 1: nhân viên; 2: trưởng nhóm/tổ trưởng/Quản đốc; 3: quản lý; số năm đi học (educ); số tháng đã đi làm (prevexp); tiền lương khởi điểm trong một năm (salbegin, USD). Chúng tôi thực hiện ước lượng OLS và LASSO kết hợp RIDGE của mình bằng phần mềm R, sau đó tiến hành so sánh. 3. Kết quả và đánh giá Như ta đã biết, trong phương trình (10), X là phi ngẫu nhiên, β là hằng số chưa biết và ε là biến ngẫu nhiên theo phân phối chuẩn với trung bình bằng 0 và phương sai bằng 1. Do đó, Y cũng là một biến ngẫu nhiên theo phân phối chuẩn. Vì vậy, trước tiên chúng ta cần xem xét phân phối của biến phụ thuộc Y. 3.1. Kết quả 3.1.1. Phân phối của biến phụ thuộc Xét biểu đồ histogram và biểu đồ Q-Q plot của biến phụ thuộc salary, ta có: Dựa vào hai biểu đồ trên ta thấy biến salary không theo phân phối chuẩn. Tiếp tục xét biểu đồ histogram và biểu đồ Q-Q plot của biến phụ thuộc y với y = ln(salary), ta có: 1320
- INTERNATIONAL CONFERENCE FOR YOUNG RESEARCHERS IN ECONOMICS & BUSINESS 2019 ICYREB 2019 Hai biểu đồ cho thấy y theo phân phối chuẩn. Do đó, thay vì sử dụng biến phụ thuộc là biến salary, chúng tôi sẽ sử dụng biến y trong các hồi quy OLS, hồi quy LASSO và hồi quy RIDGE. 3.1.2. Hồi quy OLS Thực hiện hồi quy OLS theo mô hình (1), có dạng: 2 y= β1 + β2age + β3age + β4 educ+ β5prevexp + β6teamleader + β7manager + β8salbegin + ε (13) Kết quả ước lượng mô hình (13) bằng phương pháp OLS ta có: Estimate Std. Error t value Pr(>|t|) (Intercept) 9.774e+00 1.365e-01 71.586 < 2e-16 Age -9.705e-03 7.375e-03 -1.316 0.189 age2 4.857e-05 8.913e-05 0.545 0.586 educ 2.503e-02 4.635e-03 5.401 1.39e-07 salbegin 2.923e-05 2.340e-06 12.491 < 2e-16 prevexp -1.793e-04 1.687e-04 -1.062 0.289 teamleader 2.990e-01 4.705e-02 6.354 8.13e-10 manager 2.022e-01 4.230e-02 4.781 2.78e-06 Signif. codes: 0 ‘ ’ 0.001 ‘ ’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 R2= 0.845; RMSE = 0.1957541. Trong mô hình này, các biến age, age2, prevexp đều không có ý nghĩa thống kê. Vấn đề này có thể là do có sự tương quan giữa các biến giải thích của mô hình, thật vậy, ta có hệ số tương quan giữa hai biến giải thích age và prevexp là 0.813440. Như vậy, nếu chỉ dùng P-value và các tiêu chuẩn so sánh để lựa chọn mô hình thì rất khó để đưa ra quyết định, đặc biệt là trong trường hợp có đa cộng tuyến trong mô hình. 3.1.3. Hồi quy LASSO và RIDGE Tiếp tục ước lượng mô hình (13) bằng hồi quy LASSO như trong (7). Đầu tiên, để có cái nhìn trực quan về thông tin quan trọng của mô hình, chúng ta quan sát đồ thị gồm giá trị của các hệ số ước lượng trên trục tung và log(λ) trên trục hoành: Hình 2: Đồ thị của hệ số ước lượng theo log(λ) trong hồi quy LASSO 1321
- INTERNATIONAL CONFERENCE FOR YOUNG RESEARCHERS IN ECONOMICS & BUSINESS 2019 ICYREB 2019 Các đường cong khác nhau cho biết giá trị của hệ số của mỗi biến thay đổi như thế nào khi chúng ta giảm hình phạt. Như chúng ta có thể thấy, chúng ta càng giảm hình phạt nhiều càng có nhiều hệ số khác không trong mô hình. Biểu đồ ở hình 2 cũng cho thấy, có bốn biến giải thích quan trọng là educ, manager, teamleader và salbegin và chúng có tương quan đồng biến với biến phụ thuộc hay nói cách khác biến quan trọng trong mô hình là biến trình độ học vấn, tuổi, vị trị công việc và tiền lương khởi điểm. Tuy nhiên, giá trị λ mà chúng ta chọn phụ thuộc vào trung bình bình phương sai số của mô hình, có thể thấy trong biểu đồ trong hình 3 sau: Hình 3: Đồ thị của MSE theo log(λ) trong hồi quy LASSO Chúng ta có được đồ thị này sau khi đã thực hiện phương pháp cross-validation. Đồ thị ở hình 3 cho thấy trung bình bình phương sai số trên trục tung cho mỗi giá trị của log(λ) trên trục hoành, phía trên đồ thị chúng ta có số lượng hệ số khác không cho mỗi giá trị của log(λ). Chúng ta có thể thấy rằng khi giá trị của log(λ) tăng thì trung bình bình phuong sai số cũng tăng. Chúng ta phải cân bằng khả năng giải thích của mô hình với kết quả ược lượng của mẫu. Chúng ta cũng có thể thấy rằng mô hình có trung bình bình phương sai số nhỏ nhất khi có 6 hệ số khác không (gồm cả hệ số hằng số). Phương pháp Cross-validation cho ta giá trị lambda tốt nhất là 0.001056649 . Khi đó các hệ số khác 0 tương ứng là: (Intercept) 9.715043e+00 age -5.771953e-03 age2 . educ 2.436865e-02 salbegin 2.885148e-05 prevexp -1.549027e-04 teamleader 2.887499e-01 manager 2.045209e-01 Theo LASSO thì chỉ có biến age2 là không ảnh hưởng đến biến phụ thuộc y và khi đó RMSE = 0.1533306. Kết quả này tốt hơn hẳn so với hồi quy OLS. Sau khi dùng hồi quy LASSO, ta loại bỏ được biến age2, tiến hành hồi quy trên các biến còn lại theo phương pháp hồi quy RIDGE như trong (11). Kết quả hồi quy RIDGE với lambda tối ưu là 0.03380502 được cho như sau: (Intercept) 9.726342e+00 age -5.067727e-03 educ 2.674505e-02 salbegin 2.458813e-05 prevexp -1.641453e-04 teamleader 2.682288e-01 manager 2.452363e-01 1322
- INTERNATIONAL CONFERENCE FOR YOUNG RESEARCHERS IN ECONOMICS & BUSINESS 2019 ICYREB 2019 Tương tự hồi quy LASSO, trong hình 4, các đường cong cũng cho thấy giá trị của hệ số của mỗi biến thay đổi như thế nào khi chúng ta giảm hình phạt và các biến vị trí công việc, trình độ học vấn và tiền lương khởi điểm điểm ảnh hưởng nhiều nhất đến tiền lương nhân viên. Hình 4: Đồ thị của các hệ số ước lượng theo log(λ) trong hồi quy RIDGE Đồ thị ở hình 5 (của hồi quy RIDGE) cũng như đồ thị ở hình 3 (của hồi quy LASSO) cho thấy rằng mô hình có trung bình bình phương sai số nhỏ nhất khi có 6 hệ số khác không (gồm cả hệ số hằng số). Hình 5: Đồ thị của MSE theo log(λ) trong hồi quy RIDGE Kết quả dự báo với hồi quy RIDGE cho quan sát đầu tiên được cho như sau: Y.test 1 3 9.97348 9.929226 6 10.37661 10.262745 8 10.23638 10.164080 9 10.08581 10.087989 13 10.46596 10.293541 17 11.54974 10.885386 Khi đó, RMSE = 0.1948142. 3.2. Đánh giá Bài viết đã ước lượng mô hình tiền lương nhân viên theo hai cách khác nhau là OLS và LASSO kết hợp với RIDGE. Dựa trên RMSE, mô hình phù hợp nhất cho dữ liệu là mô hình hồi quy LASSO với RMSE = 0.1533306. Trong khi đó RMSE trong hồi quy OLS là 0.1957541 và trong hồi quy RIDGE với các biến đã được chọn ra bằng LASSO thì RMSE là 0.1948142. Như vậy, với bộ dữ liệu đang xét, hồi quy LASSO là phù hợp nhất vì cho ta kết quả dự báo với RMSE nhỏ nhất. Tuy nhiên, do kết quả của 1323
- INTERNATIONAL CONFERENCE FOR YOUNG RESEARCHERS IN ECONOMICS & BUSINESS 2019 ICYREB 2019 LASSO là không nhất quán nên không thể chứng minh LASSO luôn tốt hơn so với OLS. Kết quả khi kết hợp giữa LASSO và RIDGE mang lại hiệu quả hơn OLS vì có RMSE nhỏ hơn theo cả lý thuyết và thực nghiệm. Hơn nữa, nếu chỉ dựa vào P-value và các tiêu chuẩn so sánh của mô hình (1), ta rất khó để đưa ra quyết định rằng trong các biến age, age2 và prevexp biến nào thật sự có ảnh hưởng đến tiền lương và nên giữ lại trong mô hình. Trong khi đó, mô hình LASSO như trong (7), thì không cần dùng P-value để thực hiện kiểm định và cũng cho chúng ta khẳng định biến age và biến prevexp có ảnh hưởng đến tiền lương. 4. Kết luận Bài viết nghiên cứu này với mục đích là thảo luận về phương pháp hồi quy mà không cần dùng P-value, hồi quy LASSO kết hợp RIDGE. Ngoài ra, bài viết nhằm tiến hành một ví dụ thực nghiệm để so sánh cụ thể giữa hai phương pháp hồi quy là OLS và LASSO kết hợp RIDGE để cho thấy sự hiệu quả của phương pháp mới trong việc quyết định các biến giải thích thật sự có ảnh hưởng đến biến phụ thuộc cũng như trong dự báo (do MSE nhỏ hơn). Các kết quả thực nghiệm ở trên cho thấy mô hình hồi quy LASSO trong (7), kết hợp với RIDGE trong (11) cho kết quả vượt trội hơn OLS trong (1) ở cả hai khía cạnh là lựa chọn biến và dự báo. TÀI LIỆU THAM KHẢO [1] Nguyen HT (2016), On evidential measures of support for reasoning with integrated uncertainty: A lesson from the ban of P-values in statistical inference. LNAI; 9978: 3-15. [2] Nguyen HT (2016), Editorial: Why P-values are banned? Thai. Stat.; 14(2): i-iv. [3] Hung T. Nguyen (2019), How to Test Without P-Values? Thailand statistican, 17(2). [4] Valeria Nikolaenko, Udi Weinsberg, Stratis Ioannidis, Marc Joye, Dan Boneh, And Nina Taft. Privacy-Preserving Ridge Regression On Hundreds Of Millions Of Records. In Ieee Symposium On Security And Privacy, Pages 334–348. Ieee Computer Society, 2013. [5] Bonsang Koo And Byungjin Shin. Using Ridge Regression To Improve The Accuracy And Interpretation Of The Hedonic Pricing Model : Focusing On Apartments In Guro-Gu, Seoul. In Ieee Symposium On Security And Privacy, Volume 16, Pages 77–85. Korean Institute Of Construction Engineering And Management, 2015. [6] C.B. Garca, J. Garca, M.M. Lpez Martn, And R. Salmern. Collinearity: Revisiting The Variance Inflation Factor In Ridge Regression. Volume 42, Pages 648–661, 2015. [7] Adel Aloraini. Ensemble Feature Selection Methods For A Better Regu- Larization Of The Lasso Estimate In P>>N Gene Expression Datasets. In Proceedings Of The 12th Conference In Machine Learning And Applica- Tions, Pages 122–126, 2013. [8] Sacha Epskamp, Joost Kruis, And Maarten Marsman. Estimating Sychopathological Networks: Be Careful What You Wish For. Volume 12, 2017. [9] S. Boyd & L. Vandenberghe (2004), Convex Optimization. Cambridge Univ. [10] Hung T. Nguyen (2019), LINEAR REGRESSION ANALYSIS WITHOUT P-VALUES. NMSU & CMU. [11] Giáo trình Kinh tế lượng – Ramu Ramanathan (Nguyên bản tiếng Anh – Bản dịch tiếng Việt của Fulbright). [12] Trevor Hastie, Robert Tibshirani& Jerome Friedman (2017), The Elements of Statistical Learning Data: Mining, Inference, and Prediction. Springer. [13] Hastie, T., Tibshirani, R., and Wainwright, M. (), Statistical learning with Sparsity: The Lasso and Generalizations, Chapman and Hall/ CRC Press. 1324
- INTERNATIONAL CONFERENCE FOR YOUNG RESEARCHERS IN ECONOMICS & BUSINESS 2019 ICYREB 2019 [14] Kutner. M.H, C.J. Nachtsheim & J. Neter (2004) Applied Linear Regression Models, McGraw-Hill. [15] Miller, A.J.(1984), Selection of subsets of regression variables, J. Royal Statist. Soc. A. 147(3), 389-425. [16] Stein, C. (1956) Inadmissibility of the usual estimator for the mean of a multivariate normal distribution, Proceedings of the Third Berkeley Symposium on Mathematical Statistics and Probability, 197-206 [17] Stein, C. (1981) Estimation of the mean of a multivariate normal distribution, Ann. Statist. (9), 1135-1151 [18] Tibshirani, R. (1996), Regression shrinkage and selection via the Lasso, J. Royal Statist. Soc.B 58(1), 267-288. 1325