Một số kĩ thuật học máy cho chấm điểm tín dụng

7 trang Gia Huy 5030

Download

Bạn đang xem tài liệu "Một số kĩ thuật học máy cho chấm điểm tín dụng", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

mot_so_ki_thuat_hoc_may_cho_cham_diem_tin_dung.pdf

Nội dung text: Một số kĩ thuật học máy cho chấm điểm tín dụng

Một số kĩ thuật học máy cho chấm điểm tín dụng Giang Thị Thu Huyền Học viện Ngân hàng Ngày nhận: 23/10/2020 Ngày nhận bản sửa: 29/01/2021 Ngày duyệt đăng: 23/03/2021 Tĩm tắt: Chấm điểm tín dụng là một giai đoạn quan trọng trong quy trình quản lý rủi ro của các tổ chức tài chính và ngân hàng. Chấm điểm tín dụng tốt sẽ gĩp phần làm cho chất lượng cho vay tốt hơn. Chất lượng cho vay là yếu tố quyết định hàng đầu đến sự cạnh tranh, tồn tại và lợi nhuận của các tổ chức tài chính ngân hàng. Các kỹ thuật học máy đã gĩp phần cải tiến đáng kể về hiệu suất phân loại trong chấm điểm tín dụng, đồng thời giảm thiểu rủi ro cho đánh giá tín dụng. Bài báo đưa ra một số kỹ thuật học máy cho chấm điểm tín dụng đã và đang được các tổ chức tài chính và ngân hàng sử dụng; đưa ra kết quả thử nghiệm các kỹ thuật học máy trên bộ dữ liệu Kaggle- bộ dữ liệu miễn phí cho nghiên cứu về khoa học dữ liệu, từ đĩ đánh giá hiệu suất phân loại của các kỹ thuật học máy này. Qua đanh gia thi cac thuât toan vê hoc sâu cho kêt qua kha tơt va cân tiêp tuc nghiên cưu trong tương lai. Từ khĩa: Kỹ thuật học máy, Chấm điểm tín dụng, Học sâu. 1. Giới thiệu dung quan trọng trong quản lý rủi ro đối với hệ thống các ngân hàng thương mại. Kết Xếp hạng tín dụng của khách hàng là nội quả xếp hạng tín dụng là một yếu tố quan Some machine learning techniques for credit scoring Abstract: Credit scoring is an important stage in the risk management process of financial institutions and banks. A good credit score will contribute to a better loan quality. Loan quality is the decisive aspect of the competition, existence and profitability of banks and financial institutions. Machine learning techniques have contributed to a significant improvement in the grading performance in credit scoring while also minimizing the risk of credit rating. The paper outlines some machine learning techniques for credit scoring that have been used by financial terms. The test results of machine learning techniques are obtained based on Kaggle datasets, the free datasets for data science research, which evaluate the classification efficiency of these machine learning techniques and suggest some recommendations. The deep learning algorithms give good results to study in the future. Keywords: Machine learning techniques, Credit scoring, Deep learning. Huyen Thi Thu Giang Email: huyengtt@hvnh.edu.vn Banking Academy of Vietnam Tạp chí Khoa học & Đào tạo Ngân hàng © Học viện Ngân hàng Số 227- Tháng 4. 2021 34 ISSN 1859 - 011X
GIANG THỊ THU HUYỀN trọng cần xem xét trong việc ra quyết định năng đánh giá và sự sẵn lịng trả nợ, người cho vay. Do đĩ, hệ thống xếp hạng tín dụng cho vay cĩ thể đưa ra các quyết định tín là một cơng cụ quan trọng để tăng cường dụng trước đây khơng thể. tính khách quan, nâng cao chất lượng và Nhu cầu chấm điểm tín dụng mà thực tế đặt hiệu quả hoạt động tín dụng. Hiện nay, các ra đã khiến các nhà nghiên cứu phát triển ngân hàng thương mại đã và đang áp dụng các mơ hình chấm điểm tín dụng, từ đĩ nhiều kĩ thuật khác nhau để xếp hạng tín giúp người cho vay quyết định cấp hay từ dụng khách hàng. Mơ hình tính điểm tín chối tín dụng cho người nộp đơn. Cơng cụ dụng là phương pháp lượng hố mức độ rủi chấm điểm tín dụng sử dụng học máy được ro, thơng qua đánh giá thang điểm, các chỉ thiết kế để tăng tốc các quyết định cho vay, tiêu đánh giá trong những mơ hình chấm đồng thời cĩ khả năng hạn chế rủi ro. Áp điểm được áp dụng khác nhau đối với từng dụng thuật tốn học máy đã cho phép phân loại khách hàng. Cùng với sự phát triển của khúc chất lượng của người đi vay lớn hơn, khoa học máy tính và các kĩ thuật khai phá nhanh hơn và rẻ hơn, giúp tạo điều kiện tiếp dữ liệu, nhiều phương pháp khai phá dữ cận tín dụng tốt hơn. Mục tiêu của mơ hình liệu đã được đưa vào sử dụng trong thực chấm điểm tín dụng là phân loại người nộp tế như cây quyết định và các kĩ thuật phân đơn tín dụng thành hai hạng: hạng “tín dụng lớp, phân cụm, hoc sâu Theo Amitha tốt” cĩ trách nhiệm bồi hồn nghĩa vụ tài Mathew (2021), kỹ thuật học sâu đang thực chính và hạng “tín dụng xấu” sẽ bị từ chối hiện tốt hơn các kỹ thuật học máy hiện tại tín dụng do khả năng vỡ nợ cao. Việc phân đặc biêt la vơi dữ liệu phi cấu trúc. loại này phụ thuộc vào đặc điểm xã hội học Hand và Jacka (1998) đã nĩi rằng “Quá của người đi vay (như tuổi, trình độ học vấn, trình (bởi các tổ chức tài chính) mơ hình nghề nghiệp và thu nhập), tình hình trả nợ hĩa mức độ tín nhiệm được gọi là chấm các khoản vay trước đĩ và loại khoản vay điểm tín dụng”. Quá trình này bao gồm thu Một số kỹ thuật học máy cho chấm điểm tín thập, phân tích và phân loại các yếu tố và dụng như: mạng nơ ron nhân tạo, K-Nearest biến số tín dụng khác nhau để đánh giá các neighbour, support vector machine - SVM, quyết định tín dụng. Trong các mơ hình cây quyết định Theo Amitha Mathew chấm điểm tín dụng truyền thống được (2021), kỹ thuật học sâu dựa trên mạng nơ sử dụng, người vay tiềm năng phải cĩ đủ ron sâu và ứng dụng của nĩ đang là hướng thơng tin tín dụng. Cách làm này phụ thuộc nghiên cứu được nhiều người quan tâm và rất nhiều vào quan điểm chủ quan của nhân thu được những kết quả khả quan. Ky thuât viên tín dụng, do đĩ các ngân hàng phải hoc sâu đa giai quyêt đươc mơt sơ vương đối mặt với nhiều rủi ro bởi trình độ thẩm mắc ma cac thuât toan hiên nay gặp phai đo định của nhân viên cịn hạn chế, nhân viên la xư ly vơi dũ liêu phi câu truc. cĩ thể thơng đồng với khách hàng để nâng Bai bao giơi thiêu mơt sơ thuât toan hoc hạng tín dụng Trong trường hợp khơng may va thư nghiêm, so sanh, đanh gia cac cĩ thơng tin này, điểm tín dụng khơng thể thuât toan trên bơ dư liêu Kaggle va tư đo tính tốn được, và một người đi vay cĩ khả đưa ra kêt luân. năng đáng tin cậy thường khĩ cĩ khả năng tiếp cận tín dụng và xây dựng một lịch sử 2. Các kỹ thuật học máy cho chấm điểm tín dụng với ngân hàng. Với việc sử dụng tín dụng các nguồn dữ liệu thay thế và ứng dụng các thuật tốn học máy để giúp phát triển khả Một vấn đề lớn đối với các tổ chức tài Số 227- Tháng 4. 2021- Tạp chí Khoa học & Đào tạo Ngân hàng 35
Một số kĩ thuật học máy cho chấm điểm tín dụng chính và ngân hàng là làm thế nào để xác được sử dụng trực tiếp để phân loại đa lớp. định được tín dụng xấu, vì tín dụng xấu cĩ thể gây ra các vấn đề nghiêm trọng trong 2.2. Cây quyết định tương lai. Điều này dẫn đến thất thốt vốn, giảm doanh thu và làm tăng tổn thất của Theo Joao A. Bastos (2008), Cây quyết định ngân hàng, cĩ thể dẫn đến mất khả năng là kỹ thuật phân loại khác được sử dụng để thanh tốn hoặc phá sản. Hiện nay, cĩ rất phát triển các mơ hình tính điểm tín dụng. nhiều kĩ thuật học máy để phân loại khách Cây quyết định là một trong những thuật hàng. Bài báo sẽ đưa ra một số kĩ thuật hay tốn máy học phổ biến nhất hiện nay. Với được sử dụng: kỹ thuật phân lớp dựa trên cây quyết định, kết quả của quá trình xây dựng mơ hình sẽ 2.1. K láng giềng gần nhất (K-Nearest cho ra một cây quyết định. Thuật tốn bắt Neighbors - KNN) đầu với một nút gốc chứa một mẫu người nộp đơn tín dụng tốt và xấu. Sau đĩ, thuật Theo Ram Babu, Mr.A.Rama Satish (2013) tốn lặp lại tất cả các phép phân tách cĩ thi thuật tốn K láng giềng gần nhất là thể cĩ để tìm thuộc tính và giá trị giới hạn một kĩ thuật học cĩ giám sát (supervised tương ứng mang lại sự phân tách tốt nhất learning) dùng để phân loại đối tượng mới thành một bên cĩ phần lớn là tín dụng tốt và bằng cách tìm điểm tương đồng giữa quan bên kia chủ yếu là tín dụng xấu. Cây quyết sát mới với dữ liệu sẵn cĩ. Một đối tượng định sẽ sinh ra các luật để dự đốn lớp của được phân lớp dựa vào K láng giềng của các đối tượng chưa biết. Cây quyết định là nĩ. K là số nguyên dương được xác định cây mà mỗi nút biểu diễn một đặc trưng trước khi thực hiện thuật tốn. Người ta (tính chất), mỗi nhánh (branch) biểu diễn thường dùng khoảng cách Euclidean để một quy luật (rule) và mỗi lá biểu biễn một tính khoảng cách giữa các đối tượng. kết quả (giá trị cụ thể hay một nhánh tiếp Thuật tốn KNN được mơ tả như sau: tục). Cĩ rất nhiều thuật tốn cây quyết định - Xác định giá trị tham số K (số láng giềng như ID3, J48, C4.5, CART (Classification gần nhất). and Regression Tree) CART là một kĩ - Tính khoảng cách giữa đối tượng cần thuật học máy được áp dụng để dự đốn. phân lớp với tất cả các đối tượng trong tập CART dùng Gini Index để kiểm tra. Chỉ số huấn luyện (thường sử dụng khoảng các Gini là thước đo sự phân tán hoặc tính đa Euclidean). dạng trong một nút. - Sắp xếp khoảng cách theo thứ tự tăng dần và xác định K láng giềng gần nhất với đối 2.3. Naive Bayes tượng cần phân lớp. - Lấy tất cả các lớp của K láng giềng gần Theo Olatunji J. Okesola (2017), Thuật tốn nhất đã xác định. Naive Bayes (NB) là một thuật tốn dựa trên - Dựa vào phần lớn lớp của láng giềng gần định lý Bayes về lý thuyết xác suất để đưa nhất để xác định lớp cho đối tượng cần ra các phán đốn cũng như phân loại dữ liệu phân lớp. dựa trên các dữ liệu được quan sát và thống KNN là một mơ hình đơn giản và trực quan kê, được ứng dụng để đưa các dự đốn cĩ nhưng vẫn cĩ hiệu quả cao vì nĩ khơng tham độ chính xác cao, dựa trên một tập dữ liệu số; mơ hình khơng đưa ra giả định nào về đã được thu thập. Thuật tốn Naive Bayes việc phân phối dữ liệu. Hơn nữa, nĩ cĩ thể thuộc vào nhĩm học máy cĩ giám sát. 36 Tạp chí Khoa học & Đào tạo Ngân hàng- Số 227- Tháng 4. 2021
GIANG THỊ THU HUYỀN 2.4. Máy hỗ trợ vector- Support Vector tượng hĩa ở mức cao bằng cách sử dụng Machine (SVM) nhiều lớp xử lý với cấu trúc phức tạp, hoặc bằng cách khác bao gồm nhiều biến đổi phi Theo R.H. Davis, D.B. Edelman, và A.J. tuyến. Theo Cuicui Luo (2017) thi co nhiêu Gammerman (1992), Máy hỗ trợ vector- kỹ thuật học sâu Deep learning cho chấm Support Vector Machine (SVM) là một thuật điểm tín dụng, bài báo sẽ đưa ra bốn kỹ tốn học máy cĩ giám sát được sử dụng phổ thuật học sâu cho chấm điểm tín dụng: biến cho các bài tốn phân lớp. SVM được Vapnik giới thiệu lần đầu tiên và sau đĩ trở 2.5.1. Mạng nơ ron nhiều lớp (Deep nên phổ biến. Ý tưởng của SVM là tìm một Sequential Neural Network) siêu phẳng (hyper lane) đĩng vai trị là ranh Mạng nơ-ron nhiều lớp là một kiểu đơn giới quyết định, để tách hai lớp khác nhau. giản của mơ hình Deep learning với các Vấn đề là cĩ rất nhiều siêu phẳng, chúng ta mạng nơ-ron chứa lớp liên tiếp xếp chồng phải chọn cái nào để tối ưu nhất? Siêu phẳng nhau. Trong thực nghiệm, để nâng cao tối ưu mà chúng ta cần chọn là siêu phẳng hiệu quả của mơ hình, ta thiết kế các tầng phân tách cĩ lề lớn nhất. Lý thuyết học máy mạng với mật độ nơ-ron khác nhau cho mỗi đã chỉ ra rằng một siêu phẳng như vậy sẽ cực tầng. Sử dụng hàm kích hoạt (activation tiểu hĩa giới hạn lỗi mắc phải. function) sau rectified linear (ReLU): θ(x) = max(0, x); hyperbolic tangent (tanh): 2.5. Kỹ thuật học sâu (Deep learning) θ(x) = sinh (x) ÷ cosh (x) = (ex - e-x) ÷ (ex + e-x); sigmoid: θ(x) = (1 + e−x)−1. Để đánh Theo Cuicui Luo, Desheng Wu, Dexiang giá mơ hình một cách khách quan, sử dụng Wu (2017) khái niệm học sâu được phát Hàm loss cross-entropy. triển lần đầu vào những năm 1960. Đến năm 2011 và 2012, thuật tốn học sâu được L(θ) = - [yilog(pi) + (1 - pi)log(1 - pi)] thúc đẩy bởi sự gia tăng mạnh mẽ trong sức mạnh tính tốn của máy tính hiện đại và đạt được nhiều thành tựu trong nhiều lĩnh vực = - yijlog(pij) trong đĩ cĩ tài chính ngân hàng. Học sâu cho phép một lượng lớn dữ liệu được phân Trong đĩ i là chỉ số của các quan sát, j là tích rất nhanh chĩng, nĩ cĩ thể xử lý phạm các lớp, y là nhãn và pij (0,1): ∑j pij = 1, vi đầu vào tín dụng rộng hơn, giảm chi phí là giá trị dự đốn. đánh giá rủi ro tín dụng. Kiến trúc của mơ hình được∈ mơ tả chi tiết Kỹ thuật học sâu là một thuật tốn học máy dưới đây (áp dụng cho dữ liệu Kaggle được xây dựng dựa trên một số ý tưởng mơ Credit): phỏng hệ thống não bộ của con người. Nĩ Thuật tốn được mơ tả như sau: biểu diễn dữ liệu thơng qua nhiều tầng từ cụ 1. Input (length = 60) thể đến trừu tượng qua đĩ trích rút được các 2. Dense layer (60, input dim = 10, kernel đặc trưng cĩ ý nghĩa. Theo Amitha Mathew initializer = ‘uniform’, activation function (2021) Học sâu (deep learning) cịn được =’relu’) gọi là học cĩ cấu trúc sâu hoặc học phân 3. Dense layer (5, kernel initializer = cấp, là một phần của học máy dựa trên các ‘uniform’, activation function =’relu’) mạng nơ ron nhân tạo. Học sâu là một tập 4. Dense layer (1, kernel initializer = hợp các thuật tốn để mơ hình dữ liệu trừu ‘uniform’, activation function = ‘sigmoid’) Số 227- Tháng 4. 2021- Tạp chí Khoa học & Đào tạo Ngân hàng 37
Một số kĩ thuật học máy cho chấm điểm tín dụng 2.5.2. Mạng nơ ron tích chập (Convolutional Mơ hình mạng bộ nhớ ngắn-dài hạn khơng Neural Network) khác mơ hình truyền thống của mạng nơ Mạng nơ ron tích chập là một mạng nơ ron ron hồi quy, chúng chỉ khác nhau ở cách nhân tạo với các tốn tử tích chập. Nĩ cĩ tính tốn của các nút ẩn, mạng bộ nhớ khả năng học một lượng lớn các dữ liệu ngắn-dài hạn sử dụng hàm tính tốn khác trong khoảng thời gian ngắn hơn nhiều so ở các trạng thái ẩn. Bộ nhớ của mạng bộ với mạng nơ ron thơng thường. Lý do là nĩ nhớ ngắn-dài hạn được gọi là tế bào (Cell) sử dụng ít trọng số hơn trong khi độ chính và bạn cĩ thể tưởng tượng rằng chúng là xác chỉ kém hơn một phần nhỏ so với kiến các hộp đen nhận đầu vào là trạng thái phía trúc truyền thống. trước và đầu vào hiện tại. Bên trong hộp Thuật tốn được mơ tả như sau: đen này sẽ tự quyết định cái gì cần phải 1. Input (length = 14, shape(14,1)) nhớ và cái gì sẽ xố đi. Sau đĩ, chúng sẽ 2. 1D Convolution layer (filters = 150, kết hợp với trạng thái phía trước, nhớ hiện kernel size=1) tại và đầu vào hiện tại. Vì vậy mà ta cĩ thể 3. Max pooling layer (pool size = 1) truy xuất được quan hệ phụ thuộc xa nhau 4. Fully connected (N = 14, activation rất hiệu quả. function = ’relu’) Thuật tốn được mơ tả như sau: 5. Fully connect (N = 1, activation function 1. Input (length = 24) = ’sigmoid’) 2. LSTM(N = 24, activation function = ‘sigmoid’, loss = ’binary cross entropy’, 2.5.3. Mạng nơ ron hồi quy (Recurrent optimizer = ’rmsprop’) Neural Network) 3. Dropout(0.5) Ý tưởng chính của mạng nơ ron hồi quy 4. Full connected(N = 1,activation code = là sử dụng chuỗi các thơng tin. Trong các ‘sigmoid’) mạng nơ-ron truyền thống tất cả các đầu vào và đầu ra là độc lập với nhau, khơng 3. Kết quả thử nghiệm các kỹ thuật học máy liên kết thành chuỗi. Mạng nơ ron hồi quy được gọi là hồi quy bởi lẽ chúng thực hiện Bai bao sử dụng bộ dữ liệu Kaggle đánh cùng một tác vụ cho tất cả các phần tử của giá hiệu quả các kỹ thuật học may. Kaggle một chuỗi với đầu ra phụ thuộc vào cả các cĩ nhiều bộ dữ liệu khác nhau cho các lĩnh phép tính trước đĩ. Nĩi cách khác mạng nơ vực nhằm hỗ trợ cho nghiên cứu về học ron hồi quy cĩ khả năng nhớ các thơng tin máy và khoa học dữ liệu. Kaggle đã được được tính tốn trước đĩ. các nhà nghiên cứu trên thế giới sử dụng Thuật tốn được mơ tả như sau: rộng rãi. Kaggle credit là một bộ dữ liệu 1. Input (length = 24) tốt được sử dụng cho các cuộc thi và các 2. RNN = SimpleRNN(N = 100, return_ nghiên cứu về chấm điểm tín dụng. Bộ dữ sequences = True, dropout = self.dropout, liệu này bao gồm thơng tin của 250.000 activation function = ‘sigmoid’) người vay vốn với 150.000 bản ghi cĩ nhãn 3. Dropout(0.5) và 100.000 trường hợp khơng cĩ nhãn. Các 4. Full connected(N = 1, activation function bản ghi được gán nhãn tương ứng với “tín = ‘sigmoid’) dụng xấu” hoặc “tín dụng tốt”. Thực nghiệm trên bộ dữ liệu Kaggle và sử 2.5.4. Mạng bộ nhớ ngắn-dài hạn (Long dụng phương pháp đánh giá chéo (10-fold Short-Term Memory) cross validation), lấy kết quả trung bình để 38 Tạp chí Khoa học & Đào tạo Ngân hàng- Số 227- Tháng 4. 2021
GIANG THỊ THU HUYỀN so sánh hiệu quả các thuật tốn K-Nearest credit khi so sánh trên độ đo accuracy, các neighbor (kNN), cây hồi quy (CART), thuật tốn đều cĩ được kết quả rất tốt trên Naive Bayes (NB) và máy hỗ trợ vector- 90% (trừ CART là 89,2%). Khi so sánh Support Vector Machine (SVM), các thuật trên độ đo Precision, Recall va F1 thi đơ tốn học sâu (mạng nơ ron nhiều lớp (Deep chinh xac cua cac các thuật tốn hoc sâu tơt Sequential Neural Network– DSNN), hơn so voi cac thuât toan truyên thơng. Kết mạng nơ ron tích chập (Convolutional quả tốt nhất đạt được với độ đo F1-socre là Neural Network- CNN), mạng nơ ron hồi 51,12%, độ đo Precision la 53,20%, đơ đo quy (Recurrent Neural Network– RNN), Recall la 49,20% do mạng RNN đem lại. mạng bộ nhớ ngắn-dài hạn (Long Short- Nguyên nhân là do kha năng hoc cua cac Term Memory– LSTM). Đánh giá hiệu quả thuât toan hoc sâu tơt khi đươc điêu chinh của các thuật tốn dựa trên 4 độ đo sau đây: sơ lơp va sơ nơ ron ơ mơi lơp; mặt khac, Accuracy, Precision, Recall và F1-score. bộ dữ liệu Kaggle credit cĩ tính khơng cân TP = số lượng đúng tích cưc bằng và các thuật tốn khá nhạy cảm với dữ FP = số lượng sai tích cực liệu khơng cân bằng. Với bộ dữ liệu Kaggle TN = số lượng đúng tiêu cực credit thì các thuật tốn sử dung kỹ thuật FN = số lượng sai tiêu cực học sâu cho kết quả phân loại khá tốt so với P = số lượng bản ghi lớp tích cực thực tế các thuật tốn cịn lại. N = số lượng bản ghi lớp tiêu cực thực tế Kết quả về độ chính xác của các thuật tốn 4. Kết luận được thể hiện trong Bảng 2. Kết quả tổng hợp đối với bộ dữ liệu Kaggle Các thuật tốn chấm điểm tín dụng là cơng Bảng 1. Mơ tả các biến trong bộ dữ liệu Kaggle Credit Thuộc tính Mơ tả SeriousDlqin2yrs Người đã trải qua 90 ngày quá hạn Tổng số dư trên thẻ tín dụng và hạn mức tín dụng cá nhân RevolvingUtilizationOf_ ngoại trừ bất động sản và khơng cĩ nợ trả gĩp như khoản vay UnsecuredLines mua ơ tơ chia cho tổng hạn mức tín dụng Age Tuổi của người vay (năm) NumberOfTime30- Số lần người vay quá hạn 30-59 ngày trong 2 năm gần đây 59DaysPastDueNotWorse Tổng mức chi tiêu hàng tháng chia cho tổng mức thu nhập DebtRatio hàng tháng MonthlyIncome Thu nhập hàng tháng NumberOfOpenCredit_ Số lượng khoản vay mở (trả gĩp như vay mua ơ tơ hoặc thế LinesAndLoans chấp) và Dịng tín dụng (ví dụ: thẻ tín dụng) NumberOfTimes90DaysLate Số lần người vay quá hạn 90 ngày hoặc hơn. NumberRealEstateLoans_ Số lượng các khoản vay thế chấp và bất động sản bao gồm cả OrLines dịng vốn chủ sở hữu của tín dụng. NumberOfTime60- Số lần người vay quá hạn 60-89 ngày trong 2 năm gần đây. 89DaysPastDueNotWorse NumberOfDependents Số lượng người phụ thuộc (trẻ em, vợ/chồng). Nguồn Số 227- Tháng 4. 2021- Tạp chí Khoa học & Đào tạo Ngân hàng 39
Một số kĩ thuật học máy cho chấm điểm tín dụng Bảng 2. Độ chính xác của các thuật tốn kNN CART NB SVM DSNN CNN RNN LSTM Accuracy 0,9287 0,8920 0,9288 0,9301 0,9342 0,9277 0,9350 0,9360 Precision 0,3031 0,2515 0,3585 0,3670 0,5200 0,3682 0,5320 0,5156 Recall 0,0172 0,2786 0,0234 0,2840 0,4870 0,3745 0,4920 0,503 F1 0,0325 0,2644 0,0438 0,3205 0,5029 0,3713 0,5112 0,509 Nguồn: Tac gia chay thư nghiêm va tơng hợp kêt qua cụ quan trọng cho các vấn đề dự đốn và vào từng yêu cầu cụ thể, cấu trúc của dữ phân loại. Bài báo đã giới thiệu một số kĩ liệu, các chức năng của ứng dụng, mức độ thuật chấm điểm tín dụng với bộ dữ liệu tách biệt các lớp bằng mục tiêu phân loại. Kaggle credit. Trên cơ sở những kết quả Ngồi ra, việc sử dụng kết hợp các kỹ thuật thu được, cho thấy kĩ thuật học sâu cĩ thể hứa hẹn cho khả năng phân loại và dự đốn là giải pháp cho các ứng dụng chấm điểm tốt hơn cũng như cần phải xem xét đến tín dụng. Các kỹ thuật hỗ trợ người ra ảnh hưởng quan trọng của các chính sách quyết định tín dụng dự đốn khách hàng và quy định của các tổ chức tài chính ngân sẽ cĩ lịch sử tín dụng tốt hay tín dụng xấu hàng. Bai nghiên cưu mơi chi thư nghiêm dựa trên các thuộc tính và thơng tin “tín trên bơ dư liêu danh cho nghiên cưu cua dụng” của họ. Tuy nhiên, cần nhấn mạnh Kaggle. Trên cơ sở những kết quả thu rằng khơng cĩ mơ hình tính điểm tín dụng được, cĩ thể kết luận rằng kĩ thuật học sâu lý tưởng cũng như khơng cĩ kỹ thuật tốt cĩ thể là giải pháp khá quan trọng cho các nhất được sử dụng để xây dựng mơ hình ứng dụng chấm điểm tín dụng hiện nay và chấm điểm tín dụng; và kỹ thuật tốt cho tập trong tương lai. ■ dữ liệu này chưa chắc tốt trên tập dữ liệu khác. Kỹ thuật này hơn kỹ thuật khác khả năng dự đốn trong các trường hợp cụ thể khác nhau. “Kĩ thuật tốt nhất” phụ thuộc Tài liệu tham khảo Amitha Mathew, P.Amudha, S.Sivakumari. (2021), Deep Learning Techniques: An Overview, Advanced Machine Learning Technologies and Applications. Cuicui Luo, Desheng Wu, Dexiang Wu. (2017),A deep learning approach for credit scoring using credit default swaps, Engineering Applications of Artificial Intelligence. Denoyer, Gallinari. (2011), Deep sequential neural network, University Pierre et Marie Curie - Paris, France. Hand, Jacka. (1998) Statistics in Finance, Arnold Applications of Statistics: London. Hussein A. Abdou, John Pointon. (2011), Credit scoring, statistical techniques and evaluation criteria: A review of the literature, Intelligent Systems in Accounting, Finance & Management. Joao A. Bastos. (2008), Credit scoring with boosted decision trees, School of Economics and Management (ISEG) Technical University of Lisbon, Portugal. Olatunji J. Okesola et al. (2017), An improved Bank Credit Scoring Model A Nạve Bayesian Approach, International Conference on Computational Science and Computational Intelligence. Ram Babu, Mr.A.Rama Satish. (2013), Improved of K-Nearest Neighbor Techniques in Credit Scoring, International Journal For Development of Computer Science & Technology. R.H. Davis, D.B. Edelman, A.J. Gammerman. (1992), Machine learning algorithms for credit-card applications. IMA Journal of Management Mathematics. 40 Tạp chí Khoa học & Đào tạo Ngân hàng- Số 227- Tháng 4. 2021