Dự báo khách hàng ngân hàng rời bỏ dịch vụ với thuật toán học máy - Hồi quy Logistic
30/06/2023 7.193 lượt xem
Tóm tắt: Học máy (Machine Learning) đóng một vai trò quan trọng trong quá trình chuyển đổi số, đặc biệt là trong lĩnh vực tài chính, ngân hàng. Học máy không những là công cụ hỗ trợ ra quyết định trong việc xét duyệt tín dụng cho khách hàng, mà còn giúp các ngân hàng nhận định đúng đâu là khách hàng tiềm năng trong chiến lược kinh doanh của họ. Các bài toán ứng dụng học máy được đẩy mạnh nghiên cứu và ứng dụng trong những năm gần đây nhằm giúp các ngân hàng tối ưu hóa việc sử dụng nguồn vốn và nâng cao lợi nhuận. Trong bài viết này, chúng tôi giới thiệu một ứng dụng của học máy cho bài toán dự đoán khách hàng rời bỏ dịch vụ ngân hàng tại các ngân hàng thương mại (NHTM). Kết quả thực nghiệm cho thấy, tính khả quan của đầu tư đẩy mạnh nghiên cứu và ứng dụng các thuật toán học máy trong lĩnh vực ngân hàng để rút ngắn thời gian làm việc, tiết kiệm thời gian cho các chuyên gia Việt Nam. 
 
Từ khóa: Trí tuệ nhân tạo, học máy, khai thác dữ liệu, dự đoán rời bỏ.
 
PREDICTION OF CUSTOMER CHURN IN BANKING SECTOR USING MACHINE LEARNING - LOGISTIC REGRESSION ALGORITHM
 
Abstract: Machine Learning (ML) plays an important role in digital transformation, specially in banking and finance sector. It is not only a decision support tool in credit approval for customers but also helps banks to correctly identify potential customers in their business strategy. Applications of machine learning problems have been researched and applied in recent years to help banks optimize their capital and increase their profits. In this paper, we introduce an application of machine learning to predict customer churn at commercial banks. The experimental results show the positive effects of investing in promoting research and application of machine learning algorithms in the banking sector to shorten working time and save time for Vietnamese experts.

Keywords: Artificial intelligence, machine learning, data mining, churn prediction.
 
1. Giới thiệu
 
Học máy là một lĩnh vực được các doanh nghiệp và các tổ chức nghiên cứu, ứng dụng, đặc biệt là trong lĩnh vực tài chính, ngân hàng. Từ các trợ lí ảo như Siri và Cortana, đến các Chatbots được tạo ra bởi Facebook, Google và nhiều công ty công nghệ khác (Breeden, 2021; Leo, M., Sharma, S., và Maddulety, K., 2019). Trí tuệ nhân tạo (Artificial Intelligence) đang ngày càng tác động mạnh mẽ đến các lĩnh vực kinh tế, xã hội, trong đó có lĩnh vực ngân hàng. Nó góp phần làm thay đổi chiến lược kinh doanh, sản xuất tại các doanh nghiệp trong điều kiện nền kinh tế hội nhập hiện nay và trong tương lai. Bài viết này trình bày tổng quan về học máy và ứng dụng của học máy trong lĩnh vực tài chính, ngân hàng, sau đó là minh họa việc sử dụng công cụ học máy hỗ trợ cho việc ra quyết định tại NHTM (P Salman Raju, V Rama Bai và Gkrishna Chaitanya, 2014) bằng việc ứng dụng mô hình hồi quy Logistic để dự báo khách hàng rời bỏ dịch vụ tại ngân hàng. 
 
Theo Microsoft, Google hay một số công ty công nghệ lớn, chuyển đổi số là một sự đổi mới kinh doanh được thúc đẩy bởi sự bùng nổ của điện toán đám mây, trí tuệ nhân tạo và Internet kết nối vạn vật (IoT), cung cấp những cách thức mới để hiểu, quản lí và chuyển đổi cho các hoạt động kinh doanh của họ. 
 
Duy trì khách hàng là một vấn đề ngày càng cấp bách trong môi trường thương mại cạnh tranh. Nghiên cứu được thực hiện ở các cấp độ quốc tế và quốc gia cho thấy tầm quan trọng của những vấn đề trọng tâm đối với NHTM để tồn tại và phát triển (Malali, A. B., và Gopalakrishnan, 2020; P Salman Raju, V. Rama Bai và Gkrishna Chaitanya, 2014; Petre, 2013) đó là: (i) Chăm sóc, duy trì khách hàng; (ii) Quan tâm, tập trung vào công nghệ; (iii) Quan tâm tới những phân khúc thị trường đặc biệt; (iv) Tăng cường hoạt động và hiệu quả kinh doanh. 
 
Trong bốn nhân tố trên, chăm sóc và duy trì khách hàng là nhân tố được quan tâm trước tiên và có sự ảnh hưởng lớn nhất tới sự tăng trưởng và phát triển của các NHTM. Công cụ quản lí quan hệ khách hàng (Customer Relationship Management - CRM) đã được phát triển và áp dụng để nâng cao khả năng thu hút, duy trì khách hàng và hỗ trợ các phân tích quan trọng. Thông thường các ứng dụng CRM giữ một tập hợp lớn các thông tin về từng khách hàng cá nhân. Các thông tin này được thu thập từ hoạt động của một khách hàng tại ngân hàng nào đó. Dữ liệu được ghi bằng cách sử dụng một mô hình phân tích thống kê, được xác định bởi các thuộc tính khác nhau đặc trưng cho các khách hàng. Những thuộc tính này còn được gọi là các biến dự báo. Liên quan đến vấn đề này, bài viết sẽ đưa ra giải pháp cho việc dự báo sự trung thành (Jain, H., Khunteta, A., và Srivastava, S. , 2020) sử dụng phương pháp cây hồi quy Logistic. 
 
Bài viết được trình bày gồm ba phần: Trước tiên là tổng quan về ứng dụng trí tuệ nhân tạo và học máy trong lĩnh vực ngân hàng, tiếp sau là giới thiệu một ứng dụng của học máy (thuật toán hồi qui Logistic) và cuối cùng là phần thực nghiệm với công cụ học máy đã được giới thiệu.
 
2. Tổng quát về học máy và hồi quy Logistic
 
2.1. Sơ lược về học máy và ứng dụng của học máy trong ngân hàng
 
Học máy là một lĩnh vực của trí tuệ nhân tạo liên quan đến việc nghiên cứu và xây dựng kĩ thuật cho phép các hệ thống học tự động từ dữ liệu để giải quyết những vấn đề cụ thể. Chúng ta có thể sử dụng học máy để chuyển đổi thông tin thành tri thức phục vụ cho nhiều lĩnh lực trong cuộc sống, đặc biệt trong quá trình tìm kiếm thông tin từ những nguồn dữ liệu khổng lồ để áp dụng vào sản xuất và cuộc sống (Petre, 2013). Các kĩ thuật học máy giúp chúng ta tìm ra các mẫu thông tin hay tri thức trong dữ liệu được sử dụng để hỗ trợ ra quyết định hay dự đoán các sự kiện có thể xảy ra trong tương lai. Ví dụ như để tìm kiếm các mẫu trong dữ liệu để hỗ trợ ra quyết định dựa trên các dữ liệu mà chúng ta cung cấp. Học máy có mục đích chính là huấn luyện cho các máy tính tự động “học” mà không cần sự can thiệp hay trợ giúp của con người để thực hiện, điều chỉnh các hành động. (Dr.Chitra và B.Subahini, 2013).
 
Ngày nay, việc phát triển và ứng dụng học máy đang được áp dụng rộng rãi ở hầu hết mọi lĩnh vực trong cuộc sống như: Khai phá dữ liệu, chẩn đoán bệnh trong y học, phát hiện và nhận biết tín dụng giả, phân tích và dự báo xu hướng thị trường chứng khoán, nhận dạng tiếng nói và chữ viết, dịch tự động, trò chơi và điều hướng robot. Tất cả những ứng dụng trên có một điểm chung là sử dụng “bộ não logic” được cấu thành từ các thuật toán học máy bằng cách tiếp nhận dữ liệu đầu vào đã được số hóa và thực hiện xử lí, phân tích qua nhiều lớp, với mức độ phức tạp và mức độ “thông minh” ngày càng tăng (Leo, M., Sharma, S., và Maddulety, K., 2019).
 
Trên thế giới, đã có rất nhiều tập đoàn, công ty lớn đã và đang áp dụng học máy trong cách vận hành các hệ thống trí tuệ nhân tạo như Facebook, Amazon, Google. Tất cả đều đạt được những đột phá, phát triển thần kì chỉ trong vòng dưới 10 năm trở lại đây. Một số ứng dụng về học máy cho lĩnh vực tài chính, ngân hàng:
 
Ngăn chặn rủi ro: Đối với lĩnh vực tài chính, ngân hàng, mô hình rủi ro được cho là yếu tố hàng đầu của các công ty, doanh nghiệp đang hoạt động trong lĩnh vực ngân hàng. Vì nó giúp các tổ chức, doanh nghiệp dễ dàng hơn trong việc xây dựng và triển khai các chiến lược để có thể đánh giá thực trạng về hiệu quả và năng suất lao động. Với sự hỗ trợ đắc lực của Data Science và Big Data trong mô hình rủi ro, ngân hàng và doanh nghiệp có thể áp dụng để phân tích, lọc ra những khách hàng không có đủ khả năng chi trả khoản vay trước khả năng rủi ro nhất có thể xảy ra (Leo, M., Sharma, S., và Maddulety, K., 2019). Mô hình rủi ro tín dụng giúp cho ngân hàng có thể phân tích các khoản vay sẽ được hoàn trả như thế nào, một trong những yếu tố quan trọng và nổi bật mà mọi doanh nghiệp đều quan tâm. Ngoài ra, những công cụ phân tích trong mô hình rủi ro hỗ trợ việc định lượng hiệu suất cũng như hiệu quả trong quá trình vận hành của doanh nghiệp.
 
Phòng chống gian lận: Với sự phát triển của Internet, việc thực hiện các giao dịch thông qua các phương tiện, các dịch vụ thương mại điện tử đôi khi tạo ra những con số mơ hồ, khó kiểm soát. Nhờ sự phát triển của học máy đã giúp cho các công ty tìm kiếm, phát hiện ra những giao dịch bất thường hay những giao dịch có dấu hiệu gian lận. Hệ thống phòng chống gian lận giúp định vị, phân tích các hoạt động của người dùng, kiểm tra toàn bộ quá trình để tìm ra những mô hình giao dịch có kẽ hở và độc hại (M. Madhavi, M. V. R. Srivatsava, 2017; Dr.Chitra và B.Subahini, 2013). Việc ứng dụng khoa học dữ liệu, khai thác hiệu quả sức mạnh của học máy trong việc phân tích để dự đoán bằng cách tạo ra các công cụ phân nhóm các cụm dữ liệu đã xác định để có thể nhận ra và nắm bắt xu hướng, mô hình độc hại trong hệ thống phát hiện gian lận. 
 
Quản lí giá trị vòng đời khách hàng: Cũng như những ngành khác, ngành tài chính, ngân hàng cũng cần phải tiến hành dự đoán và xác định giá trị vòng đời khách hàng. Do đó, việc đánh giá những khách hàng nào sẽ ở lại sau một quá trình giao dịch và liệu họ đóng góp như thế nào vào doanh thu tương lai của công ty là những vấn đề mà doanh nghiệp cần phải quan tâm. Nhờ có khoa học dữ liệu, ngân hàng có thể tiến hành sàng lọc và phân loại những nhóm khách hàng tiềm năng cũng như những giá trị thiết thực trong tương lai thông qua việc phân tích và dự đoán. Những công cụ có thể hỗ trợ ngân hàng như CART (Classification và Regression Trees) hay GLM (Generalized Linear Models) có vai trò quan trọng trong việc chọn lọc, phân loại hay dự đoán xu thế, từ đó, giúp xác định đúng khách hàng cũng như đóng góp vào sự tăng trưởng và lợi nhuận của ngân hàng (Jain, H., Khunteta, A., và Srivastava, S., 2020).
 
Phân khúc thị trường: Phân khúc thị trường là công cụ chỉ ra những nhóm khách hàng có cùng những tính cách nhất định và các hành vi thông thường. Học máy chính là công cụ hỗ trợ tốt nhất để định vị cũng như khoanh vùng chính xác từng nhóm khách hàng. Lợi ích của việc phân cụm khách hàng: Xác định khách hàng dựa trên lợi nhuận của họ; phân khúc khách hàng dựa vào lịch sử sử dụng dịch vụ; phát triển mối quan hệ và gắn kết hơn với khách hàng; khuyến nghị, đưa ra những dịch vụ phù hợp với từng nhóm khách hàng; phân tích phân khúc khách hàng giúp thực hiện và cải thiện dịch vụ.
 
2.2. Thuật toán Logistic Regression
 
Ý tưởng của thuật toán Logistic Regression như sau:
 
Đầu ra của thuật toán Logistic Regression với điểm dữ liệu Trong đó x là điểm dữ liệu, w là bộ trọng số của mô hình, hàm sigmoid  được chọn làm hàm kích hoạt vì có đầu ra bị chặn trong khoảng 0, 1) có thể dùng để xấp xỉ xác suất phân lớp và có đạo hàm đơn giản thuận lợi cho việc học bằng thuật toán Gradient Descent.

Giả sử xác suất để một điểm dữ liệu x rơi vào lớp thứ nhất là f (wTx) và rơi vào lớp còn lại là 1 - f (wTx):
 
P (yi= 1|xi; w) = f (wTxi)           (I)

P (yi= 0| xi; w) = 1 - f (wTxi)    (II)
 
Chúng ta cần phải tìm các hệ số w sao cho với các điểm dữ liệu ứng với yi=1, f(wTxi) gần với 1 và ngược lại. Kí hiệu zi= f(wTxi) hai biểu thức (I) và (II) có thể được viết dưới dạng:
 
P (yi |xi; w) = ziyii(1-zi)1-yi

Biểu thức này giống với hai biểu thức ở trên vì khi y1=1, phần thứ hai của vế phải sẽ bằng 1, khi y1=0, phần thứ nhất sẽ bằng 1. Chúng ta muốn mô hình thể hiện ra kết quả gần với dữ liệu đã cho nhất, tức là xác suất có giá trị P sẽ đạt giá trị cao nhất. Lấy logarit tự nhiên, đổi dấu và lấy trung bình, ta thu được hàm số:


Thuật toán Gradient Descent được sử dụng để tối ưu hàm mất mát. Hàm mất mát đối với một điểm dữ liệu được tính như sau:
 


Khi đó, véc-tơ Gradient (trường véc-tơ có chiều hướng về phía mức độ tăng lớn nhất của trường vô hướng và có độ lớn là mức độ thay đổi lớn nhất) của hàm mất mát theo trọng số  được tính theo công thức:


Thuật toán tối ưu Gradient Descent (tìm các điểm cực tiểu cục bộ này một cách xấp xỉ sau một số vòng lặp) cho Logistic Regression được thực hiện như sau:

 
với η là hệ số học (learning rate)
 
Trọng số w được khởi tạo ngẫu nhiên.
 
Quy tắc phân lớp đối với Logistic Regression: Với đầu ra của điểm dữ liệu là    sẽ có nhãn là 1 nếu σ(wT x) ≥ 0,5 và có nhãn là 0 nếu ngược lại. Điều này tương đương với việc  sẽ có nhãn là 1 nếu wT x ≥ 0. Như vậy, thực chất khi dùng thuật toán Logistic Regression để phân lớp, ta sẽ đi tìm một siêu phẳng làm biển để phân lớp các điểm dữ liệu. Do đó, Logistic Regression sẽ hiệu quả nếu dữ liệu gần với Linearly Separable (phân biệt tuyến tính).
 
2.3. Ưu điểm và nhược điểm của Logistic Regression
 
Ưu điểm:
 
- Đơn giản, dễ thực hiện, hiệu quả
 
- Không đòi hỏi quá nhiều tài nguyên tính toán
 
- Ứng dụng trên nhiều lĩnh vực: Lao động, sản xuất (khả năng hư hỏng các thiết bị...), kinh doanh (khả năng rời dịch vụ, phân khúc khách hàng...), y tế (khả năng mắc bệnh...), ngân hàng (rủi ro tín dụng...)...
 
Nhược điểm:
 
- Không giải quyết được các vấn đề phi tuyến tính.
 
- Phụ thuộc cao vào tính đúng đắn của dữ liệu. 
 
- Chỉ dự đoán các kết quả phân loại.
 
3. Dự báo khách hàng ngân hàng rời bỏ dịch vụ với thuật toán Logistic Regression
 
Chúng ta thấy rằng, một lĩnh vực khác trong ứng dụng trí tuệ nhân tạo có thể được sử dụng trong ngành Ngân hàng với mục đích phát hiện gian lận. Với sự hỗ trợ của các thuật toán trí tuệ nhân tạo, các hành động gian lận ngày càng được phát hiện nhiều hơn. Có hai phương pháp tiếp cận phổ biến đã được phát triển bởi tổ chức tài chính để phát hiện các mô hình gian lận (Jain, H., Khunteta, A., và Srivastava, S., 2020). 
 
- Phương pháp tiếp cận thứ nhất, NHTM cần phải sử dụng đến kho dữ liệu của bên thứ ba và sử dụng các kĩ thuật trí tuệ nhân tạo để xác định mô hình gian lận, sau đó, các ngân hàng có thể tham chiếu chéo các mẫu với cơ sở dữ liệu riêng của mình. 
 
 - Phương pháp thứ hai, gian lận được nhận dạng dựa trên các mẫu thông tin nội bộ riêng của mình mà không phải nhờ vào bên thứ ba. Tuy nhiên, trên thực tế, hầu hết các ngân hàng đang sử dụng kết hợp cả hai phương pháp tiếp cận trên. 
 
Trong phần tiếp theo của bài viết, tác giả trình bày một phương pháp phát hiện khách hàng có ý định rời bỏ dịch vụ bằng việc sử dụng thuật toán học máy và dữ liệu lịch sử của các ngân hàng. Ý tưởng của phương pháp là sử dụng bộ dữ liệu mà các ngân hàng đang lưu trữ và các lớp thuật toán học máy để tạo ra những mô hình nhằm phát hiện đâu là khách hàng có khả năng rời bỏ dịch vụ và khách hàng trung thành trong số hàng triệu khách hàng đang giao dịch với ngân hàng.
 
Bài toán có thể phát biểu dưới dạng mô hình toán học ngắn gọn như sau: Gọi X là tập dữ liệu gồm k thuộc tính về n khách hàng, cần đánh giá xem họ có phải là đối tượng rời bỏ hay không. Gọi C là tập giá trị (gồm hai giá trị 0 và 1) để đánh dấu khách hàng có rời bỏ hay không (C ∈ {0, 1}). Ta gọi f: X -> C là hàm xác định khách hàng có rời bỏ hay không. Mục tiêu của bài toán là cần tính toán f(xi)∈{0,1}, ∈i=1,...n.
 
Dữ liệu để thực nghiệm cho thuật toán Logistic Regression trong bài viết này là bộ dữ liệu “Churn_Prediction_Modeling.csv” gồm các đối đối tượng khách hàng của ngân hàng được thu thập từ các ngân hàng và được các nhà khoa học cung cấp tại: “https://www.kaggle.com/datasets/aakash50897/churn-modellingcsv”. Các đối tượng khách hàng này gồm tám thuộc tính cơ bản có ảnh hưởng nhiều nhất tới việc dự báo. Các thuộc tính, sau khi tiền xử lí với các thư viện mã nguồn mở và ngôn ngữ lập trình Python và lưu dưới dạng file excel với tên: “Churn_Prediction_Modeling.csv”. Bộ dữ liệu này đã được các nhà nghiên cứu thực nghiệm với các thuật toán như ANN, Xgboost, Pyspark trong bối cảnh không phải ở Việt Nam. Trong phần thực nghiệm này, tác giả sử dụng lại bộ dữ liệu trên với thuật toán Logistic Regression với mong muốn có thể học hỏi, điều chỉnh để có thể áp dụng cho bối cảnh là khách hàng của các NHTM Việt Nam.
 
3.1. Tiền xử lí dữ liệu và chuẩn hóa dữ liệu
 
Trước khi thực hiện thuật toán, dữ liệu cần phải được làm sạch, chuyển đổi để phù hợp với thuật toán tương ứng. Ví dụ, ta cần chuyển các dữ liệu dạng kí tự thành các dữ liệu dạng số: Với “Gender”: chuyển “Female” thành “0” và “Male” thành “1”; đối với “Geography”: chuyển “France” thành “0”, “Spain” thành “2” và “Germany” thành “1”. Để thực hiện việc này ta có thể sử dụng công cụ trong thư viện “sklearn” được cài đặt trên Python như sau:
 
Đoạn chương trình chuyển dữ liệu kiểu chữ thành dữ liệu kiểu số 

Kết quả dữ liệu sau khi chuyển được thể hiện ở Bảng 1.
 
Bảng 1: Kết quả dữ liệu sau khi chuyển
 

3.2. Mô hình Logistic Regression
 
Trong phần này, các bước thực hiện thuật toán nói chung, với thuật toán Logistic Regression nói riêng sẽ được minh họa theo từng bước:
 
Bước 1: Xác định và chuẩn bị các thư viện cần thiết.
 
Bước 2: Đọc dữ liệu vào bộ nhớ trong do Python quản lí.
 
Bước 3: Chia dữ liệu theo tỉ lệ bộ dữ liệu huấn luyện và bộ dữ liệu kiểm tra là 70% và 30%. Tập dữ liệu huấn luyện sẽ được sử dụng để huấn luyện bởi thuật toán. Sau khi chuẩn bị tốt bộ dữ liệu để huấn luyện mô hình, chúng ta sẽ đào tạo bộ dữ liệu bằng cách sử dụng bộ dữ liệu huấn luyện. Để cung cấp đào tạo hoặc sử dụng mô hình vào bộ huấn luyện, chúng ta sẽ cài đặt lớp Logistic Regression của thư viện “sklearn”.
 
Bước 4: Dự đoán kiểm tra kết quả: Sẽ tạo ra một biến mới có tên là ‘predicted’ và tiến hành kiểm tra: Nếu yes_Prob > 0,5 thì sẽ nhận giá trị là 1 và ngược lại sẽ nhận giá trị là 0. 

Huấn luyện bằng thuật toán Logistic Regression 
 
Bước 5: Đánh giá độ chính xác của thuật toán. Tại bước này một ma trận có tên “Confusion matrix” sẽ được tạo ra nhằm đánh giá hiệu quả hoạt động của thuật toán. (Hình 1)
 
Hình 1: Confusion matrix


 
Ma trận trên cho ta thấy:
 
- Có 2.340 khách hàng thực tế là khách hàng trung thành và dự đoán là đúng vậy.
 
- Có 73 khách hàng thực tế là khách hàng trung thành nhưng được dự đoán là rời đi.
 
- Có 505 khách hàng thực tế họ rời đi nhưng được dự đoán là khách hàng trung thành.
 
- Có 82 khách hàng rời bỏ dịch vụ ngân hàng và được dự đoán là sẽ rời bỏ dịch vụ ngân hàng.
 
Hình 2: Kết quả đánh giá


Từ kết quả đánh giá trên Hình 2 ta thấy:
 
- Precision=0,82 mô hình dự 82% khách hàng thực sự ở lại so với tất cả các trường hợp được dự đoán là ở lại.
 
- Recall=0,97 cho biết trong số những người thực tế ở lại thì có 97% khách hàng được dự đoán đúng.
 
Bước 6: Làm việc với biểu đồ ROC (Receiver operating characteristic)
 
Tại đây, một biểu đồ ROC được xây dựng nhằm đánh giá độ hiệu quả của thuật toán. 
 
Hình 3: Biểu đồ ROC


Hình 3 là kết quả sau khi đoạn code vẽ biểu đồ được thực thi. Biểu đồ ROC là loại biểu đồ thể hiện sự thay đổi độ nhạy và độ đặc hiệu khi các giá trị ngưỡng thay đổi. Qua biểu đồ ROC mà hệ thống đã in ra phía trên, ta thấy được giá trị AUC (Area Under the Curve) trả về là 0,55. Dựa trên bảng so sánh ở phần đánh giá mô hình, chúng ta thấy được giá trị AUC = 0,55 thể hiện đây là mô hình dự báo chưa có nhiều có ý nghĩa.
 
Điều chỉnh mô hình: Vì đây là bài toán dự đoán khách hàng rời bỏ dịch vụ ngân hàng nên chúng ta sẽ điều chỉnh sao cho không có quá nhiều dự đoán là ở lại bị sai với thực tế. Bởi vì nếu có quá nhiều khách hàng thực tế là sẽ rời đi nhưng khi dự báo lại cho ra kết quả là ở lại sẽ dẫn đến hậu quả mất khách hàng. 
 
Do đó,  ta sẽ điều chỉnh sao cho hệ số False Negative (FN) là nhỏ nhất có thể. (Hình 4)
 
Hình 4: Confusion matrix


 
- Có 795 khách hàng thực tế là khách hàng trung thành và dự đoán là đúng như vậy.
 
- Có 1618 khách hàng thực tế là khách hàng trung thành nhưng được dự đoán là rời đi.
 
- Có 73 khách hàng thực tế là rời đi nhưng được dự đoán là khách hàng trung thành.
 
- Có 514 khách hàng rời bỏ dịch vụ ngân hàng và được dự đoán là sẽ rời bỏ dịch vụ ngân hàng.
 
Hình 5: Đánh giá mô hình


 
Từ kết quả Hình 5 ta thấy:

- Precision = 0,92 mô hình dự đoán 92% khách hàng thực sự ở lại so với tất cả các trường hợp được dự đoán là ở lại.
 
- Recall = 0,33 cho biết trong số những người thực tế ở lại thì có 33% khách hàng được dự đoán đúng.
 
Biểu đồ ROC thể hiện sự thay đổi độ nhạy và độ đặc hiệu khi các giá trị ngưỡng thay đổi. Qua biểu đồ ROC mà hệ thống đã in ra phía trên, ta có thể thấy giá trị AUC là 0,6. Dựa trên bảng so sánh ở phần đánh giá mô hình, chúng ta có thể thấy được đây là mô hình dự báo không tốt. (Hình 6)

Hình 6: Biểu đồ ROC sau khi điều chỉnh


Phần trên của bài viết đã trình bày quy trình sử dụng thuật toán khi tìm kiếm thông tin từ dữ liệu ngân hàng nhằm phân lớp khách hàng có nghi ngờ rời bỏ dịch vụ hay không. Để có kết quả mang tính ứng dụng phù hợp với thực tế bối cảnh Việt Nam, chúng ta cần phải thực hiện thuật toán này trên bộ dữ liệu thu thập được từ các NHTM Việt Nam. Đồng thời, cần tìm hiểu thêm tình hình thực tế để từ đó cải tiến chương trình, thay đổi các tham số để bài toán phù hợp với thực tế của Việt Nam.
 
4. Kết luận và đánh giá 
 
Tác giả đã hệ thống hóa cơ sở lí thuyết về dữ liệu cũng như phân tích và nghiên cứu các vấn đề liên quan tới việc khai phá và tìm kiếm thông tin từ dữ liệu phục vụ cho việc ra quyết định của một số tổ chức kinh doanh, đặc biệt là các NHTM:
 
Thứ nhất, ứng dụng công nghệ học máy vào việc nhận định đâu là khách hàng trung thành, đâu là khách hàng có ý định rời bỏ dịch vụ của ngân hàng là một phương pháp hiện đại đã và đang được các NHTM áp dụng. 
 
Thứ hai, có thể nói rằng, việc ứng dụng học máy vào hoạt động tín dụng làm giảm đáng kể rủi ro ngân hàng vì nó giúp ngân hàng nhận định đúng các đối tượng khách hàng của mình để có những giải pháp phù hợp trong chiến lược kinh doanh. 
 
Thứ ba, ứng dụng công nghệ học máy cũng giúp cho thời gian thực hiện mỗi lần đánh giá tín dụng nói riêng và các công việc của ngân hàng nói chung trở nên nhanh hơn và đáng tin cậy hơn. Sở dĩ như vậy là bởi khả năng tính toán và đưa ra quyết định của con người là có hạn, trong khi đó học máy cũng có thể làm được điều tương tự với tốc độ nhanh hơn gấp nhiều lần. Không chỉ thời gian, các tiêu chí đánh giá khách hàng đã được mở rộng hơn, từ đó khiến cho các đánh giá mang tính khách quan hơn và có chiều sâu hơn. Ngoài ra, các phương thức trên cũng là một chỉ tiêu mới được đưa ra nhằm đa dạng hóa khả năng thanh toán cho khách hàng, cho thấy sự linh hoạt ứng biến tốt của ngân hàng.
 
Cuối cùng, như đã trình bày ở trên, khi chúng ta ứng dụng công nghệ học máy trong việc phát hiện khách hàng rời bỏ dịch vụ nói riêng và hoạt động tài chính của ngân hàng nói chung, thời gian xử lí của học máy ngắn và rất tiện lợi, điều đó đồng nghĩa với ngân hàng sẽ tiếp cận được với nhiều khách hàng hơn. Lượng khách hàng lớn hơn sẽ đem lại doanh thu cao hơn cho ngân hàng, đi đôi với đó là chi phí nhân sự và chi phí quản lí sẽ giảm xuống đáng kể. Khả năng thu thập thông tin của học máy rất nhanh và từ nhiều nguồn đáng tin cậy là một bước tiến lớn, khi mà các tổ chức tín dụng hiện giờ chưa áp dụng được hoặc mới áp dụng một phần vào việc đánh giá. Từ bước cải tiến này, sẽ là tiền đề cho các tổ chức tín dụng khác nghiên cứu và phát triển, đem lại cho khách hàng những trải nghiệm tốt nhất.
 
Tài liệu tham khảo:
 
1. Breeden. (2021). A survey of machine learning in credit risk. Journal of Credit Risk, 17(3).
2. Dr.Chitra và B.Subahini. (2013). Data Mining Techniques và its Applications in Banking Sector. International Journal of Emerging Technology và Advanced Engineering, Volume 3( Issue 38), pages 219-226.
3. Jain, H., Khunteta, A., và Srivastava, S., (2020). Churn prediction in telecommunication using logistic regression và logit boost. Procedia Computer Science,, 167, pages 101-112.
4. Leo, M., Sharma, S., và Maddulety, K. (2019). Machine learning in banking risk management: A literature review. page 29.
5. M Madhavi, M V R Srivatsava. (2017). Fraud Detection in Banking. International Journal of Engineering và Advanced Technology, 3, pages 322-358.
6. Malali, A. B., và Gopalakrishnan. (2020). Application of Artificial Intelligence và Its Powered Technologies in the Indian Banking và Financial Industry: An Overview. IOSR Journal Of Humanities Và Social Science,, 25(4), pages 55-60.
7. P Salman Raju, V Rama Bai và Gkrishna Chaitanya. (2014). Enhancing Customer Relationship Management in Banking và Retail Industries.  International Journal of Innovative Research in Computer và Communication Engineering, 2(1), pages 2650-2657.
8. P Salman Raju, V. R. (2017). Credit scoring using machine learning techniques. International Journal of Computer Applications, 161(4).
9. Petre, R. (2013). Data Mining Solutions for the Business Environment. Database System Journal, 4, pages 21-29.

Nguyễn Dương Hùng
Khoa Hệ thống Thông tin quản lý - Học viện Ngân hàng
Bình luận Ý kiến của bạn sẽ được kiểm duyệt trước khi đăng. Vui lòng gõ tiếng Việt có dấu
Đóng lại ok
Bình luận của bạn chờ kiểm duyệt từ Ban biên tập
Lập kế hoạch kiểm toán nội bộ tại ngân hàng thương mại theo định hướng rủi ro bằng mô hình định lượng
Lập kế hoạch kiểm toán nội bộ tại ngân hàng thương mại theo định hướng rủi ro bằng mô hình định lượng
02/05/2024 200 lượt xem
Nghiên cứu này sử dụng mô hình hồi quy tuyến tính để xác định yếu tố tác động chính gây ra các rủi ro trọng yếu trong ngân hàng thương mại (NHTM) (đo bằng lỗi) dẫn đến tổn thất trong kinh doanh (mức độ thiệt hại quy ra bằng tiền). Nghiên cứu sử dụng mô hình tối ưu hóa tuyến tính theo dữ liệu nội bộ phát sinh tại từng đơn vị để lập kế hoạch kiểm toán theo định hướng rủi ro.
Mối quan hệ giữa sự phát triển của thị trường ngoại tệ và hoạt động kinh tế đối ngoại - Những vấn đề đặt ra cho Việt Nam
Mối quan hệ giữa sự phát triển của thị trường ngoại tệ và hoạt động kinh tế đối ngoại - Những vấn đề đặt ra cho Việt Nam
26/04/2024 252 lượt xem
Việc quản lý và phát triển thị trường ngoại tệ Việt Nam vừa góp phần ổn định kinh tế vĩ mô, vừa phù hợp với xu hướng phát triển và hội nhập của nền kinh tế hiện nay nhằm mục tiêu xây dựng một thị trường ngoại tệ hoạt động hiệu quả, an toàn, hỗ trợ tích cực cho sự phát triển ngành Ngân hàng nói riêng và nền kinh tế Việt Nam nói chung.
Phân loại trong xử lí nợ xấu tại các doanh nghiệp niêm yết trên thị trường chứng khoán Việt Nam
Phân loại trong xử lí nợ xấu tại các doanh nghiệp niêm yết trên thị trường chứng khoán Việt Nam
01/04/2024 411 lượt xem
Nghiên cứu phân biệt ba nhóm doanh nghiệp trên thị trường chứng khoán, gồm: Doanh nghiệp không có nợ xấu, doanh nghiệp có nợ xấu còn hoạt động và doanh nghiệp có nợ xấu dừng hoạt động.
Tác động của cho thuê tài chính đến hiệu quả hoạt động kinh doanh của các công ty cho thuê tài chính trong hệ thống ngân hàng thương mại Việt Nam
Tác động của cho thuê tài chính đến hiệu quả hoạt động kinh doanh của các công ty cho thuê tài chính trong hệ thống ngân hàng thương mại Việt Nam
21/03/2024 1.318 lượt xem
Bài viết tập trung phân tích, đánh giá tác động của cho thuê tài chính đến hiệu quả hoạt động kinh doanh của công ty cho thuê tài chính.
Bộ đệm vốn nghịch chu kì - Công cụ an toàn theo thông lệ Basel III
Bộ đệm vốn nghịch chu kì - Công cụ an toàn theo thông lệ Basel III
18/03/2024 556 lượt xem
Sau cuộc khủng hoảng tài chính toàn cầu năm 2008, Ủy ban Basel về giám sát ngân hàng (BCBS) (2010) đã thiết kế Bộ đệm vốn nghịch chu kì (CCyB) với mục tiêu an toàn vĩ mô ngân hàng khi tăng trưởng tín dụng vượt mức có tính chu kì (được phản ánh qua sự tăng, giảm của chu kì tài chính) tiềm ẩn rủi ro hệ thống đối với khu vực ngân hàng.
Các nhân tố tác động đến rủi ro thanh khoản của các ngân hàng thương mại Việt Nam
Các nhân tố tác động đến rủi ro thanh khoản của các ngân hàng thương mại Việt Nam
29/02/2024 2.012 lượt xem
Bài viết đánh giá mức độ tác động của các nhân tố bên trong và bên ngoài ảnh hưởng đến khả năng thanh khoản của các ngân hàng thương mại (NHTM) Việt Nam.
Ảnh hưởng của biểu hiện vật chất tại các ngân hàng thương mại nhà nước trên địa bàn tỉnh Phú Yên đến hành vi tiêu dùng của khách hàng
Ảnh hưởng của biểu hiện vật chất tại các ngân hàng thương mại nhà nước trên địa bàn tỉnh Phú Yên đến hành vi tiêu dùng của khách hàng
19/01/2024 622 lượt xem
Hành vi tiêu dùng của khách hàng trong nghiên cứu này được tiếp cận theo hướng sự ủng hộ của khách hàng, được đo lường bằng 3 chỉ tiêu: Doanh số, lợi nhuận và tỉ lệ giữ chân khách hàng. Trên cơ sở kết quả khảo sát từ 238 nhân viên đang làm việc tại các chi nhánh ngân hàng thương mại nhà nước (NHTMNN) trên địa bàn tỉnh Phú Yên.
Tạo lập nguồn vốn tín dụng đầu tư của Nhà nước từ trái phiếu được Chính phủ bảo lãnh hiện nay
Tạo lập nguồn vốn tín dụng đầu tư của Nhà nước từ trái phiếu được Chính phủ bảo lãnh hiện nay
29/12/2023 879 lượt xem
Tín dụng đầu tư là một hình thức hỗ trợ vốn của Nhà nước đối với các tổ chức kinh tế thông qua hoạt động cho vay trung và dài hạn để đầu tư vào các dự án thuộc các ngành, nghề, lĩnh vực hoặc địa bàn được Nhà nước khuyến khích đầu tư.
Đo lường khả năng thanh toán của ngân hàng thương mại từ mô hình kì tới hạn trong quản lí rủi ro lãi suất
Đo lường khả năng thanh toán của ngân hàng thương mại từ mô hình kì tới hạn trong quản lí rủi ro lãi suất
18/12/2023 1.534 lượt xem
Nghiên cứu này với mục đích cung cấp phương pháp đo lường về khả năng thanh toán dựa trên trạng thái vốn chủ sở hữu của ngân hàng thương mại (NHTM) thông qua mô hình kì tới hạn (The Maturity Model) trong quản lí rủi ro lãi suất.
Giám sát rủi ro biến đổi khí hậu của ngân hàng trung ương các nước châu Âu và gợi ý cho Việt Nam
Giám sát rủi ro biến đổi khí hậu của ngân hàng trung ương các nước châu Âu và gợi ý cho Việt Nam
05/12/2023 1.274 lượt xem
Rủi ro tài chính liên quan đến biến đổi khí hậu đã làm phát sinh những rủi ro đáng kể cho sự ổn định tài chính ở mỗi quốc gia.
Tác động tràn của chính sách tiền tệ Mỹ đến thị trường tài chính Việt Nam
Tác động tràn của chính sách tiền tệ Mỹ đến thị trường tài chính Việt Nam
04/12/2023 2.643 lượt xem
Chính sách tiền tệ (CSTT) là một trong những chính sách quan trọng nhất trong hệ thống các công cụ điều tiết vĩ mô của nhà nước vì nó tác động trực tiếp vào lĩnh vực lưu thông tiền tệ.
Các tổ chức tài chính vi mô - Quá trình chuyển đổi tại Việt Nam
Các tổ chức tài chính vi mô - Quá trình chuyển đổi tại Việt Nam
01/12/2023 1.740 lượt xem
Quá trình chuyển đổi của các tổ chức tài chính vi mô (TCVM) tại Việt Nam là một sự phát triển tất yếu theo quan điểm học thuật và thực tiễn quá trình hoạt động của TCVM trên thế giới.
Các nhân tố ảnh hưởng đến tỉ lệ tiền gửi không kì hạn của các ngân hàng thương mại trên địa bàn thành phố Cần Thơ
Các nhân tố ảnh hưởng đến tỉ lệ tiền gửi không kì hạn của các ngân hàng thương mại trên địa bàn thành phố Cần Thơ
30/11/2023 2.340 lượt xem
Mục tiêu của nghiên cứu là xác định các nhân tố ảnh hưởng đến tỉ lệ CASA của các ngân hàng thương mại trên địa bàn thành phố Cần Thơ.
Rủi ro đạo đức và các yếu tố ảnh hưởng đến ý định gây ra rủi ro đạo đức của nhân viên trong bộ phận tín dụng của các ngân hàng thương mại
Rủi ro đạo đức và các yếu tố ảnh hưởng đến ý định gây ra rủi ro đạo đức của nhân viên trong bộ phận tín dụng của các ngân hàng thương mại
29/11/2023 2.666 lượt xem
Nghiên cứu này tập trung vào vấn đề rủi ro đạo đức và các yếu tố ảnh hưởng đến ý định gây ra rủi ro đạo đức của nhân viên trong bộ phận tín dụng của các ngân hàng thương mại.
Khả năng sử dụng dịch vụ tài chính số của người trung niên tại Việt Nam - Cách tiếp cận từ dân trí tài chính
Khả năng sử dụng dịch vụ tài chính số của người trung niên tại Việt Nam - Cách tiếp cận từ dân trí tài chính
28/11/2023 1.847 lượt xem
Nghiên cứu được thực hiện nhằm đánh giá tác động của dân trí tài chính dưới góc độ xem xét cả ba yếu tố: Kiến thức tài chính, thái độ tài chính và hành vi tài chính lên khả năng tiếp cận dịch vụ tài chính số (Digital financial services - DFS) của người trung niên tại Việt Nam.
Giá vàngXem chi tiết

GIÁ VÀNG - XEM THEO NGÀY

Khu vực

Mua vào

Bán ra

HÀ NỘI

Vàng SJC 1L

81.000

83.500

TP.HỒ CHÍ MINH

Vàng SJC 1L

81.000

83.500

Vàng SJC 5c

81.000

83.520

Vàng nhẫn 9999

74.200

76.100

Vàng nữ trang 9999

74.000

75.300


Ngoại tệXem chi tiết
TỶ GIÁ - XEM THEO NGÀY 
Ngân Hàng USD EUR GBP JPY
Mua vào Bán ra Mua vào Bán ra Mua vào Bán ra Mua vào Bán ra
Vietcombank 25,145 25,485 26,411 27,860 30,670 31,974 159.56 168.87
BIDV 25,185 25,485 26,528 27,748 30,697 31,977 159.6 168
VietinBank 25,160 25,485 26,651 27,946 31,096 32,106 161.07 169.02
Agribank 25,180 25,485 26,599 27,900 30,846 32,001 160.64 168.67
Eximbank 25,160 25,485 26,632 27,531 30,915 31,959 161.35 166.79
ACB 25,190 25,485 26,768 27,476 31,178 31,876 161.53 166.97
Sacombank 25,250 25,485 26,880 27,440 31,315 31,817 162.5 167.51
Techcombank 25,228 25,485 26,523 27,869 30,720 32,037 157.83 170.27
LPBank 24,943 25,485 26,344 27,844 31,044 31,948 159.37 170.59
DongA Bank 25,250 25,485 26,760 27,440 31,070 31,920 159.80 166.90
(Cập nhật trong ngày)
Lãi SuấtXem chi tiết
(Cập nhật trong ngày)
Ngân hàng
KKH
1 tuần
2 tuần
3 tuần
1 tháng
2 tháng
3 tháng
6 tháng
9 tháng
12 tháng
24 tháng
Vietcombank
0,10
0,20
0,20
-
1,60
1,60
1,90
2,90
2,90
4,60
4,70
BIDV
0,10
-
-
-
1,70
1,70
2,00
3,00
3,00
4,70
4,70
VietinBank
0,10
0,20
0,20
0,20
1,70
1,70
2,00
3,00
3,00
4,70
4,80
ACB
0,01
0,50
0,50
0,50
2,30
2,40
2,60
3,50
3,70
4,50
4,50
Sacombank
-
0,50
0,50
0,50
2,10
2,30
2,50
3,50
3,60
4,50
4,80
Techcombank
0,10
-
-
-
2,20
2,20
2,30
3,40
3,45
4,40
4,40
LPBank
0.20
0,20
0,20
0,20
1,80
1,80
2,10
3,20
3,20
5,00
5,30
DongA Bank
0,50
0,50
0,50
0,50
3,30
3,30
3,30
4,30
4,50
4,80
5,00
Agribank
0,20
-
-
-
1,60
1,60
1,90
3,00
3,00
4,70
4,70
Eximbank
0,50
0,50
0,50
0,50
3,00
3,20
3,30
3,80
3,80
4,80
5,10

Liên kết website
Bình chọn trực tuyến
Nội dung website có hữu ích với bạn không?