Dự báo khách hàng ngân hàng rời bỏ dịch vụ với thuật toán học máy - Hồi quy Logistic

Bài viết khoa học chuyên sâu
Học máy (Machine Learning) đóng một vai trò quan trọng trong quá trình chuyển đổi số, đặc biệt là trong lĩnh vực tài chính, ngân hàng. Học máy không những là công cụ hỗ trợ ra quyết định trong việc xét duyệt tín dụng cho khách hàng, mà còn giúp các ngân hàng nhận định đúng đâu là khách hàng tiềm năng trong chiến lược kinh doanh của họ.
aa

Tóm tắt: Học máy (Machine Learning) đóng một vai trò quan trọng trong quá trình chuyển đổi số, đặc biệt là trong lĩnh vực tài chính, ngân hàng. Học máy không những là công cụ hỗ trợ ra quyết định trong việc xét duyệt tín dụng cho khách hàng, mà còn giúp các ngân hàng nhận định đúng đâu là khách hàng tiềm năng trong chiến lược kinh doanh của họ. Các bài toán ứng dụng học máy được đẩy mạnh nghiên cứu và ứng dụng trong những năm gần đây nhằm giúp các ngân hàng tối ưu hóa việc sử dụng nguồn vốn và nâng cao lợi nhuận. Trong bài viết này, chúng tôi giới thiệu một ứng dụng của học máy cho bài toán dự đoán khách hàng rời bỏ dịch vụ ngân hàng tại các ngân hàng thương mại (NHTM). Kết quả thực nghiệm cho thấy, tính khả quan của đầu tư đẩy mạnh nghiên cứu và ứng dụng các thuật toán học máy trong lĩnh vực ngân hàng để rút ngắn thời gian làm việc, tiết kiệm thời gian cho các chuyên gia Việt Nam.

Từ khóa: Trí tuệ nhân tạo, học máy, khai thác dữ liệu, dự đoán rời bỏ.

PREDICTION OF CUSTOMER CHURN IN BANKING SECTOR USING MACHINE LEARNING - LOGISTIC REGRESSION ALGORITHM

Abstract: Machine Learning (ML) plays an important role in digital transformation, specially in banking and finance sector. It is not only a decision support tool in credit approval for customers but also helps banks to correctly identify potential customers in their business strategy. Applications of machine learning problems have been researched and applied in recent years to help banks optimize their capital and increase their profits. In this paper, we introduce an application of machine learning to predict customer churn at commercial banks. The experimental results show the positive effects of investing in promoting research and application of machine learning algorithms in the banking sector to shorten working time and save time for Vietnamese experts.


Keywords: Artificial intelligence, machine learning, data mining, churn prediction.

1. Giới thiệu

Học máy là một lĩnh vực được các doanh nghiệp và các tổ chức nghiên cứu, ứng dụng, đặc biệt là trong lĩnh vực tài chính, ngân hàng. Từ các trợ lí ảo như Siri và Cortana, đến các Chatbots được tạo ra bởi Facebook, Google và nhiều công ty công nghệ khác (Breeden, 2021; Leo, M., Sharma, S., và Maddulety, K., 2019). Trí tuệ nhân tạo (Artificial Intelligence) đang ngày càng tác động mạnh mẽ đến các lĩnh vực kinh tế, xã hội, trong đó có lĩnh vực ngân hàng. Nó góp phần làm thay đổi chiến lược kinh doanh, sản xuất tại các doanh nghiệp trong điều kiện nền kinh tế hội nhập hiện nay và trong tương lai. Bài viết này trình bày tổng quan về học máy và ứng dụng của học máy trong lĩnh vực tài chính, ngân hàng, sau đó là minh họa việc sử dụng công cụ học máy hỗ trợ cho việc ra quyết định tại NHTM (P Salman Raju, V Rama Bai và Gkrishna Chaitanya, 2014) bằng việc ứng dụng mô hình hồi quy Logistic để dự báo khách hàng rời bỏ dịch vụ tại ngân hàng.

Theo Microsoft, Google hay một số công ty công nghệ lớn, chuyển đổi số là một sự đổi mới kinh doanh được thúc đẩy bởi sự bùng nổ của điện toán đám mây, trí tuệ nhân tạo và Internet kết nối vạn vật (IoT), cung cấp những cách thức mới để hiểu, quản lí và chuyển đổi cho các hoạt động kinh doanh của họ.

Duy trì khách hàng là một vấn đề ngày càng cấp bách trong môi trường thương mại cạnh tranh. Nghiên cứu được thực hiện ở các cấp độ quốc tế và quốc gia cho thấy tầm quan trọng của những vấn đề trọng tâm đối với NHTM để tồn tại và phát triển (Malali, A. B., và Gopalakrishnan, 2020; P Salman Raju, V. Rama Bai và Gkrishna Chaitanya, 2014; Petre, 2013) đó là: (i) Chăm sóc, duy trì khách hàng; (ii) Quan tâm, tập trung vào công nghệ; (iii) Quan tâm tới những phân khúc thị trường đặc biệt; (iv) Tăng cường hoạt động và hiệu quả kinh doanh.

Trong bốn nhân tố trên, chăm sóc và duy trì khách hàng là nhân tố được quan tâm trước tiên và có sự ảnh hưởng lớn nhất tới sự tăng trưởng và phát triển của các NHTM. Công cụ quản lí quan hệ khách hàng (Customer Relationship Management - CRM) đã được phát triển và áp dụng để nâng cao khả năng thu hút, duy trì khách hàng và hỗ trợ các phân tích quan trọng. Thông thường các ứng dụng CRM giữ một tập hợp lớn các thông tin về từng khách hàng cá nhân. Các thông tin này được thu thập từ hoạt động của một khách hàng tại ngân hàng nào đó. Dữ liệu được ghi bằng cách sử dụng một mô hình phân tích thống kê, được xác định bởi các thuộc tính khác nhau đặc trưng cho các khách hàng. Những thuộc tính này còn được gọi là các biến dự báo. Liên quan đến vấn đề này, bài viết sẽ đưa ra giải pháp cho việc dự báo sự trung thành (Jain, H., Khunteta, A., và Srivastava, S. , 2020) sử dụng phương pháp cây hồi quy Logistic.

Bài viết được trình bày gồm ba phần: Trước tiên là tổng quan về ứng dụng trí tuệ nhân tạo và học máy trong lĩnh vực ngân hàng, tiếp sau là giới thiệu một ứng dụng của học máy (thuật toán hồi qui Logistic) và cuối cùng là phần thực nghiệm với công cụ học máy đã được giới thiệu.

2. Tổng quát về học máy và hồi quy Logistic

2.1. Sơ lược về học máy và ứng dụng của học máy trong ngân hàng

Học máy là một lĩnh vực của trí tuệ nhân tạo liên quan đến việc nghiên cứu và xây dựng kĩ thuật cho phép các hệ thống học tự động từ dữ liệu để giải quyết những vấn đề cụ thể. Chúng ta có thể sử dụng học máy để chuyển đổi thông tin thành tri thức phục vụ cho nhiều lĩnh lực trong cuộc sống, đặc biệt trong quá trình tìm kiếm thông tin từ những nguồn dữ liệu khổng lồ để áp dụng vào sản xuất và cuộc sống (Petre, 2013). Các kĩ thuật học máy giúp chúng ta tìm ra các mẫu thông tin hay tri thức trong dữ liệu được sử dụng để hỗ trợ ra quyết định hay dự đoán các sự kiện có thể xảy ra trong tương lai. Ví dụ như để tìm kiếm các mẫu trong dữ liệu để hỗ trợ ra quyết định dựa trên các dữ liệu mà chúng ta cung cấp. Học máy có mục đích chính là huấn luyện cho các máy tính tự động “học” mà không cần sự can thiệp hay trợ giúp của con người để thực hiện, điều chỉnh các hành động. (Dr.Chitra và B.Subahini, 2013).

Ngày nay, việc phát triển và ứng dụng học máy đang được áp dụng rộng rãi ở hầu hết mọi lĩnh vực trong cuộc sống như: Khai phá dữ liệu, chẩn đoán bệnh trong y học, phát hiện và nhận biết tín dụng giả, phân tích và dự báo xu hướng thị trường chứng khoán, nhận dạng tiếng nói và chữ viết, dịch tự động, trò chơi và điều hướng robot. Tất cả những ứng dụng trên có một điểm chung là sử dụng “bộ não logic” được cấu thành từ các thuật toán học máy bằng cách tiếp nhận dữ liệu đầu vào đã được số hóa và thực hiện xử lí, phân tích qua nhiều lớp, với mức độ phức tạp và mức độ “thông minh” ngày càng tăng (Leo, M., Sharma, S., và Maddulety, K., 2019).

Trên thế giới, đã có rất nhiều tập đoàn, công ty lớn đã và đang áp dụng học máy trong cách vận hành các hệ thống trí tuệ nhân tạo như Facebook, Amazon, Google. Tất cả đều đạt được những đột phá, phát triển thần kì chỉ trong vòng dưới 10 năm trở lại đây. Một số ứng dụng về học máy cho lĩnh vực tài chính, ngân hàng:

Ngăn chặn rủi ro: Đối với lĩnh vực tài chính, ngân hàng, mô hình rủi ro được cho là yếu tố hàng đầu của các công ty, doanh nghiệp đang hoạt động trong lĩnh vực ngân hàng. Vì nó giúp các tổ chức, doanh nghiệp dễ dàng hơn trong việc xây dựng và triển khai các chiến lược để có thể đánh giá thực trạng về hiệu quả và năng suất lao động. Với sự hỗ trợ đắc lực của Data Science và Big Data trong mô hình rủi ro, ngân hàng và doanh nghiệp có thể áp dụng để phân tích, lọc ra những khách hàng không có đủ khả năng chi trả khoản vay trước khả năng rủi ro nhất có thể xảy ra (Leo, M., Sharma, S., và Maddulety, K., 2019). Mô hình rủi ro tín dụng giúp cho ngân hàng có thể phân tích các khoản vay sẽ được hoàn trả như thế nào, một trong những yếu tố quan trọng và nổi bật mà mọi doanh nghiệp đều quan tâm. Ngoài ra, những công cụ phân tích trong mô hình rủi ro hỗ trợ việc định lượng hiệu suất cũng như hiệu quả trong quá trình vận hành của doanh nghiệp.

Phòng chống gian lận: Với sự phát triển của Internet, việc thực hiện các giao dịch thông qua các phương tiện, các dịch vụ thương mại điện tử đôi khi tạo ra những con số mơ hồ, khó kiểm soát. Nhờ sự phát triển của học máy đã giúp cho các công ty tìm kiếm, phát hiện ra những giao dịch bất thường hay những giao dịch có dấu hiệu gian lận. Hệ thống phòng chống gian lận giúp định vị, phân tích các hoạt động của người dùng, kiểm tra toàn bộ quá trình để tìm ra những mô hình giao dịch có kẽ hở và độc hại (M. Madhavi, M. V. R. Srivatsava, 2017; Dr.Chitra và B.Subahini, 2013). Việc ứng dụng khoa học dữ liệu, khai thác hiệu quả sức mạnh của học máy trong việc phân tích để dự đoán bằng cách tạo ra các công cụ phân nhóm các cụm dữ liệu đã xác định để có thể nhận ra và nắm bắt xu hướng, mô hình độc hại trong hệ thống phát hiện gian lận.

Quản lí giá trị vòng đời khách hàng: Cũng như những ngành khác, ngành tài chính, ngân hàng cũng cần phải tiến hành dự đoán và xác định giá trị vòng đời khách hàng. Do đó, việc đánh giá những khách hàng nào sẽ ở lại sau một quá trình giao dịch và liệu họ đóng góp như thế nào vào doanh thu tương lai của công ty là những vấn đề mà doanh nghiệp cần phải quan tâm. Nhờ có khoa học dữ liệu, ngân hàng có thể tiến hành sàng lọc và phân loại những nhóm khách hàng tiềm năng cũng như những giá trị thiết thực trong tương lai thông qua việc phân tích và dự đoán. Những công cụ có thể hỗ trợ ngân hàng như CART (Classification và Regression Trees) hay GLM (Generalized Linear Models) có vai trò quan trọng trong việc chọn lọc, phân loại hay dự đoán xu thế, từ đó, giúp xác định đúng khách hàng cũng như đóng góp vào sự tăng trưởng và lợi nhuận của ngân hàng (Jain, H., Khunteta, A., và Srivastava, S., 2020).

Phân khúc thị trường: Phân khúc thị trường là công cụ chỉ ra những nhóm khách hàng có cùng những tính cách nhất định và các hành vi thông thường. Học máy chính là công cụ hỗ trợ tốt nhất để định vị cũng như khoanh vùng chính xác từng nhóm khách hàng. Lợi ích của việc phân cụm khách hàng: Xác định khách hàng dựa trên lợi nhuận của họ; phân khúc khách hàng dựa vào lịch sử sử dụng dịch vụ; phát triển mối quan hệ và gắn kết hơn với khách hàng; khuyến nghị, đưa ra những dịch vụ phù hợp với từng nhóm khách hàng; phân tích phân khúc khách hàng giúp thực hiện và cải thiện dịch vụ.

2.2. Thuật toán Logistic Regression

Ý tưởng của thuật toán Logistic Regression như sau:

Đầu ra của thuật toán Logistic Regression với điểm dữ liệu Trong đó x là điểm dữ liệu, w là bộ trọng số của mô hình, hàm sigmoid được chọn làm hàm kích hoạt vì có đầu ra bị chặn trong khoảng 0, 1) có thể dùng để xấp xỉ xác suất phân lớp và có đạo hàm đơn giản thuận lợi cho việc học bằng thuật toán Gradient Descent.


Giả sử xác suất để một điểm dữ liệu x rơi vào lớp thứ nhất là f (wTx) và rơi vào lớp còn lại là 1 - f (wTx):

P (yi= 1|xi; w) = f (wTxi) (I)

P (yi= 0| xi; w) = 1 - f (wTxi) (II)

Chúng ta cần phải tìm các hệ số w sao cho với các điểm dữ liệu ứng với yi=1, f(wTxi) gần với 1 và ngược lại. Kí hiệu zi= f(wTxi) hai biểu thức (I) và (II) có thể được viết dưới dạng:

P (yi |xi; w) = ziyii(1-zi)1-yi

Biểu thức này giống với hai biểu thức ở trên vì khi y1=1, phần thứ hai của vế phải sẽ bằng 1, khi y1=0, phần thứ nhất sẽ bằng 1. Chúng ta muốn mô hình thể hiện ra kết quả gần với dữ liệu đã cho nhất, tức là xác suất có giá trị P sẽ đạt giá trị cao nhất. Lấy logarit tự nhiên, đổi dấu và lấy trung bình, ta thu được hàm số:



Thuật toán Gradient Descent được sử dụng để tối ưu hàm mất mát. Hàm mất mát đối với một điểm dữ liệu được tính như sau:



Khi đó, véc-tơ Gradient (trường véc-tơ có chiều hướng về phía mức độ tăng lớn nhất của trường vô hướng và có độ lớn là mức độ thay đổi lớn nhất) của hàm mất mát theo trọng số được tính theo công thức:


Thuật toán tối ưu Gradient Descent (tìm các điểm cực tiểu cục bộ này một cách xấp xỉ sau một số vòng lặp) cho Logistic Regression được thực hiện như sau:

với η là hệ số học (learning rate)

Trọng số w được khởi tạo ngẫu nhiên.

Quy tắc phân lớp đối với Logistic Regression: Với đầu ra của điểm dữ liệu là sẽ có nhãn là 1 nếu σ(wT x) ≥ 0,5 và có nhãn là 0 nếu ngược lại. Điều này tương đương với việc sẽ có nhãn là 1 nếu wT x ≥ 0. Như vậy, thực chất khi dùng thuật toán Logistic Regression để phân lớp, ta sẽ đi tìm một siêu phẳng làm biển để phân lớp các điểm dữ liệu. Do đó, Logistic Regression sẽ hiệu quả nếu dữ liệu gần với Linearly Separable (phân biệt tuyến tính).

2.3. Ưu điểm và nhược điểm của Logistic Regression

Ưu điểm:

- Đơn giản, dễ thực hiện, hiệu quả

- Không đòi hỏi quá nhiều tài nguyên tính toán

- Ứng dụng trên nhiều lĩnh vực: Lao động, sản xuất (khả năng hư hỏng các thiết bị...), kinh doanh (khả năng rời dịch vụ, phân khúc khách hàng...), y tế (khả năng mắc bệnh...), ngân hàng (rủi ro tín dụng...)...

Nhược điểm:

- Không giải quyết được các vấn đề phi tuyến tính.

- Phụ thuộc cao vào tính đúng đắn của dữ liệu.

- Chỉ dự đoán các kết quả phân loại.

3. Dự báo khách hàng ngân hàng rời bỏ dịch vụ với thuật toán Logistic Regression

Chúng ta thấy rằng, một lĩnh vực khác trong ứng dụng trí tuệ nhân tạo có thể được sử dụng trong ngành Ngân hàng với mục đích phát hiện gian lận. Với sự hỗ trợ của các thuật toán trí tuệ nhân tạo, các hành động gian lận ngày càng được phát hiện nhiều hơn. Có hai phương pháp tiếp cận phổ biến đã được phát triển bởi tổ chức tài chính để phát hiện các mô hình gian lận (Jain, H., Khunteta, A., và Srivastava, S., 2020).

- Phương pháp tiếp cận thứ nhất, NHTM cần phải sử dụng đến kho dữ liệu của bên thứ ba và sử dụng các kĩ thuật trí tuệ nhân tạo để xác định mô hình gian lận, sau đó, các ngân hàng có thể tham chiếu chéo các mẫu với cơ sở dữ liệu riêng của mình.

- Phương pháp thứ hai, gian lận được nhận dạng dựa trên các mẫu thông tin nội bộ riêng của mình mà không phải nhờ vào bên thứ ba. Tuy nhiên, trên thực tế, hầu hết các ngân hàng đang sử dụng kết hợp cả hai phương pháp tiếp cận trên.

Trong phần tiếp theo của bài viết, tác giả trình bày một phương pháp phát hiện khách hàng có ý định rời bỏ dịch vụ bằng việc sử dụng thuật toán học máy và dữ liệu lịch sử của các ngân hàng. Ý tưởng của phương pháp là sử dụng bộ dữ liệu mà các ngân hàng đang lưu trữ và các lớp thuật toán học máy để tạo ra những mô hình nhằm phát hiện đâu là khách hàng có khả năng rời bỏ dịch vụ và khách hàng trung thành trong số hàng triệu khách hàng đang giao dịch với ngân hàng.

Bài toán có thể phát biểu dưới dạng mô hình toán học ngắn gọn như sau: Gọi X là tập dữ liệu gồm k thuộc tính về n khách hàng, cần đánh giá xem họ có phải là đối tượng rời bỏ hay không. Gọi C là tập giá trị (gồm hai giá trị 0 và 1) để đánh dấu khách hàng có rời bỏ hay không (C ∈ {0, 1}). Ta gọi f: X -> C là hàm xác định khách hàng có rời bỏ hay không. Mục tiêu của bài toán là cần tính toán f(xi)∈{0,1}, ∈i=1,...n.

Dữ liệu để thực nghiệm cho thuật toán Logistic Regression trong bài viết này là bộ dữ liệu “Churn_Prediction_Modeling.csv” gồm các đối đối tượng khách hàng của ngân hàng được thu thập từ các ngân hàng và được các nhà khoa học cung cấp tại: “https://www.kaggle.com/datasets/aakash50897/churn-modellingcsv”. Các đối tượng khách hàng này gồm tám thuộc tính cơ bản có ảnh hưởng nhiều nhất tới việc dự báo. Các thuộc tính, sau khi tiền xử lí với các thư viện mã nguồn mở và ngôn ngữ lập trình Python và lưu dưới dạng file excel với tên: “Churn_Prediction_Modeling.csv”. Bộ dữ liệu này đã được các nhà nghiên cứu thực nghiệm với các thuật toán như ANN, Xgboost, Pyspark trong bối cảnh không phải ở Việt Nam. Trong phần thực nghiệm này, tác giả sử dụng lại bộ dữ liệu trên với thuật toán Logistic Regression với mong muốn có thể học hỏi, điều chỉnh để có thể áp dụng cho bối cảnh là khách hàng của các NHTM Việt Nam.

3.1. Tiền xử lí dữ liệu và chuẩn hóa dữ liệu

Trước khi thực hiện thuật toán, dữ liệu cần phải được làm sạch, chuyển đổi để phù hợp với thuật toán tương ứng. Ví dụ, ta cần chuyển các dữ liệu dạng kí tự thành các dữ liệu dạng số: Với “Gender”: chuyển “Female” thành “0” và “Male” thành “1”; đối với “Geography”: chuyển “France” thành “0”, “Spain” thành “2” và “Germany” thành “1”. Để thực hiện việc này ta có thể sử dụng công cụ trong thư viện “sklearn” được cài đặt trên Python như sau:

Đoạn chương trình chuyển dữ liệu kiểu chữ thành dữ liệu kiểu số


Kết quả dữ liệu sau khi chuyển được thể hiện ở Bảng 1.

Bảng 1: Kết quả dữ liệu sau khi chuyển


3.2. Mô hình Logistic Regression

Trong phần này, các bước thực hiện thuật toán nói chung, với thuật toán Logistic Regression nói riêng sẽ được minh họa theo từng bước:

Bước 1: Xác định và chuẩn bị các thư viện cần thiết.

Bước 2: Đọc dữ liệu vào bộ nhớ trong do Python quản lí.

Bước 3: Chia dữ liệu theo tỉ lệ bộ dữ liệu huấn luyện và bộ dữ liệu kiểm tra là 70% và 30%. Tập dữ liệu huấn luyện sẽ được sử dụng để huấn luyện bởi thuật toán. Sau khi chuẩn bị tốt bộ dữ liệu để huấn luyện mô hình, chúng ta sẽ đào tạo bộ dữ liệu bằng cách sử dụng bộ dữ liệu huấn luyện. Để cung cấp đào tạo hoặc sử dụng mô hình vào bộ huấn luyện, chúng ta sẽ cài đặt lớp Logistic Regression của thư viện “sklearn”.

Bước 4: Dự đoán kiểm tra kết quả: Sẽ tạo ra một biến mới có tên là ‘predicted’ và tiến hành kiểm tra: Nếu yes_Prob > 0,5 thì sẽ nhận giá trị là 1 và ngược lại sẽ nhận giá trị là 0.


Huấn luyện bằng thuật toán Logistic Regression

Bước 5: Đánh giá độ chính xác của thuật toán. Tại bước này một ma trận có tên “Confusion matrix” sẽ được tạo ra nhằm đánh giá hiệu quả hoạt động của thuật toán. (Hình 1)

Hình 1: Confusion matrix


Ma trận trên cho ta thấy:

- Có 2.340 khách hàng thực tế là khách hàng trung thành và dự đoán là đúng vậy.

- Có 73 khách hàng thực tế là khách hàng trung thành nhưng được dự đoán là rời đi.

- Có 505 khách hàng thực tế họ rời đi nhưng được dự đoán là khách hàng trung thành.

- Có 82 khách hàng rời bỏ dịch vụ ngân hàng và được dự đoán là sẽ rời bỏ dịch vụ ngân hàng.

Hình 2: Kết quả đánh giá


Từ kết quả đánh giá trên Hình 2 ta thấy:

- Precision=0,82 mô hình dự 82% khách hàng thực sự ở lại so với tất cả các trường hợp được dự đoán là ở lại.

- Recall=0,97 cho biết trong số những người thực tế ở lại thì có 97% khách hàng được dự đoán đúng.

Bước 6: Làm việc với biểu đồ ROC (Receiver operating characteristic)

Tại đây, một biểu đồ ROC được xây dựng nhằm đánh giá độ hiệu quả của thuật toán.

Hình 3: Biểu đồ ROC


Hình 3 là kết quả sau khi đoạn code vẽ biểu đồ được thực thi. Biểu đồ ROC là loại biểu đồ thể hiện sự thay đổi độ nhạy và độ đặc hiệu khi các giá trị ngưỡng thay đổi. Qua biểu đồ ROC mà hệ thống đã in ra phía trên, ta thấy được giá trị AUC (Area Under the Curve) trả về là 0,55. Dựa trên bảng so sánh ở phần đánh giá mô hình, chúng ta thấy được giá trị AUC = 0,55 thể hiện đây là mô hình dự báo chưa có nhiều có ý nghĩa.

Điều chỉnh mô hình: Vì đây là bài toán dự đoán khách hàng rời bỏ dịch vụ ngân hàng nên chúng ta sẽ điều chỉnh sao cho không có quá nhiều dự đoán là ở lại bị sai với thực tế. Bởi vì nếu có quá nhiều khách hàng thực tế là sẽ rời đi nhưng khi dự báo lại cho ra kết quả là ở lại sẽ dẫn đến hậu quả mất khách hàng.

Do đó, ta sẽ điều chỉnh sao cho hệ số False Negative (FN) là nhỏ nhất có thể. (Hình 4)

Hình 4: Confusion matrix


- Có 795 khách hàng thực tế là khách hàng trung thành và dự đoán là đúng như vậy.

- Có 1618 khách hàng thực tế là khách hàng trung thành nhưng được dự đoán là rời đi.

- Có 73 khách hàng thực tế là rời đi nhưng được dự đoán là khách hàng trung thành.

- Có 514 khách hàng rời bỏ dịch vụ ngân hàng và được dự đoán là sẽ rời bỏ dịch vụ ngân hàng.

Hình 5: Đánh giá mô hình


Từ kết quả Hình 5 ta thấy:


- Precision = 0,92 mô hình dự đoán 92% khách hàng thực sự ở lại so với tất cả các trường hợp được dự đoán là ở lại.

- Recall = 0,33 cho biết trong số những người thực tế ở lại thì có 33% khách hàng được dự đoán đúng.

Biểu đồ ROC thể hiện sự thay đổi độ nhạy và độ đặc hiệu khi các giá trị ngưỡng thay đổi. Qua biểu đồ ROC mà hệ thống đã in ra phía trên, ta có thể thấy giá trị AUC là 0,6. Dựa trên bảng so sánh ở phần đánh giá mô hình, chúng ta có thể thấy được đây là mô hình dự báo không tốt. (Hình 6)


Hình 6: Biểu đồ ROC sau khi điều chỉnh


Phần trên của bài viết đã trình bày quy trình sử dụng thuật toán khi tìm kiếm thông tin từ dữ liệu ngân hàng nhằm phân lớp khách hàng có nghi ngờ rời bỏ dịch vụ hay không. Để có kết quả mang tính ứng dụng phù hợp với thực tế bối cảnh Việt Nam, chúng ta cần phải thực hiện thuật toán này trên bộ dữ liệu thu thập được từ các NHTM Việt Nam. Đồng thời, cần tìm hiểu thêm tình hình thực tế để từ đó cải tiến chương trình, thay đổi các tham số để bài toán phù hợp với thực tế của Việt Nam.

4. Kết luận và đánh giá

Tác giả đã hệ thống hóa cơ sở lí thuyết về dữ liệu cũng như phân tích và nghiên cứu các vấn đề liên quan tới việc khai phá và tìm kiếm thông tin từ dữ liệu phục vụ cho việc ra quyết định của một số tổ chức kinh doanh, đặc biệt là các NHTM:

Thứ nhất, ứng dụng công nghệ học máy vào việc nhận định đâu là khách hàng trung thành, đâu là khách hàng có ý định rời bỏ dịch vụ của ngân hàng là một phương pháp hiện đại đã và đang được các NHTM áp dụng.

Thứ hai, có thể nói rằng, việc ứng dụng học máy vào hoạt động tín dụng làm giảm đáng kể rủi ro ngân hàng vì nó giúp ngân hàng nhận định đúng các đối tượng khách hàng của mình để có những giải pháp phù hợp trong chiến lược kinh doanh.

Thứ ba, ứng dụng công nghệ học máy cũng giúp cho thời gian thực hiện mỗi lần đánh giá tín dụng nói riêng và các công việc của ngân hàng nói chung trở nên nhanh hơn và đáng tin cậy hơn. Sở dĩ như vậy là bởi khả năng tính toán và đưa ra quyết định của con người là có hạn, trong khi đó học máy cũng có thể làm được điều tương tự với tốc độ nhanh hơn gấp nhiều lần. Không chỉ thời gian, các tiêu chí đánh giá khách hàng đã được mở rộng hơn, từ đó khiến cho các đánh giá mang tính khách quan hơn và có chiều sâu hơn. Ngoài ra, các phương thức trên cũng là một chỉ tiêu mới được đưa ra nhằm đa dạng hóa khả năng thanh toán cho khách hàng, cho thấy sự linh hoạt ứng biến tốt của ngân hàng.

Cuối cùng, như đã trình bày ở trên, khi chúng ta ứng dụng công nghệ học máy trong việc phát hiện khách hàng rời bỏ dịch vụ nói riêng và hoạt động tài chính của ngân hàng nói chung, thời gian xử lí của học máy ngắn và rất tiện lợi, điều đó đồng nghĩa với ngân hàng sẽ tiếp cận được với nhiều khách hàng hơn. Lượng khách hàng lớn hơn sẽ đem lại doanh thu cao hơn cho ngân hàng, đi đôi với đó là chi phí nhân sự và chi phí quản lí sẽ giảm xuống đáng kể. Khả năng thu thập thông tin của học máy rất nhanh và từ nhiều nguồn đáng tin cậy là một bước tiến lớn, khi mà các tổ chức tín dụng hiện giờ chưa áp dụng được hoặc mới áp dụng một phần vào việc đánh giá. Từ bước cải tiến này, sẽ là tiền đề cho các tổ chức tín dụng khác nghiên cứu và phát triển, đem lại cho khách hàng những trải nghiệm tốt nhất.

Tài liệu tham khảo:

1. Breeden. (2021). A survey of machine learning in credit risk. Journal of Credit Risk, 17(3).

2. Dr.Chitra và B.Subahini. (2013). Data Mining Techniques và its Applications in Banking Sector. International Journal of Emerging Technology và Advanced Engineering, Volume 3( Issue 38), pages 219-226.

3. Jain, H., Khunteta, A., và Srivastava, S., (2020). Churn prediction in telecommunication using logistic regression và logit boost. Procedia Computer Science,, 167, pages 101-112.

4. Leo, M., Sharma, S., và Maddulety, K. (2019). Machine learning in banking risk management: A literature review. page 29.

5. M Madhavi, M V R Srivatsava. (2017). Fraud Detection in Banking. International Journal of Engineering và Advanced Technology, 3, pages 322-358.

6. Malali, A. B., và Gopalakrishnan. (2020). Application of Artificial Intelligence và Its Powered Technologies in the Indian Banking và Financial Industry: An Overview. IOSR Journal Of Humanities Và Social Science,, 25(4), pages 55-60.

7. P Salman Raju, V Rama Bai và Gkrishna Chaitanya. (2014). Enhancing Customer Relationship Management in Banking và Retail Industries. International Journal of Innovative Research in Computer và Communication Engineering, 2(1), pages 2650-2657.

8. P Salman Raju, V. R. (2017). Credit scoring using machine learning techniques. International Journal of Computer Applications, 161(4).

9. Petre, R. (2013). Data Mining Solutions for the Business Environment. Database System Journal, 4, pages 21-29.


Nguyễn Dương Hùng

Khoa Hệ thống Thông tin quản lý - Học viện Ngân hàng

https://tapchinganhang.gov.vn

Tin bài khác

Ứng dụng mô hình hồi quy nhị phân trong việc dự đoán rủi ro phá sản của các doanh nghiệp trên thị trường chứng khoán

Ứng dụng mô hình hồi quy nhị phân trong việc dự đoán rủi ro phá sản của các doanh nghiệp trên thị trường chứng khoán

Phân tích báo cáo tài chính cung cấp thông tin rõ ràng về tình hình tài chính, vốn và công nợ của doanh nghiệp, giúp nhà quản trị đưa ra các quyết định điều hành và đầu tư chính xác. Nghiên cứu cho thấy có sự khác biệt rõ rệt giữa các chỉ số tài chính của nhóm doanh nghiệp có nguy cơ phá sản và nhóm doanh nghiệp không có nguy cơ phá sản. Các doanh nghiệp có nguy cơ phá sản thường có chỉ số tài chính không ổn định (quá cao hoặc quá thấp) so với các doanh nghiệp hoạt động bình thường.
Dự đoán xu hướng sử dụng công nghệ mới của người dùng thông qua chỉ số sẵn sàng công nghệ

Dự đoán xu hướng sử dụng công nghệ mới của người dùng thông qua chỉ số sẵn sàng công nghệ

Những năm gần đây, với sự chuyển đổi số mạnh mẽ và sự phát triển không ngừng của các công nghệ tiên tiến, việc đo lường mức độ chấp nhận và sử dụng công nghệ mới của người dùng trở nên quan trọng hơn bao giờ hết. Sự sẵn sàng áp dụng công nghệ của một cá nhân sẽ phản ánh khuynh hướng chấp nhận công nghệ của họ trong các hoạt động thường ngày. Để đánh giá chính xác xu hướng này, Chỉ số sẵn sàng công nghệ đã trở thành một công cụ hữu ích, giúp đo lường tâm lý, thái độ và hành vi của người dùng đối với các ứng dụng công nghệ. Từ đó, doanh nghiệp và các nhà nghiên cứu có thể hiểu rõ hơn về mức độ sẵn sàng áp dụng công nghệ của các đối tượng mục tiêu, cũng như dự báo xu hướng phát triển của thị trường.
Nghiên cứu nhân tố ảnh hưởng đến ý định sử dụng các nền tảng cho vay ngang hàng của sinh viên

Nghiên cứu nhân tố ảnh hưởng đến ý định sử dụng các nền tảng cho vay ngang hàng của sinh viên

Để đánh giá nhân tố ảnh hưởng đến ý định sử dụng các nền tảng cho vay ngang hàng, nghiên cứu này sử dụng phương pháp định lượng kết hợp với định tính. Quy trình nghiên cứu được thực hiện theo các bước: Thống kê mô tả, đánh giá độ tin cậy của thang đo thông qua kiểm định Cronbach’s Alpha, phân tích nhân tố khám phá (EFA), phân tích hồi quy tuyến tính bội và kiểm định giả thuyết. Nhóm nghiên cứu sử dụng dữ liệu sơ cấp được thu thập thông qua việc gửi phiếu khảo sát dưới hình thức online đến sinh viên các trường đại học.
Giải pháp cho quyền tiếp cận đất đai của tổ chức kinh tế có vốn đầu tư nước ngoài

Giải pháp cho quyền tiếp cận đất đai của tổ chức kinh tế có vốn đầu tư nước ngoài

Quyền tiếp cận đất đai của các tổ chức kinh tế có vốn đầu tư nước ngoài đóng vai trò quan trọng trong việc thu hút nguồn vốn đầu tư, thúc đẩy phát triển kinh tế và hiện đại hóa đất nước. Tuy nhiên, quá trình này vẫn gặp phải nhiều bất cập do những hạn chế về pháp lý, thủ tục hành chính phức tạp, thời hạn sử dụng đất ngắn và thiếu sự minh bạch trong quản lý đất đai. Các rào cản này không chỉ làm giảm sức hút của môi trường đầu tư Việt Nam mà còn cản trở sự phát triển bền vững của các dự án FDI. Để nâng cao hiệu quả quyền tiếp cận đất đai của các tổ chức kinh tế có vốn đầu tư nước ngoài, cần thực hiện đồng bộ các giải pháp...
Ứng dụng sinh trắc học trong hoạt động ngân hàng - Thực trạng và một số giải pháp nâng cao hiệu quả

Ứng dụng sinh trắc học trong hoạt động ngân hàng - Thực trạng và một số giải pháp nâng cao hiệu quả

Ứng dụng sinh trắc học trong hoạt động ngân hàng mang lại nhiều lợi ích vượt trội, góp phần hiện đại hóa hoạt động, nâng cao trải nghiệm khách hàng và bảo đảm an toàn giao dịch. Các công nghệ sinh trắc học phổ biến như nhận diện khuôn mặt, quét vân tay, mống mắt hay xác thực giọng nói... không chỉ cải thiện quy trình vận hành mà còn gia tăng mức độ tin cậy trong các giao dịch tài chính.
Tính độc lập của thư tín dụng và ngoại lệ gian lận: Thực tiễn áp dụng tại một số quốc gia và đề xuất cho Việt Nam

Tính độc lập của thư tín dụng và ngoại lệ gian lận: Thực tiễn áp dụng tại một số quốc gia và đề xuất cho Việt Nam

Phương thức thanh toán bằng L/C được các doanh nghiệp sử dụng rộng rãi trong quá trình thực hiện hợp đồng mua bán hàng hóa quốc tế. Phương thức thanh toán này giúp các bên giảm thiểu rủi ro do khoảng cách về địa lý và sự khác biệt của pháp luật giữa các quốc gia.
Cơ hội và thách thức của ngành Ngân hàng trong việc đạt mục tiêu ESG

Cơ hội và thách thức của ngành Ngân hàng trong việc đạt mục tiêu ESG

Trong bối cảnh toàn cầu đang đối mặt với những thách thức lớn từ biến đổi khí hậu, bất bình đẳng xã hội và sự thiếu minh bạch trong quản trị, khái niệm ESG đã nổi lên như một giải pháp không thể thiếu để hướng tới sự phát triển bền vững.
Tác động của việc triển khai thuế tối thiểu toàn cầu đến kinh tế các nước trên thế giới và khuyến nghị cho Việt Nam

Tác động của việc triển khai thuế tối thiểu toàn cầu đến kinh tế các nước trên thế giới và khuyến nghị cho Việt Nam

Việc xây dựng thể chế thuế tối thiểu toàn cầu là một vấn đề quan trọng trong bối cảnh nền kinh tế toàn cầu ngày càng phát triển và hội nhập. Một trong những yếu tố cần thiết để xây dựng hệ thống thuế tối thiểu toàn cầu là có một khung pháp lý rõ ràng và minh bạch, tạo sự tin tưởng cho các doanh nghiệp và nhà đầu tư.
Xem thêm
Ổn định kinh tế vĩ mô khi tăng trưởng cao tại Việt Nam

Ổn định kinh tế vĩ mô khi tăng trưởng cao tại Việt Nam

Tăng trưởng cao không nhất thiết đi kèm với lạm phát cao, bong bóng tài sản, nợ xấu gia tăng và đồng nội tệ mất giá. Nhưng các yếu tố này vẫn tiềm ẩn như các rủi ro kinh tế vĩ mô, tạo nguy cơ đối với sự ổn định vĩ mô tại Việt Nam trong thời gian tới. Bài viết này đề xuất một số giải pháp nhằm ổn định kinh tế vĩ mô trong giai đoạn tăng trưởng cao, với trọng tâm là phát huy điểm mạnh và hạn chế hiệu ứng tiêu cực từ vận hành chính sách tài khóa và tiền tệ.
Đột phá thể chế, pháp luật để đất nước vươn mình

Đột phá thể chế, pháp luật để đất nước vươn mình

Ngày 4/5, Tổng Bí thư Ban Chấp hành trung ương Đảng cộng sản Việt Nam Tô Lâm đã có bài viết, trong đó nêu rõ các yêu cầu mục tiêu; những nhiệm vụ, giải pháp cơ bản để đưa Nghị quyết số 66-NQ/TW ngày 30/04/2025 của Bộ Chính trị vào cuộc sống, mang lại những kết quả thiết thực trong đổi mới công tác xây dựng và thi hành pháp luật đáp ứng yêu cầu phát triển đất nước trong kỷ nguyên mới. Xin trân trọng giới thiệu toàn văn bài viết của đồng chí Tổng Bí thư.
Cơ chế thử nghiệm có kiểm soát trong lĩnh vực ngân hàng

Cơ chế thử nghiệm có kiểm soát trong lĩnh vực ngân hàng

Chính phủ đã ban hành Nghị định số 94/2025/NĐ-CP quy định về Cơ chế thử nghiệm có kiểm soát trong lĩnh vực ngân hàng.
Cấp thiết hoàn thiện pháp luật về tài sản bảo đảm là tài sản số, tín chỉ carbon

Cấp thiết hoàn thiện pháp luật về tài sản bảo đảm là tài sản số, tín chỉ carbon

Cùng với sự phát triển nhanh chóng của nền kinh tế số và quá trình chuyển đổi xanh, vấn đề đặt ra hiện nay là liệu các loại tài sản mới như tài sản số, tín chỉ carbon có thể và sẽ được chấp nhận như thế nào với vai trò là tài sản bảo đảm cho khoản vay tại các tổ chức tín dụng ở Việt Nam. Các chuyên gia trong nước và quốc tế đều cùng chung nhận định đó là cần sớm hoàn thiện pháp luật về tài sản bảo đảm là tài sản số, tín chỉ carbon tại Hội thảo “Tài sản bảo đảm ngân hàng - Những vấn đề quan tâm hiện nay” do Thời báo Ngân hàng tổ chức ngày 28/4/2025.
Những rào cản trong phát triển kinh tế tuần hoàn tại doanh nghiệp và một số giải pháp khắc phục

Những rào cản trong phát triển kinh tế tuần hoàn tại doanh nghiệp và một số giải pháp khắc phục

Trong bối cảnh cuộc Cách mạng công nghiệp lần thứ tư đang diễn ra mạnh mẽ, để đạt được sự phát triển bền vững và hài hòa mối quan hệ giữa tăng trưởng kinh tế và bảo vệ môi trường, việc chuyển đổi mô hình kinh tế từ tuyến tính truyền thống sang nền kinh tế tuần hoàn là hướng đi đúng đắn, phù hợp với chủ trương chính sách của Đảng và Nhà nước ta.
Sự ổn định tài chính của các ngân hàng thương mại châu Á: Vai trò của cạnh tranh thị trường, chất lượng thể chế và kinh tế vĩ mô

Sự ổn định tài chính của các ngân hàng thương mại châu Á: Vai trò của cạnh tranh thị trường, chất lượng thể chế và kinh tế vĩ mô

Nghiên cứu này được thực hiện nhằm đánh giá tác động của cạnh tranh thị trường, chất lượng thể chế và các yếu tố kinh tế vĩ mô tới sự ổn định tài chính của các ngân hàng thương mại tại châu Á. Nhóm nghiên cứu sử dụng bộ dữ liệu bảng gồm 43.232 quan sát từ 1.093 ngân hàng thương mại ở các nước châu Á trong giai đoạn quý I/2008 đến quý I/2024. Bằng cách tiếp cận theo phương pháp hồi quy 2SLS, nghiên cứu đã khắc phục được vấn đề nội sinh trong mô hình và mang lại các kết quả ước lượng vững. Kết quả nghiên cứu cho thấy mối quan hệ cùng chiều giữa chỉ số Lerner và Z-score hay cạnh tranh thị trường có ảnh hưởng tiêu cực đến sự ổn định tài chính của các ngân hàng thương mại.
Đánh giá thực tiễn triển khai CBDC tại ngân hàng trung ương của một số quốc gia trên thế giới và khuyến nghị đối với Việt Nam

Đánh giá thực tiễn triển khai CBDC tại ngân hàng trung ương của một số quốc gia trên thế giới và khuyến nghị đối với Việt Nam

Đối với Việt Nam, CBDC có thể đóng vai trò quan trọng trong việc hiện đại hóa hệ thống thanh toán, tăng cường tài chính toàn diện và nâng cao hiệu quả giám sát tiền tệ. Tuy nhiên, để triển khai thành công, cần có một chiến lược rõ ràng, bao gồm: Xác định rõ mục tiêu của CBDC, xây dựng khung pháp lý toàn diện, đầu tư vào hạ tầng công nghệ, thử nghiệm các mô hình triển khai phù hợp và thúc đẩy hợp tác quốc tế để đảm bảo tính tương thích với hệ thống tài chính toàn cầu.
Kinh nghiệm quốc tế về mô hình chuyển đổi số báo chí và một số khuyến nghị đối với lĩnh vực  truyền thông ngành Ngân hàng Việt Nam

Kinh nghiệm quốc tế về mô hình chuyển đổi số báo chí và một số khuyến nghị đối với lĩnh vực truyền thông ngành Ngân hàng Việt Nam

Chuyển đổi số mang lại cơ hội cũng như thách thức lớn đối với hoạt động truyền thông, báo chí ngành Ngân hàng Việt Nam. Việc áp dụng công nghệ không chỉ giúp báo chí gia tăng khả năng truyền tải thông tin, mà còn làm thay đổi phương thức quản lý, sản xuất và phân phối tin tức. Điều này đòi hỏi báo chí ngành Ngân hàng phải đổi mới mô hình tổ chức, bảo đảm tính linh hoạt và sáng tạo.
Thông điệp sau làn sóng tăng thuế đối ứng của Mỹ

Thông điệp sau làn sóng tăng thuế đối ứng của Mỹ

Chính quyền Mỹ cho biết, khi xác định mức thuế quan đối ứng cho mỗi quốc gia, họ không chỉ xem xét thuế nhập khẩu mà còn các hoạt động khác mà họ cho là không công bằng, bao gồm thuế giá trị gia tăng, trợ cấp của chính phủ, chiến lược thao túng tiền tệ, chuyển nhượng công nghệ và các vấn đề liên quan đến sở hữu trí tuệ.
Vươn mình trong hội nhập quốc tế

Vươn mình trong hội nhập quốc tế

Tổng Bí thư Tô Lâm có bài viết với tiêu đề "Vươn mình trong hội nhập quốc tế". Trân trọng giới thiệu toàn văn bài viết của đồng chí Tổng Bí thư.

Nghị định số 26/2025/NĐ-CP của Chính phủ ngày 24/02/2025 quy định chức năng, nhiệm vụ, quyền hạn và cơ cấu tổ chức của Ngân hàng Nhà nước Việt Nam

Thông tư số 59/2024/TT-NHNN ngày 31/12/2024 Sửa đổi, bổ sung một số điều của Thông tư số 12/2021/TT-NHNN ngày 30 tháng 7 của 2021 của Thống đốc Ngân hàng Nhà nước Việt Nam quy định về việc tổ chức tín dụng, chi nhánh ngân hàng nước ngoài mua, bán kỳ phiếu, tín phiếu, chứng chỉ tiền gửi, trái phiếu do tổ chức tín dụng, chi nhánh ngân hàng nước ngoài khác phát hành trong nước

Thông tư số 60/2024/TT-NHNN ngày 31/12/2024 Quy định về dịch vụ ngân quỹ cho tổ chức tín dụng, chi nhánh ngân hàng nước ngoài

Thông tư số 61/2024/TT-NHNN ngày 31/12/2024 Quy định về bảo lãnh ngân hàng

Thông tư số 62/2024/TT-NHNN ngày 31/12/2024 Quy định điều kiện, hồ sơ, thủ tục chấp thuận việc tổ chức lại ngân hàng thương mại, tổ chức tín dụng phi ngân hàng

Thông tư số 63/2024/TT-NHNN ngày 31/12/2024 Quy định về hồ sơ, thủ tục thu hồi Giấy phép và thanh lý tài sản của tổ chức tín dụng, chi nhánh ngân hàng nước ngoài; hồ sơ, thủ tục thu hồi Giấy phép văn phòng đại diện tại Việt Nam của tổ chức tín dụng nước ngoài, tổ chức nước ngoài khác có hoạt động ngân hàng

Thông tư số 64/2024/TT-NHNN ngày 31/12/2024 Quy định về triển khai giao diện lập trình ứng dụng mở trong ngành Ngân hàng

Thông tư số 57/2024/TT-NHNN ngày 24/12/2024 Quy định hồ sơ, thủ tục cấp Giấy phép lần đầu của tổ chức tín dụng phi ngân hàng

Thông tư số 56/2024/TT-NHNN ngày 24/12/2024 Quy định hồ sơ, thủ tục cấp Giấy phép lần đầu của ngân hàng thương mại, chi nhánh ngân hàng nước ngoài, văn phòng đại diện nước ngoài

Thông tư số 55/2024/TT-NHNN ngày 18/12/2024 Sửa đổi khoản 4 Điều 2 Thông tư số 19/2018/TT-NHNN ngày 28 tháng 8 năm 2018 của Thống đốc Ngân hàng Nhà nước Việt Nam hướng dẫn về quản lý ngoại hối đối với hoạt động thương mại biên giới Việt Nam - Trung Quốc