Dự báo khách hàng ngân hàng rời bỏ dịch vụ với thuật toán học máy - Hồi quy Logistic
30/06/2023 6.739 lượt xem
Tóm tắt: Học máy (Machine Learning) đóng một vai trò quan trọng trong quá trình chuyển đổi số, đặc biệt là trong lĩnh vực tài chính, ngân hàng. Học máy không những là công cụ hỗ trợ ra quyết định trong việc xét duyệt tín dụng cho khách hàng, mà còn giúp các ngân hàng nhận định đúng đâu là khách hàng tiềm năng trong chiến lược kinh doanh của họ. Các bài toán ứng dụng học máy được đẩy mạnh nghiên cứu và ứng dụng trong những năm gần đây nhằm giúp các ngân hàng tối ưu hóa việc sử dụng nguồn vốn và nâng cao lợi nhuận. Trong bài viết này, chúng tôi giới thiệu một ứng dụng của học máy cho bài toán dự đoán khách hàng rời bỏ dịch vụ ngân hàng tại các ngân hàng thương mại (NHTM). Kết quả thực nghiệm cho thấy, tính khả quan của đầu tư đẩy mạnh nghiên cứu và ứng dụng các thuật toán học máy trong lĩnh vực ngân hàng để rút ngắn thời gian làm việc, tiết kiệm thời gian cho các chuyên gia Việt Nam. 
 
Từ khóa: Trí tuệ nhân tạo, học máy, khai thác dữ liệu, dự đoán rời bỏ.
 
PREDICTION OF CUSTOMER CHURN IN BANKING SECTOR USING MACHINE LEARNING - LOGISTIC REGRESSION ALGORITHM
 
Abstract: Machine Learning (ML) plays an important role in digital transformation, specially in banking and finance sector. It is not only a decision support tool in credit approval for customers but also helps banks to correctly identify potential customers in their business strategy. Applications of machine learning problems have been researched and applied in recent years to help banks optimize their capital and increase their profits. In this paper, we introduce an application of machine learning to predict customer churn at commercial banks. The experimental results show the positive effects of investing in promoting research and application of machine learning algorithms in the banking sector to shorten working time and save time for Vietnamese experts.

Keywords: Artificial intelligence, machine learning, data mining, churn prediction.
 
1. Giới thiệu
 
Học máy là một lĩnh vực được các doanh nghiệp và các tổ chức nghiên cứu, ứng dụng, đặc biệt là trong lĩnh vực tài chính, ngân hàng. Từ các trợ lí ảo như Siri và Cortana, đến các Chatbots được tạo ra bởi Facebook, Google và nhiều công ty công nghệ khác (Breeden, 2021; Leo, M., Sharma, S., và Maddulety, K., 2019). Trí tuệ nhân tạo (Artificial Intelligence) đang ngày càng tác động mạnh mẽ đến các lĩnh vực kinh tế, xã hội, trong đó có lĩnh vực ngân hàng. Nó góp phần làm thay đổi chiến lược kinh doanh, sản xuất tại các doanh nghiệp trong điều kiện nền kinh tế hội nhập hiện nay và trong tương lai. Bài viết này trình bày tổng quan về học máy và ứng dụng của học máy trong lĩnh vực tài chính, ngân hàng, sau đó là minh họa việc sử dụng công cụ học máy hỗ trợ cho việc ra quyết định tại NHTM (P Salman Raju, V Rama Bai và Gkrishna Chaitanya, 2014) bằng việc ứng dụng mô hình hồi quy Logistic để dự báo khách hàng rời bỏ dịch vụ tại ngân hàng. 
 
Theo Microsoft, Google hay một số công ty công nghệ lớn, chuyển đổi số là một sự đổi mới kinh doanh được thúc đẩy bởi sự bùng nổ của điện toán đám mây, trí tuệ nhân tạo và Internet kết nối vạn vật (IoT), cung cấp những cách thức mới để hiểu, quản lí và chuyển đổi cho các hoạt động kinh doanh của họ. 
 
Duy trì khách hàng là một vấn đề ngày càng cấp bách trong môi trường thương mại cạnh tranh. Nghiên cứu được thực hiện ở các cấp độ quốc tế và quốc gia cho thấy tầm quan trọng của những vấn đề trọng tâm đối với NHTM để tồn tại và phát triển (Malali, A. B., và Gopalakrishnan, 2020; P Salman Raju, V. Rama Bai và Gkrishna Chaitanya, 2014; Petre, 2013) đó là: (i) Chăm sóc, duy trì khách hàng; (ii) Quan tâm, tập trung vào công nghệ; (iii) Quan tâm tới những phân khúc thị trường đặc biệt; (iv) Tăng cường hoạt động và hiệu quả kinh doanh. 
 
Trong bốn nhân tố trên, chăm sóc và duy trì khách hàng là nhân tố được quan tâm trước tiên và có sự ảnh hưởng lớn nhất tới sự tăng trưởng và phát triển của các NHTM. Công cụ quản lí quan hệ khách hàng (Customer Relationship Management - CRM) đã được phát triển và áp dụng để nâng cao khả năng thu hút, duy trì khách hàng và hỗ trợ các phân tích quan trọng. Thông thường các ứng dụng CRM giữ một tập hợp lớn các thông tin về từng khách hàng cá nhân. Các thông tin này được thu thập từ hoạt động của một khách hàng tại ngân hàng nào đó. Dữ liệu được ghi bằng cách sử dụng một mô hình phân tích thống kê, được xác định bởi các thuộc tính khác nhau đặc trưng cho các khách hàng. Những thuộc tính này còn được gọi là các biến dự báo. Liên quan đến vấn đề này, bài viết sẽ đưa ra giải pháp cho việc dự báo sự trung thành (Jain, H., Khunteta, A., và Srivastava, S. , 2020) sử dụng phương pháp cây hồi quy Logistic. 
 
Bài viết được trình bày gồm ba phần: Trước tiên là tổng quan về ứng dụng trí tuệ nhân tạo và học máy trong lĩnh vực ngân hàng, tiếp sau là giới thiệu một ứng dụng của học máy (thuật toán hồi qui Logistic) và cuối cùng là phần thực nghiệm với công cụ học máy đã được giới thiệu.
 
2. Tổng quát về học máy và hồi quy Logistic
 
2.1. Sơ lược về học máy và ứng dụng của học máy trong ngân hàng
 
Học máy là một lĩnh vực của trí tuệ nhân tạo liên quan đến việc nghiên cứu và xây dựng kĩ thuật cho phép các hệ thống học tự động từ dữ liệu để giải quyết những vấn đề cụ thể. Chúng ta có thể sử dụng học máy để chuyển đổi thông tin thành tri thức phục vụ cho nhiều lĩnh lực trong cuộc sống, đặc biệt trong quá trình tìm kiếm thông tin từ những nguồn dữ liệu khổng lồ để áp dụng vào sản xuất và cuộc sống (Petre, 2013). Các kĩ thuật học máy giúp chúng ta tìm ra các mẫu thông tin hay tri thức trong dữ liệu được sử dụng để hỗ trợ ra quyết định hay dự đoán các sự kiện có thể xảy ra trong tương lai. Ví dụ như để tìm kiếm các mẫu trong dữ liệu để hỗ trợ ra quyết định dựa trên các dữ liệu mà chúng ta cung cấp. Học máy có mục đích chính là huấn luyện cho các máy tính tự động “học” mà không cần sự can thiệp hay trợ giúp của con người để thực hiện, điều chỉnh các hành động. (Dr.Chitra và B.Subahini, 2013).
 
Ngày nay, việc phát triển và ứng dụng học máy đang được áp dụng rộng rãi ở hầu hết mọi lĩnh vực trong cuộc sống như: Khai phá dữ liệu, chẩn đoán bệnh trong y học, phát hiện và nhận biết tín dụng giả, phân tích và dự báo xu hướng thị trường chứng khoán, nhận dạng tiếng nói và chữ viết, dịch tự động, trò chơi và điều hướng robot. Tất cả những ứng dụng trên có một điểm chung là sử dụng “bộ não logic” được cấu thành từ các thuật toán học máy bằng cách tiếp nhận dữ liệu đầu vào đã được số hóa và thực hiện xử lí, phân tích qua nhiều lớp, với mức độ phức tạp và mức độ “thông minh” ngày càng tăng (Leo, M., Sharma, S., và Maddulety, K., 2019).
 
Trên thế giới, đã có rất nhiều tập đoàn, công ty lớn đã và đang áp dụng học máy trong cách vận hành các hệ thống trí tuệ nhân tạo như Facebook, Amazon, Google. Tất cả đều đạt được những đột phá, phát triển thần kì chỉ trong vòng dưới 10 năm trở lại đây. Một số ứng dụng về học máy cho lĩnh vực tài chính, ngân hàng:
 
Ngăn chặn rủi ro: Đối với lĩnh vực tài chính, ngân hàng, mô hình rủi ro được cho là yếu tố hàng đầu của các công ty, doanh nghiệp đang hoạt động trong lĩnh vực ngân hàng. Vì nó giúp các tổ chức, doanh nghiệp dễ dàng hơn trong việc xây dựng và triển khai các chiến lược để có thể đánh giá thực trạng về hiệu quả và năng suất lao động. Với sự hỗ trợ đắc lực của Data Science và Big Data trong mô hình rủi ro, ngân hàng và doanh nghiệp có thể áp dụng để phân tích, lọc ra những khách hàng không có đủ khả năng chi trả khoản vay trước khả năng rủi ro nhất có thể xảy ra (Leo, M., Sharma, S., và Maddulety, K., 2019). Mô hình rủi ro tín dụng giúp cho ngân hàng có thể phân tích các khoản vay sẽ được hoàn trả như thế nào, một trong những yếu tố quan trọng và nổi bật mà mọi doanh nghiệp đều quan tâm. Ngoài ra, những công cụ phân tích trong mô hình rủi ro hỗ trợ việc định lượng hiệu suất cũng như hiệu quả trong quá trình vận hành của doanh nghiệp.
 
Phòng chống gian lận: Với sự phát triển của Internet, việc thực hiện các giao dịch thông qua các phương tiện, các dịch vụ thương mại điện tử đôi khi tạo ra những con số mơ hồ, khó kiểm soát. Nhờ sự phát triển của học máy đã giúp cho các công ty tìm kiếm, phát hiện ra những giao dịch bất thường hay những giao dịch có dấu hiệu gian lận. Hệ thống phòng chống gian lận giúp định vị, phân tích các hoạt động của người dùng, kiểm tra toàn bộ quá trình để tìm ra những mô hình giao dịch có kẽ hở và độc hại (M. Madhavi, M. V. R. Srivatsava, 2017; Dr.Chitra và B.Subahini, 2013). Việc ứng dụng khoa học dữ liệu, khai thác hiệu quả sức mạnh của học máy trong việc phân tích để dự đoán bằng cách tạo ra các công cụ phân nhóm các cụm dữ liệu đã xác định để có thể nhận ra và nắm bắt xu hướng, mô hình độc hại trong hệ thống phát hiện gian lận. 
 
Quản lí giá trị vòng đời khách hàng: Cũng như những ngành khác, ngành tài chính, ngân hàng cũng cần phải tiến hành dự đoán và xác định giá trị vòng đời khách hàng. Do đó, việc đánh giá những khách hàng nào sẽ ở lại sau một quá trình giao dịch và liệu họ đóng góp như thế nào vào doanh thu tương lai của công ty là những vấn đề mà doanh nghiệp cần phải quan tâm. Nhờ có khoa học dữ liệu, ngân hàng có thể tiến hành sàng lọc và phân loại những nhóm khách hàng tiềm năng cũng như những giá trị thiết thực trong tương lai thông qua việc phân tích và dự đoán. Những công cụ có thể hỗ trợ ngân hàng như CART (Classification và Regression Trees) hay GLM (Generalized Linear Models) có vai trò quan trọng trong việc chọn lọc, phân loại hay dự đoán xu thế, từ đó, giúp xác định đúng khách hàng cũng như đóng góp vào sự tăng trưởng và lợi nhuận của ngân hàng (Jain, H., Khunteta, A., và Srivastava, S., 2020).
 
Phân khúc thị trường: Phân khúc thị trường là công cụ chỉ ra những nhóm khách hàng có cùng những tính cách nhất định và các hành vi thông thường. Học máy chính là công cụ hỗ trợ tốt nhất để định vị cũng như khoanh vùng chính xác từng nhóm khách hàng. Lợi ích của việc phân cụm khách hàng: Xác định khách hàng dựa trên lợi nhuận của họ; phân khúc khách hàng dựa vào lịch sử sử dụng dịch vụ; phát triển mối quan hệ và gắn kết hơn với khách hàng; khuyến nghị, đưa ra những dịch vụ phù hợp với từng nhóm khách hàng; phân tích phân khúc khách hàng giúp thực hiện và cải thiện dịch vụ.
 
2.2. Thuật toán Logistic Regression
 
Ý tưởng của thuật toán Logistic Regression như sau:
 
Đầu ra của thuật toán Logistic Regression với điểm dữ liệu Trong đó x là điểm dữ liệu, w là bộ trọng số của mô hình, hàm sigmoid  được chọn làm hàm kích hoạt vì có đầu ra bị chặn trong khoảng 0, 1) có thể dùng để xấp xỉ xác suất phân lớp và có đạo hàm đơn giản thuận lợi cho việc học bằng thuật toán Gradient Descent.

Giả sử xác suất để một điểm dữ liệu x rơi vào lớp thứ nhất là f (wTx) và rơi vào lớp còn lại là 1 - f (wTx):
 
P (yi= 1|xi; w) = f (wTxi)           (I)

P (yi= 0| xi; w) = 1 - f (wTxi)    (II)
 
Chúng ta cần phải tìm các hệ số w sao cho với các điểm dữ liệu ứng với yi=1, f(wTxi) gần với 1 và ngược lại. Kí hiệu zi= f(wTxi) hai biểu thức (I) và (II) có thể được viết dưới dạng:
 
P (yi |xi; w) = ziyii(1-zi)1-yi

Biểu thức này giống với hai biểu thức ở trên vì khi y1=1, phần thứ hai của vế phải sẽ bằng 1, khi y1=0, phần thứ nhất sẽ bằng 1. Chúng ta muốn mô hình thể hiện ra kết quả gần với dữ liệu đã cho nhất, tức là xác suất có giá trị P sẽ đạt giá trị cao nhất. Lấy logarit tự nhiên, đổi dấu và lấy trung bình, ta thu được hàm số:


Thuật toán Gradient Descent được sử dụng để tối ưu hàm mất mát. Hàm mất mát đối với một điểm dữ liệu được tính như sau:
 


Khi đó, véc-tơ Gradient (trường véc-tơ có chiều hướng về phía mức độ tăng lớn nhất của trường vô hướng và có độ lớn là mức độ thay đổi lớn nhất) của hàm mất mát theo trọng số  được tính theo công thức:


Thuật toán tối ưu Gradient Descent (tìm các điểm cực tiểu cục bộ này một cách xấp xỉ sau một số vòng lặp) cho Logistic Regression được thực hiện như sau:

 
với η là hệ số học (learning rate)
 
Trọng số w được khởi tạo ngẫu nhiên.
 
Quy tắc phân lớp đối với Logistic Regression: Với đầu ra của điểm dữ liệu là    sẽ có nhãn là 1 nếu σ(wT x) ≥ 0,5 và có nhãn là 0 nếu ngược lại. Điều này tương đương với việc  sẽ có nhãn là 1 nếu wT x ≥ 0. Như vậy, thực chất khi dùng thuật toán Logistic Regression để phân lớp, ta sẽ đi tìm một siêu phẳng làm biển để phân lớp các điểm dữ liệu. Do đó, Logistic Regression sẽ hiệu quả nếu dữ liệu gần với Linearly Separable (phân biệt tuyến tính).
 
2.3. Ưu điểm và nhược điểm của Logistic Regression
 
Ưu điểm:
 
- Đơn giản, dễ thực hiện, hiệu quả
 
- Không đòi hỏi quá nhiều tài nguyên tính toán
 
- Ứng dụng trên nhiều lĩnh vực: Lao động, sản xuất (khả năng hư hỏng các thiết bị...), kinh doanh (khả năng rời dịch vụ, phân khúc khách hàng...), y tế (khả năng mắc bệnh...), ngân hàng (rủi ro tín dụng...)...
 
Nhược điểm:
 
- Không giải quyết được các vấn đề phi tuyến tính.
 
- Phụ thuộc cao vào tính đúng đắn của dữ liệu. 
 
- Chỉ dự đoán các kết quả phân loại.
 
3. Dự báo khách hàng ngân hàng rời bỏ dịch vụ với thuật toán Logistic Regression
 
Chúng ta thấy rằng, một lĩnh vực khác trong ứng dụng trí tuệ nhân tạo có thể được sử dụng trong ngành Ngân hàng với mục đích phát hiện gian lận. Với sự hỗ trợ của các thuật toán trí tuệ nhân tạo, các hành động gian lận ngày càng được phát hiện nhiều hơn. Có hai phương pháp tiếp cận phổ biến đã được phát triển bởi tổ chức tài chính để phát hiện các mô hình gian lận (Jain, H., Khunteta, A., và Srivastava, S., 2020). 
 
- Phương pháp tiếp cận thứ nhất, NHTM cần phải sử dụng đến kho dữ liệu của bên thứ ba và sử dụng các kĩ thuật trí tuệ nhân tạo để xác định mô hình gian lận, sau đó, các ngân hàng có thể tham chiếu chéo các mẫu với cơ sở dữ liệu riêng của mình. 
 
 - Phương pháp thứ hai, gian lận được nhận dạng dựa trên các mẫu thông tin nội bộ riêng của mình mà không phải nhờ vào bên thứ ba. Tuy nhiên, trên thực tế, hầu hết các ngân hàng đang sử dụng kết hợp cả hai phương pháp tiếp cận trên. 
 
Trong phần tiếp theo của bài viết, tác giả trình bày một phương pháp phát hiện khách hàng có ý định rời bỏ dịch vụ bằng việc sử dụng thuật toán học máy và dữ liệu lịch sử của các ngân hàng. Ý tưởng của phương pháp là sử dụng bộ dữ liệu mà các ngân hàng đang lưu trữ và các lớp thuật toán học máy để tạo ra những mô hình nhằm phát hiện đâu là khách hàng có khả năng rời bỏ dịch vụ và khách hàng trung thành trong số hàng triệu khách hàng đang giao dịch với ngân hàng.
 
Bài toán có thể phát biểu dưới dạng mô hình toán học ngắn gọn như sau: Gọi X là tập dữ liệu gồm k thuộc tính về n khách hàng, cần đánh giá xem họ có phải là đối tượng rời bỏ hay không. Gọi C là tập giá trị (gồm hai giá trị 0 và 1) để đánh dấu khách hàng có rời bỏ hay không (C ∈ {0, 1}). Ta gọi f: X -> C là hàm xác định khách hàng có rời bỏ hay không. Mục tiêu của bài toán là cần tính toán f(xi)∈{0,1}, ∈i=1,...n.
 
Dữ liệu để thực nghiệm cho thuật toán Logistic Regression trong bài viết này là bộ dữ liệu “Churn_Prediction_Modeling.csv” gồm các đối đối tượng khách hàng của ngân hàng được thu thập từ các ngân hàng và được các nhà khoa học cung cấp tại: “https://www.kaggle.com/datasets/aakash50897/churn-modellingcsv”. Các đối tượng khách hàng này gồm tám thuộc tính cơ bản có ảnh hưởng nhiều nhất tới việc dự báo. Các thuộc tính, sau khi tiền xử lí với các thư viện mã nguồn mở và ngôn ngữ lập trình Python và lưu dưới dạng file excel với tên: “Churn_Prediction_Modeling.csv”. Bộ dữ liệu này đã được các nhà nghiên cứu thực nghiệm với các thuật toán như ANN, Xgboost, Pyspark trong bối cảnh không phải ở Việt Nam. Trong phần thực nghiệm này, tác giả sử dụng lại bộ dữ liệu trên với thuật toán Logistic Regression với mong muốn có thể học hỏi, điều chỉnh để có thể áp dụng cho bối cảnh là khách hàng của các NHTM Việt Nam.
 
3.1. Tiền xử lí dữ liệu và chuẩn hóa dữ liệu
 
Trước khi thực hiện thuật toán, dữ liệu cần phải được làm sạch, chuyển đổi để phù hợp với thuật toán tương ứng. Ví dụ, ta cần chuyển các dữ liệu dạng kí tự thành các dữ liệu dạng số: Với “Gender”: chuyển “Female” thành “0” và “Male” thành “1”; đối với “Geography”: chuyển “France” thành “0”, “Spain” thành “2” và “Germany” thành “1”. Để thực hiện việc này ta có thể sử dụng công cụ trong thư viện “sklearn” được cài đặt trên Python như sau:
 
Đoạn chương trình chuyển dữ liệu kiểu chữ thành dữ liệu kiểu số 

Kết quả dữ liệu sau khi chuyển được thể hiện ở Bảng 1.
 
Bảng 1: Kết quả dữ liệu sau khi chuyển
 

3.2. Mô hình Logistic Regression
 
Trong phần này, các bước thực hiện thuật toán nói chung, với thuật toán Logistic Regression nói riêng sẽ được minh họa theo từng bước:
 
Bước 1: Xác định và chuẩn bị các thư viện cần thiết.
 
Bước 2: Đọc dữ liệu vào bộ nhớ trong do Python quản lí.
 
Bước 3: Chia dữ liệu theo tỉ lệ bộ dữ liệu huấn luyện và bộ dữ liệu kiểm tra là 70% và 30%. Tập dữ liệu huấn luyện sẽ được sử dụng để huấn luyện bởi thuật toán. Sau khi chuẩn bị tốt bộ dữ liệu để huấn luyện mô hình, chúng ta sẽ đào tạo bộ dữ liệu bằng cách sử dụng bộ dữ liệu huấn luyện. Để cung cấp đào tạo hoặc sử dụng mô hình vào bộ huấn luyện, chúng ta sẽ cài đặt lớp Logistic Regression của thư viện “sklearn”.
 
Bước 4: Dự đoán kiểm tra kết quả: Sẽ tạo ra một biến mới có tên là ‘predicted’ và tiến hành kiểm tra: Nếu yes_Prob > 0,5 thì sẽ nhận giá trị là 1 và ngược lại sẽ nhận giá trị là 0. 

Huấn luyện bằng thuật toán Logistic Regression 
 
Bước 5: Đánh giá độ chính xác của thuật toán. Tại bước này một ma trận có tên “Confusion matrix” sẽ được tạo ra nhằm đánh giá hiệu quả hoạt động của thuật toán. (Hình 1)
 
Hình 1: Confusion matrix


 
Ma trận trên cho ta thấy:
 
- Có 2.340 khách hàng thực tế là khách hàng trung thành và dự đoán là đúng vậy.
 
- Có 73 khách hàng thực tế là khách hàng trung thành nhưng được dự đoán là rời đi.
 
- Có 505 khách hàng thực tế họ rời đi nhưng được dự đoán là khách hàng trung thành.
 
- Có 82 khách hàng rời bỏ dịch vụ ngân hàng và được dự đoán là sẽ rời bỏ dịch vụ ngân hàng.
 
Hình 2: Kết quả đánh giá


Từ kết quả đánh giá trên Hình 2 ta thấy:
 
- Precision=0,82 mô hình dự 82% khách hàng thực sự ở lại so với tất cả các trường hợp được dự đoán là ở lại.
 
- Recall=0,97 cho biết trong số những người thực tế ở lại thì có 97% khách hàng được dự đoán đúng.
 
Bước 6: Làm việc với biểu đồ ROC (Receiver operating characteristic)
 
Tại đây, một biểu đồ ROC được xây dựng nhằm đánh giá độ hiệu quả của thuật toán. 
 
Hình 3: Biểu đồ ROC


Hình 3 là kết quả sau khi đoạn code vẽ biểu đồ được thực thi. Biểu đồ ROC là loại biểu đồ thể hiện sự thay đổi độ nhạy và độ đặc hiệu khi các giá trị ngưỡng thay đổi. Qua biểu đồ ROC mà hệ thống đã in ra phía trên, ta thấy được giá trị AUC (Area Under the Curve) trả về là 0,55. Dựa trên bảng so sánh ở phần đánh giá mô hình, chúng ta thấy được giá trị AUC = 0,55 thể hiện đây là mô hình dự báo chưa có nhiều có ý nghĩa.
 
Điều chỉnh mô hình: Vì đây là bài toán dự đoán khách hàng rời bỏ dịch vụ ngân hàng nên chúng ta sẽ điều chỉnh sao cho không có quá nhiều dự đoán là ở lại bị sai với thực tế. Bởi vì nếu có quá nhiều khách hàng thực tế là sẽ rời đi nhưng khi dự báo lại cho ra kết quả là ở lại sẽ dẫn đến hậu quả mất khách hàng. 
 
Do đó,  ta sẽ điều chỉnh sao cho hệ số False Negative (FN) là nhỏ nhất có thể. (Hình 4)
 
Hình 4: Confusion matrix


 
- Có 795 khách hàng thực tế là khách hàng trung thành và dự đoán là đúng như vậy.
 
- Có 1618 khách hàng thực tế là khách hàng trung thành nhưng được dự đoán là rời đi.
 
- Có 73 khách hàng thực tế là rời đi nhưng được dự đoán là khách hàng trung thành.
 
- Có 514 khách hàng rời bỏ dịch vụ ngân hàng và được dự đoán là sẽ rời bỏ dịch vụ ngân hàng.
 
Hình 5: Đánh giá mô hình


 
Từ kết quả Hình 5 ta thấy:

- Precision = 0,92 mô hình dự đoán 92% khách hàng thực sự ở lại so với tất cả các trường hợp được dự đoán là ở lại.
 
- Recall = 0,33 cho biết trong số những người thực tế ở lại thì có 33% khách hàng được dự đoán đúng.
 
Biểu đồ ROC thể hiện sự thay đổi độ nhạy và độ đặc hiệu khi các giá trị ngưỡng thay đổi. Qua biểu đồ ROC mà hệ thống đã in ra phía trên, ta có thể thấy giá trị AUC là 0,6. Dựa trên bảng so sánh ở phần đánh giá mô hình, chúng ta có thể thấy được đây là mô hình dự báo không tốt. (Hình 6)

Hình 6: Biểu đồ ROC sau khi điều chỉnh


Phần trên của bài viết đã trình bày quy trình sử dụng thuật toán khi tìm kiếm thông tin từ dữ liệu ngân hàng nhằm phân lớp khách hàng có nghi ngờ rời bỏ dịch vụ hay không. Để có kết quả mang tính ứng dụng phù hợp với thực tế bối cảnh Việt Nam, chúng ta cần phải thực hiện thuật toán này trên bộ dữ liệu thu thập được từ các NHTM Việt Nam. Đồng thời, cần tìm hiểu thêm tình hình thực tế để từ đó cải tiến chương trình, thay đổi các tham số để bài toán phù hợp với thực tế của Việt Nam.
 
4. Kết luận và đánh giá 
 
Tác giả đã hệ thống hóa cơ sở lí thuyết về dữ liệu cũng như phân tích và nghiên cứu các vấn đề liên quan tới việc khai phá và tìm kiếm thông tin từ dữ liệu phục vụ cho việc ra quyết định của một số tổ chức kinh doanh, đặc biệt là các NHTM:
 
Thứ nhất, ứng dụng công nghệ học máy vào việc nhận định đâu là khách hàng trung thành, đâu là khách hàng có ý định rời bỏ dịch vụ của ngân hàng là một phương pháp hiện đại đã và đang được các NHTM áp dụng. 
 
Thứ hai, có thể nói rằng, việc ứng dụng học máy vào hoạt động tín dụng làm giảm đáng kể rủi ro ngân hàng vì nó giúp ngân hàng nhận định đúng các đối tượng khách hàng của mình để có những giải pháp phù hợp trong chiến lược kinh doanh. 
 
Thứ ba, ứng dụng công nghệ học máy cũng giúp cho thời gian thực hiện mỗi lần đánh giá tín dụng nói riêng và các công việc của ngân hàng nói chung trở nên nhanh hơn và đáng tin cậy hơn. Sở dĩ như vậy là bởi khả năng tính toán và đưa ra quyết định của con người là có hạn, trong khi đó học máy cũng có thể làm được điều tương tự với tốc độ nhanh hơn gấp nhiều lần. Không chỉ thời gian, các tiêu chí đánh giá khách hàng đã được mở rộng hơn, từ đó khiến cho các đánh giá mang tính khách quan hơn và có chiều sâu hơn. Ngoài ra, các phương thức trên cũng là một chỉ tiêu mới được đưa ra nhằm đa dạng hóa khả năng thanh toán cho khách hàng, cho thấy sự linh hoạt ứng biến tốt của ngân hàng.
 
Cuối cùng, như đã trình bày ở trên, khi chúng ta ứng dụng công nghệ học máy trong việc phát hiện khách hàng rời bỏ dịch vụ nói riêng và hoạt động tài chính của ngân hàng nói chung, thời gian xử lí của học máy ngắn và rất tiện lợi, điều đó đồng nghĩa với ngân hàng sẽ tiếp cận được với nhiều khách hàng hơn. Lượng khách hàng lớn hơn sẽ đem lại doanh thu cao hơn cho ngân hàng, đi đôi với đó là chi phí nhân sự và chi phí quản lí sẽ giảm xuống đáng kể. Khả năng thu thập thông tin của học máy rất nhanh và từ nhiều nguồn đáng tin cậy là một bước tiến lớn, khi mà các tổ chức tín dụng hiện giờ chưa áp dụng được hoặc mới áp dụng một phần vào việc đánh giá. Từ bước cải tiến này, sẽ là tiền đề cho các tổ chức tín dụng khác nghiên cứu và phát triển, đem lại cho khách hàng những trải nghiệm tốt nhất.
 
Tài liệu tham khảo:
 
1. Breeden. (2021). A survey of machine learning in credit risk. Journal of Credit Risk, 17(3).
2. Dr.Chitra và B.Subahini. (2013). Data Mining Techniques và its Applications in Banking Sector. International Journal of Emerging Technology và Advanced Engineering, Volume 3( Issue 38), pages 219-226.
3. Jain, H., Khunteta, A., và Srivastava, S., (2020). Churn prediction in telecommunication using logistic regression và logit boost. Procedia Computer Science,, 167, pages 101-112.
4. Leo, M., Sharma, S., và Maddulety, K. (2019). Machine learning in banking risk management: A literature review. page 29.
5. M Madhavi, M V R Srivatsava. (2017). Fraud Detection in Banking. International Journal of Engineering và Advanced Technology, 3, pages 322-358.
6. Malali, A. B., và Gopalakrishnan. (2020). Application of Artificial Intelligence và Its Powered Technologies in the Indian Banking và Financial Industry: An Overview. IOSR Journal Of Humanities Và Social Science,, 25(4), pages 55-60.
7. P Salman Raju, V Rama Bai và Gkrishna Chaitanya. (2014). Enhancing Customer Relationship Management in Banking và Retail Industries.  International Journal of Innovative Research in Computer và Communication Engineering, 2(1), pages 2650-2657.
8. P Salman Raju, V. R. (2017). Credit scoring using machine learning techniques. International Journal of Computer Applications, 161(4).
9. Petre, R. (2013). Data Mining Solutions for the Business Environment. Database System Journal, 4, pages 21-29.

Nguyễn Dương Hùng
Khoa Hệ thống Thông tin quản lý - Học viện Ngân hàng
Bình luận Ý kiến của bạn sẽ được kiểm duyệt trước khi đăng. Vui lòng gõ tiếng Việt có dấu
Đóng lại ok
Bình luận của bạn chờ kiểm duyệt từ Ban biên tập
Rủi ro đạo đức và các yếu tố ảnh hưởng đến ý định gây ra rủi ro đạo đức của nhân viên trong bộ phận tín dụng của các ngân hàng thương mại
Rủi ro đạo đức và các yếu tố ảnh hưởng đến ý định gây ra rủi ro đạo đức của nhân viên trong bộ phận tín dụng của các ngân hàng thương mại
29/11/2023 201 lượt xem
Nghiên cứu này tập trung vào vấn đề rủi ro đạo đức và các yếu tố ảnh hưởng đến ý định gây ra rủi ro đạo đức của nhân viên trong bộ phận tín dụng của các ngân hàng thương mại.
Khả năng sử dụng dịch vụ tài chính số của người trung niên tại Việt Nam - Cách tiếp cận từ dân trí tài chính
Khả năng sử dụng dịch vụ tài chính số của người trung niên tại Việt Nam - Cách tiếp cận từ dân trí tài chính
28/11/2023 134 lượt xem
Nghiên cứu được thực hiện nhằm đánh giá tác động của dân trí tài chính dưới góc độ xem xét cả ba yếu tố: Kiến thức tài chính, thái độ tài chính và hành vi tài chính lên khả năng tiếp cận dịch vụ tài chính số (Digital financial services - DFS) của người trung niên tại Việt Nam.
Hoạt động cho vay của ngân hàng Việt Nam trước ảnh hưởng của thị trường tập trung
Hoạt động cho vay của ngân hàng Việt Nam trước ảnh hưởng của thị trường tập trung
27/11/2023 146 lượt xem
Nghiên cứu phân tích tác động của cấu trúc thị trường tập trung đến khả năng mở rộng cho vay của ngân hàng thương mại (NHTM).
Các nhân tố ảnh hướng đến nợ xấu của ngân hàng thương mại Việt Nam
Các nhân tố ảnh hướng đến nợ xấu của ngân hàng thương mại Việt Nam
21/11/2023 240 lượt xem
Nợ xấu là thuật ngữ được sử dụng phổ biến trên thế giới như “Non - performing loans” (NPLs), “doubtful debt” chỉ các khoản nợ khó đòi (Fofack, 2005) hoặc các khoản vay có vấn đề (Berger và De Young, 1997) hoặc khoản nợ không trả được (defaulted loans) mà ngân hàng không thể thu lợi từ nó (Ernst và Young, 2004) hay các khoản cho vay bắt đầu được đưa vào nợ xấu khi đã quá hạn trả nợ gốc và lãi 90 ngày trở lên (Peter Rose, 2004; Mishkin, 2010).
Tác động của tài chính số tới sự ổn định của các ngân hàng thương mại tại Việt Nam
Tác động của tài chính số tới sự ổn định của các ngân hàng thương mại tại Việt Nam
16/11/2023 246 lượt xem
Bài viết nghiên cứu tác động của tài chính số đến sự ổn định của NHTM, từ đó, đưa ra các khuyến nghị chính sách nhằm thúc đẩy tài chính số phát triển tại Việt Nam.
Một số yếu tố ảnh hưởng đến hiệu quả hoạt động của các ngân hàng thương mại Việt Nam
Một số yếu tố ảnh hưởng đến hiệu quả hoạt động của các ngân hàng thương mại Việt Nam
30/10/2023 478 lượt xem
Nghiên cứu xác định một số yếu tố ảnh hưởng đến hiệu quả hoạt động của các ngân hàng thương mại (NHTM) ở Việt Nam từ năm 2014 đến năm 2021. Nguồn dữ liệu sử dụng trong phân tích được thu thập từ báo cáo tài chính, báo cáo thường niên của 26 NHTM ở Việt Nam trong giai đoạn 2014 - 2021. Mô hình hiệu ứng ngẫu nhiên (Random Effects Model - REM) và mô hình hiệu ứng cố định (Fixed Effects Model - FEM) được sử dụng để phân tích dữ liệu.
Các nhân tố tác động đến ý định hành vi và hành vi sử dụng ví kĩ thuật số tại Việt Nam
Các nhân tố tác động đến ý định hành vi và hành vi sử dụng ví kĩ thuật số tại Việt Nam
16/10/2023 1.126 lượt xem
Nghiên cứu được thực hiện nhằm xác định các yếu tố ảnh hưởng đến ý định hành vi và hành vi sử dụng ví kĩ thuật số tại Việt Nam, thông qua việc áp dụng mô hình lí thuyết thống nhất về chấp nhận và sử dụng công nghệ (Unified Theory of Acceptance and Use of Technology - UTAUT2) của Venkatesh, Thong và Xu (2012). Dữ liệu nghiên cứu được thu thập từ 715 người tiêu dùng Việt Nam.
Tác động của hệ thống phí bảo hiểm tiền gửi phân biệt đến hoạt động và mức độ sẵn sàng tham gia của các tổ chức  tín dụng
Tác động của hệ thống phí bảo hiểm tiền gửi phân biệt đến hoạt động và mức độ sẵn sàng tham gia của các tổ chức tín dụng
29/09/2023 1.581 lượt xem
Nghiên cứu nhằm đánh giá tác động của hệ thống tính phí bảo hiểm tiền gửi (BHTG) phân biệt đến hệ thống các tổ chức tín dụng Việt Nam và đánh giá mức độ sẵn sàng tham gia của các tổ chức này, thông qua việc sử dụng phương pháp mô phỏng và phương pháp phân tích nhân tố khám phá, phân tích hồi quy trên mẫu dữ liệu 215 tổ chức tín dụng tham gia BHTG.
FED tăng lãi suất và tác động đến Việt Nam trong bối cảnh hiện nay
FED tăng lãi suất và tác động đến Việt Nam trong bối cảnh hiện nay
18/09/2023 5.610 lượt xem
Giai đoạn hậu đại dịch Covid-19, nền kinh tế thế giới đối mặt với nhiều khó khăn do chuỗi cung ứng toàn cầu bị đứt gãy trong một thời gian do hậu quả của các biện pháp giãn cách xã hội. Sau đại dịch Covid-19, xung đột Nga - Ukraine khiến cho giá năng lượng thế giới tăng cao kỉ lục. Cục Dự trữ Liên bang Mỹ (FED) tăng lãi suất lên cao nhất kể từ cuộc khủng hoảng dầu mỏ năm 1980.
Các nhân tố ảnh hưởng đến việc áp dụng chuẩn mực kế toán trong các doanh nghiệp nhỏ và vừa tại thành phố Cần Thơ
Các nhân tố ảnh hưởng đến việc áp dụng chuẩn mực kế toán trong các doanh nghiệp nhỏ và vừa tại thành phố Cần Thơ
04/09/2023 4.323 lượt xem
Nghiên cứu nhằm xác định các nhân tố ảnh hưởng đến việc áp dụng chuẩn mực kế toán của doanh nghiệp nhỏ và vừa (DNNVV) tại thành phố Cần Thơ.
Nghiên cứu tác động của rủi ro thanh khoản đến hiệu quả hoạt động của các ngân hàng thương mại Việt Nam
Nghiên cứu tác động của rủi ro thanh khoản đến hiệu quả hoạt động của các ngân hàng thương mại Việt Nam
22/08/2023 4.451 lượt xem
Nghiên cứu tập trung phân tích tác động của rủi ro thanh khoản đến hiệu quả hoạt động kinh doanh của các ngân hàng thương mại (NHTM) tại Việt Nam. Nghiên cứu sử dụng báo cáo tài chính của 19 NHTM giai đoạn 2013 - 2022 trước, trong và sau dịch Covid-19, tương ứng 190 quan sát.
Rủi ro tín dụng và chuyển giao rủi ro tín dụng tại các ngân hàng thương mại Việt Nam
Rủi ro tín dụng và chuyển giao rủi ro tín dụng tại các ngân hàng thương mại Việt Nam
14/08/2023 4.555 lượt xem
Chuyển giao rủi ro tín dụng (RRTD) là một phương pháp ứng xử của các ngân hàng thương mại (NHTM) khi các ngân hàng này phải đối mặt với RRTD. Bài viết phân tích, làm rõ bức tranh thực trạng về chuyển giao RRTD tại các NHTM Việt Nam.
Đo lường khu vực kinh tế chưa được quan sát của Việt Nam bằng phương pháp nhiều chỉ số nhiều nguyên nhân
Đo lường khu vực kinh tế chưa được quan sát của Việt Nam bằng phương pháp nhiều chỉ số nhiều nguyên nhân
03/08/2023 5.173 lượt xem
Bài viết này sử dụng phương pháp nhiều chỉ số nhiều nguyên nhân (Multiple indicators Multiple causes - MIMIC) để đo lường quy mô khu vực kinh tế chưa được quan sát (Non - observed Economy - NOE) của Việt Nam. Kết quả ước lượng cho thấy quy mô khu vực NOE của Việt Nam tương đương khoảng từ 12,46% đến 21,54% GDP. Nghiên cứu cũng chỉ ra gánh nặng thuế và tỉ lệ thất nghiệp là hai nguyên nhân chính dẫn đến sự hình thành và phát triển của khu vực NOE ở Việt Nam.
Một số yếu tố ảnh hưởng tới sự chấp nhận thanh toán bằng QR Code khi giao dịch của khách hàng cá nhân tại tỉnh Thái Nguyên
Một số yếu tố ảnh hưởng tới sự chấp nhận thanh toán bằng QR Code khi giao dịch của khách hàng cá nhân tại tỉnh Thái Nguyên
31/07/2023 5.304 lượt xem
Dịch vụ ngân hàng điện tử đã trở thành một trong những mảng dịch vụ thu hút được sự quan tâm đầu tư và cạnh tranh gay gắt giữa các ngân hàng thương mại.
Các nhân tố ảnh hưởng đến hành vi chấp nhận sử dụng các dịch vụ ngân hàng xanh của khách hàng cá nhân trên địa bàn Thành phố Hà Nội
Các nhân tố ảnh hưởng đến hành vi chấp nhận sử dụng các dịch vụ ngân hàng xanh của khách hàng cá nhân trên địa bàn Thành phố Hà Nội
24/07/2023 5.814 lượt xem
Nghiên cứu nhằm đánh giá những nhân tố ảnh hưởng đến hành vi chấp nhận sử dụng các dịch vụ ngân hàng xanh của khách hàng cá nhân trên địa bàn Thành phố Hà Nội. Phương pháp phân tích nhân tố khám phá (EFA) và phân tích mô hình hồi quy bội, dựa trên hai mô hình lí thuyết là mô hình lí thuyết chấp nhận về công nghệ (Technology Acceptance Model - TAM) và mô hình lí thuyết hành vi có kế hoạch (Theory of Planned Behavior - TPB) được sử dụng cho bài nghiên cứu.
Giá vàngXem chi tiết
GIÁ VÀNG - XEM THEO NGÀY
Khu vực
Mua vào
Bán ra
HÀ NỘI
Vàng SJC 1L
70.550
71.350
TP.HỒ CHÍ MINH
Vàng SJC 1L
70.550
71.350
Vàng SJC 5c
70.550
71.370
Vàng nhẫn 9999
59.850
60.950
Vàng nữ trang 9999
59.750
60.650

Ngoại tệXem chi tiết
TỶ GIÁ - XEM THEO NGÀY 
Ngân Hàng USD EUR GBP JPY
Mua vào Bán ra Mua vào Bán ra Mua vào Bán ra Mua vào Bán ra
Vietcombank 24,030 24,400 25,749 27,163 29,595 30,855 157.45 166.68
BIDV 24,100 24,400 25,966 27,166 29,768 30,883 158.39 166.73
VietinBank 24,018 24,438 26,054 27,189 30,019 31,029 158.92 166.87
Agribank 24,060 24,400 25,994 26,786 29,828 30,798 159.38 164.24
Eximbank 24,030 24,420 26,047 26,774 29,942 30,778 159.81 164.27
ACB 24,060 24,410 26,100 26,756 30,118 30,752 159.42 164.58
Sacombank 24,050 24,410 26,177 26,848 30,176 30,705 159.64 166.24
Techcombank 24,079 24,433 25,823 27,182 29,613 30,934 155.45 167.94
LPBank 24,040 24,600 25,962 27,303 30,064 31,002 157.67 169.15
DongA Bank 24,100 24,390 26,070 26.740 29,980 30,790 157.5 164.5
(Cập nhật trong ngày)
Lãi SuấtXem chi tiết
(Cập nhật trong ngày)
Ngân hàng
KKH
1 tuần
2 tuần
3 tuần
1 tháng
2 tháng
3 tháng
6 tháng
9 tháng
12 tháng
24 tháng
Vietcombank
0,10
0,20
0,20
-
2,60
2,60
2,90
3,90
3,90
5,00
5,00
BIDV
0,10
-
-
-
3,00
3,00
3,30
4,30
4,30
5,30
5,30
VietinBank
0,10
0,20
0,20
0,20
3,00
3,00
3,30
4,30
4,30
5,30
5,30
ACB
0,01
0,50
0,50
0,50
3,20
3,30
3,40
4,50
4,55
4,60
4,60
Sacombank
-
-
-
-
3,40
3,50
3,60
4,50
4,75
4,80
4,95
Techcombank
0,10
-
-
-
3,20
3,20
3,50
4,50
4,55
4,90
4,90
LPBank
0.20
0,20
0,20
0,20
3,50
3,60
3,70
4,80
4,90
5,30
6,10
DongA Bank
0,50
0,50
0,50
0,50
3,90
3,90
3,90
4,90
5,10
5,40
5,60
Agribank
0,20
-
-
-
3,00
3,00
3,30
4,30
4,30
5,30
5,30
Eximbank
0,50
0,50
0,50
0,50
3,40
3,50
3,70
4,80
5,10
5,40
5,50

Liên kết website
Bình chọn trực tuyến
Nội dung website có hữu ích với bạn không?