Dự báo khách hàng ngân hàng rời bỏ dịch vụ với thuật toán học máy

Tóm tắt: Học máy (Machine Learning) đóng một vai trò quan trọng trong quá trình chuyển đổi số, đặc biệt là trong lĩnh vực tài chính, ngân hàng. Học máy không những là công cụ hỗ trợ ra quyết định trong việc xét duyệt tín dụng cho khách hàng, mà còn giúp các ngân hàng nhận định đúng đâu là khách hàng tiềm năng trong chiến lược kinh doanh của họ. Các bài toán ứng dụng học máy được đẩy mạnh nghiên cứu và ứng dụng trong những năm gần đây nhằm giúp các ngân hàng tối ưu hóa việc sử dụng nguồn vốn và nâng cao lợi nhuận. Trong bài viết này, chúng tôi giới thiệu một ứng dụng của học máy cho bài toán dự đoán khách hàng rời bỏ dịch vụ ngân hàng tại các ngân hàng thương mại (NHTM). Kết quả thực nghiệm cho thấy, tính khả quan của đầu tư đẩy mạnh nghiên cứu và ứng dụng các thuật toán học máy trong lĩnh vực ngân hàng để rút ngắn thời gian làm việc, tiết kiệm thời gian cho các chuyên gia Việt Nam.

Từ khóa: Trí tuệ nhân tạo, học máy, khai thác dữ liệu, dự đoán rời bỏ.

PREDICTION OF CUSTOMER CHURN IN BANKING SECTOR USING MACHINE LEARNING - LOGISTIC REGRESSION ALGORITHM

Abstract: Machine Learning (ML) plays an important role in digital transformation, specially in banking and finance sector. It is not only a decision support tool in credit approval for customers but also helps banks to correctly identify potential customers in their business strategy. Applications of machine learning problems have been researched and applied in recent years to help banks optimize their capital and increase their profits. In this paper, we introduce an application of machine learning to predict customer churn at commercial banks. The experimental results show the positive effects of investing in promoting research and application of machine learning algorithms in the banking sector to shorten working time and save time for Vietnamese experts.

Keywords: Artificial intelligence, machine learning, data mining, churn prediction.

1. Giới thiệu

Học máy là một lĩnh vực được các doanh nghiệp và các tổ chức nghiên cứu, ứng dụng, đặc biệt là trong lĩnh vực tài chính, ngân hàng. Từ các trợ lí ảo như Siri và Cortana, đến các Chatbots được tạo ra bởi Facebook, Google và nhiều công ty công nghệ khác (Breeden, 2021; Leo, M., Sharma, S., và Maddulety, K., 2019). Trí tuệ nhân tạo (Artificial Intelligence) đang ngày càng tác động mạnh mẽ đến các lĩnh vực kinh tế, xã hội, trong đó có lĩnh vực ngân hàng. Nó góp phần làm thay đổi chiến lược kinh doanh, sản xuất tại các doanh nghiệp trong điều kiện nền kinh tế hội nhập hiện nay và trong tương lai. Bài viết này trình bày tổng quan về học máy và ứng dụng của học máy trong lĩnh vực tài chính, ngân hàng, sau đó là minh họa việc sử dụng công cụ học máy hỗ trợ cho việc ra quyết định tại NHTM (P Salman Raju, V Rama Bai và Gkrishna Chaitanya, 2014) bằng việc ứng dụng mô hình hồi quy Logistic để dự báo khách hàng rời bỏ dịch vụ tại ngân hàng.

Theo Microsoft, Google hay một số công ty công nghệ lớn, chuyển đổi số là một sự đổi mới kinh doanh được thúc đẩy bởi sự bùng nổ của điện toán đám mây, trí tuệ nhân tạo và Internet kết nối vạn vật (IoT), cung cấp những cách thức mới để hiểu, quản lí và chuyển đổi cho các hoạt động kinh doanh của họ.

Duy trì khách hàng là một vấn đề ngày càng cấp bách trong môi trường thương mại cạnh tranh. Nghiên cứu được thực hiện ở các cấp độ quốc tế và quốc gia cho thấy tầm quan trọng của những vấn đề trọng tâm đối với NHTM để tồn tại và phát triển (Malali, A. B., và Gopalakrishnan, 2020; P Salman Raju, V. Rama Bai và Gkrishna Chaitanya, 2014; Petre, 2013) đó là: (i) Chăm sóc, duy trì khách hàng; (ii) Quan tâm, tập trung vào công nghệ; (iii) Quan tâm tới những phân khúc thị trường đặc biệt; (iv) Tăng cường hoạt động và hiệu quả kinh doanh.

Trong bốn nhân tố trên, chăm sóc và duy trì khách hàng là nhân tố được quan tâm trước tiên và có sự ảnh hưởng lớn nhất tới sự tăng trưởng và phát triển của các NHTM. Công cụ quản lí quan hệ khách hàng (Customer Relationship Management - CRM) đã được phát triển và áp dụng để nâng cao khả năng thu hút, duy trì khách hàng và hỗ trợ các phân tích quan trọng. Thông thường các ứng dụng CRM giữ một tập hợp lớn các thông tin về từng khách hàng cá nhân. Các thông tin này được thu thập từ hoạt động của một khách hàng tại ngân hàng nào đó. Dữ liệu được ghi bằng cách sử dụng một mô hình phân tích thống kê, được xác định bởi các thuộc tính khác nhau đặc trưng cho các khách hàng. Những thuộc tính này còn được gọi là các biến dự báo. Liên quan đến vấn đề này, bài viết sẽ đưa ra giải pháp cho việc dự báo sự trung thành (Jain, H., Khunteta, A., và Srivastava, S. , 2020) sử dụng phương pháp cây hồi quy Logistic.

Bài viết được trình bày gồm ba phần: Trước tiên là tổng quan về ứng dụng trí tuệ nhân tạo và học máy trong lĩnh vực ngân hàng, tiếp sau là giới thiệu một ứng dụng của học máy (thuật toán hồi qui Logistic) và cuối cùng là phần thực nghiệm với công cụ học máy đã được giới thiệu.

2. Tổng quát về học máy và hồi quy Logistic

2.1. Sơ lược về học máy và ứng dụng của học máy trong ngân hàng

Học máy là một lĩnh vực của trí tuệ nhân tạo liên quan đến việc nghiên cứu và xây dựng kĩ thuật cho phép các hệ thống học tự động từ dữ liệu để giải quyết những vấn đề cụ thể. Chúng ta có thể sử dụng học máy để chuyển đổi thông tin thành tri thức phục vụ cho nhiều lĩnh lực trong cuộc sống, đặc biệt trong quá trình tìm kiếm thông tin từ những nguồn dữ liệu khổng lồ để áp dụng vào sản xuất và cuộc sống (Petre, 2013). Các kĩ thuật học máy giúp chúng ta tìm ra các mẫu thông tin hay tri thức trong dữ liệu được sử dụng để hỗ trợ ra quyết định hay dự đoán các sự kiện có thể xảy ra trong tương lai. Ví dụ như để tìm kiếm các mẫu trong dữ liệu để hỗ trợ ra quyết định dựa trên các dữ liệu mà chúng ta cung cấp. Học máy có mục đích chính là huấn luyện cho các máy tính tự động “học” mà không cần sự can thiệp hay trợ giúp của con người để thực hiện, điều chỉnh các hành động. (Dr.Chitra và B.Subahini, 2013).

Ngày nay, việc phát triển và ứng dụng học máy đang được áp dụng rộng rãi ở hầu hết mọi lĩnh vực trong cuộc sống như: Khai phá dữ liệu, chẩn đoán bệnh trong y học, phát hiện và nhận biết tín dụng giả, phân tích và dự báo xu hướng thị trường chứng khoán, nhận dạng tiếng nói và chữ viết, dịch tự động, trò chơi và điều hướng robot. Tất cả những ứng dụng trên có một điểm chung là sử dụng “bộ não logic” được cấu thành từ các thuật toán học máy bằng cách tiếp nhận dữ liệu đầu vào đã được số hóa và thực hiện xử lí, phân tích qua nhiều lớp, với mức độ phức tạp và mức độ “thông minh” ngày càng tăng (Leo, M., Sharma, S., và Maddulety, K., 2019).

Trên thế giới, đã có rất nhiều tập đoàn, công ty lớn đã và đang áp dụng học máy trong cách vận hành các hệ thống trí tuệ nhân tạo như Facebook, Amazon, Google. Tất cả đều đạt được những đột phá, phát triển thần kì chỉ trong vòng dưới 10 năm trở lại đây. Một số ứng dụng về học máy cho lĩnh vực tài chính, ngân hàng:

Ngăn chặn rủi ro: Đối với lĩnh vực tài chính, ngân hàng, mô hình rủi ro được cho là yếu tố hàng đầu của các công ty, doanh nghiệp đang hoạt động trong lĩnh vực ngân hàng. Vì nó giúp các tổ chức, doanh nghiệp dễ dàng hơn trong việc xây dựng và triển khai các chiến lược để có thể đánh giá thực trạng về hiệu quả và năng suất lao động. Với sự hỗ trợ đắc lực của Data Science và Big Data trong mô hình rủi ro, ngân hàng và doanh nghiệp có thể áp dụng để phân tích, lọc ra những khách hàng không có đủ khả năng chi trả khoản vay trước khả năng rủi ro nhất có thể xảy ra (Leo, M., Sharma, S., và Maddulety, K., 2019). Mô hình rủi ro tín dụng giúp cho ngân hàng có thể phân tích các khoản vay sẽ được hoàn trả như thế nào, một trong những yếu tố quan trọng và nổi bật mà mọi doanh nghiệp đều quan tâm. Ngoài ra, những công cụ phân tích trong mô hình rủi ro hỗ trợ việc định lượng hiệu suất cũng như hiệu quả trong quá trình vận hành của doanh nghiệp.

Phòng chống gian lận: Với sự phát triển của Internet, việc thực hiện các giao dịch thông qua các phương tiện, các dịch vụ thương mại điện tử đôi khi tạo ra những con số mơ hồ, khó kiểm soát. Nhờ sự phát triển của học máy đã giúp cho các công ty tìm kiếm, phát hiện ra những giao dịch bất thường hay những giao dịch có dấu hiệu gian lận. Hệ thống phòng chống gian lận giúp định vị, phân tích các hoạt động của người dùng, kiểm tra toàn bộ quá trình để tìm ra những mô hình giao dịch có kẽ hở và độc hại (M. Madhavi, M. V. R. Srivatsava, 2017; Dr.Chitra và B.Subahini, 2013). Việc ứng dụng khoa học dữ liệu, khai thác hiệu quả sức mạnh của học máy trong việc phân tích để dự đoán bằng cách tạo ra các công cụ phân nhóm các cụm dữ liệu đã xác định để có thể nhận ra và nắm bắt xu hướng, mô hình độc hại trong hệ thống phát hiện gian lận.

Quản lí giá trị vòng đời khách hàng: Cũng như những ngành khác, ngành tài chính, ngân hàng cũng cần phải tiến hành dự đoán và xác định giá trị vòng đời khách hàng. Do đó, việc đánh giá những khách hàng nào sẽ ở lại sau một quá trình giao dịch và liệu họ đóng góp như thế nào vào doanh thu tương lai của công ty là những vấn đề mà doanh nghiệp cần phải quan tâm. Nhờ có khoa học dữ liệu, ngân hàng có thể tiến hành sàng lọc và phân loại những nhóm khách hàng tiềm năng cũng như những giá trị thiết thực trong tương lai thông qua việc phân tích và dự đoán. Những công cụ có thể hỗ trợ ngân hàng như CART (Classification và Regression Trees) hay GLM (Generalized Linear Models) có vai trò quan trọng trong việc chọn lọc, phân loại hay dự đoán xu thế, từ đó, giúp xác định đúng khách hàng cũng như đóng góp vào sự tăng trưởng và lợi nhuận của ngân hàng (Jain, H., Khunteta, A., và Srivastava, S., 2020).

Phân khúc thị trường: Phân khúc thị trường là công cụ chỉ ra những nhóm khách hàng có cùng những tính cách nhất định và các hành vi thông thường. Học máy chính là công cụ hỗ trợ tốt nhất để định vị cũng như khoanh vùng chính xác từng nhóm khách hàng. Lợi ích của việc phân cụm khách hàng: Xác định khách hàng dựa trên lợi nhuận của họ; phân khúc khách hàng dựa vào lịch sử sử dụng dịch vụ; phát triển mối quan hệ và gắn kết hơn với khách hàng; khuyến nghị, đưa ra những dịch vụ phù hợp với từng nhóm khách hàng; phân tích phân khúc khách hàng giúp thực hiện và cải thiện dịch vụ.

2.2. Thuật toán Logistic Regression

Ý tưởng của thuật toán Logistic Regression như sau:

Đầu ra của thuật toán Logistic Regression với điểm dữ liệu

Trong đó x là điểm dữ liệu, w là bộ trọng số của mô hình, hàm sigmoid

được chọn làm hàm kích hoạt vì có đầu ra bị chặn trong khoảng 0, 1) có thể dùng để xấp xỉ xác suất phân lớp và có đạo hàm đơn giản thuận lợi cho việc học bằng thuật toán Gradient Descent.

Giả sử xác suất để một điểm dữ liệu x rơi vào lớp thứ nhất là f (wTx) và rơi vào lớp còn lại là 1 - f (w^Tx):

P (y_i= 1|x_i; w) = f (w^Tx_i) (I)

P (y_i= 0| x_i; w) = 1 - f (w^Tx_i) (II)

Chúng ta cần phải tìm các hệ số w sao cho với các điểm dữ liệu ứng với y_i=1, f(w^Tx_i) gần với 1 và ngược lại. Kí hiệu z_i= f(w^Tx_i) hai biểu thức (I) và (II) có thể được viết dưới dạng:

P (y_i |x_i; w) = z_i^yi_i(1-z_i)^1-yi

Biểu thức này giống với hai biểu thức ở trên vì khi y₁=1, phần thứ hai của vế phải sẽ bằng 1, khi y₁=0, phần thứ nhất sẽ bằng 1. Chúng ta muốn mô hình thể hiện ra kết quả gần với dữ liệu đã cho nhất, tức là xác suất có giá trị P sẽ đạt giá trị cao nhất. Lấy logarit tự nhiên, đổi dấu và lấy trung bình, ta thu được hàm số:

Thuật toán Gradient Descent được sử dụng để tối ưu hàm mất mát. Hàm mất mát đối với một điểm dữ liệu được tính như sau:

Khi đó, véc-tơ Gradient (trường véc-tơ có chiều hướng về phía mức độ tăng lớn nhất của trường vô hướng và có độ lớn là mức độ thay đổi lớn nhất) của hàm mất mát theo trọng số được tính theo công thức:

Thuật toán tối ưu Gradient Descent (tìm các điểm cực tiểu cục bộ này một cách xấp xỉ sau một số vòng lặp) cho Logistic Regression được thực hiện như sau:

với η là hệ số học (learning rate)

Trọng số w được khởi tạo ngẫu nhiên.

Quy tắc phân lớp đối với Logistic Regression: Với đầu ra của điểm dữ liệu là

sẽ có nhãn là 1 nếu σ(w^T x) ≥ 0,5 và có nhãn là 0 nếu ngược lại. Điều này tương đương với việc sẽ có nhãn là 1 nếu w^T x ≥ 0. Như vậy, thực chất khi dùng thuật toán Logistic Regression để phân lớp, ta sẽ đi tìm một siêu phẳng làm biển để phân lớp các điểm dữ liệu. Do đó, Logistic Regression sẽ hiệu quả nếu dữ liệu gần với Linearly Separable (phân biệt tuyến tính).

2.3. Ưu điểm và nhược điểm của Logistic Regression

Ưu điểm:

- Đơn giản, dễ thực hiện, hiệu quả

- Không đòi hỏi quá nhiều tài nguyên tính toán

- Ứng dụng trên nhiều lĩnh vực: Lao động, sản xuất (khả năng hư hỏng các thiết bị...), kinh doanh (khả năng rời dịch vụ, phân khúc khách hàng...), y tế (khả năng mắc bệnh...), ngân hàng (rủi ro tín dụng...)...

Nhược điểm:

- Không giải quyết được các vấn đề phi tuyến tính.

- Phụ thuộc cao vào tính đúng đắn của dữ liệu.

- Chỉ dự đoán các kết quả phân loại.

3. Dự báo khách hàng ngân hàng rời bỏ dịch vụ với thuật toán Logistic Regression

Chúng ta thấy rằng, một lĩnh vực khác trong ứng dụng trí tuệ nhân tạo có thể được sử dụng trong ngành Ngân hàng với mục đích phát hiện gian lận. Với sự hỗ trợ của các thuật toán trí tuệ nhân tạo, các hành động gian lận ngày càng được phát hiện nhiều hơn. Có hai phương pháp tiếp cận phổ biến đã được phát triển bởi tổ chức tài chính để phát hiện các mô hình gian lận (Jain, H., Khunteta, A., và Srivastava, S., 2020).

- Phương pháp tiếp cận thứ nhất, NHTM cần phải sử dụng đến kho dữ liệu của bên thứ ba và sử dụng các kĩ thuật trí tuệ nhân tạo để xác định mô hình gian lận, sau đó, các ngân hàng có thể tham chiếu chéo các mẫu với cơ sở dữ liệu riêng của mình.

- Phương pháp thứ hai, gian lận được nhận dạng dựa trên các mẫu thông tin nội bộ riêng của mình mà không phải nhờ vào bên thứ ba. Tuy nhiên, trên thực tế, hầu hết các ngân hàng đang sử dụng kết hợp cả hai phương pháp tiếp cận trên.

Trong phần tiếp theo của bài viết, tác giả trình bày một phương pháp phát hiện khách hàng có ý định rời bỏ dịch vụ bằng việc sử dụng thuật toán học máy và dữ liệu lịch sử của các ngân hàng. Ý tưởng của phương pháp là sử dụng bộ dữ liệu mà các ngân hàng đang lưu trữ và các lớp thuật toán học máy để tạo ra những mô hình nhằm phát hiện đâu là khách hàng có khả năng rời bỏ dịch vụ và khách hàng trung thành trong số hàng triệu khách hàng đang giao dịch với ngân hàng.

Bài toán có thể phát biểu dưới dạng mô hình toán học ngắn gọn như sau: Gọi X là tập dữ liệu gồm k thuộc tính về n khách hàng, cần đánh giá xem họ có phải là đối tượng rời bỏ hay không. Gọi C là tập giá trị (gồm hai giá trị 0 và 1) để đánh dấu khách hàng có rời bỏ hay không (C ∈ {0, 1}). Ta gọi f: X -> C là hàm xác định khách hàng có rời bỏ hay không. Mục tiêu của bài toán là cần tính toán f(xi)∈{0,1}, ∈i=1,...n.

Dữ liệu để thực nghiệm cho thuật toán Logistic Regression trong bài viết này là bộ dữ liệu “Churn_Prediction_Modeling.csv” gồm các đối đối tượng khách hàng của ngân hàng được thu thập từ các ngân hàng và được các nhà khoa học cung cấp tại: “https://www.kaggle.com/datasets/aakash50897/churn-modellingcsv”. Các đối tượng khách hàng này gồm tám thuộc tính cơ bản có ảnh hưởng nhiều nhất tới việc dự báo. Các thuộc tính, sau khi tiền xử lí với các thư viện mã nguồn mở và ngôn ngữ lập trình Python và lưu dưới dạng file excel với tên: “Churn_Prediction_Modeling.csv”. Bộ dữ liệu này đã được các nhà nghiên cứu thực nghiệm với các thuật toán như ANN, Xgboost, Pyspark trong bối cảnh không phải ở Việt Nam. Trong phần thực nghiệm này, tác giả sử dụng lại bộ dữ liệu trên với thuật toán Logistic Regression với mong muốn có thể học hỏi, điều chỉnh để có thể áp dụng cho bối cảnh là khách hàng của các NHTM Việt Nam.

3.1. Tiền xử lí dữ liệu và chuẩn hóa dữ liệu

Trước khi thực hiện thuật toán, dữ liệu cần phải được làm sạch, chuyển đổi để phù hợp với thuật toán tương ứng. Ví dụ, ta cần chuyển các dữ liệu dạng kí tự thành các dữ liệu dạng số: Với “Gender”: chuyển “Female” thành “0” và “Male” thành “1”; đối với “Geography”: chuyển “France” thành “0”, “Spain” thành “2” và “Germany” thành “1”. Để thực hiện việc này ta có thể sử dụng công cụ trong thư viện “sklearn” được cài đặt trên Python như sau:

Đoạn chương trình chuyển dữ liệu kiểu chữ thành dữ liệu kiểu số

Kết quả dữ liệu sau khi chuyển được thể hiện ở Bảng 1.

Bảng 1: Kết quả dữ liệu sau khi chuyển

3.2. Mô hình Logistic Regression

Trong phần này, các bước thực hiện thuật toán nói chung, với thuật toán Logistic Regression nói riêng sẽ được minh họa theo từng bước:

Bước 1: Xác định và chuẩn bị các thư viện cần thiết.

Bước 2: Đọc dữ liệu vào bộ nhớ trong do Python quản lí.

Bước 3: Chia dữ liệu theo tỉ lệ bộ dữ liệu huấn luyện và bộ dữ liệu kiểm tra là 70% và 30%. Tập dữ liệu huấn luyện sẽ được sử dụng để huấn luyện bởi thuật toán. Sau khi chuẩn bị tốt bộ dữ liệu để huấn luyện mô hình, chúng ta sẽ đào tạo bộ dữ liệu bằng cách sử dụng bộ dữ liệu huấn luyện. Để cung cấp đào tạo hoặc sử dụng mô hình vào bộ huấn luyện, chúng ta sẽ cài đặt lớp Logistic Regression của thư viện “sklearn”.

Bước 4: Dự đoán kiểm tra kết quả: Sẽ tạo ra một biến mới có tên là ‘predicted’ và tiến hành kiểm tra: Nếu yes_Prob > 0,5 thì sẽ nhận giá trị là 1 và ngược lại sẽ nhận giá trị là 0.

Huấn luyện bằng thuật toán Logistic Regression

Bước 5: Đánh giá độ chính xác của thuật toán. Tại bước này một ma trận có tên “Confusion matrix” sẽ được tạo ra nhằm đánh giá hiệu quả hoạt động của thuật toán. (Hình 1)

Hình 1: Confusion matrix

Ma trận trên cho ta thấy:

- Có 2.340 khách hàng thực tế là khách hàng trung thành và dự đoán là đúng vậy.

- Có 73 khách hàng thực tế là khách hàng trung thành nhưng được dự đoán là rời đi.

- Có 505 khách hàng thực tế họ rời đi nhưng được dự đoán là khách hàng trung thành.

- Có 82 khách hàng rời bỏ dịch vụ ngân hàng và được dự đoán là sẽ rời bỏ dịch vụ ngân hàng.

Hình 2: Kết quả đánh giá

Từ kết quả đánh giá trên Hình 2 ta thấy:

- Precision=0,82 mô hình dự 82% khách hàng thực sự ở lại so với tất cả các trường hợp được dự đoán là ở lại.

- Recall=0,97 cho biết trong số những người thực tế ở lại thì có 97% khách hàng được dự đoán đúng.

Bước 6: Làm việc với biểu đồ ROC (Receiver operating characteristic)

Tại đây, một biểu đồ ROC được xây dựng nhằm đánh giá độ hiệu quả của thuật toán.

Hình 3: Biểu đồ ROC

Hình 3 là kết quả sau khi đoạn code vẽ biểu đồ được thực thi. Biểu đồ ROC là loại biểu đồ thể hiện sự thay đổi độ nhạy và độ đặc hiệu khi các giá trị ngưỡng thay đổi. Qua biểu đồ ROC mà hệ thống đã in ra phía trên, ta thấy được giá trị AUC (Area Under the Curve) trả về là 0,55. Dựa trên bảng so sánh ở phần đánh giá mô hình, chúng ta thấy được giá trị AUC = 0,55 thể hiện đây là mô hình dự báo chưa có nhiều có ý nghĩa.

Điều chỉnh mô hình: Vì đây là bài toán dự đoán khách hàng rời bỏ dịch vụ ngân hàng nên chúng ta sẽ điều chỉnh sao cho không có quá nhiều dự đoán là ở lại bị sai với thực tế. Bởi vì nếu có quá nhiều khách hàng thực tế là sẽ rời đi nhưng khi dự báo lại cho ra kết quả là ở lại sẽ dẫn đến hậu quả mất khách hàng.

Do đó, ta sẽ điều chỉnh sao cho hệ số False Negative (FN) là nhỏ nhất có thể. (Hình 4)

Hình 4: Confusion matrix

- Có 795 khách hàng thực tế là khách hàng trung thành và dự đoán là đúng như vậy.

- Có 1618 khách hàng thực tế là khách hàng trung thành nhưng được dự đoán là rời đi.

- Có 73 khách hàng thực tế là rời đi nhưng được dự đoán là khách hàng trung thành.

- Có 514 khách hàng rời bỏ dịch vụ ngân hàng và được dự đoán là sẽ rời bỏ dịch vụ ngân hàng.

Hình 5: Đánh giá mô hình

Từ kết quả Hình 5 ta thấy:

- Precision = 0,92 mô hình dự đoán 92% khách hàng thực sự ở lại so với tất cả các trường hợp được dự đoán là ở lại.

- Recall = 0,33 cho biết trong số những người thực tế ở lại thì có 33% khách hàng được dự đoán đúng.

Biểu đồ ROC thể hiện sự thay đổi độ nhạy và độ đặc hiệu khi các giá trị ngưỡng thay đổi. Qua biểu đồ ROC mà hệ thống đã in ra phía trên, ta có thể thấy giá trị AUC là 0,6. Dựa trên bảng so sánh ở phần đánh giá mô hình, chúng ta có thể thấy được đây là mô hình dự báo không tốt. (Hình 6)

Hình 6: Biểu đồ ROC sau khi điều chỉnh

Phần trên của bài viết đã trình bày quy trình sử dụng thuật toán khi tìm kiếm thông tin từ dữ liệu ngân hàng nhằm phân lớp khách hàng có nghi ngờ rời bỏ dịch vụ hay không. Để có kết quả mang tính ứng dụng phù hợp với thực tế bối cảnh Việt Nam, chúng ta cần phải thực hiện thuật toán này trên bộ dữ liệu thu thập được từ các NHTM Việt Nam. Đồng thời, cần tìm hiểu thêm tình hình thực tế để từ đó cải tiến chương trình, thay đổi các tham số để bài toán phù hợp với thực tế của Việt Nam.

4. Kết luận và đánh giá

Tác giả đã hệ thống hóa cơ sở lí thuyết về dữ liệu cũng như phân tích và nghiên cứu các vấn đề liên quan tới việc khai phá và tìm kiếm thông tin từ dữ liệu phục vụ cho việc ra quyết định của một số tổ chức kinh doanh, đặc biệt là các NHTM:

Thứ nhất, ứng dụng công nghệ học máy vào việc nhận định đâu là khách hàng trung thành, đâu là khách hàng có ý định rời bỏ dịch vụ của ngân hàng là một phương pháp hiện đại đã và đang được các NHTM áp dụng.

Thứ hai, có thể nói rằng, việc ứng dụng học máy vào hoạt động tín dụng làm giảm đáng kể rủi ro ngân hàng vì nó giúp ngân hàng nhận định đúng các đối tượng khách hàng của mình để có những giải pháp phù hợp trong chiến lược kinh doanh.

Thứ ba, ứng dụng công nghệ học máy cũng giúp cho thời gian thực hiện mỗi lần đánh giá tín dụng nói riêng và các công việc của ngân hàng nói chung trở nên nhanh hơn và đáng tin cậy hơn. Sở dĩ như vậy là bởi khả năng tính toán và đưa ra quyết định của con người là có hạn, trong khi đó học máy cũng có thể làm được điều tương tự với tốc độ nhanh hơn gấp nhiều lần. Không chỉ thời gian, các tiêu chí đánh giá khách hàng đã được mở rộng hơn, từ đó khiến cho các đánh giá mang tính khách quan hơn và có chiều sâu hơn. Ngoài ra, các phương thức trên cũng là một chỉ tiêu mới được đưa ra nhằm đa dạng hóa khả năng thanh toán cho khách hàng, cho thấy sự linh hoạt ứng biến tốt của ngân hàng.

Cuối cùng, như đã trình bày ở trên, khi chúng ta ứng dụng công nghệ học máy trong việc phát hiện khách hàng rời bỏ dịch vụ nói riêng và hoạt động tài chính của ngân hàng nói chung, thời gian xử lí của học máy ngắn và rất tiện lợi, điều đó đồng nghĩa với ngân hàng sẽ tiếp cận được với nhiều khách hàng hơn. Lượng khách hàng lớn hơn sẽ đem lại doanh thu cao hơn cho ngân hàng, đi đôi với đó là chi phí nhân sự và chi phí quản lí sẽ giảm xuống đáng kể. Khả năng thu thập thông tin của học máy rất nhanh và từ nhiều nguồn đáng tin cậy là một bước tiến lớn, khi mà các tổ chức tín dụng hiện giờ chưa áp dụng được hoặc mới áp dụng một phần vào việc đánh giá. Từ bước cải tiến này, sẽ là tiền đề cho các tổ chức tín dụng khác nghiên cứu và phát triển, đem lại cho khách hàng những trải nghiệm tốt nhất.

Tài liệu tham khảo:

1. Breeden. (2021). A survey of machine learning in credit risk. Journal of Credit Risk, 17(3).

2. Dr.Chitra và B.Subahini. (2013). Data Mining Techniques và its Applications in Banking Sector. International Journal of Emerging Technology và Advanced Engineering, Volume 3( Issue 38), pages 219-226.

3. Jain, H., Khunteta, A., và Srivastava, S., (2020). Churn prediction in telecommunication using logistic regression và logit boost. Procedia Computer Science,, 167, pages 101-112.

4. Leo, M., Sharma, S., và Maddulety, K. (2019). Machine learning in banking risk management: A literature review. page 29.

5. M Madhavi, M V R Srivatsava. (2017). Fraud Detection in Banking. International Journal of Engineering và Advanced Technology, 3, pages 322-358.

6. Malali, A. B., và Gopalakrishnan. (2020). Application of Artificial Intelligence và Its Powered Technologies in the Indian Banking và Financial Industry: An Overview. IOSR Journal Of Humanities Và Social Science,, 25(4), pages 55-60.

7. P Salman Raju, V Rama Bai và Gkrishna Chaitanya. (2014). Enhancing Customer Relationship Management in Banking và Retail Industries. International Journal of Innovative Research in Computer và Communication Engineering, 2(1), pages 2650-2657.

8. P Salman Raju, V. R. (2017). Credit scoring using machine learning techniques. International Journal of Computer Applications, 161(4).

9. Petre, R. (2013). Data Mining Solutions for the Business Environment. Database System Journal, 4, pages 21-29.

Nguyễn Dương Hùng

Khoa Hệ thống Thông tin quản lý - Học viện Ngân hàng

Ngân Hàng	USD		EUR		GBP		JPY
Ngân Hàng	Mua vào	Bán ra	Mua vào	Bán ra	Mua vào	Bán ra	Mua vào	Bán ra
Vietcombank	25,150	25,502	26,092	27,523	31,263	32,592	158.81	168.04
BIDV	25,190	25,502	26,295	27,448	31,648	32,522	160.63	167.55
VietinBank	25,198	25,502	26,307	27,507	31,676	32,686	160.27	168.02
Agribank	25,200	25,502	26,225	27,408	31,448	32,511	160.54	168.04
Eximbank	25,160	25,502	26,287	27,168	31,543	32,559	161.12	166.54
ACB	25,170	25,502	26,309	27,212	31,642	32,598	160.68	167.03
Sacombank	25,180	25,502	26,294	27,267	31,555	32,708	160.81	167.32
Techcombank	25,184	25,502	26,134	27,486	31,274	32,605	157.32	169.76
LPBank	25,190	25,502	26,591	27,484	31,928	32,590	162.28	169.38
DongA Bank	25,230	25,500	26,300	27,150	31,600	32,550	159.20	166.40