Keywords: Artificial intelligence, machine learning, data mining, churn prediction.
1. Giới thiệu
Học máy là một lĩnh vực được các doanh nghiệp và các tổ chức nghiên cứu, ứng dụng, đặc biệt là trong lĩnh vực tài chính, ngân hàng. Từ các trợ lí ảo như Siri và Cortana, đến các Chatbots được tạo ra bởi Facebook, Google và nhiều công ty công nghệ khác (Breeden, 2021; Leo, M., Sharma, S., và Maddulety, K., 2019). Trí tuệ nhân tạo (Artificial Intelligence) đang ngày càng tác động mạnh mẽ đến các lĩnh vực kinh tế, xã hội, trong đó có lĩnh vực ngân hàng. Nó góp phần làm thay đổi chiến lược kinh doanh, sản xuất tại các doanh nghiệp trong điều kiện nền kinh tế hội nhập hiện nay và trong tương lai. Bài viết này trình bày tổng quan về học máy và ứng dụng của học máy trong lĩnh vực tài chính, ngân hàng, sau đó là minh họa việc sử dụng công cụ học máy hỗ trợ cho việc ra quyết định tại NHTM (P Salman Raju, V Rama Bai và Gkrishna Chaitanya, 2014) bằng việc ứng dụng mô hình hồi quy Logistic để dự báo khách hàng rời bỏ dịch vụ tại ngân hàng.
Theo Microsoft, Google hay một số công ty công nghệ lớn, chuyển đổi số là một sự đổi mới kinh doanh được thúc đẩy bởi sự bùng nổ của điện toán đám mây, trí tuệ nhân tạo và Internet kết nối vạn vật (IoT), cung cấp những cách thức mới để hiểu, quản lí và chuyển đổi cho các hoạt động kinh doanh của họ.
Duy trì khách hàng là một vấn đề ngày càng cấp bách trong môi trường thương mại cạnh tranh. Nghiên cứu được thực hiện ở các cấp độ quốc tế và quốc gia cho thấy tầm quan trọng của những vấn đề trọng tâm đối với NHTM để tồn tại và phát triển (Malali, A. B., và Gopalakrishnan, 2020; P Salman Raju, V. Rama Bai và Gkrishna Chaitanya, 2014; Petre, 2013) đó là: (i) Chăm sóc, duy trì khách hàng; (ii) Quan tâm, tập trung vào công nghệ; (iii) Quan tâm tới những phân khúc thị trường đặc biệt; (iv) Tăng cường hoạt động và hiệu quả kinh doanh.
Trong bốn nhân tố trên, chăm sóc và duy trì khách hàng là nhân tố được quan tâm trước tiên và có sự ảnh hưởng lớn nhất tới sự tăng trưởng và phát triển của các NHTM. Công cụ quản lí quan hệ khách hàng (Customer Relationship Management - CRM) đã được phát triển và áp dụng để nâng cao khả năng thu hút, duy trì khách hàng và hỗ trợ các phân tích quan trọng. Thông thường các ứng dụng CRM giữ một tập hợp lớn các thông tin về từng khách hàng cá nhân. Các thông tin này được thu thập từ hoạt động của một khách hàng tại ngân hàng nào đó. Dữ liệu được ghi bằng cách sử dụng một mô hình phân tích thống kê, được xác định bởi các thuộc tính khác nhau đặc trưng cho các khách hàng. Những thuộc tính này còn được gọi là các biến dự báo. Liên quan đến vấn đề này, bài viết sẽ đưa ra giải pháp cho việc dự báo sự trung thành (Jain, H., Khunteta, A., và Srivastava, S. , 2020) sử dụng phương pháp cây hồi quy Logistic.
Bài viết được trình bày gồm ba phần: Trước tiên là tổng quan về ứng dụng trí tuệ nhân tạo và học máy trong lĩnh vực ngân hàng, tiếp sau là giới thiệu một ứng dụng của học máy (thuật toán hồi qui Logistic) và cuối cùng là phần thực nghiệm với công cụ học máy đã được giới thiệu.
2. Tổng quát về học máy và hồi quy Logistic
2.1. Sơ lược về học máy và ứng dụng của học máy trong ngân hàng
Học máy là một lĩnh vực của trí tuệ nhân tạo liên quan đến việc nghiên cứu và xây dựng kĩ thuật cho phép các hệ thống học tự động từ dữ liệu để giải quyết những vấn đề cụ thể. Chúng ta có thể sử dụng học máy để chuyển đổi thông tin thành tri thức phục vụ cho nhiều lĩnh lực trong cuộc sống, đặc biệt trong quá trình tìm kiếm thông tin từ những nguồn dữ liệu khổng lồ để áp dụng vào sản xuất và cuộc sống (Petre, 2013). Các kĩ thuật học máy giúp chúng ta tìm ra các mẫu thông tin hay tri thức trong dữ liệu được sử dụng để hỗ trợ ra quyết định hay dự đoán các sự kiện có thể xảy ra trong tương lai. Ví dụ như để tìm kiếm các mẫu trong dữ liệu để hỗ trợ ra quyết định dựa trên các dữ liệu mà chúng ta cung cấp. Học máy có mục đích chính là huấn luyện cho các máy tính tự động “học” mà không cần sự can thiệp hay trợ giúp của con người để thực hiện, điều chỉnh các hành động. (Dr.Chitra và B.Subahini, 2013).
Ngày nay, việc phát triển và ứng dụng học máy đang được áp dụng rộng rãi ở hầu hết mọi lĩnh vực trong cuộc sống như: Khai phá dữ liệu, chẩn đoán bệnh trong y học, phát hiện và nhận biết tín dụng giả, phân tích và dự báo xu hướng thị trường chứng khoán, nhận dạng tiếng nói và chữ viết, dịch tự động, trò chơi và điều hướng robot. Tất cả những ứng dụng trên có một điểm chung là sử dụng “bộ não logic” được cấu thành từ các thuật toán học máy bằng cách tiếp nhận dữ liệu đầu vào đã được số hóa và thực hiện xử lí, phân tích qua nhiều lớp, với mức độ phức tạp và mức độ “thông minh” ngày càng tăng (Leo, M., Sharma, S., và Maddulety, K., 2019).
Trên thế giới, đã có rất nhiều tập đoàn, công ty lớn đã và đang áp dụng học máy trong cách vận hành các hệ thống trí tuệ nhân tạo như Facebook, Amazon, Google. Tất cả đều đạt được những đột phá, phát triển thần kì chỉ trong vòng dưới 10 năm trở lại đây. Một số ứng dụng về học máy cho lĩnh vực tài chính, ngân hàng:
Ngăn chặn rủi ro: Đối với lĩnh vực tài chính, ngân hàng, mô hình rủi ro được cho là yếu tố hàng đầu của các công ty, doanh nghiệp đang hoạt động trong lĩnh vực ngân hàng. Vì nó giúp các tổ chức, doanh nghiệp dễ dàng hơn trong việc xây dựng và triển khai các chiến lược để có thể đánh giá thực trạng về hiệu quả và năng suất lao động. Với sự hỗ trợ đắc lực của Data Science và Big Data trong mô hình rủi ro, ngân hàng và doanh nghiệp có thể áp dụng để phân tích, lọc ra những khách hàng không có đủ khả năng chi trả khoản vay trước khả năng rủi ro nhất có thể xảy ra (Leo, M., Sharma, S., và Maddulety, K., 2019). Mô hình rủi ro tín dụng giúp cho ngân hàng có thể phân tích các khoản vay sẽ được hoàn trả như thế nào, một trong những yếu tố quan trọng và nổi bật mà mọi doanh nghiệp đều quan tâm. Ngoài ra, những công cụ phân tích trong mô hình rủi ro hỗ trợ việc định lượng hiệu suất cũng như hiệu quả trong quá trình vận hành của doanh nghiệp.
Phòng chống gian lận: Với sự phát triển của Internet, việc thực hiện các giao dịch thông qua các phương tiện, các dịch vụ thương mại điện tử đôi khi tạo ra những con số mơ hồ, khó kiểm soát. Nhờ sự phát triển của học máy đã giúp cho các công ty tìm kiếm, phát hiện ra những giao dịch bất thường hay những giao dịch có dấu hiệu gian lận. Hệ thống phòng chống gian lận giúp định vị, phân tích các hoạt động của người dùng, kiểm tra toàn bộ quá trình để tìm ra những mô hình giao dịch có kẽ hở và độc hại (M. Madhavi, M. V. R. Srivatsava, 2017; Dr.Chitra và B.Subahini, 2013). Việc ứng dụng khoa học dữ liệu, khai thác hiệu quả sức mạnh của học máy trong việc phân tích để dự đoán bằng cách tạo ra các công cụ phân nhóm các cụm dữ liệu đã xác định để có thể nhận ra và nắm bắt xu hướng, mô hình độc hại trong hệ thống phát hiện gian lận.
Quản lí giá trị vòng đời khách hàng: Cũng như những ngành khác, ngành tài chính, ngân hàng cũng cần phải tiến hành dự đoán và xác định giá trị vòng đời khách hàng. Do đó, việc đánh giá những khách hàng nào sẽ ở lại sau một quá trình giao dịch và liệu họ đóng góp như thế nào vào doanh thu tương lai của công ty là những vấn đề mà doanh nghiệp cần phải quan tâm. Nhờ có khoa học dữ liệu, ngân hàng có thể tiến hành sàng lọc và phân loại những nhóm khách hàng tiềm năng cũng như những giá trị thiết thực trong tương lai thông qua việc phân tích và dự đoán. Những công cụ có thể hỗ trợ ngân hàng như CART (Classification và Regression Trees) hay GLM (Generalized Linear Models) có vai trò quan trọng trong việc chọn lọc, phân loại hay dự đoán xu thế, từ đó, giúp xác định đúng khách hàng cũng như đóng góp vào sự tăng trưởng và lợi nhuận của ngân hàng (Jain, H., Khunteta, A., và Srivastava, S., 2020).
Phân khúc thị trường: Phân khúc thị trường là công cụ chỉ ra những nhóm khách hàng có cùng những tính cách nhất định và các hành vi thông thường. Học máy chính là công cụ hỗ trợ tốt nhất để định vị cũng như khoanh vùng chính xác từng nhóm khách hàng. Lợi ích của việc phân cụm khách hàng: Xác định khách hàng dựa trên lợi nhuận của họ; phân khúc khách hàng dựa vào lịch sử sử dụng dịch vụ; phát triển mối quan hệ và gắn kết hơn với khách hàng; khuyến nghị, đưa ra những dịch vụ phù hợp với từng nhóm khách hàng; phân tích phân khúc khách hàng giúp thực hiện và cải thiện dịch vụ.
2.2. Thuật toán Logistic Regression
Ý tưởng của thuật toán Logistic Regression như sau:
Đầu ra của thuật toán Logistic Regression với điểm dữ liệu Trong đó x là điểm dữ liệu, w là bộ trọng số của mô hình, hàm sigmoid được chọn làm hàm kích hoạt vì có đầu ra bị chặn trong khoảng 0, 1) có thể dùng để xấp xỉ xác suất phân lớp và có đạo hàm đơn giản thuận lợi cho việc học bằng thuật toán Gradient Descent.
Giả sử xác suất để một điểm dữ liệu x rơi vào lớp thứ nhất là f (wTx) và rơi vào lớp còn lại là 1 - f (wTx):
P (yi= 1|xi; w) = f (wTxi) (I)
P (yi= 0| xi; w) = 1 - f (wTxi) (II)
Chúng ta cần phải tìm các hệ số w sao cho với các điểm dữ liệu ứng với yi=1, f(wTxi) gần với 1 và ngược lại. Kí hiệu zi= f(wTxi) hai biểu thức (I) và (II) có thể được viết dưới dạng:
P (yi |xi; w) = ziyii(1-zi)1-yi
Biểu thức này giống với hai biểu thức ở trên vì khi y1=1, phần thứ hai của vế phải sẽ bằng 1, khi y1=0, phần thứ nhất sẽ bằng 1. Chúng ta muốn mô hình thể hiện ra kết quả gần với dữ liệu đã cho nhất, tức là xác suất có giá trị P sẽ đạt giá trị cao nhất. Lấy logarit tự nhiên, đổi dấu và lấy trung bình, ta thu được hàm số:
Thuật toán Gradient Descent được sử dụng để tối ưu hàm mất mát. Hàm mất mát đối với một điểm dữ liệu được tính như sau:
Khi đó, véc-tơ Gradient (trường véc-tơ có chiều hướng về phía mức độ tăng lớn nhất của trường vô hướng và có độ lớn là mức độ thay đổi lớn nhất) của hàm mất mát theo trọng số được tính theo công thức:
Thuật toán tối ưu Gradient Descent (tìm các điểm cực tiểu cục bộ này một cách xấp xỉ sau một số vòng lặp) cho Logistic Regression được thực hiện như sau:
với η là hệ số học (learning rate)
Trọng số w được khởi tạo ngẫu nhiên.
Quy tắc phân lớp đối với Logistic Regression: Với đầu ra của điểm dữ liệu là sẽ có nhãn là 1 nếu σ(wT x) ≥ 0,5 và có nhãn là 0 nếu ngược lại. Điều này tương đương với việc sẽ có nhãn là 1 nếu wT x ≥ 0. Như vậy, thực chất khi dùng thuật toán Logistic Regression để phân lớp, ta sẽ đi tìm một siêu phẳng làm biển để phân lớp các điểm dữ liệu. Do đó, Logistic Regression sẽ hiệu quả nếu dữ liệu gần với Linearly Separable (phân biệt tuyến tính).
2.3. Ưu điểm và nhược điểm của Logistic Regression
Ưu điểm:
- Đơn giản, dễ thực hiện, hiệu quả
- Không đòi hỏi quá nhiều tài nguyên tính toán
- Ứng dụng trên nhiều lĩnh vực: Lao động, sản xuất (khả năng hư hỏng các thiết bị...), kinh doanh (khả năng rời dịch vụ, phân khúc khách hàng...), y tế (khả năng mắc bệnh...), ngân hàng (rủi ro tín dụng...)...
Nhược điểm:
- Không giải quyết được các vấn đề phi tuyến tính.
- Phụ thuộc cao vào tính đúng đắn của dữ liệu.
- Chỉ dự đoán các kết quả phân loại.
3. Dự báo khách hàng ngân hàng rời bỏ dịch vụ với thuật toán Logistic Regression
Chúng ta thấy rằng, một lĩnh vực khác trong ứng dụng trí tuệ nhân tạo có thể được sử dụng trong ngành Ngân hàng với mục đích phát hiện gian lận. Với sự hỗ trợ của các thuật toán trí tuệ nhân tạo, các hành động gian lận ngày càng được phát hiện nhiều hơn. Có hai phương pháp tiếp cận phổ biến đã được phát triển bởi tổ chức tài chính để phát hiện các mô hình gian lận (Jain, H., Khunteta, A., và Srivastava, S., 2020).
- Phương pháp tiếp cận thứ nhất, NHTM cần phải sử dụng đến kho dữ liệu của bên thứ ba và sử dụng các kĩ thuật trí tuệ nhân tạo để xác định mô hình gian lận, sau đó, các ngân hàng có thể tham chiếu chéo các mẫu với cơ sở dữ liệu riêng của mình.
- Phương pháp thứ hai, gian lận được nhận dạng dựa trên các mẫu thông tin nội bộ riêng của mình mà không phải nhờ vào bên thứ ba. Tuy nhiên, trên thực tế, hầu hết các ngân hàng đang sử dụng kết hợp cả hai phương pháp tiếp cận trên.
Trong phần tiếp theo của bài viết, tác giả trình bày một phương pháp phát hiện khách hàng có ý định rời bỏ dịch vụ bằng việc sử dụng thuật toán học máy và dữ liệu lịch sử của các ngân hàng. Ý tưởng của phương pháp là sử dụng bộ dữ liệu mà các ngân hàng đang lưu trữ và các lớp thuật toán học máy để tạo ra những mô hình nhằm phát hiện đâu là khách hàng có khả năng rời bỏ dịch vụ và khách hàng trung thành trong số hàng triệu khách hàng đang giao dịch với ngân hàng.
Bài toán có thể phát biểu dưới dạng mô hình toán học ngắn gọn như sau: Gọi X là tập dữ liệu gồm k thuộc tính về n khách hàng, cần đánh giá xem họ có phải là đối tượng rời bỏ hay không. Gọi C là tập giá trị (gồm hai giá trị 0 và 1) để đánh dấu khách hàng có rời bỏ hay không (C ∈ {0, 1}). Ta gọi f: X -> C là hàm xác định khách hàng có rời bỏ hay không. Mục tiêu của bài toán là cần tính toán f(xi)∈{0,1}, ∈i=1,...n.
Dữ liệu để thực nghiệm cho thuật toán Logistic Regression trong bài viết này là bộ dữ liệu “Churn_Prediction_Modeling.csv” gồm các đối đối tượng khách hàng của ngân hàng được thu thập từ các ngân hàng và được các nhà khoa học cung cấp tại: “https://www.kaggle.com/datasets/aakash50897/churn-modellingcsv”. Các đối tượng khách hàng này gồm tám thuộc tính cơ bản có ảnh hưởng nhiều nhất tới việc dự báo. Các thuộc tính, sau khi tiền xử lí với các thư viện mã nguồn mở và ngôn ngữ lập trình Python và lưu dưới dạng file excel với tên: “Churn_Prediction_Modeling.csv”. Bộ dữ liệu này đã được các nhà nghiên cứu thực nghiệm với các thuật toán như ANN, Xgboost, Pyspark trong bối cảnh không phải ở Việt Nam. Trong phần thực nghiệm này, tác giả sử dụng lại bộ dữ liệu trên với thuật toán Logistic Regression với mong muốn có thể học hỏi, điều chỉnh để có thể áp dụng cho bối cảnh là khách hàng của các NHTM Việt Nam.
3.1. Tiền xử lí dữ liệu và chuẩn hóa dữ liệu
Trước khi thực hiện thuật toán, dữ liệu cần phải được làm sạch, chuyển đổi để phù hợp với thuật toán tương ứng. Ví dụ, ta cần chuyển các dữ liệu dạng kí tự thành các dữ liệu dạng số: Với “Gender”: chuyển “Female” thành “0” và “Male” thành “1”; đối với “Geography”: chuyển “France” thành “0”, “Spain” thành “2” và “Germany” thành “1”. Để thực hiện việc này ta có thể sử dụng công cụ trong thư viện “sklearn” được cài đặt trên Python như sau:
Đoạn chương trình chuyển dữ liệu kiểu chữ thành dữ liệu kiểu số
Kết quả dữ liệu sau khi chuyển được thể hiện ở Bảng 1.
Bảng 1: Kết quả dữ liệu sau khi chuyển
3.2. Mô hình Logistic Regression
Trong phần này, các bước thực hiện thuật toán nói chung, với thuật toán Logistic Regression nói riêng sẽ được minh họa theo từng bước:
Bước 1: Xác định và chuẩn bị các thư viện cần thiết.
Bước 2: Đọc dữ liệu vào bộ nhớ trong do Python quản lí.
Bước 3: Chia dữ liệu theo tỉ lệ bộ dữ liệu huấn luyện và bộ dữ liệu kiểm tra là 70% và 30%. Tập dữ liệu huấn luyện sẽ được sử dụng để huấn luyện bởi thuật toán. Sau khi chuẩn bị tốt bộ dữ liệu để huấn luyện mô hình, chúng ta sẽ đào tạo bộ dữ liệu bằng cách sử dụng bộ dữ liệu huấn luyện. Để cung cấp đào tạo hoặc sử dụng mô hình vào bộ huấn luyện, chúng ta sẽ cài đặt lớp Logistic Regression của thư viện “sklearn”.
Bước 4: Dự đoán kiểm tra kết quả: Sẽ tạo ra một biến mới có tên là ‘predicted’ và tiến hành kiểm tra: Nếu yes_Prob > 0,5 thì sẽ nhận giá trị là 1 và ngược lại sẽ nhận giá trị là 0.
Huấn luyện bằng thuật toán Logistic Regression
Bước 5: Đánh giá độ chính xác của thuật toán. Tại bước này một ma trận có tên “Confusion matrix” sẽ được tạo ra nhằm đánh giá hiệu quả hoạt động của thuật toán. (Hình 1)
Hình 1: Confusion matrix
Ma trận trên cho ta thấy:
- Có 2.340 khách hàng thực tế là khách hàng trung thành và dự đoán là đúng vậy.
- Có 73 khách hàng thực tế là khách hàng trung thành nhưng được dự đoán là rời đi.
- Có 505 khách hàng thực tế họ rời đi nhưng được dự đoán là khách hàng trung thành.
- Có 82 khách hàng rời bỏ dịch vụ ngân hàng và được dự đoán là sẽ rời bỏ dịch vụ ngân hàng.
Hình 2: Kết quả đánh giá
Từ kết quả đánh giá trên Hình 2 ta thấy:
- Precision=0,82 mô hình dự 82% khách hàng thực sự ở lại so với tất cả các trường hợp được dự đoán là ở lại.
- Recall=0,97 cho biết trong số những người thực tế ở lại thì có 97% khách hàng được dự đoán đúng.
Bước 6: Làm việc với biểu đồ ROC (Receiver operating characteristic)
Tại đây, một biểu đồ ROC được xây dựng nhằm đánh giá độ hiệu quả của thuật toán.
Hình 3: Biểu đồ ROC
Hình 3 là kết quả sau khi đoạn code vẽ biểu đồ được thực thi. Biểu đồ ROC là loại biểu đồ thể hiện sự thay đổi độ nhạy và độ đặc hiệu khi các giá trị ngưỡng thay đổi. Qua biểu đồ ROC mà hệ thống đã in ra phía trên, ta thấy được giá trị AUC (Area Under the Curve) trả về là 0,55. Dựa trên bảng so sánh ở phần đánh giá mô hình, chúng ta thấy được giá trị AUC = 0,55 thể hiện đây là mô hình dự báo chưa có nhiều có ý nghĩa.
Điều chỉnh mô hình: Vì đây là bài toán dự đoán khách hàng rời bỏ dịch vụ ngân hàng nên chúng ta sẽ điều chỉnh sao cho không có quá nhiều dự đoán là ở lại bị sai với thực tế. Bởi vì nếu có quá nhiều khách hàng thực tế là sẽ rời đi nhưng khi dự báo lại cho ra kết quả là ở lại sẽ dẫn đến hậu quả mất khách hàng.
Do đó, ta sẽ điều chỉnh sao cho hệ số False Negative (FN) là nhỏ nhất có thể. (Hình 4)
Hình 4: Confusion matrix
- Có 795 khách hàng thực tế là khách hàng trung thành và dự đoán là đúng như vậy.
- Có 1618 khách hàng thực tế là khách hàng trung thành nhưng được dự đoán là rời đi.
- Có 73 khách hàng thực tế là rời đi nhưng được dự đoán là khách hàng trung thành.
- Có 514 khách hàng rời bỏ dịch vụ ngân hàng và được dự đoán là sẽ rời bỏ dịch vụ ngân hàng.
Hình 5: Đánh giá mô hình
Từ kết quả Hình 5 ta thấy:
- Precision = 0,92 mô hình dự đoán 92% khách hàng thực sự ở lại so với tất cả các trường hợp được dự đoán là ở lại.
- Recall = 0,33 cho biết trong số những người thực tế ở lại thì có 33% khách hàng được dự đoán đúng.
Biểu đồ ROC thể hiện sự thay đổi độ nhạy và độ đặc hiệu khi các giá trị ngưỡng thay đổi. Qua biểu đồ ROC mà hệ thống đã in ra phía trên, ta có thể thấy giá trị AUC là 0,6. Dựa trên bảng so sánh ở phần đánh giá mô hình, chúng ta có thể thấy được đây là mô hình dự báo không tốt. (Hình 6)
Hình 6: Biểu đồ ROC sau khi điều chỉnh
Phần trên của bài viết đã trình bày quy trình sử dụng thuật toán khi tìm kiếm thông tin từ dữ liệu ngân hàng nhằm phân lớp khách hàng có nghi ngờ rời bỏ dịch vụ hay không. Để có kết quả mang tính ứng dụng phù hợp với thực tế bối cảnh Việt Nam, chúng ta cần phải thực hiện thuật toán này trên bộ dữ liệu thu thập được từ các NHTM Việt Nam. Đồng thời, cần tìm hiểu thêm tình hình thực tế để từ đó cải tiến chương trình, thay đổi các tham số để bài toán phù hợp với thực tế của Việt Nam.
4. Kết luận và đánh giá
Tác giả đã hệ thống hóa cơ sở lí thuyết về dữ liệu cũng như phân tích và nghiên cứu các vấn đề liên quan tới việc khai phá và tìm kiếm thông tin từ dữ liệu phục vụ cho việc ra quyết định của một số tổ chức kinh doanh, đặc biệt là các NHTM:
Thứ nhất, ứng dụng công nghệ học máy vào việc nhận định đâu là khách hàng trung thành, đâu là khách hàng có ý định rời bỏ dịch vụ của ngân hàng là một phương pháp hiện đại đã và đang được các NHTM áp dụng.
Thứ hai, có thể nói rằng, việc ứng dụng học máy vào hoạt động tín dụng làm giảm đáng kể rủi ro ngân hàng vì nó giúp ngân hàng nhận định đúng các đối tượng khách hàng của mình để có những giải pháp phù hợp trong chiến lược kinh doanh.
Thứ ba, ứng dụng công nghệ học máy cũng giúp cho thời gian thực hiện mỗi lần đánh giá tín dụng nói riêng và các công việc của ngân hàng nói chung trở nên nhanh hơn và đáng tin cậy hơn. Sở dĩ như vậy là bởi khả năng tính toán và đưa ra quyết định của con người là có hạn, trong khi đó học máy cũng có thể làm được điều tương tự với tốc độ nhanh hơn gấp nhiều lần. Không chỉ thời gian, các tiêu chí đánh giá khách hàng đã được mở rộng hơn, từ đó khiến cho các đánh giá mang tính khách quan hơn và có chiều sâu hơn. Ngoài ra, các phương thức trên cũng là một chỉ tiêu mới được đưa ra nhằm đa dạng hóa khả năng thanh toán cho khách hàng, cho thấy sự linh hoạt ứng biến tốt của ngân hàng.
Cuối cùng, như đã trình bày ở trên, khi chúng ta ứng dụng công nghệ học máy trong việc phát hiện khách hàng rời bỏ dịch vụ nói riêng và hoạt động tài chính của ngân hàng nói chung, thời gian xử lí của học máy ngắn và rất tiện lợi, điều đó đồng nghĩa với ngân hàng sẽ tiếp cận được với nhiều khách hàng hơn. Lượng khách hàng lớn hơn sẽ đem lại doanh thu cao hơn cho ngân hàng, đi đôi với đó là chi phí nhân sự và chi phí quản lí sẽ giảm xuống đáng kể. Khả năng thu thập thông tin của học máy rất nhanh và từ nhiều nguồn đáng tin cậy là một bước tiến lớn, khi mà các tổ chức tín dụng hiện giờ chưa áp dụng được hoặc mới áp dụng một phần vào việc đánh giá. Từ bước cải tiến này, sẽ là tiền đề cho các tổ chức tín dụng khác nghiên cứu và phát triển, đem lại cho khách hàng những trải nghiệm tốt nhất.
Tài liệu tham khảo:
1. Breeden. (2021). A survey of machine learning in credit risk. Journal of Credit Risk, 17(3).
2. Dr.Chitra và B.Subahini. (2013). Data Mining Techniques và its Applications in Banking Sector. International Journal of Emerging Technology và Advanced Engineering, Volume 3( Issue 38), pages 219-226.
3. Jain, H., Khunteta, A., và Srivastava, S., (2020). Churn prediction in telecommunication using logistic regression và logit boost. Procedia Computer Science,, 167, pages 101-112.
4. Leo, M., Sharma, S., và Maddulety, K. (2019). Machine learning in banking risk management: A literature review. page 29.
5. M Madhavi, M V R Srivatsava. (2017). Fraud Detection in Banking. International Journal of Engineering và Advanced Technology, 3, pages 322-358.
6. Malali, A. B., và Gopalakrishnan. (2020). Application of Artificial Intelligence và Its Powered Technologies in the Indian Banking và Financial Industry: An Overview. IOSR Journal Of Humanities Và Social Science,, 25(4), pages 55-60.
7. P Salman Raju, V Rama Bai và Gkrishna Chaitanya. (2014). Enhancing Customer Relationship Management in Banking và Retail Industries. International Journal of Innovative Research in Computer và Communication Engineering, 2(1), pages 2650-2657.
8. P Salman Raju, V. R. (2017). Credit scoring using machine learning techniques. International Journal of Computer Applications, 161(4).
9. Petre, R. (2013). Data Mining Solutions for the Business Environment. Database System Journal, 4, pages 21-29.