Xếp hạng tín dụng khách hàng cá nhân với khai phá dữ liệu, thuật toán C4.5

Nghiên cứu - Trao đổi
Khai phá dữ liệu (Data Mining - DM) là khái niệm rộng và có thể gây khó khăn cho các nhà nghiên cứu không chuyên sâu về công nghệ thông tin. Điều quan trọng là phải nắm được nguyên lý, khái niệm liên quan đến DM, từ đó, định hướng mục tiêu và ứng dụng DM trong từng lĩnh vực, đặc biệt là trong lĩnh vực tài chính, ngân hàng.
aa

Tóm tắt: Khai phá dữ liệu (Data Mining - DM) là khái niệm rộng và có thể gây khó khăn cho các nhà nghiên cứu không chuyên sâu về công nghệ thông tin. Điều quan trọng là phải nắm được nguyên lý, khái niệm liên quan đến DM, từ đó, định hướng mục tiêu và ứng dụng DM trong từng lĩnh vực, đặc biệt là trong lĩnh vực tài chính, ngân hàng. Bài viết này trình bày các khái niệm cơ bản về DM, ứng dụng của DM trong lĩnh vực tài chính, ngân hàng và phương pháp xếp hạng tín dụng khách hàng cá nhân trong ngân hàng dựa trên kỹ thuật cây quyết định C4.5.

Từ khóa: Học máy, DM, cây quyết định, khách hàng trung thành.

PERSONAL CUSTOMER CREDIT RATING WITH DATA MINING, C4.5-ALGORITHM

Abstract: Data Mining (DM) has so far been a broad concept and make difficulty for researchers who do not specialize in information technology. It is important to understand the principles and concepts of DM so that they can orient their goals and apply DM in each field, especially in banking and finance sector. This artical presents the basic concepts of DM, DM application in banking and finance sector, the solution of personal banking customer credit rating by C4.5 algorithm.

Keywords: Machine learning, DM, decision tree, loyal customer.

1. Tổng quan về xếp hạng tín dụng, DM và cây quyết định

1.1. Xếp hạng tín dụng

Xếp hạng tín dụng là việc đưa ra nhận định về mức độ tín nhiệm đối với trách nhiệm tài chính hoặc đánh giá mức độ rủi ro tín dụng phụ thuộc các yếu tố như năng lực đáp ứng cam kết tài chính, khả năng dễ bị vỡ nợ khi điều kiện kinh doanh thay đổi, ý thức và thiện chí trả nợ của người đi vay. Thang điểm xếp hạng tín dụng khách hàng có thể được minh họa trong Bảng 1.

Bảng 1: Điểm xếp hạng tín dụng khách hàng cá nhân

Nguồn: Ngân hàng Thương mại cổ phần Hàng Hải Việt Nam (MSB)


1.2. DM

DM là tập hợp các thuật toán nhằm chiết xuất những thông tin có ích từ kho dữ liệu khổng lồ. DM được định nghĩa như một quá trình phát hiện mẫu trong dữ liệu, quá trình này có thể là tự động hay bán tự động, song phần nhiều là bán tự động. Các mẫu được phát hiện mang lại cho người sử dụng một lợi thế nào đó, thường là lợi thế về kinh tế. Theo đó, DM giống một quá trình tìm ra và mô tả mẫu dữ liệu. Dữ liệu là một tập hợp các sự vật hay sự kiện, đầu ra của quá trình DM thường là những dự báo của các sự vật hay sự kiện mới. Nó được áp dụng trong các cơ sở dữ liệu quan hệ, giao dịch hay trong kho dữ liệu phi cấu trúc mà điển hình là World Wide Web… Như vậy, mục đích của DM là tìm ra mẫu hoặc mô hình đang tồn tại trong các cơ sở dữ liệu nhưng vẫn còn bị khuất bởi số lượng dữ liệu khổng lồ. Quy trình DM gồm 6 giai đoạn:

Giai đoạn 1: Gom cụm dữ liệu (Gathering). Dữ liệu được gom từ trong một cơ sở dữ liệu, kho dữ liệu hay thanh chứa dữ liệu từ những nguồn cung ứng Web.

Giai đoạn 2: Trích lọc dữ liệu (Selection): Dữ liệu được lựa chọn và phân chia theo một số tiêu chuẩn nào đó, ví dụ chọn tất cả những người tuổi đời từ 25 - 35 và có trình độ đại học.

Giai đoạn 3: Làm sạch tiền xử lý và chuẩn bị trước các dữ liệu (Cleansing pre-processing, preparation): Đây là giai đoạn hay bị sao nhãng, nhưng thực tế nó là một bước rất quan trọng trong quá trình DM. Một số lỗi thường mắc phải trong giai đoạn này là dữ liệu không đầy đủ hoặc không thống nhất, thiếu chặt chẽ. Vì vậy dữ liệu thường chứa các giá trị vô nghĩa và không có khả năng kết nối. Ví dụ, sinh viên có tuổi là 200, đây là dữ liệu dư thừa, không có giá trị.

Giai đoạn 4: Chuyển đổi dữ liệu (Transformation): Dữ liệu được tổ chức để phù hợp hơn với mục đích của DM.

Giai đoạn 5: Phát hiện và trích mẫu dữ liệu (Pattern extraction and discovery): Là giai đoạn tư duy trong DM. Ở giai đoạn này, nhiều thuật toán khác nhau được sử dụng để trích ra các mẫu từ dữ liệu. Thuật toán thường dùng để trích mẫu dữ liệu là thuật toán phân loại dữ liệu, kết hợp dữ liệu, mô hình hóa dữ liệu tuần tự.

Giai đoạn 6: Đánh giá kết quả mẫu (Evaluation of result): Ở giai đoạn này, các mẫu dữ liệu được chiết xuất bởi phần mềm DM nhưng không phải mẫu dữ liệu nào cũng hữu ích, đôi khi nó còn bị sai lệch. Vì vậy cần phải đưa ra tiêu chuẩn đánh giá độ ưu tiên cho các mẫu dữ liệu để rút ra kết quả cần thiết.

1.3. Cây quyết định

Trong lĩnh vực học máy, cây quyết định là một kiểu mô hình dự báo, nghĩa là một ánh xạ từ các quan sát về một sự vật, hiện tượng tới kết luận về giá trị mục tiêu của sự vật, hiện tượng. Mỗi nút trong tương ứng với một biến; đường nối giữa nó với nút con của nó thể hiện giá trị cụ thể cho biến đó. Mỗi nút lá đại diện cho giá trị dự đoán của biến mục tiêu, cho trước giá trị dự đoán của các biến được biểu diễn bởi đường đi từ nút gốc tới nút lá đó. Kỹ thuật học máy dùng trong cây quyết định được gọi là học bằng cây quyết định, hay chỉ gọi với cái tên ngắn gọn là cây quyết định.

Cây quyết định là một phương tiện có tính mô tả dành cho việc tính toán các xác suất có điều kiện. Nó được mô tả là sự kết hợp của các kỹ thuật toán học và tính toán nhằm hỗ trợ việc mô tả, phân loại, tổng quát hóa một tập dữ liệu cho trước. Cây quyết định là sơ đồ phát triển có cấu trúc dạng cây, ví dụ như trong Hình 1:

Hình 1: Sơ đồ cây quyết định

Nguồn: Tác giả tổng hợp


Trong đó:

- Gốc: Là nút trên cùng của cây.

- Nút trong: Biểu diễn một thuộc tính đơn.

- Nhánh: Là một đường đi trên cây, bắt đầu từ nút gốc đến nút lá.

- Nút lá: Biểu diễn tập giá trị cuối cùng của một nhánh.

- Độ cao, mức: Trong một cây, độ cao của đỉnh a là độ dài của đường đi dài nhất từ a đến một lá. Độ cao của gốc được gọi là độ cao của cây, mức của đỉnh a là độ dài của đường đi từ gốc đến a.

Cây quyết định có cấu trúc đơn giản, dễ hiểu và được xây dựng khá nhanh, từ cây quyết định có thể dễ dàng rút ra các luật (series of rules). Ví dụ, từ cây quyết định trong Hình 1, có thể rút ra được các luật sau:

IF (Age <= 35) AND (Salary <= 40) THEN class = bad

IF (Age <= 35) AND (Salary > 40) THEN class = good

IF (Age > 35) AND (Salary <= 50) THEN class = bad

IF (Age > 35) AND (Salary > 50) THEN class = good

Cách thức hoạt động của thuật toán cây quyết định thường thông qua thuật toán ID3 của Ross Quinlan. Đây là thuật toán xây dựng cây quyết định theo cách từ trên xuống. Bất kỳ thuộc tính nào cũng có thể phân vùng tập hợp các đối tượng thành những tập con tách rời với một giá trị chung. ID3 chọn một thuộc tính để kiểm tra tại nút hiện tại của cây và phân vùng tập hợp các đối tượng, thuật toán khi đó xây dựng theo cách đệ quy một cây con cho từng phân vùng. Việc này tiếp tục cho đến khi tập đối tượng của phân vùng đều nằm trong cùng một lớp, lớp đó trở thành nút lá của cây.

Thuật toán C4.5 của Ross Quinlan là một thuật toán cải tiến so với thuật toán ID3 do ID3 làm việc không hiệu quả với các thuộc tính có nhiều giá trị. Thuật toán C4.5 được sử dụng rộng rãi nhất trong thực tế cho đến nay. C4.5 là thuật toán phân lớp dữ liệu dựa trên cây quyết định rất hiệu quả và phổ biến trong những ứng dụng khai phá cơ sở dữ liệu có kích thước nhỏ. Kỹ thuật này cho phép giảm bớt kích thước tập luật và đơn giản hóa các luật mà độ chính xác so với nhánh tương ứng cây quyết định là tương đương. Công thức sử dụng trong thuật toán như sau:


Trong đó:

pi: Xác suất để 1 phần tử bất kỳ trong D thuộc lớp Ci;

m: Số lớp;

InfoA(D): Lượng thông tin cần để phân loại một phần tử trong D dựa trên thuộc tính A. Thuộc tính A dùng phân tách D thành v phân hoạch (D1, D2... Dv). Mỗi phân hoạch Dj gồm |Dj| phần tử trong D. Lượng thông tin này sẽ cho biết mức độ trùng lặp giữa các phân hoạch, nghĩa là một phân hoạch chứa các phần tử từ một lớp hay nhiều lớp khác nhau.

Độ đo Information Gain: Là độ sai biệt giữa trị thông tin Info(D) ban đầu (trước phân hoạch) với trị thông tin mới InfoA(D) (sau phân hoạch với A).

Gain(A) = Info(D) - InfoA(D) Information Gain được sử dụng làm tiêu chuẩn để lựa chọn thuộc tính khi phân lớp. Thuộc tính được chọn là thuộc tính có Gain đạt giá trị lớn nhất.

Để giải quyết vấn đề một thuộc tính được dùng tạo ra rất nhiều phân hoạch (thậm chí mỗi phân hoạch chỉ gồm 1 phân tử), thuật toán C4.5 đã đưa ra các đại lượng GainRatio và SplitInfo, chúng được xác định theo công thức:

Giá trị SplitInfo là đại lượng đánh giá thông tin tiềm năng thu thập được khi phân chia tập D thành v tập con. GainRatio là tiêu chuẩn để đánh giá việc lựa chọn thuộc tính phân loại. Thuộc tính được lựa chọn là thuộc tính có GainRatio đạt giá trị lớn nhất.

Để đánh giá hiệu suất của một cây quyết định, người ta thường sử dụng một tập ví dụ tách rời, tập này khác với tập dữ liệu huấn luyện để đánh giá khả năng phân loại của cây trên các ví dụ của tập này. Tập dữ liệu này gọi là tập kiểm tra. Thông thường, tập dữ liệu sẵn có sẽ được chia thành hai tập: Tập rèn luyện thường chiếm 2/3 số ví dụ và tập kiểm tra chiếm 1/3. Ma trận dưới đây được sử dụng để đánh giá hiệu quả của việc phân lớp với cây quyết định nói chung, C4.5 nói riêng. (Bảng 2)

Bảng 2: Ma trận xác định độ chính xác

của bộ phân lớp

Nguồn: Tổng hợp của tác giả


Trong đó:

- TP: Là số mẫu thuộc lớp C được phân lớp đúng.

- TN: Là số mẫu không thuộc lớp C được phân lớp đúng.

- FP: Là số mẫu thuộc lớp C mà bộ phân lớp sai.

- FN: Là số mẫu không thuộc lớp C mà bộ phân lớp sai.

Từ đó, các độ đo đánh giá quá trình phân lớp được tính như sau:


2. Giải pháp chấm điểm tín dụng dựa trên kỹ thuật cây quyết định C4.5

Nguyên lý hoạt động và các độ đo quan trọng của cây quyết định C4.5 đã được giới thiệu trong các phần trước, trong phần tiếp theo, bài viết sẽ trình bày về việc ứng dụng cây quyết định này để xây dựng mô hình dự báo một khách hàng có được vay vốn hay không dựa trên điểm tín dụng của họ với ví dụ minh họa là bộ dữ liệu khách hàng từ MSB. Một tập cơ sở dữ liệu ban đầu của khách hàng liên quan đến khoản vay với các giá trị dữ liệu đã biết về thuộc tính như: Tuổi, trình độ học vấn, tình trạng hôn nhân, số người phụ thuộc, tính chất công việc, thu nhập hằng tháng.

Đầu vào: Bộ dữ liệu về thông tin khách hàng.

Đầu ra: Các luật về xếp hạng tín dụng khách hàng cá nhân tại ngân hàng.

Công cụ sử dụng: Phần mềm Weka.

Dữ liệu được sử dụng để xây dựng bài toán là một tập hợp các thông tin về khách hàng cá nhân xin cấp tín dụng tại MSB. Dữ liệu này bao gồm 866 bản ghi, được lưu trữ dưới dạng file excel và được chuyển thành file csv như Bảng 3.

Bảng 3: Dữ liệu thông tin khách hàng xin cấp tín dụng tại MSB

Nguồn: Tác giả tổng hợp từ bộ dữ liệu


Bộ dữ liệu gồm có 17 thuộc tính khác nhau, mỗi thuộc tính đều có giá trị hữu hạn. Tên các thuộc tính và tập giá trị của nó được trình bày trong Bảng 4.


Bảng 4: Các thuộc tính và tập giá trị của nó

Nguồn: Tác giả tổng hợp từ bộ dữ liệu


- Sản phẩm, dịch vụ sử dụng:

Loại 1: Tiền gửi và các dịch vụ khác.

Loại 2: Chỉ sử dụng dịch vụ thanh toán.

Loại 3: Không sử dụng.

- Tình hình trả nợ gốc và lãi:

Loại 1: Luôn trả nợ đúng hạn.

Loại 2: Đã bị gia hạn nợ, hiện trả nợ tốt.

Loại 3: Đã có nợ quá hạn hoặc khách hàng mới.

Loại 4: Đã có nợ quá hạn, khách hàng trả nợ không ổn định.

Loại 5: Hiện đang có nợ quá hạn.

- Uy tín giao dịch:

Loại 1: Có giao dịch vào, ra đều đặn hoặc trả nợ đầy đủ.

Loại 2: Khách hàng mới, chưa cấp hạn mức.

Loại 3: Từ 2 đến 3 tháng không có giao dịch tiền vào và (hoặc) phát sinh nợ loại 2.

Loại 4: Trên 3 tháng không có giao dịch tiền vào và (hoặc) phát sinh nợ loại 3, 4, 5.

Trong quá trình DM, công việc tiền xử lý dữ liệu trước khi đưa vào mô hình là rất cần thiết. Bước này cho biết dữ liệu qua thu thập ban đầu có thể được áp dụng thích hợp với các mô hình DM cụ thể. Các công việc bao gồm:

- Filtering Attributes: Chọn các thuộc tính phù hợp với mô hình.

- Filtering Sample: Lọc các mẫu dữ liệu cho mô hình.

- Transformation: Chuyển đổi kiểu dữ liệu cho phù hợp.

- Discretization: Rời rạc hóa dữ liệu.

Cụ thể đối với thuộc tính được mã hóa mô tả tại Bảng 5, 6, 7, 8, 9.

Bảng 5: Gán nhãn cho thuộc tính “tuổi”

Nguồn: Tác giả tổng hợp từ bộ dữ liệu

Bảng 6: Gán nhãn cho thuộc tính

“số người phụ thuộc”

Nguồn: Tác giả tổng hợp từ bộ dữ liệu

Bảng 7: Gán nhãn cho thuộc tính

“thời gian công tác”

Nguồn: Tác giả tổng hợp từ bộ dữ liệu

Bảng 8: Gán nhãn cho thuộc tính

“thu nhập hằng tháng”

Nguồn: Tác giả tổng hợp từ bộ dữ liệu

Bảng 9: Gán nhãn cho thuộc tính

“tỉ lệ số tiền phải trả trên thu nhập”

Nguồn: Tác giả tổng hợp từ bộ dữ liệu


3. Thực nghiệm

Sau khi đã thực hiện qua bước tiền xử lý dữ liệu, tác giả tiến hành phân loại dữ liệu bằng thuật toán C4.5. Trước khi tiến hành phân loại, tác giả chọn chế độ kiểm thử để xây dựng tập kiểm thử và tập huấn luyện. Weka hỗ trợ 4 chế độ kiểm thử:

- Use training set: Sử dụng chính tập training data để tiến hành kiểm thử.

- Supplied test set: Sử dụng tập dữ liệu khác để tiến hành kiểm thử.

- Cross-validation: Chia dữ liệu thành nhiều phần để thực hiện thành nhiều lần đánh giá kết quả.

- Percentage split: Chia dữ liệu thành hai phần theo tỉ lệ %, một phần dùng để xây dựng mô hình, một phần dành cho kiểm thử.

Sử dụng chế độ kiểm thử Use training set thu được kết quả như Hình 2.

Hình 2: Kết quả thuật toán dưới dạng Text


Nguồn: Tác giả tổng hợp từ phần mềm Weka

Kết quả thu được sau quá trình huấn luyện là tập các luật thu được dạng mô hình cây như sau:

TGCongtac = 2

| UytinGD = Loai 1

| | Songuoiphuthuoc = 1

| | | Trinhdohocvan = TrenDH: AA (1.0)

| | | Trinhdohocvan = Daihoc

| | | | SPDVsudung = Loai 1: AAA (3.0)

| | | | SPDVsudung = Loai 2: AA (2.0)

| | | Trinhdohocvan = Trunghoc: AA (0.0)

| | | Trinhdohocvan = Duoitrunghoc: BBB (2.0)

| | | Trinhdohocvan = Caodang: AA (2.0)

| | Songuoiphuthuoc = 2: AA (11.0)

| | Songuoiphuthuoc = 3: BBB (1.0)

| | Songuoiphuthuoc = 4: AA (0.0)

| | Songuoiphuthuoc = 5: A (1.0)


Căn cứ vào các luật được sinh ra như trên, chúng ta có thể diễn giải các luật đó cụ thể hơn từ cây quyết định:

- Luật 1: IF (TGCongtac = 1) AND (UytinGD = Loai 1) AND (SPDVsudung = Loai 1) AND (TTNhao = Chusohuu) THEN (XHTD = AAA).

- Luật 2: IF (TGCongtac = 1) AND (UytinGD = Loai 1) AND (SPDVsudung = Loai 1) AND (TTNhao = Thue) THEN (XHTD = AA).

- Luật 3: IF (TGCongtac = 1) AND (UytinGD = Loai 1) AND (SPDVsudung = Loai 2) AND (Songuoiphuthuoc = 1) AND (Tuoi = 1) THEN (XHTD = AA).

- Luật 4: IF (TGCongtac = 1) AND (UytinGD = Loai 1) AND (SPDVsudung = Loai 2) AND (Songuoiphuthuoc = 1) AND (Tuoi = 2) THEN (XHTD = BBB).

- Luật 5: IF (TGCongtac = 1) AND (UytinGD = Loai 1) AND (SPDVsudung = Loai 2) AND (Songuoiphuthuoc = 1) AND (Tuoi = 3) AND (Trinhdohocvan = Daihoc THEN (XHTD = AA).

- Luật 6: IF (TGCongtac = 2) AND (UytinGD = Loai 1) AND (Songuoiphuthuoc = 1) AND (Trinhdohocvan = TrenDH) THEN (XHTD = AA).

- Luật 7: IF (TGCongtac = 2) AND (UytinGD = Loai 1) AND (Songuoiphuthuoc = 1) AND (Trinhdohocvan = Daihoc) AND (SPDVsudung = Loai 1) THEN (XHTD = AAA).

- Luật 8: IF (TGCongtac = 2) AND (UytinGD = Loai 4) AND (SPDVsudung = Loai 1) AND (Oto = Khong) AND (TSThechap = Khong) THEN (XHTD = CCC).

Bài toán xây dựng cây quyết định xếp hạng tín dụng được thử nghiệm trên phần mềm Weka với bộ số liệu của MSB thu được kết quả tương đối tốt. Dựa vào kết quả thực nghiệm, thu được các thông tin như Hình 3.

Hình 3: Kết quả sau khi thực hiện trên phần mềm Weka

Nguồn: Tác giả tổng hợp từ phần mềm Weka


Từ Hình 3, ta thấy lớp “AAA”có độ chính xác cao nhất với tỉ lệ các mẫu được phân lớp đúng đạt 97,9%, chỉ có 0,4% mẫu bị phân lớp sai. Tỉ lệ các mẫu thuộc lớp “AAA” được phân loại đúng lần lượt chiếm 96,8%, 97,9% trên tổng số các mẫu được phân loại vào lớp "AAA" và trên tổng số các mẫu có giá trị thực thuộc lớp này. Giá trị F-Measure và ROC Area càng tiến gần về 1 có nghĩa mô hình càng tốt. Tương tự với các lớp còn lại.

Với mô hình cây quyết định, kết quả được mô phỏng phân loại một cách trực quan, dễ hiểu đối với người sử dụng, có thể rút ra các luật một cách nhanh chóng, dễ dàng dự đoán trước khả năng của khách hàng, từ đó đưa ra những quyết định phù hợp hơn.

4. Kết luận và hướng phát triển

Các ngân hàng thương mại thường xuyên phải đưa ra các quyết định liên quan đến quá trình cho vay của mình với mục tiêu giảm thiểu tối đa rủi ro cho vay. Với dự đoán đã thu được, nhà quản trị ngân hàng có thể sẽ dễ dàng ra quyết định tùy vào tình huống thực tế. Tuy nhiên, với bộ dữ liệu thu thập được có kích thước tương đối nhỏ, kết quả phân loại khi sử dụng cây quyết định đối với các trường hợp khác có thể chưa cao. Các luật cung cấp thêm thông tin, gợi ý trong quá trình xếp hạng tín dụng nhưng không dựa vào hoàn toàn. Tùy vào từng trường hợp, từng khách hàng cụ thể mà ngân hàng có thể áp dụng một cách linh hoạt. Như vậy, với những kết quả đã rút ra được, có thể khẳng định rằng, phương pháp cây quyết định áp dụng trong xếp hạng tín dụng là một hướng tiếp cận tiềm năng. Do đó, nhóm tác giả đề xuất một số vấn đề cần nghiên cứu, phát triển để các ngân hàng có thể áp dụng mô hình cây quyết định như sau:

Thứ nhất, cần bổ sung thêm dữ liệu cho tập huấn luyện để mô hình cây quyết định có độ tin cậy cao hơn và hoạt động hiệu quả hơn. Đặc biệt là việc tổng hợp các nguồn dữ liệu từ các ngân hàng thương mại khác nhau.

Thứ hai, tiếp tục phát triển, hoàn thiện theo hướng DM trở thành phần mềm trong tín dụng tiêu dùng nhằm hỗ trợ cán bộ tín dụng đưa ra quyết định cho khách hàng vay và quản trị rủi ro tín dụng hiệu quả.

Thứ ba, tiếp tục nghiên cứu các thuật toán về DM và học máy nhằm áp dụng nhiều hơn nữa các kỹ thuật này trong lĩnh vực tài chính, ngân hàng.

Thứ tư, đẩy mạnh hợp tác nghiên cứu giữa trường đại học với ngân hàng thương mại để ứng dụng các nghiên cứu từ trường đại học vào thực tế, đồng thời, sử dụng được nguồn dữ liệu từ ngân hàng thương mại trong việc nghiên cứu.

Tài liệu tham khảo:

1. Bhatia, S., Sharma, P., Burman, R., Hazari, S., & Hande, R, (2017), Credit scoring using machine learning techniques., International Journal of Computer Applications, 161(11), pages 1-4.

2. Ian H. Witten, Eibe Frank, and Marker Hall, (2011), “Data Mining- Practical Machine Learning Tools and Techniques”, Morgan Kaufmann.

3. Leo, M., Sharma, S., & Maddulety, K., (2019), Machine learning in banking risk managemen, t: A literature review. Risks, 7(1), 29.

4. M Madhavi, M V R Srivatsava, 92023), “Fraud Detection in Banking”, International Journal of Engineering and Advanced Technology, Volume 3, Issue 1, pages 322-358.

5. M. Al-Shabi, 92019), Credit card fraud detection using autoencoder model in unbalanced datasets, J. Adv. Math. Comput. Sci, 33, pages 1-16.

6. Meenakshi, D., & Janani, (2019), Credit Card Fraud Detection Using Random Forest., International Research Journal of Engineering and Technology (IRJET), 6.

7. S. Ghosh, DL Reilly, (2004), Credit card fraud detection with a neural-network, Proceedings of the Twenty-Seventh Hawaii International Conference on. Vol. 3. IEEE, 1994.


ThS. Nguyễn Dương Hùng; ThS. Ngô Thùy Linh

Khoa Công nghệ thông tin và Kinh tế số, Học viện Ngân hàng


https://tapchinganhang.gov.vn

Tin bài khác

Phương thức hậu kiểm chi ngân sách qua Kho bạc Nhà nước theo mô hình hai cấp

Phương thức hậu kiểm chi ngân sách qua Kho bạc Nhà nước theo mô hình hai cấp

Nghiên cứu phân tích phương thức hậu kiểm trong kiểm soát chi ngân sách nhà nước qua hệ thống Kho bạc Nhà nước trong bối cảnh hiện đại hóa tài chính công theo Quyết định số 385/QĐ-BTC. Trên cơ sở thực tiễn và kinh nghiệm quốc tế, nghiên cứu khẳng định hậu kiểm là xu hướng tất yếu nhằm nâng cao hiệu quả kiểm soát chi, giảm thủ tục hành chính và thúc đẩy giải ngân. Tác giả đề xuất mô hình hậu kiểm gồm ba nội dung trọng tâm: Tổ chức bộ máy tách biệt chức năng thanh toán và kiểm soát, kiểm soát theo mức độ rủi ro và ứng dụng công nghệ, trí tuệ nhân tạo.
Các nhân tố ảnh hưởng đến khả năng tiếp cận tài chính xanh của doanh nghiệp tại Việt Nam

Các nhân tố ảnh hưởng đến khả năng tiếp cận tài chính xanh của doanh nghiệp tại Việt Nam

Việc nghiên cứu, giải quyết các rào cản trong tiếp cận nguồn tài chính xanh của doanh nghiệp tại Việt Nam là rất quan trọng nhằm thúc đẩy phát triển bền vững và bảo vệ môi trường, cũng như giúp doanh nghiệp nâng tầm giá trị trên thị trường quốc tế. Những rào cản hiện tại không chỉ làm chậm tiến trình thực hiện các dự án xanh mà còn cản trở việc đạt được các mục tiêu phát triển bền vững của quốc gia. Bài viết phân tích các nhân tố ảnh hưởng đến việc tiếp cận tài chính xanh của các doanh nghiệp tại Việt Nam; từ đó, đề xuất một số khuyến nghị để hỗ trợ các doanh nghiệp tiếp cận dễ dàng hơn với nguồn tài chính xanh, bảo đảm sự đồng bộ, hiệu quả trong việc thực hiện các chính sách phát triển bền vững của Chính phủ.
Các yếu tố tác động đến hiệu quả hoạt động của các chi nhánh ngân hàng nước ngoài trên địa bàn Thành phố Hồ Chí Minh

Các yếu tố tác động đến hiệu quả hoạt động của các chi nhánh ngân hàng nước ngoài trên địa bàn Thành phố Hồ Chí Minh

Với kinh nghiệm hoạt động trong lĩnh vực ngân hàng quốc tế, các chi nhánh ngân hàng nước ngoài có hệ thống tổ chức, hoạt động, quản trị chuyên nghiệp, ứng dụng khoa học, công nghệ hiện đại, đội ngũ nhân sự có kinh nghiệm từ nước ngoài và đội ngũ nhân sự bản địa được đào tạo chất lượng cao, cung cấp các dịch vụ tài chính ngân hàng.
Kinh nghiệm cho các chủ thể tham gia hoạt động thanh toán quốc tế bằng phương thức thư tín dụng

Kinh nghiệm cho các chủ thể tham gia hoạt động thanh toán quốc tế bằng phương thức thư tín dụng

Việt Nam là một trong những quốc gia chủ động hội nhập kinh tế khi tham gia sâu rộng vào nhiều hiệp định thương mại tự do. Theo đó, phương thức thư tín dụng (L/C) cũng được sử dụng ngày càng phổ biến trong các hoạt động thanh toán quốc tế. Tuy nhiên, bên cạnh những lợi ích đạt được, các doanh nghiệp trong nước cũng phải đối mặt với những chiêu trò lừa đảo chào bán, mua hàng, ký kết hợp đồng giao dịch thương mại quốc tế với nhiều thủ đoạn đa dạng, tinh vi, khó phát hiện, gây tổn thất nặng nề về tài chính. Do đó, cần thiết có những bài học kinh nghiệm từ hoạt động thanh toán quốc tế bằng phương thức L/C trong bối cảnh nền kinh tế toàn cầu đang đối mặt với hàng loạt vấn đề nan giải.
Các yếu tố ảnh hưởng đến sự hài lòng của sinh viên khi mua sắm trực tuyến: Nghiên cứu tại các trường đại học trên địa bàn thành phố Thủ Dầu Một

Các yếu tố ảnh hưởng đến sự hài lòng của sinh viên khi mua sắm trực tuyến: Nghiên cứu tại các trường đại học trên địa bàn thành phố Thủ Dầu Một

Sử dụng phương pháp định tính và định lượng, nghiên cứu này điều tra các yếu tố ảnh hưởng đến sự hài lòng của sinh viên đại học khi tham gia mua sắm trực tuyến tại thành phố Thủ Dầu Một. Qua các bước kiểm định, nghiên cứu xác định những biến tác động đến sự hài lòng của sinh viên tại các trường đại học trên địa bàn thành phố Thủ Dầu Một khi tham gia mua sắm trực tuyến bao gồm: Tính tiện ích của nền tảng trực tuyến, chất lượng thông tin sản phẩm, chất lượng sản phẩm.
Dân trí tài chính số tại Việt Nam: Thực trạng và giải pháp

Dân trí tài chính số tại Việt Nam: Thực trạng và giải pháp

Bài viết nghiên cứu thực trạng dân trí tài chính số tại Việt Nam trong bối cảnh các sản phẩm tài chính số phát triển mạnh, nhưng hiểu biết của người dân còn hạn chế, tiềm ẩn nhiều rủi ro. Trên cơ sở đó, bài viết đề xuất các giải pháp nâng cao kiến thức tài chính số cho nhóm dễ tổn thương và mở rộng khả năng tiếp cận dịch vụ an toàn, góp phần bảo vệ người tiêu dùng và thúc đẩy hệ sinh thái tài chính số bền vững.
Kiểm soát hành vi “tẩy xanh” hướng tới tăng trưởng bền vững - Góc nhìn từ khía cạnh pháp lý

Kiểm soát hành vi “tẩy xanh” hướng tới tăng trưởng bền vững - Góc nhìn từ khía cạnh pháp lý

Ô nhiễm môi trường đang là vấn đề cấp bách toàn cầu, đặc biệt trong bối cảnh chuyển đổi số mạnh mẽ hiện nay, đòi hỏi sự chung tay hành động từ cả quốc gia và từng cá nhân. Tuy nhiên, nhiều doanh nghiệp và tổ chức tài chính vẫn đặt lợi nhuận lên trên trách nhiệm xã hội, thể hiện qua hành vi “tẩy xanh”. Việc nhận diện và kiểm soát hành vi này là cần thiết nhằm nâng cao hiệu quả hoạt động và thúc đẩy chuyển đổi sang nền kinh tế xanh, hướng tới phát triển bền vững.
Sự tham gia của Thừa phát lại vào hoạt động xử lý nợ xấu của tổ chức tín dụng: Thực trạng pháp luật và kiến nghị

Sự tham gia của Thừa phát lại vào hoạt động xử lý nợ xấu của tổ chức tín dụng: Thực trạng pháp luật và kiến nghị

Nợ xấu là thách thức lớn đối với sự ổn định tài chính, trong khi việc xử lý qua cơ quan thi hành án còn gặp nhiều khó khăn. Thừa phát lại được xem là giải pháp thay thế hỗ trợ các tổ chức tín dụng thu hồi nợ hiệu quả hơn, nhưng khung pháp lý hiện hành chưa tạo điều kiện phát huy vai trò này. Bài viết phân tích các quy định pháp luật liên quan, chỉ ra bất cập và tác động đến việc xử lý nợ xấu. Từ đó, nghiên cứu đề xuất giải pháp hoàn thiện pháp lý, tham khảo kinh nghiệm của Pháp.
Xem thêm
Xử lý tài sản thế chấp là nhà ở hình thành trong tương lai tại các tổ chức tín dụng

Xử lý tài sản thế chấp là nhà ở hình thành trong tương lai tại các tổ chức tín dụng

Trong những năm gần đây, chế định pháp lý về thế chấp nhà ở hình thành trong tương lai để bảo đảm thực hiện nghĩa vụ tại các tổ chức tín dụng (TCTD) ngày càng được các cơ quan có thẩm quyền chú trọng xây dựng và hoàn thiện. Tuy nhiên, hiện nay, các quy định pháp luật hiện hành về vấn đề này vẫn chưa thực sự đầy đủ và còn những bất cập, gây khó khăn trong việc áp dụng, bởi đây là một loại tài sản mang tính chất đặc thù và tiềm ẩn nhiều rủi ro so với các loại tài sản hiện hữu. Vì vậy, cần có cơ chế rõ ràng, hướng dẫn cụ thể để bảo đảm thực hiện nghĩa vụ, giảm thiểu những rủi ro cho các TCTD trong việc nhận thế chấp loại hình tài sản này.
Cơ chế thử nghiệm có kiểm soát - Bước ngoặt chiến lược thúc đẩy Fintech và chuyển đổi số ngành Ngân hàng

Cơ chế thử nghiệm có kiểm soát - Bước ngoặt chiến lược thúc đẩy Fintech và chuyển đổi số ngành Ngân hàng

Ngày 29/4/2025, Chính phủ đã ban hành Nghị định số 94/2025/NĐ-CP về cơ chế thử nghiệm có kiểm soát trong lĩnh vực ngân hàng. Đây là Nghị định đầu tiên tại Việt Nam thiết lập khuôn khổ pháp lý cho việc thử nghiệm các sản phẩm, mô hình, dịch vụ tài chính mới ứng dụng công nghệ, đồng thời là bước tiến quan trọng trong quá trình thể chế hóa đổi mới sáng tạo tài chính tại Việt Nam. Không chỉ góp phần hiện thực hóa chiến lược tài chính toàn diện quốc gia và chuyển đổi số ngành Ngân hàng, Nghị định này còn tạo ra các tác động sâu rộng đối với cả hệ thống ngân hàng thương mại và nền kinh tế.
Góc độ pháp lý về rào cản của thủ tục thông báo tập trung kinh tế theo Luật Cạnh tranh đối với hoạt động của doanh nghiệp

Góc độ pháp lý về rào cản của thủ tục thông báo tập trung kinh tế theo Luật Cạnh tranh đối với hoạt động của doanh nghiệp

Thủ tục thông báo tập trung kinh tế theo Luật Cạnh tranh năm 2018, dù đóng vai trò quan trọng trong việc kiểm soát các hành vi hạn chế cạnh tranh nhưng lại đang tạo ra những rào cản đáng kể cho doanh nghiệp do thời gian thẩm định kéo dài, yêu cầu hồ sơ phức tạp, đòi hỏi nhiều tài liệu chuyên sâu như mô tả giao dịch và phân tích thị trường. Những yếu tố này không chỉ làm tăng chi phí tuân thủ, rủi ro pháp lý, nguy cơ rò rỉ thông tin, mà còn cản trở doanh nghiệp tận dụng cơ hội kinh doanh, đặc biệt trong bối cảnh cạnh tranh toàn cầu ngày càng gia tăng.
Kinh nghiệm thế giới về sử dụng tín chỉ các-bon làm tài sản bảo đảm ngân hàng  và khuyến nghị đối với Việt Nam

Kinh nghiệm thế giới về sử dụng tín chỉ các-bon làm tài sản bảo đảm ngân hàng và khuyến nghị đối với Việt Nam

Phát triển các sản phẩm tài chính mới gắn với tín chỉ các-bon là chiến lược then chốt để thu hút dòng vốn tư nhân vào lĩnh vực giảm phát thải. Các sản phẩm như trái phiếu xanh được gắn với việc phát hành hoặc mua tín chỉ các-bon có thể tạo ra các dòng tiền ổn định và hấp dẫn cho nhà đầu tư bền vững (Asian Development Bank, 2019). Các khoản vay xanh thế chấp bằng tín chỉ các-bon cho phép doanh nghiệp tiếp cận vốn với chi phí thấp hơn nếu cam kết tạo ra lượng giảm phát thải xác thực. Việc đa dạng hóa các sản phẩm tài chính gắn với tín chỉ các-bon không chỉ tạo thêm động lực kinh tế cho các dự án xanh mà còn giúp thị trường các-bon phát triển theo hướng tích hợp sâu rộng với hệ sinh thái tài chính quốc gia.
Tiếp tục điều hành chính sách tiền tệ linh hoạt, chủ động, thích ứng với tình hình mới

Tiếp tục điều hành chính sách tiền tệ linh hoạt, chủ động, thích ứng với tình hình mới

Sáng 09/7/2025, Ngân hàng Nhà nước Việt Nam (NHNN) tổ chức Hội nghị sơ kết hoạt động ngân hàng 6 tháng đầu năm và triển khai nhiệm vụ 6 tháng cuối năm 2025. Tham dự Hội nghị có Thống đốc NHNN Nguyễn Thị Hồng và các đồng chí trong Ban Lãnh đạo NHNN, lãnh đạo các vụ, cục, đơn vị thuộc NHNN, các ngân hàng thương mại (NHTM) và điểm cầu trực tuyến tới NHNN các khu vực trên cả nước.
Vị thế của đô la Mỹ trên thị trường tài chính toàn cầu

Vị thế của đô la Mỹ trên thị trường tài chính toàn cầu

Tháng 4/2025 chứng kiến cuộc khủng hoảng niềm tin nghiêm trọng đối với đồng USD, bất chấp lợi suất trái phiếu Mỹ tăng. Bài viết phân tích những bất thường trên thị trường tài chính toàn cầu sau các biện pháp thuế quan gây tranh cãi của Mỹ, đồng thời chỉ ra nguyên nhân từ sự thay đổi cấu trúc tài chính, phi toàn cầu hóa và biến động địa chính trị. Nếu xu hướng này tiếp diễn, USD có nguy cơ mất dần vị thế, đe dọa sự ổn định của hệ thống tài chính thế giới.
Kinh nghiệm quốc tế về áp dụng Hiệp ước vốn Basel III  trong hoạt động ngân hàng và khuyến nghị cho Việt Nam

Kinh nghiệm quốc tế về áp dụng Hiệp ước vốn Basel III trong hoạt động ngân hàng và khuyến nghị cho Việt Nam

Hiệp ước vốn Basel III là khuôn khổ nâng cao với sự sửa đổi và củng cố cả ba trụ cột của Basel II, đây là công cụ hỗ trợ đắc lực để nâng cao chất lượng quản trị rủi ro và năng lực cạnh tranh của các ngân hàng. Bài viết phân tích tình hình áp dụng các Hiệp ước vốn Basel của hệ thống ngân hàng trên thế giới, cùng với kinh nghiệm quốc tế và thực tiễn tại Việt Nam trong việc áp dụng Hiệp ước vốn Basel III, tác giả đưa ra một số đề xuất giải pháp chính sách cho hệ thống ngân hàng...
Hiểu biết tài chính và truyền tải chính sách tiền tệ: Kinh nghiệm từ Ngân hàng Trung ương châu Âu và một số khuyến nghị

Hiểu biết tài chính và truyền tải chính sách tiền tệ: Kinh nghiệm từ Ngân hàng Trung ương châu Âu và một số khuyến nghị

Bài viết phân tích vai trò của hiểu biết tài chính trong việc truyền dẫn chính sách tiền tệ, dựa trên khảo sát của Ngân hàng Trung ương châu Âu; đồng thời, đề xuất tăng cường giáo dục và truyền thông tài chính để hỗ trợ chính sách tiền tệ và phát triển kinh tế bền vững.
Giải mã bẫy thu nhập trung bình: Kinh nghiệm Đông Á và một số khuyến nghị chính sách

Giải mã bẫy thu nhập trung bình: Kinh nghiệm Đông Á và một số khuyến nghị chính sách

Bài viết này tổng hợp bài học từ các nền kinh tế đã thành công vượt qua "bẫy thu nhập trung bình" như Hàn Quốc, Singapore, Đài Loan (Trung Quốc), Malaysia và Trung Quốc. Trên cơ sở đó, tác giả nêu một số khuyến nghị chính sách đối với Việt Nam nhằm duy trì đà tăng trưởng, tránh rơi vào “bẫy” và hướng tới mục tiêu thu nhập cao vào năm 2045.
Kinh tế vĩ mô thế giới và trong nước các tháng đầu năm 2025: Rủi ro, thách thức và một số đề xuất, kiến nghị

Kinh tế vĩ mô thế giới và trong nước các tháng đầu năm 2025: Rủi ro, thách thức và một số đề xuất, kiến nghị

Việt Nam đã đặt mục tiêu tăng trưởng GDP năm 2025 đạt 8% trở lên, nhằm tạo nền tảng vững chắc cho giai đoạn tăng trưởng hai con số từ năm 2026. Đây là một mục tiêu đầy thách thức, khó khăn, đặc biệt trong bối cảnh kinh tế toàn cầu còn nhiều bất định và tăng trưởng khu vực đang có xu hướng chậm lại, cùng với việc Hoa Kỳ thực hiện áp thuế đối ứng với các đối tác thương mại, trong đó có Việt Nam. Mặc dù vậy, mục tiêu tăng trưởng kinh tế trên 8% năm 2025 vẫn có thể đạt được, với điều kiện phải có sự điều hành chính sách linh hoạt, đồng bộ và cải cách thể chế đủ mạnh để khơi thông các điểm nghẽn về đầu tư, năng suất và thị trường…

Thông tư số 10/2025/TT-NHNN quy định về tổ chức lại, thu hồi Giấy phép và thanh lý tài sản của quỹ tín dụng nhân dân

Thông tư số 07/2025/TT-NHNN Sửa đổi, bổ sung một số điều của Thông tư số 39/2024/TT-NHNN ngày 01 tháng 7 năm 2024 của Thống đốc Ngân hàng Nhà nước Việt Nam quy định về kiểm soát đặc biệt đối với tổ chức tín dụng

Thông tư số 08/2025/TT-NHNN Sửa đổi, bổ sung một số điều của Thông tư số 43/2015/TT-NHNN ngày 31 tháng 12 năm 2015 của Thống đốc Ngân hàng Nhà nước Việt Nam quy định về tổ chức và hoạt động của phòng giao dịch bưu điện trực thuộc Ngân hàng thương mại cổ phần Bưu điện Liên Việt, Thông tư số 29/2024/TT-NHNN ngày 28 tháng 6 năm 2024 của Thống đốc Ngân hàng Nhà nước Việt Nam quy định về quỹ tín dụng nhân dân và Thông tư số 32/2024/TT-NHNN ngày 30 tháng 6 năm 2024 của Thống đốc Ngân hàng Nhà nướ

Nghị định số 94/2025/NĐ-CP ngày 29 tháng 4 năm 2025 của Chính phủ quy định về Cơ chế thử nghiệm có kiểm soát trong lĩnh vực ngân hàng

Nghị định số 26/2025/NĐ-CP của Chính phủ ngày 24/02/2025 quy định chức năng, nhiệm vụ, quyền hạn và cơ cấu tổ chức của Ngân hàng Nhà nước Việt Nam

Thông tư số 59/2024/TT-NHNN ngày 31/12/2024 Sửa đổi, bổ sung một số điều của Thông tư số 12/2021/TT-NHNN ngày 30 tháng 7 của 2021 của Thống đốc Ngân hàng Nhà nước Việt Nam quy định về việc tổ chức tín dụng, chi nhánh ngân hàng nước ngoài mua, bán kỳ phiếu, tín phiếu, chứng chỉ tiền gửi, trái phiếu do tổ chức tín dụng, chi nhánh ngân hàng nước ngoài khác phát hành trong nước

Thông tư số 60/2024/TT-NHNN ngày 31/12/2024 Quy định về dịch vụ ngân quỹ cho tổ chức tín dụng, chi nhánh ngân hàng nước ngoài

Thông tư số 61/2024/TT-NHNN ngày 31/12/2024 Quy định về bảo lãnh ngân hàng

Thông tư số 62/2024/TT-NHNN ngày 31/12/2024 Quy định điều kiện, hồ sơ, thủ tục chấp thuận việc tổ chức lại ngân hàng thương mại, tổ chức tín dụng phi ngân hàng

Thông tư số 63/2024/TT-NHNN ngày 31/12/2024 Quy định về hồ sơ, thủ tục thu hồi Giấy phép và thanh lý tài sản của tổ chức tín dụng, chi nhánh ngân hàng nước ngoài; hồ sơ, thủ tục thu hồi Giấy phép văn phòng đại diện tại Việt Nam của tổ chức tín dụng nước ngoài, tổ chức nước ngoài khác có hoạt động ngân hàng