Xử lí đồng thời dữ liệu lớn trong kiến trúc thông tin ngân hàng

Tóm tắt: Ngành Ngân hàng đang phải đối mặt với việc lượng dữ liệu được tạo ra ngày càng lớn, do đó, yêu cầu có một hệ thống xử lí dữ liệu hiệu suất cao và tiết kiệm chi phí để quản lí dữ liệu. Bài viết giới thiệu một giải pháp cơ sở dữ liệu hỗn hợp dựa trên việc xử lí đồng thời sử dụng cơ sở dữ liệu giao dịch trên nền tảng Hadoop và Storm. Phương pháp tải dữ liệu được thiết lập theo quy trình trích xuất - tải (nạp) - xử lí dữ liệu. Để xác minh hiệu suất của giải pháp đề xuất so với cơ sở dữ liệu Oracle truyền thống, các mô hình xử lí dữ liệu thông thường được áp dụng trên tập dữ liệu thực tế. Kết quả cho thấy, nguyên mẫu cơ sở dữ liệu hỗn hợp không chỉ mang lại hiệu suất tốt hơn mà còn tiết kiệm chi phí hơn.

Từ khóa: Kiến trúc dữ liệu ngân hàng, dữ liệu lớn, xử lí đồng thời dữ liệu lớn, trích xuất - tải (nạp) - xử lí, cấu trúc hỗn hợp.

PROCESSING BIG DATA IN BANKING INFORMATION ARCHITECTURE

Abstract: The banking industry faces the challenges of generating a massive amount of data on a daily basis, including recording historical transaction information, thus requiring a high-performance and cost-effective data processing system for data management. This paper introduces a hybrid database solution based on parallel processing, utilizing transactional databases, the Hadoop platform, and Storm. The data loading method is established as Extract - Load - Transform. To verify the performance of the proposed solution compared to the traditional Oracle database, five typical data processing models are applied to real-world datasets. The results demonstrate that the hybrid database prototype not only delivers better performance but also reduces costs.

Keywords: Banking data architecture, big data, parallel processing, extract - load - transform, hybrid structure.

1. Đặt vấn đề

Dữ liệu được coi là thông tin quan trọng trong ngành Ngân hàng và tồn tại trong mỗi phân đoạn hoạt động kinh doanh của ngân hàng. Hiện nay, các yếu tố như hình thức dữ liệu, mối quan hệ giữa các dữ liệu, thời gian xử lí và yêu cầu ứng dụng dữ liệu đã trải qua những thay đổi đáng kể. Các ngân hàng cần phải tiếp nhận cả dữ liệu nội bộ và dữ liệu từ bên ngoài. Công nghệ dữ liệu lớn có thể nâng cao hiệu suất của việc thu thập, xử lí, lưu trữ và chia sẻ dữ liệu. Trong kiến trúc dữ liệu lớn của ngành Ngân hàng, cơ sở dữ liệu giao dịch truyền thống thường được sử dụng để lưu trữ dữ liệu có cấu trúc, trong khi Hadoop được sử dụng để mở rộng việc xử lí dữ liệu không có cấu trúc. Tuy nhiên, với sự gia tăng về khối lượng dữ liệu, tốc độ phân tích và xử lí dữ liệu, kiến trúc dữ liệu lớn truyền thống không còn đáp ứng được nhu cầu, đồng thời, làm hạn chế sự phát triển kinh doanh.

Cơ sở dữ liệu xử lí đồng thời quy mô lớn áp dụng kiến trúc phân tán phẳng và không chia sẻ. Mỗi nút dữ liệu trong cụm cơ sở dữ liệu tận dụng tài nguyên phần cứng riêng để thực hiện các nhiệm vụ song song. Đây có thể cung cấp một nền tảng tính toán dữ liệu phổ biến, hiệu quả về mặt chi phí để quản lí các nguồn dữ liệu quy mô lớn trong ngành Ngân hàng với hiệu suất cao, khả năng sẵn có và mở rộng. Dưới sự hỗ trợ của cơ sở dữ liệu xử lí đồng thời quy mô lớn, dữ liệu lớn có thể cung cấp dịch vụ dữ liệu toàn diện và kịp thời, nâng cao khả năng tích hợp các nguồn tài nguyên dữ liệu, cải thiện khả năng xử lí và phân tích dữ liệu.

Bài viết đề xuất một kiến trúc dữ liệu lớn cho ngành Ngân hàng bằng cách xây dựng một cơ sở dữ liệu và công nghệ kết hợp dựa trên xử lí đồng thời quy mô lớn, cơ sở dữ liệu giao dịch, Hadoop và Storm. Kiến trúc kết hợp này được chia thành các tầng truy cập dữ liệu, tầng trao đổi dữ liệu, tầng dịch vụ dữ liệu và tầng ứng dụng dữ liệu.

2. Giá trị của dữ liệu lớn trong ngân hàng

Dữ liệu lớn đóng vai trò quan trọng trong việc tạo ra giá trị vượt trội trong nhiều kịch bản khác nhau.

Dữ liệu lớn giúp chúng ta hiểu rõ hơn về dữ liệu và xây dựng quản lí vòng đời khách hàng. Ngân hàng sử dụng công nghệ phân tích dữ liệu lớn để nắm bắt thông tin chi tiết về khách hàng, tạo dựng cái nhìn toàn diện, cung cấp dịch vụ cá nhân hóa và định giá khác biệt dựa trên nhu cầu đa dạng của khách hàng. Đồng thời, công nghệ này còn hỗ trợ nhận diện chính xác khách hàng tiềm năng và kích hoạt khách hàng hiện tại một cách hiệu quả. Bằng cách áp dụng mô hình Internet vào hoạt động kinh doanh ngân hàng truyền thống và phát triển các dịch vụ đổi mới nhằm đánh giá khả năng vay, trả nợ của khách hàng, ngân hàng có thể tăng lợi nhuận trong tương lai.

Dữ liệu lớn còn đóng vai trò quan trọng trong việc kiểm soát rủi ro. Trong kinh doanh tín dụng truyền thống, thông tin sử dụng để đánh giá tín dụng dựa trên kinh nghiệm bao gồm báo cáo tài chính, báo cáo tín dụng và tài sản bảo đảm. Tuy nhiên, quan điểm truyền thống chỉ phản ánh trạng thái tĩnh của khách hàng và hạn chế khả năng xác định rủi ro thực sự. Bằng cách áp dụng nền tảng kiểm soát rủi ro dựa trên công nghệ dữ liệu lớn, thông tin từ nhiều nguồn khác nhau, bao gồm cả thông tin công khai từ Chính phủ và thông tin trên Internet, có thể được tích hợp hoàn toàn vào quy trình kinh doanh. Kết hợp với trí tuệ nhân tạo và khai thác dữ liệu, công nghệ này giúp nâng cao cường độ quản lí rủi ro và hiệu quả của quyết định rủi ro thời gian thực.

Dữ liệu lớn còn đóng vai trò quan trọng trong việc xây dựng hệ sinh thái dữ liệu tài chính vượt biên giới và hợp tác dữ liệu. Để tận dụng dữ liệu từ các bên tài chính, thu thập thông tin từ nhiều ngành công nghiệp và vùng lãnh thổ khác nhau, ngân hàng tích hợp, áp dụng dữ liệu chính xác, kịp thời theo cả chiều ngang và chiều dọc. Đồng thời, ngân hàng cũng tận dụng những lợi ích của các bên tài chính truyền thống và xây dựng một hệ sinh thái dữ liệu hoạt động.

3. Cơ sở dữ liệu quy mô lớn

Hệ thống xử lí đồng thời quy mô lớn bao gồm nhiều đơn vị xử lí được kết nối không chặt chẽ. Mỗi đơn vị trong hệ thống có các tài nguyên riêng như bộ nhớ, ổ cứng và các thành phần khác. Trong từng đơn vị, có một bản sao của hệ điều hành và cơ sở dữ liệu để quản lí. Đặc điểm chính của cấu trúc này là không chia sẻ tài nguyên giữa các đơn vị. Sự phát triển dữ liệu lớn đã thúc đẩy sự đổi mới công nghệ trong ngành công nghiệp cơ sở dữ liệu. Nhấn mạnh nhu cầu mạnh mẽ về hiệu năng xử lí. Các cơ sở dữ liệu phổ biến trong kiến trúc xử lí đồng thời quy mô lớn bao gồm: OldSQL, NewSQL và NoSQL. Cả ba loại cơ sở dữ liệu này sử dụng tính toán phân tán, hệ thống tệp phân tán và công nghệ tính toán trong bộ nhớ, tận dụng các công nghệ phần cứng mới như bộ nhớ lớn, Flash, SSD và kết nối mạng tốc độ cao. Trong cơ sở dữ liệu xử lí đồng thời quy mô lớn, cũng áp dụng lưu trữ cột. Lưu trữ dòng phù hợp cho việc thêm, xóa hoặc thay đổi dữ liệu nhỏ, nhưng mất nhiều thời gian và tài nguyên để xây dựng chỉ mục và tạo trước. Lưu trữ cột chỉ truy cập các cột liên quan trong truy vấn, giảm thời gian và tài nguyên với số lượng lớn. Điều này đặc biệt phù hợp cho việc truy vấn, thống kê và phân tích dữ liệu lớn của ngân hàng.

Ngân hàng sử dụng cơ sở dữ liệu xử lí đồng thời quy mô lớn có thể đạt được các lợi ích sau từ việc triển khai phần cứng và phát triển phần mềm:

- Chi phí phần cứng thấp và khả năng mở rộng cao: Sử dụng máy chủ PC với kiến trúc X86 giúp giảm chi phí so với việc sử dụng máy chủ UNIX đắt tiền và mảng đĩa. Hệ thống này có quá trình vận hành và bảo trì đơn giản, hỗ trợ mở rộng trực tuyến.

- Lưu trữ cột và tính toán song song: Áp dụng công nghệ xử lí phân tán song song dựa trên lưu trữ cột trong nền tảng dữ liệu lớn giúp tránh tình trạng chặn hiệu suất đơn điểm và sự cố đơn điểm. Mỗi nút có thể hỗ trợ dữ liệu nguyên gốc lên đến 100TB. Các nút trong cụm được chia sẻ miễn phí, với khả năng tính toán ngang hàng và có thể hỗ trợ lưu trữ và tính toán lên đến 10PB dữ liệu.

- Lưu trữ nén hiệu quả: Sử dụng chiến lược phân phối dữ liệu bằng hàm băm (hash) hoặc ngẫu nhiên giúp giảm không gian lưu trữ từ 1- 20 lần và cải thiện hiệu năng vào/ra của máy tính. Cơ sở dữ liệu xử lí đồng thời quy mô lớn hỗ trợ nén cấp độ thực thể, cấp độ thư viện và cấp độ bảng.

- Chỉ mục thông minh: Sử dụng công nghệ chỉ mục thông minh lớn, tỉ lệ mở rộng chỉ mục không vượt quá 1%. So với chỉ mục truyền thống của Oracle, không gian chỉ mục được tiết kiệm rất nhiều. Chỉ mục thông minh chứa thông tin thống kê dựa trên cột, có thể được sử dụng trực tiếp trong quá trình truy xuất và xác định dữ liệu, đồng thời lọc dữ liệu một cách hiệu quả.

- Cơ chế dự phòng: Sử dụng cơ chế dự phòng để đảm bảo tính sẵn có cao của cụm. Đồng bộ hóa tự động có thể được thực hiện giữa các dữ liệu mảnh được cung cấp lẫn nhau. Thông qua bản sao, xử lí đồng thời quy mô lớn cung cấp giải pháp bảo vệ dự phòng, phát hiện và quản lí lỗi tự động, đồng bộ hóa tự động của siêu dữ liệu và dữ liệu dịch vụ.

4. Mô hình kết hợp kiến trúc dữ liệu lớn trong ngân hàng

Bài viết giới thiệu mô hình kết hợp kiến trúc dữ liệu lớn trong ngân hàng, bao gồm cơ sở dữ liệu giao dịch, cơ sở dữ liệu xử lí đồng thời quy mô lớn và Hadoop. Cơ sở dữ liệu giao dịch được sử dụng thực hiện xử lí giao dịch trực tuyến để xử lí dữ liệu kinh doanh trực tuyến, trong khi cơ sở dữ liệu xử lí đồng thời quy mô lớn xử lí dữ liệu có cấu trúc, mật độ giá trị cao và Hadoop xử lí dữ liệu có mật độ giá trị thấp.

4.1. Kiến trúc dữ liệu lớn ngân hàng

Kiến trúc dữ liệu lớn trong ngân hàng được chia thành bốn tầng: Truy cập dữ liệu, trao đổi dữ liệu, dịch vụ dữ liệu và ứng dụng dữ liệu.

Tầng truy cập dữ liệu thu thập dữ liệu từ các nguồn nội bộ và bên ngoài, sau đó gửi đến tầng trao đổi dữ liệu để tiền xử lí và lưu trữ trong tầng dịch vụ dữ liệu. Tầng dịch vụ dữ liệu bao gồm cơ sở dữ liệu xử lí đồng thời quy mô lớn, cơ sở dữ liệu giao dịch, nền tảng Hadoop và nền tảng Storm hoặc Spark để lưu trữ dữ liệu và cung cấp các dịch vụ. Cơ sở dữ liệu giao dịch chủ yếu xử lí dữ liệu kinh doanh trực tuyến và phù hợp với các kịch bản kinh doanh như thêm, xóa và sửa đổi dữ liệu. Cơ sở dữ liệu xử lí đồng thời quy mô lớn là công cụ cơ sở dữ liệu phụ trợ, chủ yếu để xử lí dữ liệu có cấu trúc và mật độ giá trị cao, phục vụ các kịch bản như xử lí dữ liệu theo lô, truy vấn và phân tích dữ liệu. Nền tảng Hadoop đảm nhận việc xử lí dữ liệu có mật độ giá trị thấp, ví dụ như dữ liệu thu thập từ Internet có thể trao đổi dữ liệu với cơ sở dữ liệu giao dịch và cơ sở dữ liệu xử lí đồng thời quy mô lớn qua kênh trao đổi dữ liệu tốc độ cao. Dựa trên kiến trúc kết hợp này, mô hình cung cấp ứng dụng dữ liệu cấp doanh nghiệp cho ngân hàng, nâng cao giá trị dữ liệu, hỗ trợ tầng ứng dụng dữ liệu bên ngoài và thực hiện quản lí khách hàng, phân tích kinh doanh, quản lí rủi ro và báo cáo theo quy định..

4.2. Cụm vật lí

Trên cụm vật lí, có sự tồn tại của các cụm dữ liệu như: Cơ sở dữ liệu giao dịch, cơ sở dữ liệu xử lí đồng thời quy mô lớn, cụm xử lí dữ liệu lớn, cụm xử lí thời gian thực, cụm máy chủ lập lịch và cụm máy chủ ứng dụng.

Các cụm cơ sở dữ liệu giao dịch có hiệu suất tốt hơn so với cơ sở dữ liệu phân tán trong việc xử lí giao dịch trực tuyến. Vì nhiệm vụ của kho dữ liệu hoạt động là làm việc với dữ liệu có tính chất hướng đối tượng, tích hợp hoặc thay đổi liên tục, nên cụm cơ sở dữ liệu xử lí đồng thời quy mô lớn hoặc cụm Hadoop không phù hợp. Trong trường hợp ứng dụng với lượng dữ liệu nhỏ, cụm xử lí đồng thời quy mô lớn hoặc Hadoop sẽ không thể tận dụng được khả năng xử lí phân phối của chúng. Cơ sở dữ liệu giao dịch đạt hiệu suất tốt hơn trong trường hợp ứng dụng với lượng dữ liệu nhỏ so với cơ sở dữ liệu xử lí đồng thời quy mô lớn cần phân phối dữ liệu cho từng nút.

Cụm cơ sở dữ liệu xử lí đồng thời quy mô lớn thích hợp cho việc truy vấn và xử lí trực tuyến các lượng dữ liệu lớn có mật độ cao và giá trị cao, chủ yếu được sử dụng trong dịch vụ dữ liệu của kiến trúc dữ liệu và tạo thành một hệ thống xử lí kết hợp với các cụm dữ liệu lớn và cụm xử lí thời gian thực; đồng thời truyền kết quả tính toán và xử lí đến tầng ứng dụng dữ liệu. Đối với ứng dụng phân tích dữ liệu lớn trực tuyến, phân tích trực tuyến có thể trực tiếp kết nối với cơ sở dữ liệu xử lí đồng thời quy mô lớn.

Cụm xử lí dữ liệu lớn sử dụng cụm Hadoop để xử lí dữ liệu có mật độ và giá trị thấp, ví dụ như phân tích các hồ sơ máy tính tạo ra. Cụm Hadoop được sử dụng để xử lí dữ liệu không có cấu trúc hoặc dữ liệu vượt quá khả năng xử lí của cụm cơ sở dữ liệu xử lí đồng thời quy mô lớn. Cụm Hadoop được sử dụng để xử lí dữ liệu trong lĩnh vực lưu trữ và cung cấp dữ liệu đã được xử lí trực tiếp cho tầng ứng dụng dữ liệu. Cụm Hadoop cũng thuộc loại cụm phân tán. Các máy tính vật lí có thể được sử dụng làm nút trong cụm và cần có mạng 10 Gigabit kết nối giữa các nút.

Các cụm xử lí thời gian thực sử dụng nền tảng Storm hoặc Spark áp dụng cho các kịch bản xử lí dữ liệu lớn yêu cầu thời gian đáp ứng nhanh. Kết quả xử lí thông qua nền tảng này có thể được truyền đến tầng dịch vụ dữ liệu. Yêu cầu cấu hình cho các cụm xử lí thời gian thực thường tương tự như các cụm xử lí dữ liệu lớn.

Các cụm lập lịch thực hiện quản lí phân cấp dữ liệu kinh doanh, theo dõi tình trạng của từng trường hợp dữ liệu một cách đáng tin cậy và chính xác. Qua các dự án, chủ đề công việc, gói công việc, các cụm lập lịch quản lí công việc. Lập lịch công việc là quá trình cốt lõi trong quá trình trích xuất - tải (nạp) - xử lí và tận dụng tối đa tài nguyên phần cứng để thực hiện lập lịch linh hoạt cho các công việc đã được cấu hình.

4.3. Các tầng kiến trúc dữ liệu

Kiến trúc dữ liệu của ngân hàng dữ liệu lớn bao gồm bốn tầng: Tầng truy cập dữ liệu, tầng trao đổi dữ liệu, tầng dịch vụ dữ liệu và tầng ứng dụng dữ liệu.

Một là, tầng truy cập dữ liệu có nhiệm vụ truy cập vào dữ liệu nội bộ và dữ liệu bên ngoài của ngân hàng. Dữ liệu nội bộ bao gồm thông tin giao dịch từ các hệ thống kinh doanh chính (ví dụ: Hệ thống trung tâm, hệ thống cho vay), dữ liệu hình ảnh, nhật kí hệ thống và nhiều hơn nữa. Dữ liệu bên ngoài bao gồm dữ liệu từ các cơ quan chính phủ, cơ quan quản lí và dữ liệu từ Internet. Hiện nay, kiến trúc dữ liệu của ngân hàng cũng cho phép truy cập vào một số dữ liệu Blockchain tài chính.

Hai là, tầng trao đổi dữ liệu được sử dụng để trao đổi dữ liệu hai chiều giữa các hệ thống kinh doanh, các điểm giao dịch ngân hàng và các hệ thống bên ngoài. Các hệ thống kinh doanh cung cấp dữ liệu giao dịch nguyên thô được tạo ra bởi các hệ thống kinh doanh, cũng như dữ liệu mô hình, chỉ số và dữ liệu thị trường được rút trích từ nền tảng cơ bản và cung cấp hỗ trợ cho hoạt động kinh doanh. Tầng trao đổi dữ liệu phân phối dữ liệu mô hình, chỉ số và dữ liệu đã rút trích từ nền tảng cơ bản đến các điểm giao dịch, hỗ trợ cho phân tích kinh doanh cá nhân hóa và truy cập dữ liệu cá nhân hóa tại mỗi điểm giao dịch ngân hàng. Các hệ thống bên ngoài là những bổ sung quan trọng bằng cách truy cập dữ liệu từ các ngành công nghiệp khác. Chúng cũng cung cấp các dịch vụ và dữ liệu thực hiện. Theo quy tắc xử lí dữ liệu và quy tắc mô hình hóa hiện có, quá trình lưu trữ nhúng trong cơ sở dữ liệu xử lí đồng thời quy mô lớn được tải lên để trực tiếp xử lí dữ liệu trong cơ sở dữ liệu.

Các thành phần chuẩn hóa dữ liệu thực hiện chuyển đổi các giá trị mã khác nhau (ví dụ: Tiền tệ, tổ chức, giới tính...) trong hệ thống nguồn theo tiêu chuẩn thống nhất của ngân hàng, để các mã khác nhau có cùng ý nghĩa có thể được lưu trữ trên nền tảng dữ liệu lớn. Dữ liệu tiêu chuẩn cuối cùng được cung cấp để sử dụng cho các hệ thống phía dưới.

Các thành phần tính toán tổng hợp bao gồm việc tổng hợp và tính toán dữ liệu theo các khía cạnh kinh doanh cụ thể như thời gian, tổ chức và tiền tệ. Việc tính toán tổng hợp thường được thực hiện trước khi dữ liệu được tải vào lớp mô hình tổng hợp và dữ liệu đã tổng hợp được sử dụng trong các hệ thống phía dưới cho thống kê dữ liệu hoặc hiển thị báo cáo. Các thành phần sắp xếp và loại bỏ trùng lặp sắp xếp dữ liệu theo các trường chỉ định và loại bỏ các bản ghi trùng lặp có cùng giá trị cho trường chỉ định. Sắp xếp và loại bỏ trùng lặp chủ yếu được sử dụng để lấy dữ liệu mới nhất, liên kết dữ liệu và các tình huống khác nhau để loại bỏ dữ liệu trùng lặp. Các thành phần đề cập đến việc chia nhỏ dữ liệu theo quy tắc được chỉ định, chẳng hạn như chia nhỏ một tệp dữ liệu theo tổ chức.

Các thành phần liên kết kết nối dữ liệu theo yêu cầu kinh doanh và thiết kế mô hình thông qua các trường liên kết giữa các bảng dữ liệu để thực hiện xử lí thông tin dữ liệu. Các thành phần tính toán tăng cường liên quan đến việc tính toán dữ liệu tăng cường bằng cách so sánh dữ liệu, ví dụ: So sánh dữ liệu hai ngày. Tính toán tăng cường thường được thực hiện ở đầu quá trình xử lí. Nếu áp dụng trích xuất dữ liệu, dữ liệu tăng cường được tính toán nhỏ hơn số lượng dữ liệu đầy đủ, giúp tăng tốc quy trình xử lí. Vì xử lí đồng thời quy mô lớn là tính toán song song, nên cơ chế phát hiện tính lặp lại xử lí dữ liệu được sử dụng trong quá trình tải dữ liệu. Khi mỗi công việc xử lí thực hiện các hoạt động dữ liệu trên cơ sở dữ liệu, trước tiên, đăng kí thông tin hoạt động vào bảng phát hiện duy nhất được thiết kế cho cơ sở dữ liệu giao dịch. Khi tiếp tục thực hiện các hoạt động trên cơ sở dữ liệu, cần tìm thông tin đăng kí trong bảng phát hiện duy nhất. Nếu hiện tại có cùng thông tin hoạt động đang được thực hiện, thì hoạt động mới sẽ thất bại, đảm bảo chỉ có một hoạt động giống nhau đang chạy cùng một lúc, ngăn chặn tình trạng bị treo, bị dừng.

Ba là, tầng dịch vụ dữ liệu trong kiến trúc dữ liệu lớn của ngân hàng được sử dụng để lưu trữ các khu vực dữ liệu khác nhau, bao gồm ba loại cơ sở dữ liệu: Xử lí đồng thời quy mô lớn, cơ sở dữ liệu giao dịch và hệ thống tệp phân tán Hadoop. Trong số các khu vực lưu trữ, có hai khu vực dữ liệu quan trọng là: Khu vực dữ liệu có cấu trúc và khu vực dữ liệu không có cấu trúc.

Dữ liệu có cấu trúc là dữ liệu được tổ chức theo hàng và giá trị được lưu trữ trong cơ sở dữ liệu. Hầu hết dữ liệu trong ngân hàng thuộc loại dữ liệu có cấu trúc. Khu vực dữ liệu có cấu trúc của ngân hàng bao gồm: Khu vực gốc dữ liệu, khu vực chủ đề dữ liệu và khu vực tổng hợp dữ liệu. Việc xử lí khu vực dữ liệu có cấu trúc sử dụng cơ sở dữ liệu xử lí đồng thời quy mô lớn tập trung chủ yếu vào việc xử lí dữ liệu trong tương lai gần, trung và xa. Bằng cách sử dụng hiệu quả cơ sở dữ liệu xử lí đồng thời quy mô lớn, dữ liệu giao dịch được đẩy định kì đến tầng ứng dụng dữ liệu để cung cấp tính toán và dịch vụ nhanh chóng. Xử lí khu vực dữ liệu không có cấu trúc và khu vực dữ liệu có cấu trúc có những khác biệt. Thông qua triển khai nền tảng dữ liệu lớn (bao gồm cụm Hadoop và cụm xử lí thời gian thực, trong đó Hadoop được sử dụng cho dịch vụ phân tích ngoại tuyến và Storm được sử dụng cho dịch vụ tiền xử lí dữ liệu), có thể giải quyết các tình huống thu thập và xử lí dữ liệu thời gian thực. Khu vực dữ liệu không có cấu trúc xử lí dữ liệu và đẩy dữ liệu tính toán vào cơ sở dữ liệu giao dịch của tầng ứng dụng dữ liệu, ví dụ như giá trị ròng của quỹ, thông tin thay đổi lượng lớn quỹ và những thông tin tương tự.

Bốn là, tầng ứng dụng dữ liệu được sử dụng để xây dựng hệ thống ứng dụng phân tích dữ liệu. Nhờ sử dụng các tập chỉ số đầy đủ và dữ liệu tổng hợp chung, tầng ứng dụng dữ liệu cải thiện khả năng phân tích tự phục vụ bằng cách giới thiệu các công cụ kinh doanh thông minh như bảng điều khiển, bộ lọc, chỉ số, phân tích đa chiều và khai thác dữ liệu, cung cấp hỗ trợ cho phân tích định hướng quyết định. Một số ứng dụng dữ liệu chung trong kiến trúc dữ liệu lớn của ngân hàng có thể kể đến như sau:

- Quản lí chỉ số: Việc thiết lập nền tảng chỉ số giúp quản lí thống nhất các chỉ số từ quá trình định nghĩa, tính toán, ứng dụng và hủy bỏ trong toàn bộ vòng đời. Bằng cách xác định từng chỉ số, vấn đề dữ liệu rác do việc định nghĩa chỉ số trùng lặp và tính toán không hợp lệ có thể được giải quyết. Giao diện dữ liệu và giao diện dịch vụ được thống nhất để đáp ứng yêu cầu ứng dụng và thiết lập cơ chế giám sát để cung cấp phân tích tác động. Ngân hàng có thể sử dụng các chỉ số tổ chức, chỉ số khách hàng và chỉ số nhân viên trong ba danh mục, sau đó sắp xếp và điều chỉnh các chỉ số theo từng loại ứng dụng.

- Quản lí bảng điều khiển: Quản lí bảng điều khiển là hệ thống trung tâm dữ liệu cung cấp hỗ trợ quyết định một điểm dừng cho cấp quản lí cấp cao, cho phép tập trung nhanh chóng vào các chỉ số cốt lõi, cấu hình và hiển thị linh hoạt các chỉ số và phân tích thời gian thực các hoạt động kinh doanh. Giá trị kinh doanh của quản lí bảng điều khiển nằm ở các chỉ số về quy mô kinh doanh của ngân hàng, doanh thu, rủi ro và quy mô thị trường, để có thể hiển thị toàn diện tình trạng và tiến độ hoàn thành mục tiêu, giúp hiểu xem chỉ số hoạt động kinh doanh hiện tại có phát triển cân đối hay không và liệu quy mô thị trường có trong tình trạng phát triển tốt hay không.

- Phân tích tự phục vụ cho phép người dùng cuối, bao gồm nhân viên kinh doanh, nhân viên vận hành và bảo trì có khả năng phân tích trực tiếp nguồn dữ liệu hoặc các chủ đề kinh doanh được phép truy cập. Các chức năng của phân tích tự phục vụ bao gồm tải xuống dữ liệu, trình bày đồ họa và phân tích từ nhiều góc nhìn khác nhau. Người dùng cuối cũng có thể xây dựng các khối đa chiều và xem xét các chỉ số như quản lí tài sản và trách nhiệm, quản lí rủi ro tín dụng, quản lí sản phẩm và dịch vụ, quản lí chi phí và lợi nhuận và quản lí quan hệ khách hàng để nâng cao mức độ quản lí tổng thể.

- Phòng thí nghiệm dữ liệu cho phép các nhà phân tích dữ liệu nhanh chóng xây dựng các mô hình dự đoán và áp dụng chúng vào các chiến dịch tiếp thị. Điều này giúp cải thiện quá trình ra quyết định và cung cấp hỗ trợ cho việc triển khai sản phẩm mới, điều chỉnh hướng kinh doanh. Dữ liệu mẫu trong phòng thí nghiệm dữ liệu được thu thập trực tiếp từ cơ sở dữ liệu xử lí đồng thời quy mô lớn.

- Quản lí báo cáo đảm bảo sản xuất và xuất bản các báo cáo cố định theo kiểu truyền thống và phân loại, quản lí báo cáo theo từng dòng kinh doanh khác nhau. Ứng dụng có thể hiển thị báo cáo thông qua cơ sở dữ liệu xử lí đồng thời quy mô lớn hoặc cơ sở dữ liệu giao dịch.

- Phân tích nhãn khách hàng là một phương pháp quan trọng để đánh dấu khách hàng trong một bức tranh tổng thể. Nhãn khách hàng được xác định dựa trên các chỉ số giao dịch, chỉ số tiền gửi, chỉ số cho vay, thông tin kênh... Các nhãn khách hàng được cải thiện thông qua việc tự động điều chỉnh mô hình nhãn khách hàng dựa trên dữ liệu phản hồi từ người dùng. Ứng dụng yêu cầu một lượng lớn dữ liệu nội bộ và dữ liệu bên ngoài, kết quả nhãn đạt được thông qua khả năng tính toán và phân tích hiệu quả của nền tảng dữ liệu lớn.

5. Kết luận

Bài viết giới thiệu một kiến trúc dữ liệu lớn kết hợp các mô hình cơ sở dữ liệu khác nhau dựa trên tình trạng dữ liệu của ngân hàng. Một hệ sinh thái xử lí dữ liệu được xây dựng có cấu trúc và không có cấu trúc cho phép xử lí dữ liệu thời gian thực bằng các cơ sở dữ liệu giao dịch, cơ sở dữ liệu xử lí đồng thời quy mô lớn, Hadoop và nền tảng Spark/Storm. Đồng thời áp dụng phương pháp tải dữ liệu trích xuất - tải (nạp) - xử lí dựa trên các tính năng hiệu suất cao của xử lí đồng thời quy mô lớn.

Tiến hành xác thực hiệu suất giữa cơ sở dữ liệu Oracle và xử lí đồng thời quy mô lớn với các chế độ xử lí dữ liệu, bao gồm tốc độ và khả năng nén, việc sử dụng xử lí đồng thời quy mô lớn như một cơ sở dữ liệu xử lí dữ liệu có cấu trúc trong kiến trúc thông tin lớn, mang lại nhiều hiệu quả và lợi ích.

Kiến trúc dữ liệu lớn dựa trên cơ sở dữ liệu xử lí đồng thời quy mô lớn mang lại hiệu suất cao, khả năng mở rộng, tích hợp linh hoạt và bảo mật dữ liệu cho ngân hàng. Điều này giúp các ngân hàng nắm bắt được thông tin quan trọng từ dữ liệu và tối ưu hóa quy trình kinh doanh, từ đó cải thiện dịch vụ và tạo ra lợi ích lớn cho khách hàng và tổ chức ngân hàng.

Tài liệu tham khảo:

1. S. Ma et al., “Bank Big Data Architecture Based on Massive Parallel Processing Database” 2018 15th International Symposium on Pervasive Systems, Algorithms and Networks (I-SPAN), Yichang, China, 2018, pages 93 - 99.

2. Kiron D. “Lessons from becoming a data-driven organization”. MIT Sloan Management Review, 2017, 58 (2).

3. Wang, Xiaokang, et al. “A Distributed HOSVD Method With Its Incremental Computation for Big Data in Cyber-Physical-Social Systems”. IEEE Transactions on Computational Social Systems 5.2 (2018), pages 481 - 492.

4. Wang, Xiaokang, et al. “A cloud-edge computing framework for cyberphysical-social services”. IEEE Communications Magazine 55.11 (2017), pages 80 - 85.

5. Su, Fei, et al. “A Survey on Big Data Analytics Technologies”. International Conference on 5G for Future Wireless Networks. Springer, Cham, 2017.

6. Storey V C, Song I Y. “Big data technologies and Management: What conceptual modeling can do”. Data & Knowledge Engineering, 2017, 108, pages 50 - 67.

7. Ameloot T J, Geck G, Ketsman B, et al. “Reasoning on data partitioning for single-round multi-join evaluation in massively parallel systems”. Communications of the ACM, 2017, 60(3), pages 93 - 100.

8. Chaonian G., Shenglan M., Hao W., Shuhan C., Tongsen W. “LoC: Poverty Alleviation Loan Management System based on Smart Contracts”. The 2018 IEEE International Conference on Blockchain. IEEE, 2018.

9. Shenglan M., Hao W., HongNing D., Shuhan C., Ruihua Y., Tongsen W. “A Blockchain-based Risk and Information System Control Framework”. The 3rd IEEE Cyber Science and Technology Congress. IEEE, 2018

ThS. Lý Thu Trang

Trường Đại học Công nghệ Thông tin và Truyền thông, Đại học Thái Nguyên

Ngân Hàng	USD		EUR		GBP		JPY
Ngân Hàng	Mua vào	Bán ra	Mua vào	Bán ra	Mua vào	Bán ra	Mua vào	Bán ra
Vietcombank	25,127	25,477	26,885	28,360	31,917	33,274	156.80	165.96
BIDV	25,157	25,477	27,090	28,390	32,186	33,429	157.71	166.56
VietinBank	25,157	25,477	27,180	28,380	32,396	33,406	158.36	166.11
Agribank	25,160	25,477	27,065	28,310	32,089	33,255	157.73	165.80
Eximbank	25,130	25,476	27,140	27,981	32,273	33,175	158.91	163.85
ACB	25,140	25,477	27,136	28,068	32,329	33,306	158.59	164.86
Sacombank	25,190	25,477	27,338	28,340	32,507	33,217	159.66	164.69
Techcombank	25,132	25,477	27,000	28,353	31,994	33,324	155.51	167.92
LPBank	24,937	25,477	26,998	28,670	32,415	33,421	157.95	169.10
DongA Bank	25,180	25,477	27,140	28,010	32,200	33,300	156.60	164.60