Nâng cao hiệu quả hoạt động ngân hàng bằng công nghệ nhận diện chữ viết trong hình ảnh
21/02/2022 1.299 lượt xem
Trong thời đại của kỷ nguyên chuyển đổi số và cuộc Cách mạng công nghiệp lần thứ tư (CMCN 4.0), việc các ngân hàng ứng dụng trí tuệ nhân tạo (Artificial Intelligence - AI) đã trở thành một xu hướng tất yếu. Bài toán số hóa các văn bản tự động từ dạng bản cứng (trên giấy) thành các dữ liệu được lưu trữ dưới dạng số không những giúp ngân hàng tránh mất mát thông tin, đồng thời, người sử dụng có thể dễ dàng tìm kiếm và truy xuất thông tin. Bài viết đề xuất cách giải quyết khâu quan trọng nhất trong việc số hóa tài liệu, đó là nhận dạng chữ viết trong hình ảnh (Optical Character Recognition - OCR). Trên thực tế, các dạng chữ viết trên văn bản rất đa dạng và nhiều kiểu từ chữ in hoa, chữ in thường và cả chữ viết tay, thậm chí lại có nhiều kiểu định dạng như in đậm, in nghiêng... gây tốn kém thời gian của nhân viên để thao tác các hoạt động truyền thống như kiểm tra, lưu trữ các biên lai, chứng minh thư... Từ nhu cầu thực tế đó, việc sử dụng AI để chuyển hóa chữ viết từ hình ảnh của văn bản thành các văn bản số hóa là một giải pháp cần thiết. Quy trình này sẽ bao gồm các bước: Chuyển dữ liệu gốc ban đầu về dạng ảnh; nhận diện thông tin từ các ảnh chụp chuyển thể thành các văn bản, hoặc bóc tách thành các trường thông tin có ý nghĩa. Để giải quyết bài toán nhận dạng chữ viết từ hình ảnh của văn bản, các mô hình phát hiện chữ (text detection) và nhận diện chữ (text recognition) bằng các mạng thần kinh tích chập (Convolutional Neural Network - CNN), mạng thần kinh hồi quy (Recurrent Neural Network - RNN), cơ chế chú ý (Attention Mechanism) được sử dụng. Kết quả thử nghiệm giải pháp đề xuất trên bộ dữ liệu chữ viết tay của người Việt đạt độ chính xác cao, có thể ứng dụng trong thực tiễn.
 
I. Giới thiệu
 
Bài toán nhận diện chữ trong ảnh hay kỹ thuật OCR đã có từ những năm 90 của thế kỷ trước. Lần đầu tiên OCR bắt đầu được mọi người biết đến rộng rãi vào năm 1913 khi Tiến sĩ Edmund Fournier d’Albe phát minh ra máy thị âm để quét và chuyển hóa văn bản thành âm thanh cho người mù. Từ đó đến nay, OCR đã phát triển nhanh chóng trên thế giới trong mọi lĩnh vực liên quan đến xử lý hình ảnh. Việc ứng dụng của OCR rất đa dạng trong các ngành công nghiệp như xe tự lái (Self-driving Car), dịch máy (Image-based Machine Translation), hệ thống thu phí thông minh bằng hình ảnh (Electronic Toll Collection - ETC), tự động hóa quy trình bằng robot (Robotic Process Automation - RPA) hay lưu trữ sổ khám bệnh, đơn thuốc trong y tế mà chúng ta đã biết. Đối với lĩnh vực ngân hàng, từ phía người dùng, ứng dụng của OCR rõ hơn qua các tiện nghi mà các ứng dụng ngân hàng mang lại như làm thẻ online từ xa nhờ định danh khách hàng điện tử (electronic Know Your Customer - eKYC), rút tiền bằng chứng minh thư. Thời gian thực hiện giao dịch được giảm xuống nhờ việc kiểm tra thông tin có thể được thực hiện bằng máy móc mà không cần tới sự kiểm tra thủ công của con người. 
 
Với sự gia tăng nhanh chóng về số lượng tài khoản ngân hàng và các giao dịch chi tiêu online, cũng như các ứng dụng đi động kết nối tới tài khoản ngân hàng, khối lượng dữ liệu đổ về ngân hàng với các giao dịch người dùng ngày một lớn hơn theo cấp số nhân. Ứng dụng OCR là điều kiện tiên quyết cho các ngân hàng đảm bảo đáp ứng được sự gia tăng dữ liệu này. Nếu mọi loại giấy tờ từ giấy vay, chứng minh thư, căn cước công dân, các loại hợp đồng, hóa đơn, ghi chú ngân hàng, giấy ủy quyền, báo cáo tài chính... đều được xử lý thủ công như truyền thống thì khó đáp ứng được yêu cầu về thời gian xử lý nhanh chóng như kỳ vọng. Sử dụng OCR, các ngân hàng có lợi thế hơn trong việc số hóa các tài liệu về một khối thống nhất, giúp ngân hàng chuẩn hóa được các dữ liệu, vận hành 24/7, đơn giản hóa quy trình, giảm các gánh nặng về hành chính, tối ưu hóa chí phí kinh doanh. 
 
Trên thế giới, cụm từ AI từ năm 2019 đã trở thành một cụm từ phổ biến trong giới tài chính. Theo báo cáo toàn cầu của Phòng Thương mại quốc tế (ICC) năm 2020, 28% số lượng ngân hàng sử dụng OCR cho việc bóc tách dữ liệu và số hóa văn bản, bao gồm các ngân hàng lớn trong lĩnh vực tài chính như HSBC, Standard Chartered cùng với nhiều tổ chức tài chính khác. Nhiều ngân hàng khác ở Trung Quốc còn sử dụng OCR kết hợp với nhận diện khuôn mặt để cung cấp bảo mật 2 lớp ở cây ATM.
 
Tại Việt Nam, theo Chương trình Chuyển đổi số quốc gia đến năm  2025, định hướng đến năm 2030 của Chính phủ đã nêu rõ vai trò của các tổ chức tài chính ngân hàng trong công cuộc chuyển đổi số của đất nước. Bên cạnh đó, sự ảnh hưởng của đại dịch Covid-19 trên thế giới đã phần nào làm đẩy nhanh hơn quá trình số hóa toàn diện ngành Ngân hàng tại nước ta. Xu hướng này được áp dụng ở hầu hết các ngân hàng lớn như Ngân hàng TMCP Tiên Phong (TPBank) có hệ thống ATM tự động chạy 24/7 (LiveBank) hay Ngân hàng TMCP Bưu điện Liên Việt có LienViet24h... Đặc biệt là TPBank và Ngân hàng TMCP Quân đội (MB) đã ghi nhận hơn 80% giao dịch trên nền tảng số. Qua đó, thấy được một bức tranh toàn diện hơn về bối cảnh áp dụng số hóa ở Việt Nam hiện nay rất phù hợp cho ứng dụng OCR nói riêng và AI nói chung.
 
Ngày nay, OCR không chỉ phát triển mạnh với tiếng Latin mà còn có thể giải quyết các ngôn ngữ khác trên thế giới từ tiếng Ả Rập, Ấn Độ, Trung Quốc... kể cả các chữ tượng hình. Nó có thể xác định được cả văn bản scan và hình ảnh không phân biệt là chữ in hay chữ viết tay, hệ thống đều có thể xử lý được với độ chính xác cao. Với các quy định rất gắt gao về an toàn dữ liệu, bảo mật của ngành Tài chính, OCR có thể chạy trên cả các máy server của ngân hàng hay trên điện toán đám mây như là một dịch vụ thông qua các giao thức API.
 
Về phương pháp thực hiện, việc nhận diện chữ viết trong hình ảnh sẽ gồm 04 pha chính là tiền xử lý (Preprocessing); xác định vị trí chữ (Text Detection); nhận diện chữ (Text Recognition) và hậu xử lý (Postprocessing). Với pha 1 - tiền xử lý, ta sẽ loại bỏ các nhiễu trong hình ảnh, xoay ảnh về đúng chiều và chỉnh kích thước của ảnh. Pha 2 sẽ sử dụng hình ảnh sau khi đã được căn chỉnh sử dụng mô hình học sâu để nhận biết được đâu là các vùng có chữ viết trên hình ảnh. Sau đó sử dụng mô hình mạng thần kinh kết hợp với cơ chế chú ý (Attention Mechanism) để nhận diện các chữ viết tương ứng với các vùng chữ để cho ra được các chữ cái trong bảng chữ cái. Pha cuối cùng là bước hiệu chỉnh chữ thu được từ pha 3, giúp cải thiện kết quả thu được sao cho đúng chuẩn chữ tiếng Việt. Trên thế giới, cũng có rất nhiều cách thức và phương pháp khác nhau trong việc giải quyết bài toán OCR này cho tiếng Anh như: DB, CRAFT... Nghiên cứu này sử dụng hai trong số các mô hình đang đạt kết quả tốt nhất trên tiếng Anh hiện nay là CRAFT (để phát hiện chữ) và CLOVA_AI (để nhận diện chữ). Tuy nhiên, để đạt được kết quả tốt trên bộ dữ liệu của tiếng Việt thì nghiên cứu đã thực hiện một số thay đổi và cải tiến. Để minh chứng cho sự hiệu quả của giải pháp được đề xuất, các tác giả đã thực hiện kiểm thử với bộ dữ liệu SROIE 2019 tiếng Anh và VNOnDB gồm 1.146 đoạn văn tiếng Việt bao gồm 7.296 dòng với hơn 380.000 ký tự viết bởi 200 người khác nhau.
 
II. Tóm tắt cơ sở lý thuyết
 
1. Một số công nghệ chính được sử dụng trong giải pháp đề xuất
 
- Mạng thần kinh tích chập - CNN: Là một loại mạng thần kinh nhân tạo, nhận đầu vào thường là ảnh và sử dụng phép toán tích chập nhằm trích xuất thông tin của đối tượng.
 
- Mạng thần kinh hồi quy - RNN: Là mạng dùng để xử lý các bài toán dữ liệu dạng chuỗi với các đầu vào có kích thước khác nhau. Nó sử dụng thông tin đầu vào hiện tại và đầu vào trong quá khứ đã có để cho ra kết quả. Nói cách khác, theo trình tự thời gian, RNN kết nối các nút tạo thành một đồ thị dọc, cùng một đầu vào thì có thể tạo một đầu ra khác nhau dựa theo các đầu vào trước đó.
 
- Cơ chế chú ý (Attention Mechanism): Theo như nghiên cứu về nhận thức của con người, trong 3s đầu chúng ta cần xác định một vật thể là gì chỉ bằng một số đặc điểm nổi bật nhất của nó. Áp dụng tư tưởng đó, kỹ thuật Attention giúp mô hình tập trung vào những yếu tố nhất định, đặc trưng nhất trong dữ liệu. Trong lĩnh vực xử lý ảnh, Attention thường gồm 03 phần chính là bộ mã hóa (encoder), bộ giải mã (decoder), xen giữa nó là một vector biểu diễn ngữ cảnh (context vector). Encoder với đầu vào là ma trận các điểm ảnh, đầu ra cuối cùng là một context vector - nơi tóm gọn toàn bộ lượng thông tin của encoder. Từ đó, decoder dùng chính context vector, cùng trạng thái ẩn và đầu ra trước đó để dự đoán thông tin tiếp theo tại decoder qua từng bước thời gian (timestep).
 
- Mạng Resnet, mạng Unet, mạng VGG-16: Là các kiến trúc mạng CNN, được tạo thành từ một loạt các tầng CNN được thiết kế khác nhau.
 
- Batch normalization: Đây là một phương pháp chuẩn hóa dữ liệu, giúp việc huấn luyện một cách dễ dàng và nhanh chóng hơn bằng cách tối ưu hàm mục tiêu. Ngoài ra, nó còn giúp cho mô hình giảm được sự phụ thuộc vào các giá trị khởi tạo và tránh được phần nào sự quá khớp với bộ dữ liệu được huấn luyện.
 
- Skip connection: Cơ chế bỏ qua một số lớp trong mạng Neural và lấy đầu ra của một lớp làm đầu vào cho các lớp tiếp theo. Nó có vai trò nâng cao khả năng giữ những thông tin cần thiết, tránh mất mát thông tin khi ta tăng số lớp trong khi huấn luyện mạng học sâu.
 
2. Tổng quan giải pháp và quy trình đề xuất
 
Như đã đề cập, bài toán nhận dạng chữ viết trong hình ảnh có đầu vào là một ảnh và đầu ra là các từ tương ứng đúng với vị trí trên bức ảnh đó. Phương pháp được mô tả gồm 04 pha (Hình 1):
 
- Pha 1: Tiền xử lý, chuẩn hóa hình ảnh: chỉnh nhăn (dewarp), chỉnh lệch (deskew), chỉnh kích cỡ (resize).
 
- Pha 2: Sử dụng mô hình phát hiện ký tự văn bản (text detection) để tìm các vùng có chữ và xác định vị trí của nó trong bức ảnh.
 
- Pha 3: Nhận diện chữ trong các ảnh từ pha 2 bằng mô hình nhận diện ký tự văn bản (text recognition).
 
- Pha 4: Sửa lỗi văn bản đầu ra để gia tăng độ chính xác.
 
3. Mô tả chi tiết từng pha trong quy trình
 
Pha 1: Tiền xử lý
 
Ban đầu, hệ thống sẽ áp dụng các thuật toán liên quan đến xử lý ảnh để tăng chất lượng ảnh đầu vào. Lý do là bởi trong khi chúng ta scan tài liệu hay chụp ảnh tài liệu, bức ảnh thường bị nghiêng đi một góc tương đối so với chiều đúng của văn bản. Thêm vào đó, việc xử lý ảnh phóng to hay thu nhỏ sao cho tương thích với hệ thống không bị nghẽn khi ảnh quá lớn hay chất lượng tối thiểu khi ảnh quá nhỏ là điều cần thiết. Ngoài ra, với các văn bản giấy tờ trong ngân hàng hay các khối dịch vụ nói chung thường bao gồm rất nhiều dấu chấm nhỏ hay các nhiễu như hình ảnh chìm mà không cần thiết cho việc nhận diện chữ. Chúng ta sẽ loại bỏ các điểm ảnh này nhằm giảm bớt những vùng mà hệ thống cần dự đoán, giảm thiểu những lỗi có thể gặp phải. 
 
Pha 2: Phát hiện vùng chứa chữ
 
Trong pha này, ta sẽ thực hiện việc phát hiện chữ viết trong ảnh. Như chúng ta đã biết, ảnh là một tập hợp bao gồm rất nhiều điểm ảnh, xác định bởi hai tọa độ theo chiều dọc và chiều ngang. Với các mạng thần kinh phát hiện chữ truyền thống chủ yếu là gộp các mạng CNN và RNN với nhau để trích chọn đặc trưng của chữ trong ảnh dựa trên từng điểm ảnh đó. Các đặc trưng ở đây được hiểu một cách đơn giản là các đặc điểm giúp ta nhận biết được đâu là chữ, đâu là ảnh nền, đâu là con dấu... dựa trên các đặc tính như đường nét, độ đậm nhạt, màu sắc, kích cỡ... của chữ. Những thông tin này trải qua việc huấn luyện các mạng thần kinh sẽ được học dần qua việc huấn luyện mô hình qua các bộ dữ liệu.
 
Đi sâu vào chi tiết mô hình phát hiện chữ nguyên bản mô hình CRAFT phát hiện chữ mà chúng tôi áp dụng, mạng gồm có cấu trúc cơ bản với khung là VGG-16 gồm 06 lớp CNN với batch normalization và các skip connection tương tự mạng U-net liên kết với các đặc trưng cấp thấp. Ta sẽ sử dụng mô hình mạng Neural để xác định vùng của các ký tự và vùng nối của các ký tự liền nhau làm đặc điểm chính để xác định phần nào của ảnh là ký tự chữ ở tầng cuối cùng của đầu ra. Thông thường việc đánh nhãn dữ liệu ở mức ký tự (đánh từng ký tự một của từ - character) là rất khó vì số lượng quá lớn với mỗi văn bản có chữ (thường sẽ được gán ở mức từ - word hoặc dòng - line). Do đó, để có thể được phát hiện ở mức ký tự trong phương pháp này, ta sẽ dùng dữ liệu từ 2 tập: Một là dữ liệu thực tế được gán nhãn ở mức từ và hai là dữ liệu không thực tế (ảnh được sinh ra hay tự tạo ra - Synthetic Image). Do tập dữ liệu thứ 2 là chúng ta tự tạo ra nên ta có thể kiểm soát được vị trí các ký tự trên bức ảnh một cách dễ dàng. Ta sẽ huấn luyện mô hình với bộ dữ liệu được tự gen trước để model học được các đặc trưng được model 1. Sau đó ta dùng model này để train với một phần ảnh thực tế được đánh nhãn ở mức từ tạo ra model 2. Ta sẽ tạo giả nhãn (pseudo ground truth) cho phần ảnh thực tế này bằng thuật toán watershed rồi điều chỉnh sao cho độ chính xác model 2 sẽ không thấp hơn độ chính xác của model 1. Kiểu huấn luyện với bộ data này được gọi là học có giám sát yếu (weakly supervised learning). Cuối cùng, ta sẽ dùng model này làm pretrain model (model đã được huấn luyện) để điều chỉnh tiếp với các data chưa được tạo nhãn giả dựa trên độ dài các từ (thông thường các nhãn của ảnh trên mức từ ta sẽ tính được độ dài ký tự trong đó). Nếu model 2 dự đoán ảnh từ tập này mà ngắn hơn so với nhãn của ảnh thì ta sẽ điều chỉnh lại. Cứ thế, ta sẽ điều chỉnh đến khi độ chính xác của mô hình đạt được kết quả cao. Đầu ra của pha này là các vùng chữ tương ứng với vị trí của nó (gồm 04 vị trí: Trái trên, phải trên, phải dưới, trái dưới tương ứng của khung chữ nhật).
 
Pha 3: Nhận diện các chữ
 
Pha này gồm 4 thành phần:
 
- Thành phần 1 (sự biến đổi): Chuẩn hóa và làm thẳng lại các chữ nghiêng, cong thành chữ nằm ngang bằng việc sử dụng mô hình STN.
 
- Thành phần 2 (trích chọn đặc trưng): Ta sử dụng cấu trúc Resnet làm cơ sở để trích xuất ra các thông tin. Đầu ra là một vector đặc trưng của ảnh.
 
- Thành phần 3 (mô hình hóa tuần tự): Ghi lại các thông tin trong một chuỗi tuần tự các ký tự để dự đoán chứ ta không dự đoán từng ký tự trong một từ.
 
- Thành phần 4 (dự đoán): Giải mã chuỗi đặc trưng dạng mã hóa ở phần 3 thành các ký tự chữ bằng việc sử dụng cơ chế Attention.
 
Về cơ bản, mô hình nhận diện sử dụng sức mạnh của sự kết hợp các mạng CNN và RNN rồi mở rộng với sự thêm mới thành phần chỉnh hình ảnh chữ trong không gian (thành phần biến đổi) và cải thiện quá trình dự đoán ở thành phần cuối bằng cơ chế Attention. Chúng tôi mở rộng so với mô hình ban đầu là tăng giới hạn của tham số độ dài tuần tự của trong một ảnh mà mô hình dự đoán và tăng số lượng trạng thái ẩn để thu giữ nhiều thông tin hơn. Việc điều chỉnh này tuy nhỏ nhưng có vai trò quan trọng trong việc dự đoán kết quả chính xác hơn. Ở đây, chúng tôi thay vì dự đoán từng từ tương ứng với mỗi vùng được xác định từ pha 3 thì có thể nhận diện được cả một cụm các từ trong ảnh (ảnh chỉ gồm 1 dòng các từ, theo chiều ngang). Do đó ta có thể nhận ra ngay, khi mà pha 3 xác định vùng không phải lúc nào cũng chỉ ra tương ứng mỗi ảnh là 1 từ thì ở đây với mỗi ảnh mà có 2 hay 3 từ thì việc dự đoán cũng có thể thực hiện được. Mặt khác, việc thay đổi này cũng giảm thời gian đánh nhãn của chúng ta, trở nên thuận tiện hơn bởi với mô hình gốc ta cần đánh nhãn mỗi ảnh (chỉ gồm 1 từ) với chữ của nó, khiến số lượng cần làm rất lớn. (Hình 2)
Pha 4: Sửa lỗi 
 
Trong phần này, chúng ta sẽ sửa lỗi các từ có khả năng cao mắc lỗi từ kết quả pha 3. Chúng ta sử dụng 3 khả năng (dựa trên độ chính xác) từ phần nhận diện chữ kết hợp với một tập từ điển các từ thông dụng ở Việt Nam. Ngoài ra, nếu các từ được xác định trong ảnh thuộc về cùng một lĩnh vực hay ngành nghề thì ta có thể thu thập thêm các từ phổ biến của nó tạo thành một bộ các từ phổ biến trong lĩnh vực đó. Sau đó, ta gán trọng số theo thứ tự ưu tiên lần lượt cho: Kết quả từ pha 3, từ phổ biến trong từ điển gần giống nhất từ đó, từ phổ biến trong lĩnh vực gần giống từ đó. Chúng ta sẽ sắp xếp từ cao xuống thấp điểm của các từ ứng viên (candidate). Cơ chế này ta gọi là “scoring mechanism”. Cuối cùng, ta chọn từ ứng viên có điểm cao nhất làm kết quả cuối cùng của hệ thống.
 
III. Tính toán thử nghiệm
 
1. Mô tả dữ liệu
 
Chúng tôi sử dụng bộ dữ liệu Sroie 2019 cho mô hình phát hiện từ và bộ dữ liệu VNOnDB ở mức từ và câu để đánh giá kết quả của mô hình nhận diện.
 
- Sroie 2019: Bộ dữ liệu bao gồm các ảnh hóa đơn từ hơn 1.000 người nước ngoài. Chúng được chia làm 2 phần là tập huấn luyện/đánh giá gồm 600 ảnh và tập kiểm tra gồm 400 ảnh. Tương ứng với mỗi ảnh sẽ bao gồm các vùng chữ và nội dung của nó. 
 
- VNOnDB: Bộ dữ liệu là các ảnh chữ viết tay của người Việt. Dữ liệu ban đầu là dạng ảnh tương ứng với các nét chữ online dạng xml, ta sẽ chuyển dữ liệu về dạng ảnh và chữ tương ứng trong ảnh đó. Ta chia bộ dữ liệu làm 3 phần: (Bảng 1, Hình 3)
- Phần dữ liệu Training: Dùng để huấn luyện mô hình.
 
- Phần dữ liệu Validation: Dùng để đánh giá mô hình khi huấn luyện.
 
- Phần dữ liệu Testing: Dùng để kiểm tra kết quả của mô hình.
 
2. Tiêu chí đánh giá
 
Với module phát hiện chữ, ta sẽ đánh giá kết quả theo 3 tiêu chí gồm Precision, Recall, Hmean.
 
- Precision đo lường tỉ lệ dự đoán của mô hình là chính xác trong số các dự đoán.


 
 - Recall là tỉ lệ mô hình dự đoán đúng trên cả bộ dữ liệu được gán nhãn.   


                           
- Chỉ số Hmean là giá trị cân đối giữa Precision và Recall:


 
Trong đó:
 
- TP (True Positive): Là đối tượng được nhận dạng đúng với tỉ lệ IOU>0,5.
 
- FP (False Positive): Là đối tượng được nhận dạng đúng với tỉ lệ IOU<0,5.
 
- FN (False negative): Là đối tượng không được nhận dạng.
 
- IOU (Intersection over union): Là tỉ lệ giữa hai đường bao (thường là đường bao dự đoán - Predicted bounding box và đường bao thực - Ground truth bounding box) để xác định hai khung hình có bị đè chồng lên nhau không. Nó được tính bằng tỉ lệ diện tích giao nhau trên tổng hai diện tích. (Hình 4)
 
Tỉ lệ lỗi của các ký tự (Character error rate - CER) được sử dụng để đánh giá độ hiệu quả của mô hình nhận diện. Chỉ số CER được tính dựa trên độ đo khoảng cách (Edit distance). Giả sử hệ thống dự đoán ra là chuỗi A và nhãn thực tế của ảnh là B thì CER trên ảnh đó là:

 
Trong đó: Levenshtein (A,B) là khoảng cách giữa chuỗi A và chuỗi B. Đó là số bước ít nhất để biến chuỗi A thành chuỗi B thông qua các phép biến đổi cơ bản; len(A), len(B) là độ dài của chuỗi A và độ dài của chuỗi B.
 
3. Kết quả thử nghiệm
 
- Kết quả thử nghiệm của mô hình phát hiện trên tập Sroie 2019 (Bảng 2, Hình 5)
- Kết quả thử nghiệm của mô hình nhận diện trên tập VNOnDB (Bảng 3, Hình 6, Hình 7)

4. Đánh giá, nhận xét
 
Qua hai thử nghiệm về độ hiệu quả của mô hình ta thấy, hệ thống nhận dạng chữ viết có kết quả tốt trên cả bộ chữ in và chữ viết tay trong các điều kiện khác nhau. Từ đó ta có cái nhìn tổng thể hơn về các thuận lợi và khó khăn của việc áp dụng mô hình này vào các tổ chức tài chính, ngân hàng là:
 
Về thuận lợi:
 
- Dạng module dễ mở rộng.
 
- Có thể áp dụng với các kiểu chữ và ngôn ngữ khác nhau.
 
- Là cầu nối để chuyển đổi số, dễ dàng liên kết với các hệ thống trong ngân hàng như RPA, ERP.
 
Về khó khăn:
 
- Độ chính xác chỉ từ 90 - 99% => Cần người để sửa lỗi còn lại (BPO - Business process outsourcing).
 
- Cần xây dựng đội ngũ phát triển của các ngân hàng để hiểu nghiệp vụ và bóc tách các thông tin cần thiết sau OCR.
 
IV. Kết luận
 
Bài toán nhận diện chữ trong ảnh là một trong những bài toán kinh điển và quan trọng trong lĩnh vực ngân hàng nói riêng và các ngành công nghiệp ứng dụng khác nói chung. Các ngân hàng cần nhanh chóng đào tạo, bồi dưỡng, bổ sung cho cán bộ, nhân viên các kiến thức và hiểu biết nhất định về các công nghệ lõi để có thể triển khai một cách hiệu quả nhất bởi chuyển đổi số là xu thế tất yếu hiện nay. Khi mà dữ liệu ngày càng bùng nổ, ngân hàng nào có thể nắm bắt thì có thể phát triển rất nhanh chóng. OCR chính là cây cầu nối để thúc đẩy tiến trình đó. Bài viết đã mô tả chi tiết về một hệ thống nhận diện chữ viết bằng việc sử dụng các mô hình AI và học sâu để có thể nhận diện chữ tiếng Việt. Phương pháp áp dụng 04 thành phần cơ bản là tiền xử lý, phát hiện chữ, nhận diện chữ và hậu xử lý nhằm tìm ra các đặc trưng nhất để dự đoán các chữ trong ảnh. Với phương pháp này, các ngân hàng có thể tùy biến thêm, bớt các thành phần tùy theo từng điều kiện, trường hợp cụ thể một cách thích hợp nhất. Phương pháp hoạt động tương đối tốt với dữ liệu là các loại chữ Latin bao gồm có tiếng Việt. Bên cạnh đó, nó cũng có thể phát triển để có thể áp dụng cho nhiều loại ngôn ngữ khác.
 
Lời cảm ơn
 
Công trình nghiên cứu này được thực hiện bởi sự hỗ trợ của trường Đại học Bách khoa Hà Nội và Tập đoàn FPT.

Tài liệu tham khảo:
 
1. How does OCR reduce the risk of making a mistake? (finanteq.com).
 
2. Derek Rego, Amir Karimi, Sandra Peterson (2017), Machine Learning and Cognitive Computing: Enhancing Transaction Risk Management.
 
3. Y. LeCun, L. Bottou, Y. Bengio, P. Haffner. Gradient-based learning applied to document recognition. Proceedings of IEEE 86 (11) (1998) 2278 - 2324.
 
4. Alex Sherstinsky. Fundamentals of Recurrent Neural Network (RNN) and Long Short-Term Memory (LSTM) Network. Physica D: Nonlinear Phenomena, Volume 404, 2020, 132306, ISSN 0167 - 2789.
 
5. I. Sutskever, O. Vinyals, and Q. V. Le. Sequence to sequence learning with neural networks. In Advances in neural information processing systems, pages 3104 -3112, 2014.
 
6. Youngmin Baek, Bado Lee, Dongyoon Han, Sangdoo Yun, and Hwalsuk Lee. Character region awareness for text detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 9365 - 9374, 2019.
 
7. L. Vincent and P. Soille. Watersheds in digital spaces: an efficient algorithm based on immersion simulations. PAMI, (6): 583 - 598, 1991.
 
8. M. Jaderberg, K. Simonyan, A. Zisserman, et al. Spatial transformer networks. In Advances in neural information processing systems, pages 2017 - 2025, 2015.
 
KS. Vũ Minh Đức (Công ty FPT Software, Tập đoàn FPT)
ThS. Trần Thị Huế (Khoa Hệ thống thông tin Quản lý, Học viện Ngân hàng)
Tăng Thu Thảo, TS. Trần Ngọc Thăng (Viện Toán ứng dụng và Tin học, Đại học Bách khoa Hà Nội)
Bình luận Ý kiến của bạn sẽ được kiểm duyệt trước khi đăng. Vui lòng gõ tiếng Việt có dấu
Đóng lại ok
Bình luận của bạn chờ kiểm duyệt từ Ban biên tập
Ứng dụng công nghệ số trong hoạt động ngân hàng tại Việt Nam: Thực trạng và giải pháp
Ứng dụng công nghệ số trong hoạt động ngân hàng tại Việt Nam: Thực trạng và giải pháp
24/11/2022 232 lượt xem
Sự phát triển của công nghệ số đang dần làm thay đổi cơ bản các hình thức cung ứng dịch vụ ngân hàng truyền thống. Các ngân hàng thương mại (NHTM) trong nước đã triển khai ứng dụng nhiều công nghệ tiên tiến vào hoạt động ngân hàng như: AI, ML, Cloud Computing, Big Data, IoT để đánh giá, phân loại khách hàng và quyết định giải ngân hay giúp đơn giản hóa các quy trình, thủ tục và rút ngắn thời gian giao dịch.
Chuyển đổi số ngành Ngân hàng: Hoàn thiện và đồng bộ về pháp lý để tăng kết nối, chia sẻ dữ liệu an toàn
Chuyển đổi số ngành Ngân hàng: Hoàn thiện và đồng bộ về pháp lý để tăng kết nối, chia sẻ dữ liệu an toàn
21/11/2022 300 lượt xem
Trong chương trình chuyển đổi số giai đoạn hiện nay, bên cạnh một số thách thức như vốn đầu tư cho công nghệ, nhân sự, an ninh, bảo mật, ngành Ngân hàng đang gặp khó khăn về hành lang pháp lý do còn thiếu và chưa đồng bộ. Do đó, thời gian tới, cần tiếp tục hoàn thiện các chính sách tạo điều kiện cho chia sẻ dữ liệu, kết nối giữa các bộ, ngành liên quan với ngành Ngân hàng một cách an toàn, hiệu quả, đảm bảo mang lại lợi ích cho toàn dân.
Về điều kiện phát triển Mobile-Money ở Việt Nam hiện nay
Về điều kiện phát triển Mobile-Money ở Việt Nam hiện nay
17/11/2022 398 lượt xem
Sự phát triển của cuộc Cách mạng công nghiệp lần thứ tư thời gian qua đã tạo điều kiện thuận lợi cho sự ra đời và phát triển nhanh chóng của nhiều phương thức thanh toán điện tử. Một trong những phương thức thanh toán điện tử đang được sử dụng rộng khắp trên thế giới và có tốc độ phát triển nhanh nhất hiện nay là Mobile-Money.
Lịch sử công nghệ kỹ thuật số trong hoạt động ngân hàng
Lịch sử công nghệ kỹ thuật số trong hoạt động ngân hàng
16/11/2022 427 lượt xem
Công nghệ số, chuyển đổi số là những cụm từ được nhắc tới nhiều nhất trong thời gian gần đây bởi những tác động mạnh mẽ tới mọi mặt của đời sống và xã hội. Trong đó, ngành Ngân hàng là một trong những ngành đón nhận nhiều cơ hội như giảm thiểu chi phí, nâng cao hiệu quả hoạt động, cải thiện quy trình…
Nhận diện rủi ro đối với hoạt động định danh khách hàng điện tử (eKYC) trong hoạt động ngân hàng
Nhận diện rủi ro đối với hoạt động định danh khách hàng điện tử (eKYC) trong hoạt động ngân hàng
08/11/2022 798 lượt xem
Tại Việt Nam, trước khi cơ sở pháp lý chính thức cho eKYC trong việc mở tài khoản thanh toán được ban hành (Thông tư số 16/2020/TT-NHNN ngày 04/12/2020 của Thống đốc Ngân hàng Nhà nước (NHNN) sửa đổi, bổ sung một số điều của Thông tư số 23/2014/TT-NHNN ngày 19/8/2014 của Thống đốc NHNN hướng dẫn việc mở và sử dụng tài khoản thanh toán tại tổ chức cung ứng dịch vụ thanh toán), ngành Ngân hàng đã lần lượt ứng dụng eKYC vào quy trình nhận biết khách hàng và cung cấp các sản phẩm, dịch vụ tài chính.
Tác động của độ bảo mật tới ý định sử dụng ngân hàng di động trên địa bàn Thành phố Hồ Chí Minh
Tác động của độ bảo mật tới ý định sử dụng ngân hàng di động trên địa bàn Thành phố Hồ Chí Minh
26/10/2022 1.081 lượt xem
Khi việc sử dụng ngân hàng di động tiếp tục phát triển, cần phải chú ý đến tính bảo mật của các giao dịch tài chính. Mục đích của nghiên cứu này là xem xét tác động của độ bảo mật đối với ý định sử dụng ngân hàng di động.
Tiền di động - Một năm nhìn lại
Tiền di động - Một năm nhìn lại
25/10/2022 1.132 lượt xem
Cung cấp dịch vụ tài chính vi mô là một trong những hỗ trợ giúp cho người có thu nhập thấp thoát nghèo. Tuy nhiên, người có thu nhập thấp thường sống xa trung tâm, do vậy chi phí tiếp cận với các dịch vụ tài chính khá cao, cơ hội tiếp cận giảm đi. Nhiều nghiên cứu cho rằng, phát triển dịch vụ ngân hàng qua điện thoại mang lại nhiều tiện ích cho người sử dụng, đặc biệt là người sử dụng tài chính vi mô ở nhiều nước (Vong et al., 2012; Kumar, McKay & Rotman, 2010).
An toàn, bảo mật thông tin tài khoản của khách hàng - Nhiệm vụ quan trọng của ngân hàng trong cung cấp dịch vụ
An toàn, bảo mật thông tin tài khoản của khách hàng - Nhiệm vụ quan trọng của ngân hàng trong cung cấp dịch vụ
13/10/2022 1.506 lượt xem
Theo Ngân hàng Nhà nước Việt Nam (NHNN), tính đến cuối tháng 6/2022, có gần 5,5 triệu tài khoản mở bằng phương thức trực tuyến (eKYC) đang hoạt động, gần 8,9 triệu thẻ mở bằng eKYC đang lưu hành và khoảng 123 triệu tài khoản thanh toán. Với sự phát triển của thương mại điện tử, thanh toán điện tử cũng tăng trưởng mạnh mẽ.
Pháp luật về chuyển đổi số ngành Ngân hàng và định hướng hoàn thiện
Pháp luật về chuyển đổi số ngành Ngân hàng và định hướng hoàn thiện
11/10/2022 1.882 lượt xem
Cách mạng công nghiệp lần thứ tư (CMCN 4.0) với sự kết hợp của công nghệ số đã và đang tác động lớn đến lĩnh vực ngân hàng. Theo đó, chuyển đổi số đang dần trở thành một xu hướng tất yếu của các ngân hàng, mang đến cho ngành Ngân hàng nhiều cơ hội chuyển mình nhưng cũng đặt ra không ít thách thức.
Bảo mật truyền thông IoT qua mạng di động trong hệ thống ngân hàng số
Bảo mật truyền thông IoT qua mạng di động trong hệ thống ngân hàng số
03/10/2022 1.741 lượt xem
Internet vạn vật (Internet of Things - IoT) là một trong các công nghệ hiện đại, đặc trưng cho kỷ nguyên của Cách mạng công nghiệp lần thứ tư.
Thúc đẩy chuyển đổi số hướng đến một cuộc sống tốt đẹp hơn
Thúc đẩy chuyển đổi số hướng đến một cuộc sống tốt đẹp hơn
01/10/2022 1.764 lượt xem
Cuộc Cách mạng công nghiệp lần thứ tư (CMCN 4.0) đã và đang tác động ngày càng mạnh mẽ đến tất cả các ngành, lĩnh vực của đời sống kinh tế - xã hội, mở ra nhiều cơ hội cũng như đặt ra nhiều thách thức đối với mỗi quốc gia trong đó có Việt Nam. Chuyển đổi số ngày càng trở nên quan trọng, trở thành vấn đề sống còn trong kỷ nguyên 4.0 đang phát triển không ngừng, đó không phải là sự lựa chọn mà là điều cần thiết để duy trì, cạnh tranh trên thị trường. Đảng và Chính phủ ta đã xác định chuyển đổi số là một chủ trương lớn, là hướng đi tất yếu để thúc đẩy phát triển kinh tế - xã hội của đất nước.
Chuyển đổi ngân hàng số trong bối cảnh cuộc Cách mạng công nghiệp lần thứ tư và một số khuyến nghị
Chuyển đổi ngân hàng số trong bối cảnh cuộc Cách mạng công nghiệp lần thứ tư và một số khuyến nghị
21/09/2022 2.554 lượt xem
Trong nhiều năm trở lại đây, ngành công nghệ thông tin thực sự đã len lỏi vào từng ngóc ngách của đời sống xã hội nhờ sự phát triển bùng nổ của cuộc Cách mạng công nghiệp lần thứ tư (CMCN 4.0). Bất kể một lĩnh vực hay ngành, nghề nào đều ứng dụng công nghệ thông tin, lĩnh vực ngân hàng cũng không nằm ngoài xu hướng chung đó. Đặc biệt, trong bối cảnh nền kinh tế thế giới đã và đang phục hồi từ đại dịch Covid-19, việc áp dụng công nghệ đóng vai trò ngày càng quan trọng trong nền kinh tế toàn cầu.
Chuyển đổi số ngành tài chính - ngân hàng tại Việt Nam trong bối cảnh hậu Covid-19
Chuyển đổi số ngành tài chính - ngân hàng tại Việt Nam trong bối cảnh hậu Covid-19
01/09/2022 4.276 lượt xem
Chuyển đổi số trong ngành tài chính - ngân hàng được xem là hệ quả tất yếu từ sự tác động của cuộc Cách mạng công nghiệp lần thứ tư (CMCN 4.0) cũng như sự tác động mạnh mẽ của đại dịch Covid-19 trong bối cảnh hiện nay.
Chuyển đổi số đối với các tổ chức tín dụng là hợp tác xã - Thực trạng và vấn đề đặt ra
Chuyển đổi số đối với các tổ chức tín dụng là hợp tác xã - Thực trạng và vấn đề đặt ra
17/08/2022 2.551 lượt xem
Bài viết này tập trung đánh giá về thực trạng chuyển đổi số của các tổ chức tín dụng (TCTD) là hợp tác xã, đặt trong bối cảnh chung về chuyển đổi số của các ngân hàng thương mại, để thấy rõ hơn mức độ chuyển đổi số của các TCTD là hợp tác xã.
Ngân hàng trong bối cảnh đột phá công nghệ số
Ngân hàng trong bối cảnh đột phá công nghệ số
12/08/2022 3.601 lượt xem
Trong bối cảnh đột phá công nghệ số, số lượng thông tin có thể mã hóa và các công cụ có sẵn để xử lý thông tin đã tăng đáng kể. Các công ty công nghệ tài chính (Fintech) là những người chơi mới trên thị trường lại có thế mạnh trong xử lý dữ liệu lớn và các công ty này cũng có tham vọng cung cấp các dịch vụ tài chính vốn là dịch vụ truyền thống và thế mạnh của ngân hàng.
Giá vàngXem chi tiết

GIÁ VÀNG - XEM THEO NGÀY

Khu vực

Mua vào

Bán ra

HÀ NỘI

Vàng SJC 1L

66.500

67.520

TP.HỒ CHÍ MINH

Vàng SJC 1L

66.500

67.500

Vàng SJC 5c

66.500

67.520

Vàng nhẫn 9999

53.000

54.000

Vàng nữ trang 9999

52.800

53.600


Ngoại tệXem chi tiết
TỶ GIÁ - XEM THEO NGÀY 
Ngân Hàng USD EUR GBP JPY
Mua vào Bán ra Mua vào Bán ra Mua vào Bán ra Mua vào Bán ra
Vietcombank 24.627 24.857 24.754 26.138 28.541 29.755 170.32 180.30
BIDV 24.655 24.855 24.915 26.013 28.716 29.883 170.53 178.87
VietinBank 24.645 24.856 25.021 26.156 28.886 29.896 171.64 180.19
Agribank 24.640 24.855 25.147 26.225 28.899 29.682 174.11 180.63
Eximbank 24.620 24.855 25.044 25.697 28.953 29.708 172.21 176.70
ACB 24.600 24.855 25.119 26.701 29.135 29.691 172.39 176.56
Sacombank 24.620 24.857 25.081 25.996 29.089 29.855 172.56 180.11
Techcombank 24.700 24.853 25.080 25.730 28.970 29.730 171.40 177.00
LienVietPostBank 24.580 24.855 25.088 26.320 29.058 29.881 172.21 181.04
DongA Bank 24.660 24.857 26.930 27.410 31.560 32.110 203.80 210.30
(Cập nhật trong ngày)
Lãi SuấtXem chi tiết
(Cập nhật trong ngày)
Ngân hàng
KKH
1 tuần
2 tuần
3 tuần
1 tháng
2 tháng
3 tháng
6 tháng
9 tháng
12 tháng
24 tháng
Vietcombank
0,10
0,20
0,20
-
4,10
4,10
4,40
4,70
4,80
6,40
6,40
BIDV
0,10
-
-
-
4,10
4,10
4,40
4,70
4,80
6,40
6,40
VietinBank
0,10
0,20
0,20
0,20
4,10
4,10
4,40
4,70
4,80
6,40
6,40
Cake by VPBank
0,10
-
-
-
4,90
-
4,95
7,90
-
8,50
8,60
ACB
-
0,50
0,50
0,50
4,00
4,10
4,20
5,50
5,70
6,20
6,90
Sacombank
-
-
-
-
5,60
5,70
5,80
7,00
7,15
7,30
7,50
Techcombank
0,03
-
-
-
5,90
5,90
5,90
6,70
6,70
7,00
7,00
LienVietPostBank
0,10
0,10
0,10
0,10
6,00
6,00
6,00
6,50
6,50
5,90
6,40
DongA Bank
0,50
0,50
0,50
0,50
5,00
5,00
5,00
6,80
6,90
7,40
7,70
Agribank
0,30
-
-
-
4,10
4,10
4,40
4,80
4,80
6,40
6,40
Eximbank
0,20
0,50
0,50
0,50
4,50
4,60
4,70
6,00
6,10
6,60
6,60

Liên kết website
Bình chọn trực tuyến
Nội dung website có hữu ích với bạn không?