Tóm tắt: Trong hoạt động giảng dạy nói chung và tại Học viện Ngân hàng nói riêng, nhận biết cảm xúc và mức độ tập trung của người học là yếu tố quan trọng để dẫn dắt nhịp độ lớp học, thu được kết quả tốt trong hoạt động dạy và học. Với mô hình học tập trực tuyến thì việc nắm bắt cảm xúc người học thông qua khuôn mặt được coi là phương pháp hữu hiệu nhằm xác định được mức độ yêu thích bài học hay mức độ tập trung của người học. Sự phát triển lý thuyết học sâu (Deep Learning) trong công nghệ nhận dạng hình ảnh, việc nhận dạng cảm xúc thông qua khuôn mặt trở nên dễ dàng và có độ chính xác cao hơn. Bài viết nghiên cứu, đánh giá cảm xúc của sinh viên Học viện Ngân hàng trong hoạt động giảng dạy trực tuyến bằng công nghệ nhận dạng cảm xúc thông qua hình ảnh khuôn mặt, từ đó xác định mức độ hài lòng, yêu thích môn học của sinh viên, đồng thời giúp giảng viên kịp thời điều chỉnh hoạt động giảng dạy làm tăng hiệu quả hoạt động dạy và học trực tuyến.
Từ khóa: Học tập trực tuyến, phát hiện cảm xúc, sự hài lòng, học sâu.
Facial emotion detection model to assess the 'satisfaction' level of Banking Academy students while joining into online learning
Abstract: In teaching activities, recognizing emotions and concentration of learners is an important factor to lead the class to achieve good results in teaching and learning activities. With the online learning model, capturing learners' emotions through faces is considered an effective method to determine the level of interest in the lesson or the concentration of learners. With the development of deep learning theory in image recognition technology, facial recognition becomes easier and more accurate. This article focuses on collecting and assessing the emotions of Banking Academy students in online teaching and learning activities using emotion recognition technology through face images, thereby determining the level of students' satisfaction and interest in the subject, and at the same time, it helps teachers to timely adjust teaching activities to increase the efficiency of online teaching and learning activities.
Keywords: Online learning, emotion detection, satisfaction, Deep Learning.
1. Giới thiệu
Thời gian qua, đại dịch Covid-19 diễn biến phức tạp, phương thức giảng dạy trực tuyến trở nên thông dụng. Và ngay cả trong bối cảnh bình thường mới, một số các buổi học và họp trực tuyến vẫn được duy trì. Các trường đại học trên cả nước nói chung và Học viện Ngân hàng nói riêng đã áp dụng các phần mềm tiện ích như Zoom Meeting, Google Meeting, Hangouts Meets, Google Classroom... nhằm giúp giảng viên và sinh viên có thể trao đổi với nhau một cách dễ dàng nhất, nội dung kiến thức bài học sẽ được giảng viên chia sẻ và giải đáp thắc mắc một cách tốt nhất. Khi giảng viên và sinh viên không giao tiếp trực tiếp mặt đối mặt, sinh viên khó trao đổi thông tin trực tiếp, giảng viên cũng khó quan sát được cảm xúc và mức độ tập trung của sinh viên nên hiệu quả học tập chưa cao.
Mức độ tiếp thu của người học có sự tác động không nhỏ từ môi trường học tập như: Yêu cầu của giảng viên, yêu cầu của môn học, nội dung học tập, khả năng truyền đạt kiến thức của giảng viên... có thể tác động gây ra cảm giác chán nản, tức giận hay khó chịu (biểu hiện gần của stress). Đo lường và đánh giá mức độ cảm xúc của người học trong quá trình học tập có thể coi là hoạt động cần thiết và quan trọng, giúp người dạy biết được tâm lý người học khi mà điều kiện học tập trực tuyến rất khó để nhận biết. Điều này sẽ giúp người dạy điều tiết quá trình giảng dạy, làm giảm mức độ căng thẳng trong học tập của người học giúp người học tiếp thu hiệu quả hơn. Không chỉ vậy, đây cũng có thể được coi là kênh thông tin để đo lường hoạt động giảng dạy của giảng viên.
Với mục đích nâng cao hiệu quả dạy và học, nhóm tác giả tiến hành nghiên cứu “Mô hình phát hiện cảm xúc khuôn mặt nhằm đánh giá mức độ "hài lòng" của sinh viên Học viện Ngân hàng khi tham gia học trực tuyến” sử dụng trong quá trình giảng dạy, giúp giảng viên có thể điều chỉnh lại hoạt động giảng dạy sao cho phù hợp và thúc đẩy hiệu quả của quá trình giảng dạy và học tập. Nhóm tác giả đã thu thập hình ảnh của sinh viên Học viện Ngân hàng khi tham gia học trực tuyến qua phần mềm Zoom Meeting để làm dữ liệu huấn luyện và kiểm thử mô hình.
2. Bài toán phát hiện cảm xúc
Cùng với sự phát triển của xã hội, nhu cầu thu thập phản hồi của khách hàng và lựa chọn giải pháp phù hợp nhất để thực hiện nó là điều cần quan tâm. Đánh giá cảm xúc tự động đặc biệt quan trọng với một số lĩnh vực như: Người máy, tiếp thị, giáo dục và công nghiệp giải trí. Ứng dụng của đánh giá cảm xúc tự động nhằm đạt được các mục tiêu khác nhau trong các lĩnh vực khác nhau như: Trong lĩnh vực người máy nhằm để tạo ra các Robot hợp tác hoặc các dịch vụ thông minh có thể tương tác với con người; trong lĩnh vực tiếp thị, với mục đích tạo ra các quảng cáo chuyên biệt dựa trên trạng thái cảm xúc của khách hàng; trong lĩnh vực giáo dục nhằm cải thiện quá trình học tập, chuyển giao kiến thức và nhận thức; trong công nghiệp giải trí nhằm đề xuất các sản phẩm giải trí phù hợp nhất với khách hàng mục tiêu...
Việc đánh giá cảm xúc được coi là quá trình phân loại và thiết lập ranh giới giữa cảm xúc và tâm trạng. Các nghiên cứu của Feidakis, Daradoumis và Cabella đã đưa ra cách phân loại cảm xúc gồm 66 cảm xúc chia thành hai nhóm: Mười cảm xúc cơ bản như tức giận, mong đợi, không tin tưởng, sợ hãi, hạnh phúc, niềm vui, tình yêu, nỗi buồn, sự ngạc nhiên, tin tưởng và 56 cảm xúc thứ cấp. Để đánh giá một lượng cảm xúc khổng lồ như vậy là điều vô cùng khó khăn, đặc biệt là nếu cần phải nhận dạng và đánh giá tự động. Hơn nữa, những cảm xúc tương tự có thể có các thông số trùng lặp, được đo lường. Để xử lý vấn đề này, phần lớn các nghiên cứu về đánh giá cảm xúc tập trung vào các phân loại khác, chủ yếu là giảm số chiều cảm xúc, trong hầu hết trường hợp là giá trị (kích hoạt, tiêu cực, tích cực); kích thích (cao/thấp) và chỉ phân tích các cảm xúc cơ bản dễ dàng xác định.
Các phương pháp đánh giá cảm xúc
Các phương pháp đánh giá cảm xúc có thể được chia thành hai nhóm chính theo các kỹ thuật cơ bản sử dụng để phát hiện cảm xúc: Kỹ thuật tự đánh giá dựa trên bảng hỏi, kỹ thuật đánh giá dựa trên phép đo các thông số khác nhau của cơ thể người, hoặc kết hợp nhiều phương pháp khác nhau để tăng độ tin cậy của kết quả thu được. Tuy nhiên, các phương pháp truyền thống này thường tốn khá nhiều thời gian và công sức để đạt được kết quả như mong muốn. Đặc biệt với kỹ thuật thứ nhất có thể thiếu tính khách quan khi phương pháp phụ thuộc hoàn toàn vào câu trả lời của chủ thể được đo lường cảm xúc. Kỹ thuật thứ hai điển hình với các kỹ thuật điện não đồ, điện tâm đồ, phản ứng da Galvanic, biến thiên nhịp tim, phân tích tỷ lệ hô hấp... nhằm đánh giá cảm xúc của con người là tốn kém về thời gian và công sức.
Phương pháp phát hiện cảm xúc thông qua khuôn mặt
Phát hiện cảm xúc khuôn mặt là bước phát triển tiếp sau của việc phát hiện khuôn mặt, tuy nhiên, có nhiều quan điểm trong việc định nghĩa khái niệm cảm xúc, vốn rất không rõ ràng. Matsumoto phân chia cảm xúc khuôn mặt thành 07 nhóm thể hiện chính: Vui vẻ, ngạc nhiên, hài lòng, buồn bực, cáu giận, phẫn nộ và sợ hãi. Tuy nhiên, nhóm của Mase và Pentland cho rằng chỉ 04 loại cảm xúc được thể hiện một cách rõ ràng là hạnh phúc, ngạc nhiên, giận dữ và căm phẫn, các loại cảm xúc khác thường không rõ ràng và tùy thuộc nhiều vào kinh nghiệm của người quan sát (tức là không thể định lượng một cách chính xác). Do việc định nghĩa khái niệm cảm xúc không rõ ràng, nên việc đánh giá chất lượng các phương pháp phát hiện cảm xúc tùy thuộc vào tập dữ liệu huấn luyện và kiểm tra. Trong bài viết này, chúng tôi thử nghiệm kiến trúc Deep Learning dựa trên nhiều lớp tích chập (ConvNet) để phát hiện cảm xúc khuôn mặt. Dữ liệu thu được từ Camera của phần mềm Zoom Meeting chụp mặt của các sinh viên trong buổi học với nhiều trạng thái khác nhau, sau đó dữ liệu được chuyển vào xử lý với đầu ra xác suất (Softmax), trả về xác suất của 03 loại cảm xúc do hệ thống tính toán được. (Mô hình 1)
Mô hình 1: Phát hiện cảm xúc thông qua khuôn mặt
Mô hình truyền thống
Phương pháp hiện đại
Tiền xử lý ảnh: Trước hết, phải xử lý một số vấn đề của ảnh đầu vào hệ thống, xử lý trước quá trình Trainning. Các bước thực hiện: Căn chỉnh để phát hiện khuôn mặt, tăng dữ liệu hình ảnh đảm bảo đủ dữ liệu Training, cuối cùng là chuẩn hóa dữ liệu khuôn mặt. Sử dụng các phương pháp CNN, DBN, DAE, RNN, GAN...
Phân loại: Trong phương pháp truyền thống, bước trích xuất đặc trưng và bước phân loại tính năng là độc lập với nhau, trong Deep Learning có thể thực hiện theo thuật ngữ FER từ đầu đến cuối. Một lớp hình ảnh được thêm vào cuối mạng để điều chỉnh lỗi lan truyền ngược, sau đó xác suất dự đoán của từng mẫu có thể được mạng trực tiếp xuất ra.
3. Mạng nơ-ron tích chập
Mạng nơ-ron tích chập (Convolutional Neural Network - CNNs) là một loại mạng nơ-ron nhân tạo (ANN), hiệu quả trong các tác vụ hình ảnh khác nhau, bao gồm phân loại hình ảnh, phân đoạn hình ảnh, truy xuất hình ảnh, phát hiện đối tượng, nhận dạng khuôn mặt, ước lượng tư thế, nhận dạng biển báo giao thông, xử lý giọng nói...
Mạng nơ-ron tích chập ngày càng được quan tâm trong những năm gần đây, tuy nhiên, sự phát triển của nó bắt đầu sớm hơn nhiều. Nghiên cứu trong những thập niên 1950 và 1960 của D.H Hubel và T.N Wiesel trên não của động vật đã đề xuất một mô hình mới cho cách mà động vật nhìn nhận thế giới. Trong nghiên cứu, tác giả đã diễn tả 02 loại tế bào nơ-ron trong não và cách hoạt động khác nhau: Tế bào đơn giản (Simple cell - S cell) và tế bào phức tạp (Complex cell - C cell). Các S cell được kích hoạt khi nhận diện các hình dáng đơn giản như đường nằm trong một khu vực cố định và một góc cạnh của nó. Các C cell có vùng tiếp nhận lớn hơn và đầu ra của nó không nhạy cảm với những vị trí cố định trong vùng. Trong thị giác, vùng tiếp nhận của một nơ-ron tương ứng với một vùng trên võng mạc, nơi sẽ kích hoạt nơ-ron tương ứng. Năm 1980, Fukushima đề xuất mô hình mạng nơ-ron có cấp bậc gọi là Neocognitron. Mô hình này dựa trên khái niệm về S cell và C cell. Mạng Neocognitron có thể nhận diện mẫu dựa trên việc học hình dáng của đối tượng. Sau đó vào năm 1998, mạng nơ-ron tích chập được giới thiệu bởi Bengio, Le Cun, Bottou và Haffner. Mô hình đầu tiên của họ được gọi tên là LeNet-5. Mô hình này có thể nhận diện chữ số viết tay.
CNNs được thiết kế để xử lý dữ liệu dưới dạng nhiều mảng, ví dụ, một hình ảnh màu bao gồm ba mảng 2D chứa cường độ pixel trong các kênh ba màu. Họ sử dụng các bộ lọc chập của mình để trích xuất thông tin từ hình ảnh, các lớp trước đó phát hiện các cạnh, các lớp sau có thể phát hiện một phần của đối tượng, thậm chí các lớp sau có thể phát hiện các đối tượng hoàn chỉnh, chẳng hạn như khuôn mặt hoặc các hình dạng hình học phức tạp khác. CNNs được cấu tạo bởi một tập hợp các lớp bao gồm: Lớp tích chập; lớp lấy mẫu (Pooling); lớp kết nối đầy đủ (Fully connected). Các lớp này liên kết với nhau theo một thứ tự nhất định. Thông thường, một hình ảnh sẽ được lan truyền qua lớp tích chập đầu tiên, sau đó các giá trị tính toán được sẽ lan truyền qua lớp lấy mẫu, lớp tích chập và lớp lấy mẫu có thể được lặp lại nhiều lần trong mạng. Và sau đó được lan truyền qua kết nối đầy đủ để tính xác suất ảnh đó chứa vật thể gì.
Lớp tích chập
Phép toán tích chập là một trong những nền tảng cơ bản của mạng nơ-ron tích chập. Tích chập được thực hiện trên giá trị đầu vào của dữ liệu và ma trận lọc (kernel), bộ lọc (filter) (thuật ngữ này được sử dụng khác nhau tùy tình huống) để tạo ra một bản đồ đặc trưng (feature map). Thực hiện phép tích chập bằng cách trượt kernel/filter theo dữ liệu đầu vào. Tại mỗi vị trí, tiến hành phép nhân ma trận và tính tổng các giá trị để đưa vào bản đồ đặc trưng. Trong thực tế, tích chập được thực hiện hiện trên không gian 3 chiều. Mỗi hình ảnh được biểu diễn dưới dạng 3 chiều: Rộng, cao và sâu. Chiều sâu ở đây chính là giá trị màu sắc của hình (RGB).
Thực hiện phép tích chập trên đầu vào nhiều lần khác nhau, mỗi lần sử dụng một kernel/filter khác nhau. Kết quả ta sẽ thu được những bản đồ đặc trưng khác nhau. Cuối cùng, ta kết hợp toàn bộ bản đồ đặc trưng này thành kết quả cuối cùng của tầng tích chập.
Trong quá trình trượt kernel/filter trên dữ liệu đầu vào, quy định một bước nhảy (stride) với mỗi lần di chuyển, thể hiện số pixel cần phải dịch chuyển mỗi khi trượt filter qua bức ảnh. Khi stride = 1, thì mỗi lần dịch kernel/filter sẽ sang phải 1 pixel, khi hết cạnh biên phải thì xuống 01 dòng và dịch tiếp. Còn nếu stride = 2 thì mỗi lần dịch sẽ sang phải 2 pixel, khi hết cạnh thì xuống 02 dòng. Thông thường người ta lựa chọn bước nhảy là 1.
Khi áp dụng phép tích chập thì ma trận đầu vào sẽ có kích thước nhỏ dần đi, do đó số lớp của mô hình CNN sẽ bị giới hạn, nên ta cần một phép xử lý đầu vào để đầu ra không bị co giãn. Đơn giản ta chỉ cần thêm một lề nhỏ vào đầu vào. Một lề với giá trị 0 sẽ được thêm vào xung quanh đầu vào trước khi thực hiện phép tích chập.
Kích thước đầu ra được tính theo công thức:
Trong đó: n là số filter/kernel, p là kích thước khoảng trắng phía ngoài viền của ảnh đầu vào, f là kích thước và s là bước trượt của filter/kernel.
Tương tự như mạng nơ-ron thông thường, CNNs sử dụng một hàm kích hoạt (Activate function) để có đầu ra dưới dạng phi tuyến. Đầu ra của phép tích chập sẽ đi qua hàm kích hoạt nào đó như hàm ReLU (Rectified linear units)... để giới hạn phạm vi biên độ cho phép của giá trị đầu ra. Hình 1 thể hiện một hàm phi tuyến ReLU theo sau lớp tích chập. Hàm ReLU thường được chọn do cài đặt đơn giản, tốc độ xử lý nhanh mà vẫn đảm bảo được tính toán hiệu quả. Phép tính toán của hàm ReLU chỉ đơn giản là chuyển tất cả các giá trị âm thành giá trị 0. Lớp ReLU được áp dụng ngay phía sau lớp tích chập, với đầu ra là một ảnh mới có kích thước giống với ảnh đầu vào, các giá trị điểm ảnh cũng hoàn toàn tương tự, trừ các giá trị âm đã bị loại bỏ.
Hình 1. Một lớp tích chập
Lớp lấy mẫu
Lớp lấy mẫu đặt sau lớp tích chập để làm giảm kích thước ảnh đầu ra trong khi vẫn giữ được các thông tin quan trọng của ảnh đầu vào. Việc giảm kích thước dữ liệu có tác dụng làm giảm được số lượng tham số cũng như tăng hiệu quả tính toán. Lớp lấy mẫu cũng sử dụng một cửa sổ trượt để quét toàn bộ các vùng trong ảnh như lớp tích chập và thực hiện phép lấy mẫu thay vì phép tích chập, chọn lưu lại một giá trị duy nhất đại diện cho toàn bộ thông tin của vùng ảnh đó. (Hình 2)
Hình 2. Lớp lấy mẫu
Lớp lấy mẫu được sử dụng phổ biến nhất là kích thước bộ lọc 2 với bước nhảy 2. Có 02 phương thức lấy mẫu thường được sử dụng nhất hiện nay, đó là Max Pooling (lấy giá trị điểm ảnh lớn nhất) và Avarage Pooling (lấy giá trị trung bình của các điểm ảnh trong vùng ảnh cục bộ).
Lớp kết nối đầy đủ
Lớp cuối cùng trong mạng CNNs là lớp kết nối đầy đủ, phần này hoạt động tương tự như mạng nơ-ron thông thường. Các lớp được kết nối đầy đủ thường là một vài lớp cuối cùng của được thể hiện như trong Hình 3. Lớp kết nối đầy đủ chứa cùng số lượng nơ-ron đầu ra với số lớp được nhận dạng.
Hình 3. Lớp kết nối đầy đủ
4. Phát hiện cảm xúc tích cực và tiêu cực của sinh viên trong học tập trực tuyến
Tập dữ liệu gồm: 1.000 ảnh (với 580 ảnh có cảm xúc tích cực và 420 ảnh có cảm xúc tiêu cực) ảnh được thu thập từ các ảnh chụp sinh viên Học viện Ngân hàng thông qua giao diện màn hình của phần mềm trực tuyến Zoom.
- Tập huấn luyện: Chiếm 60% dùng để học khi huấn luyện.
- Tập kiểm chứng: Chiếm 20% dùng để kiểm chứng mô hình huấn luyện.
- Tập kiểm tra: Chiếm 20% dùng để kiểm tra mô hình đã phù hợp sau khi huấn luyện.
Độ chính xác của mô hình thu được là 93.54%.
5. Kết luận và hướng phát triển
Mô hình 2: Mô hình thực hiện
Phát hiện cảm xúc tích cực và tiêu cực của người học trong quá trình học tập có vai trò quan trọng trong việc điều chỉnh hoạt động giảng dạy nhằm thu được hiệu quả cho quá trình này. Phương pháp phát hiện và đánh giá cảm xúc tự động thông qua nhận diện khuôn mặt là giải pháp khả thi về mặt kỹ thuật và thời gian cũng như đảm bảo tính khách quan. Việc ứng dụng phương pháp đánh giá cảm xúc thông qua khuôn mặt cho quá trình giảng dạy trực tuyến là rất khả quan và đem lại hiệu quả trong việc cải tiến quá trình giảng dạy của người dạy với mục đích làm giảm stress cho người học, điều này sẽ giúp nâng cao hiệu quả giảng dạy trực tuyến. Ảnh khuôn mặt của sinh viên sẽ được thu thập tự động qua phần mềm Zoom sau mỗi giờ học với số lượng nhất định, sử dụng làm đầu vào hệ thống để thu được kết quả đánh giá cảm xúc tích cực và tiêu cực chung của sinh viên, từ đó đưa ra kết quả giờ giảng của giảng viên có ảnh hưởng tích cực hay tiêu cực. Trên cơ sở đó, người giảng sẽ tiếp tục phát huy hoặc điều chỉnh phương án giảng dạy cho phù hợp. Với mong muốn tiếp tục đẩy mạnh hiệu quả hoạt động giảng dạy, hệ thống có thể phát triển để đánh giá cảm xúc tích cực và tiêu cực của từng sinh viên giúp các giảng viên, cố vấn học tập có thể trợ giúp, tư vấn học tập cho sinh viên kịp thời, đảm bảo quá trình học tập có thể diễn ra được đúng kế hoạch.
Bên cạnh việc phát hiện cảm xúc tích cực và tiêu cực của sinh viên Học viện Ngân hàng trong quá trình học trực tuyến thì mô hình này cũng có thể áp dụng cho các ngân hàng. Với dữ liệu đầu vào là ảnh của khách hàng khi đến phòng giao dịch, được thu thập qua các camera giám sát, đưa qua mô hình có thể phát hiện cảm xúc hài lòng hay không hài lòng của khách hàng khi sử dụng dịch vụ, từ đó, ngân hàng nắm bắt được tâm trạng của khách hàng, họ có thể đưa ra phân tích và giải pháp phù hợp nhằm mang lại trải nghiệm cá nhân hóa, phục vụ khách hàng tốt hơn.
Tài liệu tham khảo:
1. Matsumoto, David, and Hyi Sung Hwang (2011). “Reading facial expressions of emotion”, Psychological Science Agenda, Vol 25, No5, pp. 10 - 18.
2. K. Mase, A. Pentland (1991), “Recognition of facial expression from optical flow”, IEEE TRANSACTIONS on Information and Systems, Vol E74-D, No10, pp. 3474 - 3483.
3. Yann LeCun, Leon Bottou, Yoshua Bengio, and Patrick Haff ner, “Gradient-based learning applied to document recognition", Proceedings of the IEEE, 86(11):2278-2324, 1998, pp. 1 - 46.
4. C. Farabet, C. Couprie, L. Najman and Y. LeCun, “Learning Hierarchical Features for Scene Labeling", in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 35, no. 8, 2013. pp. 1915 - 1929.
5. Alex Krizhevsky, Geoff rey E Hinton, “Using very deep autoencoders for content-based image retrieval,” ESANN, 2011, pp. 1 - 7.
6. S. Ren, K. He, R. Girshick and J. Sun, “Faster RCNN: Towards Real-Time Object Detection with Region Proposal Networks", in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol.39, no. 6, 2017, pp. 1137 - 1149.
7. Y. Taigman, M. Yang, M. Ranzato and L. Wolf, “DeepFace: Closing the Gap to Human-Level Performance in Face Verifi cation", IEEE Conference on Computer Vision and Pattern Recognition, Columbus, OH, 2014, pp. 1701 - 1708.
8. A. Toshev, Ch. Szegedy, “DeepPose: Human Pose Estimation via Deep Neural Networks", Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2014, pp. 1653 - 1660.
9. P. Sermanet and Y. LeCun, “Traffic sign recognition with multi-scale Convolutional Networks", The 2011 International Joint Conference on Neural Networks, San Jose, CA, 2011, pp. 2809 - 2813.
10. Y. Le Cun and Y. Bengio, “Convolutional networks for images, speech, and time series", in The Handbook of Brain Th eory and Neural Networks, M. A. Arbib, Ed. Cambridge, MA: MIT Press, 1995, pp. 255 - 258.
11. Hubel, D. H. and Wiesel, T. N., “Receptive fields of single neurons in the cat’s striate cortex", Journal of Physiology, 1959, pp. 574 - 591.
12. Fukushima, K., “Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaff ected by shift in position,” Biological Cybernetics, 1980, pp. 193 - 202.
13. Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, and L. D. Jackel, “Handwritten digit recognition with a back-propagation network", in NIPS, 1989, pp. 1 - 9.
14. LeCun, Yann, Yoshua Bengio, and Geoff rey Hinton, “Deep learning", nature 521.7553, 2015, pp. 436.
15. J. F. Couchot, R. Couturier, C. Guyeux, M. Salomon, “Steganalysis via a Convolutional Neural Network using Large Convolution Filters,” 2016, pp. 1 - 8.
16. Andrius Dzedzickis, Art-ras Kaklauskas and Vytautas Bucinskas, Human Emotion Recognition: Review of Sensors and Methods, Sensors, 2020.
17. Iris B. Mauss, Michael D. Robinson, Measures of emotion: A review, Cognition and emotion 2009.
ThS. Triệu Thu Hương, ThS. Nguyễn Thị Yến