Keywords: Machine learning, ensemble learning, stock price prediction.
1. Giới thiệu bài toán
Vào những năm gần đây, thị trường chứng khoán nhanh chóng trở thành một kênh đầu tư hấp dẫn, thu hút rất nhiều các nhà đầu tư cá nhân, nhỏ lẻ cho đến các nhà đầu tư chuyên nghiệp và các tổ chức với nhiều phong cách đầu tư khác nhau. Họ đều mong muốn có lợi nhuận, mức sinh lời cao và dĩ nhiên kèm theo đó là rủi ro tiềm ẩn cũng không hề ít. Do đó, việc dự báo xu hướng thị trường luôn được các cá nhân và tổ chức phân tích chứng khoán đặt lên hàng đầu nhằm giảm thiểu tối đa rủi ro trong quá trình đầu tư. Thị trường chứng khoán là một trong những lĩnh vực tài chính có tính biến động cao và khó dự báo trước. Việc dự báo giá chứng khoán là một trong những vấn đề quan trọng đối với các nhà đầu tư và các chuyên gia tài chính, giúp các nhà đầu tư đưa ra quyết định đầu tư hợp lí và tối ưu hóa lợi nhuận trên thị trường chứng khoán.
Trong bối cảnh công nghệ thông tin đang phát triển mạnh mẽ, kĩ thuật học máy đang trở thành một công cụ hỗ trợ quan trọng cho việc dự báo giá cổ phiếu trên thị trường chứng khoán. Ưu điểm của kĩ thuật học máy là giúp xử lí các lượng dữ liệu lớn và phức tạp, đồng thời đưa ra các dự báo chính xác hơn. Mục tiêu của nghiên cứu này là xây dựng một mô hình dự báo được xu hướng của thị trường giúp cho các nhà đầu tư cá nhân hay tổ chức có được công cụ hỗ trợ, giảm rủi ro trong quá trình đầu tư. Mô hình này sử dụng kĩ thuật học máy để học từ dữ liệu lịch sử và dự đoán xu hướng thị trường chứng khoán trong tương lai. Nghiên cứu nhằm đạt được mục tiêu giúp các nhà đầu tư và chuyên gia tài chính có thể đưa ra quyết định đầu tư hợp lí và tối ưu hóa lợi nhuận trên thị trường chứng khoán.
2. Tổng quan nghiên cứu
Trong quá khứ cũng đã có nhiều nhà nghiên cứu trong và ngoài nước đưa ra đề xuất các phương pháp khác nhau nhằm cải thiện khả năng dự báo xu hướng chứng khoán. Một số kết quả từ các bài nghiên cứu gần đây như sau:
Trong bài nghiên cứu của hai tác giả là Zhen Sun và Shangmei Zhao (2020) đã sử dụng các mô hình học máy (Hồi quy đa tuyến tính, Rừng ngẫu nhiên (Random forest) và mạng Neural LSTM) để dự báo giá đóng cửa dựa trên dữ liệu NASDAQ ETF và dữ liệu của các yếu tố thống kê. Quá trình thực nghiệm của tác giả cho thấy mô hình Hồi quy đa tuyến tính phù hợp với dự báo giá chứng khoán.
Bài nghiên cứu của Bailin Lv và Jiang (2021) đã đề xuất mô hình dự báo với mạng Neural Multiview RBF. Với mô hình này, có thể tận dụng tối đa cả thông tin nội bộ được cung cấp bởi mối tương quan giữa từng chế độ và các đặc điểm riêng biệt của từng chế độ để tạo thành thông tin mẫu độc lập. Từ đó các tác giả cũng đã chứng minh tính khả thi của mô hình.
Bài nghiên cứu của Gao Jie (2021) đã ứng dụng mô hình Arima-Garch để dự đoán quy luật và xu hướng biến động của giá chứng khoán trên bộ dữ liệu Ping An được thu thập từ năm 2017 đến năm 2019. Quá trình thực hiện bài nghiên cứu cho thấy, mô hình sử dụng đã phù hợp với quy luật và xu hướng biến động của cổ phiếu.
Bài nghiên cứu của Bùi Thành Khoa cùng cộng sự (2022) đã sử dụng mô hình Support Vector Regression (SVR) trên nền tảng CAPM để dự báo tỉ suất sinh lời của các cổ phiếu riêng lẻ và xác định các yếu tố tác động đến sai số trong dự báo. Qua quá trình thực nghiệm trên bộ dữ liệu thu thập của các công ty niêm yết trên thị trường chứng khoán Thành phố Hồ Chí Minh giai đoạn từ tháng 12/2012 đến tháng 9/2020, bài nghiên cứu cũng chỉ ra được mô hình SVR hiệu quả hơn so với CAPM.
3. Phương pháp thực hiện
3.1. Mô hình đề xuất
Trong bài nghiên cứu này, chúng tôi sẽ xây dựng mô hình dựa trên phương pháp Voting hồi quy. Phương pháp này mang lại một số ưu điểm chính, bao gồm:
- Tính linh hoạt cao: Mô hình cho phép kết hợp nhiều mô hình hồi quy khác nhau, giúp tăng tính linh hoạt và giảm thiểu sự phụ thuộc vào một mô hình duy nhất.
- Tính ổn định: Khi sử dụng nhiều mô hình khác nhau để tạo ra dự đoán, mô hình giúp giảm thiểu các sai lệch tiềm ẩn trong từng mô hình riêng lẻ. Điều này giúp tăng tính ổn định của mô hình dự báo.
- Tăng độ chính xác: Khi kết hợp các mô hình khác nhau, mô hình có thể cung cấp dự đoán tốt hơn so với một mô hình duy nhất. Việc kết hợp các mô hình này có thể giúp giảm thiểu sai số và tăng độ chính xác của dự đoán. (Hình 1)
Hình 1. Mô hình đề xuất
3.2. Phương pháp Voting hồi quy
Phương pháp Voting hồi quy là một trong những kĩ thuật học kết hợp, nó là một kĩ thuật trong lĩnh vực học máy, sử dụng nhiều mô hình học máy để tạo ra một mô hình dự báo cuối cùng. Thông thường, việc kết hợp các mô hình này sẽ cải thiện độ chính xác và hiệu suất so với việc sử dụng một mô hình đơn lẻ.
Phương pháp Voting hồi quy sử dụng các mô hình dự báo khác nhau để đưa ra kết quả khác nhau, sau đó lấy trung bình cộng của các kết quả đó làm kết quả cuối cùng. Cụ thể, phương pháp Voting hồi quy sẽ huấn luyện và kết hợp nhiều mô hình hồi quy khác nhau để tạo ra một mô hình mạnh hơn, có khả năng dự báo chính xác hơn. Kết quả dự đoán cuối cùng là giá trị trung bình của các mô hình hồi quy thành phần:
Trong đó:
- ypredictions: Là giá trị dự đoán cuối cùng của mô hình Voting hồi quy.
- N: Là số lượng mô hình hồi quy.
- Là giá trị dự đoán của mô hình hồi quy thứ i.
3.3. Phương pháp đánh giá
Trong bài nghiên cứu, để đánh giá mô hình hồi quy sẽ sử dụng các chỉ số đánh giá hồi quy thông dụng bao gồm:
- Mean Absolute Error (MAE): Là một phép đo độ chính xác của mô hình dự đoán so với dữ liệu thực tế. MAE đo lường độ chênh lệch trung bình giữa các giá trị dự đoán và các giá trị thực tế trong tập dữ liệu. MAE càng nhỏ thì mô hình dự đoán càng chính xác và ngược lại. MAE được sử dụng phổ biến trong các bài toán dự đoán với dữ liệu số.
- MAE: Là số lượng mẫu thực nghiệm
- yi: Là giá trị của biến mục tiêu cho mẫu thứ i.
- Là giá trị dự đoán của biến mục tiêu cho mẫu thứ i.
- Root Mean Squared Error (RMSE): Là một độ đo thước đo sai số giữa giá trị dự đoán và giá trị thực tế trong bài toán dự đoán. RMSE tính căn bậc hai trung bình bình phương của hiệu giữa giá trị dự đoán và giá trị thực tế các mẫu dữ liệu, RMSE có ưu điểm là nó giúp đánh giá được độ lớn của sai số so với giá trị dự đoán và giá trị thực tế. RMSE càng nhỏ thì mô hình dự đoán càng chính xác và ngược lại.
- N: Là số lượng mẫu thực nghiệm.
- yi: Là giá trị của biến mục tiêu cho mẫu thứ i.
- Là giá trị dự đoán của biến mục tiêu cho mẫu thứ i.
3.4. Lựa chọn các biến trong mô hình
Các chỉ báo kĩ thuật trong mô hình dựa trên bốn loại chỉ báo quan trọng gồm: Chỉ báo xu hướng, chỉ báo động lượng, chỉ báo khối lượng và chỉ báo biến động. Trong bài nghiên cứu này sẽ sử dụng các chỉ báo kĩ thuật làm biến đầu vào cho mô hình:
Chỉ báo tỉ lệ thay đổi giá (Rate of Change - ROC)
ROC là một bộ dao động xung lượng giúp so sánh giá hiện tại với giá trước đó trong thời gian cụ thể. Giá hiện tại được chia cho giá trước đó và được thể hiện dưới dạng phần trăm. ROC càng cao thì giá càng giảm, ngược lại nếu ROC càng thấp thì giá càng tăng cao.
Bài nghiên cứu sử dụng khung thời gian là 14 ngày để tính giá trị của ROC với công thức:
- Ct: Giá đóng cửa thời gian t.
- Ct-14: Giá đóng cửa 14 phiên giao dịch trước đó.
Chỉ báo dao động ngẫu nhiên (Stochastic Oscillator - %K)
%K là chỉ báo về xung lượng so sánh giá đóng cửa với phạm vi giá trong một thời gian cụ thể được phát triển bởi George Lane. Dao động ngẫu nhiên xác định vị trí của giá đóng cửa của cổ phiếu so với phạm vi cao và thấp của giá cổ phiếu trong một khoảng thời gian, thường là 14 ngày giao dịch. Dao động ngẫu nhiên biến động từ 0 đến 100, khi %K nằm trên ngưỡng 80 là vùng quá mua và dưới ngưỡng 20 là vùng quá bán.
Bài nghiên cứu sử dụng khung thời gian là 14 ngày để tính giá trị của %K với công thức:
- C: Mức giá đóng cửa ngày hôm nay.
- H14: Mức giá cao nhất trong 14 phiên giao dịch trước đó.
- L14: Mức giá thấp nhất trong 14 phiên giao dịch trước đó.
Chỉ báo phần trăm Williams (%R)
%R là một chỉ báo đo lường các điều kiện mua quá nhiều và bán quá nhiều, được phát triển bởi Larry Williams. %R tương tự với %K nhưng được vẽ ngược lại. %R biến động từ -100 đến 0, khi nằm trên 80% trạng thái bán quá nhiều và dưới 20% trạng thái mua quá nhiều. Bài nghiên cứu sử dụng khung thời gian là 14 ngày để tính giá trị của %K với công thức:
- C: Mức giá đóng cửa ngày hôm nay.
- H14: Mức giá cao nhất trong 14 phiên giao dịch trước đó.
- L14: Mức giá thấp nhất trong 14 phiên giao dịch trước đó.
Chỉ số kênh hàng hóa (Commodity Channel Index - CCI)
CCI được phát triển bởi Donald Lambert, là chỉ báo tính toán khoảng biến động ổn định của những thay đổi trong thị trường, từ đó quan sát được những sai lệch bất thường của các định mức này như là biến số sẽ thay đổi theo chiều ngược lại. CCI đo mức giá hiện tại so với mức giá trung bình trong một khoảng thời gian nhất định. Trong bài nghiên cứu sử dụng khung thời gian 20 ngày để tính CCI và công thức tính CCI là:
- SMA20: Trung bình động của 20 phiên.
- G: Giá trung bình =
(H: Giá cao nhất; L: Giá thấp nhất và C: Giá đóng cửa)
Chỉ số sức mạnh tương đối (Relative Strength Index - RSI)
RSI là một bộ dao động xung lượng phổ biến được phát triển bởi J. Welles Wilder, là chỉ báo động lượng đo lường mức độ thay đổi giá gần đây, giúp đánh giá việc mua quá mức hoặc bán quá mức ở một mức giá. Chỉ báo RSI biến động từ 0 đến 100, khi RSI nằm trên ngưỡng 70 là vùng quá mua, và dưới ngưỡng 30 là vùng quá bán.
Tác giả sử dụng khung thời gian là 14 ngày để tính giá trị của RSI với công thức:
- RSI = tổng tăng/tổng giảm hoặc
- RS = trung bình tăng/trung bình giảm.
Chỉ báo phân kì hội tụ (Moving Average Convergence Divergence - MACD)
MACD là chỉ báo động lượng, cho biết tính phân kì và hội tụ của đường trung bình động được phát triển bởi Gerald Appel, được xây dựng dựa trên phương pháp so sánh biến động của các đường trung bình động với nhau. Chỉ báo giúp đánh giá được sức mạnh, hướng, động lượng và thời gian xu hướng. MACD được tính với hai giá trị gồm trung bình động 12 phiên và trung bình động 26 phiên với công thức:
MACD=EMA(12)- EMA(26)
- EMA(12): Giá trung bình động của 12 phiên.
- EMA(26): Giá trung bình động của 26 phiên.
Chỉ báo khối lượng cân bằng (On Balance Volume - OBV)
OBV là chỉ báo khối lượng, cho biết động lực xu hướng dựa trên mối tương quan trong biến động của giá và khối lượng giao dịch, được phát triển bởi Joseph Granville. Chỉ báo OBV hoạt động có tính lũy kế, nếu phiên hôm nay mức giá tăng thì khối lượng sẽ được cộng thêm vào chỉ số OBV của ngày hôm sau và nếu mức giá của phiên hôm nay giảm thì khối lượng sẽ bị trừ vào giá trị OBV của ngày sau đó. Tùy vào các trường hợp chỉ báo OBV được tính theo công thức sau:
- Khi giá đóng cửa của phiên giao dịch hiện tại lớn hơn giá đóng cửa của phiên giao dịch trước đó thì giá trị OBV được tính theo công thức.
OBV hiện tại = OBV phiên trước + Khối lượng giao dịch hiện tại
- Khi giá đóng cửa của phiên giao dịch hiện tại thấp hơn giá đóng cửa của phiên giao dịch trước đó thì giá trị OBV là:
OBV hiện tại = OBV phiên trước - Khối lượng giao dịch hiện tại
- Nếu giá đóng cửa phiên hôm trước bằng giá đóng cửa phiên hôm nay thì:
Giá trị OBV trước = Giá trị OBV hiện tại
4. Thực nghiệm và kết quả
4.1. Dữ liệu thực nghiệm
Trong bài nghiên cứu này chúng tôi sử dụng dữ liệu đưa vào để thực nghiệm và đánh giá cho mô hình thu thập từ dữ liệu giao dịch cổ phiếu của BIDV trong giai đoạn từ ngày 24/01/2014 đến ngày 03/3/2023. Dữ liệu được lấy từ trang cophieu68.vn dưới dạng cấu trúc bảng (Panel data). Ban đầu bộ dữ liệu bao gồm 2.268 phiên giao dịch và 7 trường dữ liệu, dữ liệu ban đầu thể hiện ở Bảng 1.
Bảng 1: Dữ liệu giao dịch
Đơn vị (*): Nghìn đồng
Nguồn: Quá trình thực nghiệm
Từ bộ dữ liệu ban đầu, chúng tôi tiến hành tính các giá trị chỉ báo kĩ thuật, dữ liệu sau khi xử lí sẽ bao gồm 2.249 phiên giao dịch và 8 trường dữ liệu. Dữ liệu sau khi xử lí thể hiện ở Bảng 2, toàn bộ dữ liệu được chia thành 2 tập, tập đầu tiên gồm 80% dữ liệu được sử dụng làm dữ liệu huyến luyện mô hình (1.799 dòng dữ liệu đầu) và 20% dữ liệu còn lại được dùng để đánh giá mô hình (450 dòng dữ liệu sau). Chúng tôi đã áp dụng phương pháp dự báo giá chứng khoán ngày n bằng cách sử dụng dữ liệu của 1.799 ngày trước đó (tức là n-1799). Tiếp theo, chúng tôi đã tiến hành vòng lặp để dự đoán giá chứng khoán ngày n+1 bằng cách sử dụng dữ liệu của ngày n-1799 và tiếp tục lặp lại quá trình này cho đến khi đến ngày n+450. (Bảng 2)
Bảng 2: Dữ liệu sau khi xử lí
Đơn vị (*): Nghìn đồng
Nguồn: Quá trình thực nghiệm
4.2. Kết quả
Qua quá trình xây dựng mô hình và tiến hành thực nghiệm trên bộ dữ liệu cổ phiếu BIDV, chúng tôi đã thu được kết quả trình bày tại Bảng 3 và Bảng 4.
Bảng 3: Kết quả đánh giá
Nguồn: Quá trình thực nghiệm
Bảng 4: Giá trị thống kê dữ liệu giá thực tế
Nguồn: Quá trình thực nghiệm
Giá trị MAE và RMSE được sử dụng để đánh giá độ chính xác của mô hình dự báo. Trong trường hợp này, giá trị MAE và RMSE của mô hình Voting hồi quy lần lượt là 2,7378 và 3,1162.
Giá trị MAE là 2,7378 nhỏ hơn giá trị Std (độ lệnh chuẩn) là giá trị được sử dụng để đo lường độ biến động của giá bằng 4,625, từ đó có thể nhận định được mô hình có độ dự báo chính xác tương đối cao.
Hình 3: Biểu đồ kết quả dự báo giá
Với giá trị RMSE là 3,1162, có nghĩa là sai số bình phương trung bình của mô hình là 3,1162 đơn vị trên thang đo giá trị. Giá trị RMSE thường lớn hơn giá trị MAE, do tính toán sai số bình phương. Tuy nhiên, giá trị RMSE vẫn cho thấy mô hình có độ chính xác tương đối cao trong việc dự báo giá trị. Do đó, có thể kết luận rằng, mô hình Voting hồi quy cho kết quả dự báo tốt và có thể được sử dụng để dự báo giá trị trong tương lai.
Chúng tôi tiến hành dự báo giá chứng khoán trong 100 ngày tiếp theo, cũng như đưa ra đường xu hướng của giá cổ phiếu BID (Hình 4), từ đó, nhóm đã thấy được rằng, thời gian tới xu hướng giá cổ phiếu tăng dần theo thời gian. Từ đó, khuyến nghị cho các nhà đầu tư có thể mua cổ phiếu BID trong hiện tại. Điều này thể hiện rằng, BID là một lựa chọn đầu tư hấp dẫn và an toàn cho nhà đầu tư. Tuy nhiên, bài nghiên cứu này chỉ dựa trên các số liệu quá khứ và không mang tính chất định hướng đầu tư. Để có được kết quả chính xác hơn thì cần xem xét các yếu tố khác ảnh hưởng đến giá cổ phiếu BID như hoạt động kinh doanh, chiến lược phát triển hay biến động của thị trường.
Hình 4: Đường xu hướng của giá chứng khoán trong tương lai
Nguồn: Quá trình thực nghiệm
5. Kết luận
Qua quá trình nghiên cứu, chúng tôi đã xây dựng mô hình Voting hồi quy cho dự báo xu hướng giá cổ phiếu BID, với các biến đầu vào là chỉ báo trong phân tích kĩ thuật lần lượt CCI, %R, %K, ROC, MACD, RSI và OBV. Kết quả thực nghiệm đã cho thấy, mô hình đề xuất là phù hợp với quy luật và xu hướng biến động của cổ phiếu BID.
Hạn chế trong bài nghiên cứu này chỉ mới dừng lại với một cổ phiếu duy nhất, mới chứng minh được mô hình phù hợp quy luật của cổ phiếu; dữ liệu trong quá trình thực nghiệm chỉ sử dụng dữ liệu giao dịch cổ phiếu trong quá khứ mà chưa sử dụng tới các chỉ số kinh tế, tài chính... Trong thời gian tới, chúng tôi sẽ tiếp tục hoàn thành quá trình thực nghiệm, cải thiện được mô hình cũng như thêm các chỉ số khác ngoài dữ liệu giao dịch quá khứ nhằm giúp mô hình có thể dự báo được giá cổ phiếu trong tương lai chính xác hơn.
Tài liệu tham khảo:
1. Sun, Zhen and Shangmei Zhao. “Machine Learning in Stock Price Forecast.” E3S Web of Conferences (2020).
2. Lv, Bailin and Yizhang Jiang. “Prediction of Short-Term Stock Price Trend Based on Multiview RBF Neural Network.” Computational Intelligence and Neuroscience 2021 (2021).
3. Gao Jie. “Research on Stock Price Forecast Based on Arima-Garch Model”. E3S Web of Conferences (2021).
4. Chen, Shikun and Nguyen Manh Luc. “RRMSE Voting Regressor: A weighting function based improvement to ensemble regression”. ArXiv abs/2207.04837 (2022).
5. Tavernier, Joris et al. “Two-level preconditioning for Ridge Regression.” Numerical Linear Algebra with Applications 28 (2018).
6. Moriasi, D. N., Arnold, J. G., Van Liew, M. W., Bingner, R. L., Harmel, R. D., and Veith, T. L. “Bayesian ridge regression for estimating hydrologic model parameters using streamflow data.” Journal of Hydrology, vol. 348, no. 3-4, 2007, pp. 572-591. doi: 10.1016/j.jhydrol.2007.10.011.
7. Xu, Wenjian et al. “Blood-based multi-tissue gene expression inference with Bayesian ridge regression.” Bioinformatics (2020).
8. Liang, Chen, et al. “Predicting Stock Market Price Direction with Uncertainty Using Quantile Regression Forest.” Expert Systems with Applications, vol. 146, 2020, doi: 10.1016/j.eswa.2019.113169.
9. Bùi Thành Khoa và cộng sự. “Các yếu tố ảnh hưởng đến sai số trong dự báo tỉ suất sinh lời của cổ phiếu đơn lẻ: Ứng dụng học máy với Spark MLlib”. Tạp chí Kỹ thuật và Công nghệ, Trường Đại học Mở Thành phố Hồ Chí Minh (2022).