CN34 – Ứng dụng phương pháp học tăng cường đa tác tử cho bài toán giảm ùn tắc giao thông
Nghiên cứu của nhóm hướng tới thử nghiệm các chiến thuật di chuyển thông minh, được cài đặt trên các xe tự lái, giúp giải quyết bài toán tắc nghẽn giao thông. Ngoài ra, để giảm thiểu chi phí thử nghiệm cho những bài toán liên quan đến sự tham gia của nhiều đối tượng tự trị có khả năng di chuyển và trao đổi thông tin với nhau và với các đối tượng môi trường khác như trong bài toán giao thông xe tự lái, việc triển khai mô hình trên các công cụ mô phỏng đa tác tử là sự lựa chọn phù hợp và hiệu quả.
Trong những năm gần đây, phương pháp Mô hình hóa và mô phỏng dựa trên tác tử (agent-based modeling and simulation) đã nổi lên như một cách tiếp cận tiềm năng để nghiên cứu các hệ thống phức tạp trong thực tế, như bài toán giảm ùn tắc giao thông. Với phương pháp này, các hệ thống phức tạp có thể được mô hình hóa như một tập hợp các tác tử tự trị tương tác với nhau. Ví dụ, trong hình dưới đây, mỗi ô tô trên đường cao tốc được mô hình hoá là một tác tử. Các tác tử này tương tác với nhau và thực hiện các hành động phù hợp (tăng tốc, giảm tốc, giữa nguyên tốc độ, hay chuyển làn).
Ngoài ra, phương pháp Học tăng cường (reinforcement learning), một nhánh của phương pháp Học máy, gần đây cũng đã đạt được những kết quả đáng chú ý trong nhiều lĩnh vực, đặc biệt là với việc ra đời của phương pháp học tăng cường sâu. Với phương pháp này, quá trình học của một tác tử được mô hình hóa như một quá trình quyết định Markov, như được minh hoạt ở hình sau. Trong đó, tác tử thu nhận thông tin từ môi trường bên ngoài, xử lý và từ đó đưa ra hành động phù hợp để lấy về phần thưởng.
Bằng cách kết hợp ưu điểm của hai phương pháp kể trên, phương pháp học tăng cường đa tác tử (Multi-Agent Reinforcement Learning, viết tắt là MARL) là một kỹ thuật mới có thể được sử dụng để giải quyết bài toán giảm ùn tắc giao thông.
Mô tả các tính năng cơ bản dự kiến của sản phẩm:
Sản phẩm hiện tại là các mô hình đa tác tử trên máy tính, trong đó mô hình hoá bài toán tắc nghẽn giao thông (trong nội đô hoặc trên đường cao tốc). Các phương tiện tham gia giao thông sẽ được mô hình hoá là các tác tử tự trị.
Các mô hình cho phép người sử dụng điều chỉnh các tham số đầu vào như: tổng số lượng phương tiện, số làn đường, hệ số tăng tốc, hệ số giảm tốc, chiến thuật di chuyển và một số tham số cho các thuật toán học tăng cường.
Sau khi thiết lập tham số đầu vào, các mô hình cho phép người sử dụng chạy mô hình, quan sát hành vi của tất cả tác tử hoặc theo dõi hành vi của một tác tử được chọn. Người sử dụng cũng có thể quan sát các kết quả thống kê (về vận tốc trung bình, vận tốc lớn nhất, nhỏ nhất; số lượng phương tiện trên từng làn, tổng phần thưởng, …) trên các biểu đồ trong thời gian thực.
Hiện tại, một số mô hình đã hoàn thành, với những tính năng cơ bản. Demo của hai mô hình được trình bày tại các link sau:
Video mô phỏng dự thi: https://drive.google.com/file/d/1d3saJEWzOXkYhym4ONY0rWTJOoOUDxb_/view?usp=sharing