Xây dựng thuật toán DP cho hệ thống EMS: Từ phương trình đến không gian trạng thái

Trong bài viết trước Nhập môn Dynamic Programming, chúng ta đã thống nhất rằng DP là “bản đồ” để tìm đường đi ngắn nhất. Nhưng để máy tính có thể đọc được bản đồ đó, chúng ta không thể đưa cho nó một chiếc xe thật. Chúng ta phải đưa cho nó các Phương trình Toán học.

Bước này được gọi là Mô hình hóa (Mathematical Modeling). Đây là phần “xương sống” để mô phỏng các thuật toán điều khiển. Nếu mô hình sai, mọi kết quả tối ưu đều vô nghĩa.

Hôm nay, chúng ta sẽ cùng nhau chuyển đổi bài toán vật lý của xe FCHEV sang ngôn ngữ của Toán học: Không gian trạng thái (State-Space) và Hàm mục tiêu (Cost Function). 📐

1. Mô hình hóa hệ thống (System Modeling)

Trước khi điều khiển năng lượng, ta cần biết chiếc xe cần bao nhiêu năng lượng để di chuyển. Đây là bài toán Động lực học dọc trục (Longitudinal Dynamics).

Công suất yêu cầu tại bánh xe ( $P_{req}$ ) tại bất kỳ thời điểm $t$ nào được tính dựa trên định luật II Newton:

F_{trac} = F_{aero} + F_{roll} + F_{grade} + F_{accel}

Từ lực kéo, ta tính được công suất điện mà hệ thống (Fuel Cell + Battery) phải cung cấp (sau khi trừ đi hiệu suất của Motor và Inverter):

P_{elec\_req}(t) = \frac{v(t)}{\eta_{motor}} \cdot \left( \frac{1}{2}\rho A C_d v(t)^2 + mgC_r \cos(\alpha) + mg \sin(\alpha) + m \frac{dv}{dt} \right)

Lưu ý: Trong thuật toán DP, chu trình lái ( $v(t)$ và $\alpha(t)$ ) đã biết trước, nên $P_{elec\_req}(t)$ là một hằng số đầu vào (Disturbance/Input) tại mỗi bước thời gian.

2. Thiết lập bài toán tối ưu (Optimization Problem Formulation)

Để áp dụng Dynamic Programming, chúng ta phải đưa hệ thống về dạng chuẩn của Điều khiển tối ưu rời rạc (Discrete-time Optimal Control). Cấu trúc chuẩn bao gồm 3 yếu tố: $x$ (Trạng thái), $u$ (Điều khiển), và $w$ (Nhiễu).

a. Biến trạng thái (State Variable - $x$ )

Biến trạng thái là “ký ức” của hệ thống. Trong bài toán EMS cho xe lai, biến quan trọng nhất thay đổi theo thời gian chính là Trạng thái năng lượng của Pin (State of Charge - SOC).

x_k = SOC_k

Phương trình chuyển trạng thái (State Transition Equation) từ bước $k$ sang $k+1$ :

SOC_{k+1} = SOC_k - \frac{V_{oc} - \sqrt{V_{oc}^2 - 4 R_{int} P_{batt}(u_k)}}{2 R_{int} Q_{batt}} \cdot \Delta t

(Đừng hoảng sợ, đây chỉ là công thức tính dòng điện $I = P/U$ được viết lại dựa trên mô hình pin Rint đơn giản).

b. Biến điều khiển (Control Variable - $u$ )

Đây là biến quyết định mà chúng ta (hoặc máy tính) phải đưa ra. Chúng ta có thể chọn điều khiển dòng điện pin hoặc công suất Fuel Cell. Thông thường, mình chọn Công suất Fuel Cell làm biến điều khiển:

u_k = P_{fc,k}

c. Cân bằng công suất (Power Balance Constraint)

Tại mọi thời điểm, năng lượng cung cấp phải bằng năng lượng tiêu thụ:

P_{fc} + P_{batt} = P_{elec\_req}

Suy ra, công suất pin ( $P_{batt}$ ) là biến phụ thuộc: $P_{batt} = P_{elec\_req} - P_{fc}$ .

3. Hàm mục tiêu (Cost Function)

Mục tiêu của DP là tìm ra chuỗi điều khiển $\pi = \{u_0, u_1, ..., u_{N-1}\}$ để cực tiểu hóa một hàm chi phí $J$ .

J = \sum_{k=0}^{N-1} L(x_k, u_k) + \Phi(x_N)

Trong đó:

$L(x_k, u_k)$ (Instantaneous Cost): Chi phí tức thời tại mỗi bước. Ở đây chính là lượng Hydro tiêu thụ (gram) trong giây đó. $L(x_k, u_k) = \dot{m}_{H2}(P_{fc,k}) \cdot \Delta t$ (Giá trị $\dot{m}_{H2}$ được tra từ bản đồ hiệu suất Fuel Cell).
$\Phi(x_N)$ (Terminal Cost): Chi phí phạt tại điểm cuối cùng.
- Để đảm bảo công bằng, chúng ta thường ép buộc $SOC$ lúc kết thúc hành trình phải bằng $SOC$ lúc bắt đầu ( $SOC_{end} = SOC_{start}$ ).
- Nếu xe về đích mà $SOC$ bị lệch, ta sẽ phạt một số điểm cực lớn (Infinity penalty) để DP buộc phải tìm đường khác.

4. Các ràng buộc (Constraints)

Toán học cho phép $P_{fc}$ là âm vô cùng hoặc dương vô cùng, nhưng Vật lý thì không. Chúng ta phải đặt ra các giới hạn cứng (Inequality Constraints):

Ràng buộc Fuel Cell: $0 \le P_{fc} \le P_{fc}^{max}$ $- \Delta P_{down} \le (P_{fc,k} - P_{fc,k-1}) \le \Delta P_{up} \quad (\text{Giới hạn tốc độ tăng tải})$
Ràng buộc Pin (Battery): $SOC_{min} \le SOC_k \le SOC_{max} \quad (\text{Ví dụ: } 0.4 - 0.8)$ $P_{batt}^{min} \le P_{batt,k} \le P_{batt}^{max}$

5. Ví dụ Tính toán Minh họa (Case Study)

Để hình dung rõ hơn cách DP hoạt động tại một bước thời gian ( $t_k$ ), chúng ta hãy cùng làm một bài toán nhỏ với các số liệu giả định.

Giả thiết tại thời điểm $k$ :

Nhu cầu: Người lái đạp ga, yêu cầu công suất $P_{req} = 30 \text{ kW}$ .
Trạng thái hiện tại: Pin đang có $SOC_k = 60\%$ .
Thời gian: Bước nhảy $\Delta t = 1 \text{ giây}$ .
Thông số Pin: Dung lượng $Q = 5 \text{ kWh}$ ( $18 \text{ MJ}$ ), Điện áp hở mạch $V_{oc} = 300 \text{ V}$ , Điện trở trong $R = 0.1 \, \Omega$ .

Thuật toán DP sẽ thử nghiệm (discretize) 3 phương án điều khiển ( $u$ ) khả thi cho Fuel Cell và so sánh chúng:

Bước 1: Phân chia công suất (Power Split)

Từ phương trình cân bằng năng lượng $P_{batt} = P_{req} - P_{fc}$ :

Option A (Chế độ EV): Tắt Fuel Cell ( $P_{fc} = 0$ ). Pin gánh toàn bộ $\to P_{batt} = 30 \text{ kW}$ .
Option B (Chế độ Load Follow): Fuel Cell gánh vừa đủ ( $P_{fc} = 30 \text{ kW}$ ). Pin nghỉ $\to P_{batt} = 0 \text{ kW}$ .
Option C (Chế độ Sạc): Fuel Cell chạy mạnh ( $P_{fc} = 45 \text{ kW}$ ). Dư 15kW nạp vào pin $\to P_{batt} = -15 \text{ kW}$ .

Bước 2: Tính toán Chi phí Tức thời (Instantaneous Cost - $L$ )

Tra bản đồ tiêu thụ nhiên liệu (Fuel Map) của Fuel Cell:

Option A: $P_{fc} = 0 \to \dot{m}_{H2} = 0 \text{ g/s}$ .
Option B: $P_{fc} = 30 \text{ kW} \to \text{Hiệu suất } 55\% \to \dot{m}_{H2} \approx 0.45 \text{ g/s}$ .
Option C: $P_{fc} = 45 \text{ kW} \to \text{Hiệu suất } 50\% \to \dot{m}_{H2} \approx 0.75 \text{ g/s}$ .

Bước 3: Cập nhật Trạng thái (State Transition - $SOC_{k+1}$ )

Tính lượng điện năng pin thay đổi trong 1 giây và $SOC$ mới. (Công thức tính nhanh: $\Delta SOC \approx - \frac{P_{batt} \cdot \Delta t}{Q_{batt}}$ )

Option A (Xả 30kW): Tốn năng lượng lớn. $SOC$ tụt xuống $\approx 59.8\%$ .
Option B (Nghỉ): Không tốn năng lượng. $SOC$ giữ nguyên $60.0\%$ .
Option C (Sạc 15kW): Nhận năng lượng. $SOC$ tăng lên $\approx 60.1\%$ .

Bước 4: Đánh giá Tổng chi phí (Cost-to-Go + Instantaneous Cost)

Đây là bước quyết định. DP không chỉ nhìn hiện tại mà còn nhìn tương lai. Giá trị tương lai ( $J_{next}$ ) được lấy từ bảng kết quả đã tính ngược từ đích về (đây là ma trận Cost-to-Go).

Giả sử ma trận Cost-to-Go cho biết: Nếu SOC thấp (59.8%), chi phí tương lai sẽ rất đắt (vì sau này phải sạc bù). Nếu SOC cao (60.1%), chi phí tương lai rẻ.

Phương án	Chi phí nhiên liệu hiện tại ( $L$ )	Chi phí tương lai giả định ( $J_{next}$ )	TỔNG CHI PHÍ ( $J$ )
A ( $P_{fc}=0$ )	0 g (Rẻ nhất hiện tại)	100 g (Đắt do pin cạn)	100 g
B ( $P_{fc}=30$ )	0.45 g	50 g (Trung bình)	50.45 g
C ( $P_{fc}=45$ )	0.75 g (Đắt nhất hiện tại)	49.8 g (Rẻ do pin đầy)	50.55 g

Kết luận của DP: Tại giây này, Option B là tối ưu nhất (Total Cost thấp nhất là 50.45). Mặc dù Option A không tốn giọt Hydro nào ngay lúc này, nhưng DP biết rằng việc làm cạn pin sẽ phải trả giá đắt trong tương lai, nên nó không chọn.

Tổng kết

Chúng ta vừa hoàn thành việc “dịch” một chiếc xe vật lý thành các công thức toán học:

Trạng thái ( $x$ ): SOC của pin.
Hành động ( $u$ ): Công suất Fuel Cell.
Mục tiêu ( $J$ ): Tiết kiệm Hydro tối đa.
Luật chơi (Constraints): Giới hạn vật lý của thiết bị.

Khi đã có đầy đủ các thành phần này, việc còn lại chỉ là giải phương trình Bellman bằng thuật toán. Nhưng giải như thế nào trên máy tính? Làm sao để xử lý lưới trạng thái (Discretization)?

Trong bài viết tiếp theo, mình sẽ chia sẻ code MATLAB chi tiết để giải bài toán này. Hãy chuẩn bị sẵn sàng MATLAB nhé! 💻