Điều khiển xe hai bánh tự cân bằng mô hình bất định dựa trên phương pháp quy hoạch động thích nghi

pdf 7 trang Gia Huy 4300
Bạn đang xem tài liệu "Điều khiển xe hai bánh tự cân bằng mô hình bất định dựa trên phương pháp quy hoạch động thích nghi", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfdieu_khien_xe_hai_banh_tu_can_bang_mo_hinh_bat_dinh_dua_tren.pdf

Nội dung text: Điều khiển xe hai bánh tự cân bằng mô hình bất định dựa trên phương pháp quy hoạch động thích nghi

  1. Tuyển tập Hội nghị khoa học toàn quốc lần thứ nhất về Động lực học và Điều khiển Đà Nẵng, ngày 19-20/7/2019, tr. 140-146, DOI 10.15625/vap.2019000270 Điều khiển xe hai bánh tự cân bằng mô hình bất định dựa trên phương pháp quy hoạch động thích nghi Trần Gia Khánh, Lê Việt Anh, Phan Anh Tuấn, Phan Xuân Minh và Nguyễn Hoài Nam Bộ môn Điều khiển tự động, Viện Điện, Đại học Bách khoa Hà Nội Số 1 Đại Cồ Việt, Quận Hai Bà Trưng, Hà Nội, Việt Nam E-mail: nam.nguyenhoai@hust.edu.vn Tóm tắt ưu. Xem xét một ví dụ của bài toán điều khiển tối ưu Bài báo ứng dụng phương pháp quy hoạch động thích nghi sử thích nghi như sau. Thông thường, một bài toán điều dụng cấu trúc Actor-Critic cho xe hai bánh tự cân bằng khiển tối ưu sẽ được giải quyết nếu phương trình HJB (XHBTCB). Việc sử dụng phương pháp quy hoạch động thích được giải. Đối với hệ tuyến tính, phương trình HJB trở nghi đã giảm thiểu đáng kể công sức và thời gian giải bài toán thành phương trình đại số Riccati (Algebraic Riccati điều khiển tối ưu, khi không phải giải trực tiếp bằng các phương Equation - ARE). Nếu ma trận trạng thái (A, B) của hệ pháp giải tích và cũng không cần thiết xây dựng mô hình toán tuyến tính có sẵn, nghiệm ARE hoàn toàn có thể tìm được học đầy đủ của xe. Ngoài ra, bộ điều khiển tối ưu cũng sẽ tự cập bằng giải tích. Ngược lại, nếu thiếu một trong các ma trận nhật để đáp ứng với thay đổi của hệ thống, do thuật toán điều này thì phương pháp giải tích không thể áp dụng. Đối với khiển chỉ sử dụng các biến trạng thái phản hồi đo được. Mô hệ phi tuyến, phương trình HJB trở thành phương trình vi phỏng số trên phần mềm MATLAB được tiến hành để đánh giá phân phi tuyến. Nghiệm giải tích của phương trình HJB chất lượng của thuật toán điều khiển. phi tuyến thậm chí nói chung là không thể giải ngay cả với hệ thống có mô hình xác định. Để khắc phục hạn chế Từ khóa: Điều khiển tối ưu thích nghi, Quy hoạch động thích nêu trên, nhiều giải thuật xấp xỉ nghiệm của phương trình nghi, Xe hai bánh tự cân bằng. ARE hoặc HJB dựa trên lý thuyết cơ sở của học tăng cường (Reinforcement Learning) đã được đề xuất. Một bài toán học tăng cường thường xem xét một cá 1. Giới thiệu thể (agent) có tương tác với môi trường bên ngoài bằng Điều khiển tối ưu là một trong những lĩnh vực nhận một chuỗi các hành động (actions) và nhận được các được nhiều sự quan tâm của các nhà nghiên cứu về lý thành quả (reward), có thể là một chỉ tiêu chất lượng đại thuyết điều khiển hiện đại. Luật điều khiển tối ưu thiết kế diện bằng một hàm chi phí (cost), từ môi trường. Phương không chỉ ổn định hệ thống mà còn tối thiểu hàm chi phí pháp học tăng cường là một nhánh của học máy (Machine mô tả chỉ tiêu chất lượng mong muốn. Lời giải cho bài Learning), nhằm thu được chính sách (policy), chính sách toán điều khiển tối ưu có thể thu được bằng việc sử dụng này có thể hiểu là một quá trình hoạt động hay luật điều nguyên lý cực đại của Pontryagin hoặc tìm nghiệm của khiển, tối ưu cho một cá thể dựa trên các đáp ứng quan phương trình HJB. Cả hai cách tiếp cận trên đều có sát được từ tương tác giữa cá thể và môi trường [1]. Một nhược điểm chung là yêu cầu thông tin đầy đủ về hệ thuật toán học tăng cường nói chung có hai bước, đầu thống, bao gồm các biến trạng thái và mô hình động học. tiên mỗi cá thể đánh giá thành quả của một chính sách Trong trường hợp mô hình hệ thống chỉ là gần đúng hoặc hiện tại thông qua tương tác với môi trường, bước này có yếu tố bất định thì bộ điều khiển tối ưu thu được bằng được gọi là Đánh giá chính sách (Policy Evaluation). Tiếp phương pháp giải tích hoặc phương pháp số có thể không theo dựa trên thành quả đã đánh giá, cá thể tiến hành cập mang lại hiệu quả điều khiển tối ưu khi áp dụng lên hệ nhật chính sách nhằm tăng chất lượng, tương đương với thống thực. Trong khi đó, điều khiển thích nghi được phát tối thiểu hóa hàm chi phí. Bước này được đặt tên là Cải triển để giải quyết các bài toán điều khiển với mô hình tiến chính sách (Policy Improvement). Thời gian gần đây, bất định hoặc khó xác định đủ chính xác. Phương pháp các nhà nghiên cứu đang tập trung vào hướng áp dụng kỹ thích nghi thường tập trung vào thiết kế luật điều khiển thuật học tăng cường trong điều khiển phản hồi các hệ không sử dụng các yếu tố bất định, hoặc xấp xỉ các yếu tố thống động học. Một trong các phương pháp phổ biến của bất định sao cho vẫn đảm bảo hiệu quả của hệ thống kín, học tăng cường được ứng dụng trong điều khiển là kỹ không nhất thiết phải đảm bảo tối ưu theo một nghĩa nào thuật lặp PI (Policy Iteration) [2]. Thay vì sử dụng các đó. Kết hợp các ưu điểm của điều khiển tối ưu và điều phương pháp toán học để giải trực tiếp phương trình HJB, khiển thích nghi, điều khiển tối ưu thích nghi được phát thuật toán PI bắt đầu bằng việc đánh giá hàm chi phí của triển bằng cách bổ sung yếu tố tối ưu trong thiết kế điều một luật điều khiển khởi tạo chấp nhận được (admissible khiển thích nghi, ví dụ như thông số bộ điều khiển là một control policy). Công việc này thường thu được bằng việc biến của bài toán tối ưu hóa, hoặc bổ sung yếu tố thích giải phương trình Lyapunov phi tuyến [3]. Hàm chi phí nghi trong thiết kế điều khiển tối ưu, ví dụ như xấp xỉ các mới này được sử dụng để cải tiến luật điều khiển, tương thông số hệ thống được sử dụng trong luật điều khiển tối đương với tối thiểu hóa hàm Hamilton ứng với hàm chị phí đó. Quá trình lặp hai bước này được tiến hành cho tới
  2. Trần Gia Khánh, Lê Việt Anh, Phan Anh Tuấn, Phan Xuân Minh và Nguyễn Hoài Nam khi luật điều khiển hội tụ tới luật điều khiển tối ưu. thống có thể thay đổi trong quá trình hoạt động. Một số Với sự phát triển của học tăng cường, nhiều phương nghiên cứu khác mở rộng cho các hệ bị tác động bởi pháp thời gian thực đã được áp dụng để tìm luật điều nhiễu ngoài, như các phương pháp quy hoạch động thích khiển tối ưu trực tuyến mà không cần hiểu biết hoàn toàn nghi bền vững [4] hoặc các phương pháp cho hệ có dạng chính xác về động lực học của hệ thống, cách tiếp cận multi-player zero-sum game [3], [11], hay các phương này thường được gọi là quy hoạch động thích nghi pháp khác xét đến ràng buộc đầu vào được trình bày (Adaptive Dynamic Programming - ADP) [4], trong trong [12], [13]. Một số nghiên cứu khác kết hợp điều nhiều tài liệu cũng được gọi là quy hoạch động xấp xỉ khiển tối ưu thích nghi với các phương pháp phi tuyến (Approximate Dynamic Programming) [1]. Dựa trên khả bền vững như điều khiển trượt để tận dụng ưu điểm của năng có thể xấp xỉ hàm phi tuyến trơn, mạng nơron từng phương pháp [14]. thường được sử dụng cho việc thực thi các thuật toán học Xe hai bánh tự cân bằng là một hệ thống có bản chất lặp. Các thuật toán sẽ được thực thi trực tuyến trên cấu là không ổn định, thiếu cơ cấu chấp hành và phi tuyến. trúc Actor-Critic, bao gồm hai mạng nơron xấp xỉ hàm, Khi xe chuyển động trong môi trường phụ thuộc nhiều mạng thứ nhất được gọi là Actor, dùng để xấp xỉ luật điều vào yếu tố bên ngoài như lực ma sát giữa bánh xe và mặt khiển, mạng thứ hai được gọi là Critic đại diện cho hàm đường, tác động của gió, độ nghiêng của mặt đường và chi phí. Đối với hệ tuyến tính liên tục, nghiên cứu [5] đã tải của xe có thể thay đổi. Do đó mô hình toán của xe hai giới thiệu hai thuật toán lặp PI ngoại tuyến, tương đương bánh chứa nhiều yếu tố bất định và khó điều khiển. Đã có về mặt toán học với phương pháp Newton. Các phương nhiều phương pháp điều khiển kinh điển như PID và hiện pháp này đã loại bỏ được yêu cầu về mô hình nội động đại như backstepping, điều khiển thích nghi, điều khiển học của hệ thống (mô hình không xét tới kích thích bên phi tuyến, điều khiển tối ưu đã được áp dụng cho xe hai ngoài) bằng việc đánh giá hàm chi phí ứng với luật điều bánh tự cân bằng, tuy nhiên các phương pháp này phần khiển trên một quỹ đạo trạng thái ổn định, hoặc bằng sử lớn dựa vào mô hình toán của xe. Hơn nữa, phương pháp dụng biến trạng thái đo được để xây dựng phương trình ADP vẫn chưa được nghiên cứu và áp dụng cho lớp đối Lyapunov. Phát triển hướng nghiên cứu của Murray, tượng này. Đây là phương pháp điều khiển có thể áp dụng trong [6], Vrabie và các cộng sự trình bày thiết kế điều cho đối tượng bất định mà không cần dùng mô hình toán. khiển sử dụng học tăng cường để giải trực tuyến bải toán Tuy nhiên, để áp dụng được cho xe hai bánh tự cân bằng điều khiển tối ưu tuyến tính toàn phương (Linear thì không những phải lựa chọn được hàm chi phí và cấu Quadratic Regulator - LQR). Cụ thể, phương pháp sử trúc mạng nơron phù hợp mà còn phải tìm được luật điều dụng thuật toán lặp PI dựa trên dữ liệu động học đo được khiển ban đầu chấp nhận được. Đây là động lực để chúng để giải lặp phương trình Riccati. Trong thiết kế, ma trận tôi tiến hành nghiên cứu này. nội động học của hệ thống cũng được loại bỏ trong quá Trong bài báo này, chúng tôi áp dụng thuật toán quy trình thiết kế, nhưng ma trận ngoại đông học (mô tả quan hoạch động thích nghi cho hệ phi tuyến bất định hoàn hệ giữa tác động bên ngoài đối với trạng thái hệ thống) toàn, đã được trình bày trong cuốn sách “Robust Adaptive vẫn cần sử dụng, do đó còn gọi là thuật toán cho hệ bất Dynamic Programming” [4] của Yu Jiang và Zhong-Ping định một phần (partially model-free). Phương pháp cho Jiang cho đối tượng XHBTCB. Chất lượng điều khiển hệ bất định hoàn toàn (fully model-free) được phát triển được kiểm chứng thông qua mô phỏng số trên phần mềm trong [7], với việc sử dụng tín hiệu nhiễu thăm dò thêm MATLAB. Bài báo được cấu trúc thành các phần như vào tín hiệu đầu vào trong quá trình học. Đối với hệ phi sau. Trong phần 2, mô hình động lực học của XHBTCB, tuyến, trong [8] và [9], thuật toán trực tuyến cho hệ phi đối tượng điều khiển trong bài báo, được trình bày. Trong tuyến dạng affine bất định một phần được trình bày, mang phần 3, cơ sở lý thuyết và thuật toán tối ưu dựa trên quy tới lời giải cục bộ cho phương trình HJB phi tuyến. hoạch động thích nghi được trình bày. Sau đó, tính hội tụ Phương pháp cho hệ bất định hoàn toàn được trình bày và ổn định được đề cập trong phần 4. Trong phần 5, kết trong công trình [4], có thể coi là mở rộng cho phương quả mô phỏng cho thuật toán áp dụng trên đối tượng pháp của hệ tuyến tính trong [7]. Tuy chỉ là phương pháp XHBTCB được trình bày để kiểm chứng tính đúng đắn tối ưu ổn định bán toàn cục (semi-global), do chưa đảm của phương pháp. Cuối cùng, kết luận và định hướng bảo sự ổn định hoàn toàn mà chỉ trong trường hợp thỏa phát triển nghiên cứu được đưa ra trong phần 6. mãn các giả thiết nhất định, nhưng cũng đã là một bước đột phá khi có thể tìm ra luật điều khiển tối ưu mà có thể 2. Mô hình động lực học của XHBTCB loại bỏ hoàn toàn yêu cầu về mô hình của hệ thống. Mở Trong bài bào này, mô hình toán học của xe hai bánh rộng kết quả, các tác giả đã trình bày phương pháp ổn tự cân bằng (XHBTCB) dựa trên tài liệu tham khảo [15] định toàn cục cho một lớp hệ đa thức (các hàm động học được sử dụng để kiểm nghiệm thuật toán điều khiển. Cấu có dạng đa thức) ở trong [10]. trúc vật lý của XHBTCB được mô tả trong Hình 2, và Như vậy, có thể thấy bằng việc áp dụng học tăng định nghĩa của các ký hiệu được liệt kê trong Bảng 1. cường và quy hoạch động thích nghi, không những bài toán tối ưu được giải trực tuyến nhờ các dữ liệu đo đạc, mà còn không cần sử dụng mô hình động học đầy đủ và chính xác của hệ thống. Điều này có ý nghĩa lớn trong thực tế khi việc thu được mô hình đủ chính xác của các hệ thống là rất khó khăn, chưa kể các thông số trong hệ
  3. Điều khiển xe hai bánh tự cân bằng mô hình bất định dựa trên phương pháp quy hoạch động thích nghi dd22 IKm3 2 W J2 22r  IIml22sin   31 B  2   mlxBB2cossin I31 I ml    (3) dd2 ciiK . 2r 2 RL m2r Trong các phương trình động lực học hệ thống (1), (2), và (3), dòng diện phần ứng của các động cơ một chiều được coi là đầu vào của hệ thống, thay vì mômen như trong [15]. Ta định nghĩa các véctơ biến trạng thái và đầu vào như sau: x x xxxxxT 123456 Hình 1: Cấu trúc vật lý của XHBTCB  T xx  Bảng 1: Các ký hiệu, định nghĩa của XHBTCB u uuTT i i Ký hiệu Định nghĩa 12 LR x Vị trí xe hai bánh tự cân bằng Khi đó, phương trình động lực học mô tả XHBTCB  Góc nghiêng của thân xe (1), (2), (3) có thể được viết lại dưới dạng ma trận như  Góc hướng của xe sau: . d Khoảng cách giữa bánh xe trái và bánh xe xfx g xu Fxu , (4) phải trong đó: l Khoảng cách từ khối tâm thân xe đến trục  12 nối hai bánh xe xxxxxxx14253644 ,,,Fxu , , r Bán kính bánh xe  34   5 mB Khối lượng thân xe xx55 Fxu ,,, 66 Fxu  6 mW Khối lượng bánh xe trái (phải) uu 2c x J Mômen quán tính của bánh xe ứng với 22 12 4  12rmlI Bm { K x 5 trục bánh xe rr r K Mômen quán tính của bánh xe ứng với 22 mlB sin x25 x x 6 } trục thẳng đứng 2  22mlrB cos x Km Hằng số mômen xoắn {cos xxmlIIx sin 22 iiL , R Dòng điện đi qua động cơ của bánh xe 22 B 136 trái và động cơ của bánh xe phải x TT, Mômen xoắn của động cơ của bánh xe K uu2sin} cx4 mglx L R mB12 5r 2 trái và động cơ của bánh xe phải  22Jm mr2  L , R Góc xoay của bánh xe trái và bánh xe 3 BW phải 22 {cos xxmlIIx22 sin B 136 c Hệ số ma sát nhớt trên trục bánh xe x4 I123,,II Mômen quán tính của thân xe ứng với hệ KmB uu122sin} cx 5 mglx 2 quy chiếu {B} r 2 uu12 2c x 4  42mlrBmcos x { K x 5 Các phương trình chuyển động của hệ XHBTCB rr r được cho như sau: mlsin x x22 x } 2J B 25 6   22 mmBW 2sin2 xml B   2 r 2 uu12 cdx 6 (1)  5 2rKd{ m 2 K ii 22rr 2 x  mL R mlcos c  2 B xxmlxxxmlIIsin 2 cos } rr r 62 BB 452 13 2   {2IKmd 4 2 Iml2 BB mlcos  x 63 W 22 2 2 22  2sin} I13ImlB xrJd 2 IIml31 B sin cos (2) x  mglB sin 2 c KmL i i R r
  4. Trần Gia Khánh, Lê Việt Anh, Phan Anh Tuấn, Phan Xuân Minh và Nguyễn Hoài Nam 2 22 minHVxu , ,* 0 (9)  mlrB 1cos x 2 IJ2 u ()  222 *1 222.JmlBBWBW Im22 Im mml r Giả thiết rằng tồn tại duy nhất VP là nghiệm của phương trình HJB (9), thì luật điều khiển tối ưu được 3. Thuật toán điều khiển tối ưu dựa trên quy xác định bởi công thức: hoạch động thích nghi 1 ux*1*() RG T () x V () x (10) Trong phần này, thuật toán quy hoạch động bán toàn 2 cục cho hệ phi tuyến được phát triển và trình bày, dựa có thể ổn định tiệm cận toàn cục hệ (5) tại x 0 . 1 trên tài liệu tham khảo [4], [16]. Nếu xác định được một hàm thuộc lớp P là nghiệm của phương trình HJB (9) thì ta có thể tìm được 3.1. Cơ sở lý thuyết công thức tường minh của luật điều khiển tối ưu. Tuy Xét hệ phi tuyến affine như sau: nhiên, phương trình HJB phi tuyến nói chung là rất khó xFxGxu () () (5) để giải. Do đó, cũng giống như với hệ tuyến tính, phương n m pháp lặp cũng đã được phát triển cho hệ phi tuyến, cụ thể với xR là véctơ trạng thái của hệ thống, uR là như sau. véctơ tín hiệu điều khiển, Fx(): Rnn R và Định lý 1: Cho u0 là luật điều khiển ổn định tiệm cận Gx(): Rnnm R là các ánh xạ liên tục Lipschitz trên toàn cục tại gốc tọa độ của hệ (5) (Giả thiết 1). Khi đó, n 1 một tập R gồm gốc tọa độ, với F0() 0. với k 0,1, , hàm chi phí VCk ()x thu được bằng Ở đây, ta lưu ý rằng tính ổn định toàn cục tiệm cận việc giải phương trình: T được đảm bảo cho hệ tuyến tính, nhưng nói chung đối với Vrkkk()xFxGxu () () (, xu ) 0 (11) hệ phi tuyến, tính chất này khó được đảm bảo [8]. Do đó, và luật điều khiển uk được tính toán đệ quy theo công cơ sở lý thuyết của phương pháp chỉ được giới hạn trong thức: trường hợp tính ổn định tiệm cận được thỏa mãn trong n 1 1 T miền R . uxk1 () RGx () Vk () x (12) Hàm chi phí ứng với một luật điều khiển u sẽ là: 2 Khi đó, ta có các tính chất sau: Vrdt()xxu (, ) (6) * n 0 VV()xxxxR  kk 1 () V (), T với rq(,xu ) () x uRu được lựa chọn là một hàm có uk là luật điều khiển ổn định toàn cục. dạng toàn phương để đảm bảo luật điều khiển tối ưu có Đặt limVVk (xx00 ) ( ) và k thể xác định rõ ràng. n * limuxk (00 ) ux ( ) với  xR0 . Khi đó, VV Trước khi giải bài toán điều khiển tối ưu, ta đặt ra giả k thiết như sau: và uu* nếu VC 1 . Giả thiết 1: Giả thiết tồn tại một luật điều khiển phản hồi Chứng minh: Xem tài liệu tham khảo [4]. ổn định tiệm cận toàn cục u0 tại gốc tọa độ, trên một miền  cho hệ (5) với hàm chi phí (6) tương ứng là 3.2. Thuật toán hữu hạn. Một luật điều khiển thỏa mãn giả thiết trên được Trong phần này, phương pháp lặp PI để xấp xỉ gọi là luật điều khiển ổn định chấp nhận được [17]. nghiệm của phương trình HJB và luật điều khiển tối ưu Bài toán điều khiển tối ưu bây giờ có thể được phát trên cơ sở mạng nơron, đã được đề xuất trong [4], được biểu như sau: Xét hệ phi tuyến liên tục (5) và tập hợp các trình bày. Phương pháp là phiên bản mở rộng của phương luật điều khiển chấp nhận được (), tìm luật điều pháp cho hệ tuyến tính được trình bày trong [7]. Thuật khiển để tối thiểu hóa hàm chi phí (6). toán lặp PI, cũng giống các thuật toán học tăng cường Ta định nghĩa C1 là tập hợp các hàm liên tục khả vi khác, có thể được thực thi trực tuyến trên cấu trúc Actor-Critic [9]. Cấu trúc trên được minh họa trong Hình và P1 là tập tất cả các hàm trong C1 xác định dương 2. Trong cấu trúc Actor-Critic, dựa trên khả năng xấp xỉ và thỏa mãn x thì fx() . Khi đó ta nhận bất kỳ hàm phi tuyến trơn trên một tập compact của mạng 1 thấy hàm V ()x trong công thức (6) phải thuộc tập C , nơron, hàm chi phí Vk ()x và luật điều khiển uxk 1 () nói cách khác: được xấp xỉ bằng hai mạng nơron, được gọi tương ứng là T mạng nơron Critic và mạng nơron Actor.  VrV()xFxGxuxu () () (,) 0,() 0 0 (7) Phương trình (7) còn được gọi là phương trình Lyapunov cho hệ phi tuyến. Định nghĩa hàm Hamilton như sau: HVr xu,,  (,) xu V () x T Fx () Gxu () (8) và hàm chi phí tối ưu V * ()x thỏa mãn phương trình HJB: Hình 2: Cấu trúc Actor-Critic
  5. Điều khiển xe hai bánh tự cân bằng mô hình bất định dựa trên phương pháp quy hoạch động thích nghi Với mỗi k 0,1, , hàm Vk và luật điều khiển uk được xấp xỉ trên miền  như sau: Vˆ ()xcx T () kk (13) T uxˆ kk(()) w x trong đó ():xRn RN1 và  ():xRn RN2 , với N1 và N2 là các số nguyên dương đủ lớn, là véctơ các hàm trơn độc lập tuyến tính trên miền  và bằng 0 N1 Nm2 tại x 0 , ck R và wk R là véctơ hoặc ma trận trọng số được cập nhật. Nói cách khác, với mạng Critic, ta sử dụng một mạng nơron với N1 nơron ở lớp ẩn và hàm kích hoạt ()x , trọng số của lớp ẩn được coi đều bằng 1 và không thay đổi trong suốt quá trình huấn luyện. Đầu ra của mạng có hàm kích hoạt là hàm tuyến tính, với véctơ trọng số làck . Tương tự với mạng nơron Hình 3: Lưu đồ thuật toán lặp PI cho hệ phi tuyến Actor m đầu ra dùng để xấp xỉ uk . Ta viết lại phương trình (5) dưới dạng như sau: 4. Tính ổn định và hội tụ xFxGxuGxuu () () ()( ) (14) kk Trong phần này, tính hội tụ của thuật toán và tính ổn Xét đạo hàm của V ()x , kết hợp với (6) và (12) ta k định của hệ kín sẽ được xem xét. Đầu tiên, ta đặt ra các có: giả thiết sau.  VVkk ()xFxGxu () () k Gxuu ()( k ) Giả thiết 2: Giả thiết tồn tại số tự nhiên l0 và  0 T sao cho với mọi ll ta có: qV()xuRu kk  k () xGxuu ()( k ) (15) 0 TT l 1 T q()xuRuuRuu kk 2 k 1 ( k )  I  ki,, ki N12 N Lấy tích phân trong công thức (15) trong khoảng thời l i 0 gian tt, T , ta có: với 11 xx()tT () t VtTVtkk xx() ()  tT (16) qd()x uTT Ru 2( u u ) Ru  t kk k k 1  xx()tT () t NN11 trong đó uu e là tín hiệu đầu vào tác động lên hệ  T tT R NN12 k ki, ()uu TT Rw () xd thống trong khoảng thời gian [,tt T ], với e là tín hiệu t kk 11  nhiễu thăm dò biên độ nhỏ. tT TT Thay thế Vk , uk và uk 1 trong (16) bằng xấp xỉ ()uu Rw () xd t kkN 1 2 mạng nơron trong (13) ta có: Giả thiết 3: Giả thiết hệ kín (5) là ổn định ISS khi nhiễu cxT ()ttT x ( ) k thăm dò được áp dụng vào luật điều khiển. tT 2(uuˆ )TT Rw () xd (17) Định lý 2: Với các giả thiết 2 và 3, với mọi k 0 và giá t kk 1 * trị 0 cho trước, tồn tại các số nguyên dương k , tT qde()xuRuˆˆT  N * và N * thỏa mãn: t kk k 1 2 T * với ek là tổng sai lệch gây ra bởi xấp xỉ mạng nơron. cxk () V () x  (18) Áp dụng thuật toán lặp PI, ta có thể giải được các T * wxuxk () ()  trọng số mạng nơron cˆ k và wˆ k 1 bằng phương pháp * * l với mọi x  , NN11 và NN22 . tối thiểu hóa hàm sai lệch e 2 trong (17) sau khi thu  kl, Chứng minh: Xem tài liệu tham khảo [4]. i 1 Một cách nói chung, mạng nơron không có khả năng thập đủ dữ liệu của của các khoảng thời gian lấy mẫu xấp xỉ các hàm phi tuyến trên toàn không gian trạng thái [tt , ],[ tt , ] ,[ t , t ] . Lưu đồ thuật toán lặp PI cho hệ 01 12ll 1 Rn mà chỉ trên một tập compact. Do đó, mặc dù thuật phi tuyến được mô tả trong Hình 3. toán được nghiên cứu đã đảm bảo được tính hội tụ nhưng luật điều khiển thu được vẫn có thể không áp dụng được nếu trạng thái của hệ thống vượt ra ngoài tập compact  , từ đó gây ra mất ổn định. Do đó, trong [4] các tác giả đã đưa ra định lý sau để phân tích tính ổn định của hệ kín. Định lý 3: Với các giả thiết 1, 2 và 3, hệ kín sẽ ổn định
  6. Trần Gia Khánh, Lê Việt Anh, Phan Anh Tuấn, Phan Xuân Minh và Nguyễn Hoài Nam T tiệm cận tại gốc tọa độ nếu: xxcos( ) T  ()x i 2 và thông số khởi tạo mạng ˆˆ 2 q()xu kk 11 u Ruu kk 11 ,   x \0(19) 1sin()x 2 i 1, 6 Chứng minh: Với luật điều khiển uu ˆ , ta có đạo T k 1 0.2 0.6 0.3 0.2 0.1 0.2 hàm của hàm Lyapunov Vk trở thành: w0 0.2 0.6 0.3 0.2 0.1 0.2 VV T ()xFxGxu () ()ˆ kk k 1 Trong mô phỏng này, ta xét chuyển động trên đường T Vkk()xFxGxu () () 1 thẳng của xe, nhiệm vụ điều khiển là đảm bảo cho xe bám V T ()xGx () uˆ u vị trí đặt, trong khi góc nghiêng thân xe và góc hướng kkk 11 được giữ càng nhỏ càng tốt và tiến về 0 ở trạng thái xác T q()xuRu kk 11 lập. Cụ thể, ta giả sử xe chuyển động từ vị trí ban đầu 0.5 (20) uuRuuT (m) về gốc tọa độ trong 10 giây đầu tiên, rồi di chuyển tới kk 11 kk vị trí đặt mới 1 (m) trong 10 giây tiếp theo. T 2uRukkk 111 ˆ u Bộ điều khiển tối ưu được tìm ra đảm bảo cho hệ TT bám với giá trị đặt. Các véctơ trọng số tối ưu của mạng q()xuRuuRuu kk 11 2 k 1 ˆ k 1 k 1 T nơron Critic và Actor thu được từ thuật toán sau 4 vòng q()xu ˆˆkk 11 u Ruu kk 11 lặp như sau: T c3 0.075 0.069 0.030 0 0.002 với  x \0 . Nên nếu điều kiện (19) được thỏa mãn T 0.19 0.62 0.39 0.18 0.08 0.23 thì hệ kín sẽ ổn định tiệm cận tại gốc tọa độ. w 4 0.26 0.67 0.55 0.22 0.08 0.23 Do đó, thuật toán được trình bày cho hệ phi tuyến được các tác giả gọi là quy hoạch động thích nghi bán Kết quả mô phỏng với thuật toán tối ưu phi tuyến toàn cục [4]. dựa trên quy hoạch động thích nghi được thể hiện trong Lưu ý: Lựa chọn cấu trúc mạng cho mạng nơron dùng để các Hình 4, 5 và 6, lần lượt cho dịch chuyển của xe, góc nghiêng  của thân xe và góc hướng  của xe. Như xấp xỉ hàm Vk và luật điều khiển uk vẫn là một vấn đề mở chưa được đề cập trong các công trình nghiên cứu có thể thấy, thuật toán tìm ra bộ điều khiển tối ưu sau quá trình học 8 giây, và bộ điều khiển tối ưu thu được đảm trước đây. Trong bài báo này, các hàm kích hoạt  j ()x bảo cho hệ ổn định. được chọn có dạng toàn phương, trong khi đó  j ()x 1.2 được lựa chọn từ các phần tử độc lập tuyến tính của bộ x 1 điều khiển ban đầu ổn định hệ thống u0 . 0.8 5. Mô phỏng kiểm chứng 0.6 Trong phần này, thuật toán tối ưu dựa trên quy hoạch 0.4 động cho hệ phi tuyến đã trình bày được áp dụng cho hệ 0.2 XHBTCB và kiểm chứng thông qua mô phỏng số trên phần mềm MATLAB. Các thông số của đối tượng thu 0 được từ mô hình trong phòng thí nghiệm như sau: -0.2 mkg 0.5( ), mkg 0.04( ), lm 0.08( ), dm 0.16( ) , 0 2 4 6 8 101214161820 B W Time (s) 2 4 Hình 4: Dịch chuyển của xe rm 0.033( ), g 9.81(ms / ), cNsm 5.10( / ), K 0.412 (Nm / A ) . m 0.4 Hàm chi phí trong bài toán điều khiển tối ưu được định nghĩa như sau: 0.3 J(,xu ) xQxTT u Rud (21) 0.2 0 0.1 với Q diag 1, 0.5, 2, 0.05, 0.05,1 và RI 2 . Thời gian lấy mẫu là 0.01 s, thuật toán được thực thi sau 200 mẫu 0 dữ liệu, tương đương với sau mỗi 2 s. Tín hiệu nhiễu thăm dò được lựa chọn là dạng tổng các tín hiệu sin như -0.1 sau [4]: -0.2 et 0.1 sin( ) 0 2 4 6 8 101214161820  i Time (s) Hình 5: Góc lắc thân xe trong đó i với i 1, ,100 là tần số được chọn ngẫu nhiên trong khoảng  500,500 . Mạng nơron được sử dụng có cấu trúc như T sau: N 21, ()x xx , N 6, 1 ijij, 1, 6 2
  7. Điều khiển xe hai bánh tự cân bằng mô hình bất định dựa trên phương pháp quy hoạch động thích nghi 0.2 [7] Y. Jiang and Z.-P. Jiang, “Computational adaptive optimal control for continuous-time linear systems with 0.15 completely unknown dynamics,” Automatica, vol. 48, no. 10, pp. 2699–2704, 2012. 0.1 [8] D. Vrabie and F. Lewis, “Neural network approach to 0.05 continuous-time direct adaptive optimal control for partially unknown nonlinear systems,” Neural Networks, 0 vol. 22, no. 3, pp. 237–246, 2009. [9] K. G. Vamvoudakis and F. L. Lewis, “Online actor critic -0.05 0 2 4 6 8 101214161820 algorithm to solve the continuous-time infinite horizon Time (s) Hình 6: Góc hướng của xe optimal control problem,” Automatica, vol. 46, no. 5, pp. 878–888, 2010. 6. Kết luận [10] Z.-P. Jiang, Yu and Jiang, “Global adaptive dynamic Bài báo đã tìm hiểu thuật toán điều khiển tối ưu dựa programming for continuous-time nonlinear systems,” trên quy hoạch động thích nghi [4]. Thuật toán điều khiển IEEE Trans. Automat. Contr., vol. 60, no. 11, pp. ứng dụng quy hoạch động thích nghi cho hệ phi tuyến mô 2917–2929, 2015. hình bất định hoàn toàn và không phụ thuộc thời gian [11] D. Liu, Q. Wei, D. Wang, X. Yang, and H. Li, Adaptive được trình bày chi tiết. Sau đó, thuật toán đã được áp dụng cho mô hình XHBTCB và kiểm chứng chất lượng dynamic programming with applications in optimal bộ điều khiển thông qua mô phỏng số trên phần mềm control. 2017. MATLAB. Thuật toán quy hoạch đông thích nghi được [12] T. Cheng, F. L. Lewis, and M. Abu-Khalaf, áp dụng đã giải quyết tốt yêu cầu đặt ra đó là tìm lời giải “Fixed-final-time-constrained optimal control of nonlinear trực tuyến cho bài toán điều khiển tối ưu các hệ thống systems using neural network HJB approach,” IEEE Trans. động học khi mô hình toán học của hệ thống được coi là Neural Networks, vol. 18, no. 6, pp. 1725–1737, 2007. bất định. Tuy nhiên, vấn đề còn tồn tại đó là thuật toán [13] D. Liu, D. Wang, and X. Yang, “An iterative adaptive chỉ là ổn định bán toàn cục, theo nghĩa hệ kín sẽ ổn định nếu một số điều kiện nhất định được thỏa mãn. Hơn nữa, dynamic programming algorithm for optimal control of việc lựa chọn cấu trúc mạng nơron và bộ trọng số mạng unknown discrete-time nonlinear systems with khởi tạo để đảm bảo hệ không mất ổn định trong quá constrained inputs,” Inf. Sci. (Ny)., vol. 220, pp. 331–342, trình học cũng chưa được phân tích chặt chẽ. Đó cũng 2013. chính là dự định phát triển về mặt lý thuyết trong tương [14] Q.-Y. Fan and G.-H. Yang, “Adaptive actor critic lai. Cuối cùng, định hướng phát triển về thực nghiệm là design-based integral sliding-mode control for partially áp dụng các phương pháp này trên mô hình xe thực trong unknown nonlinear systems with input disturbances,” phòng thí nghiệm. IEEE Trans. neural networks Learn. Syst., vol. 27, no. 1, Lời cảm ơn pp. 165–177, 2015. Nghiên cứu này được tài trợ bởi Trường Đại học [15] S. Kim and S. Kwon, “Dynamic modeling of a Bách khoa Hà Nội trong đề tài mã số T2018-PC-052. two-wheeled inverted pendulum balancing mobile robot,” Int. J. Control. Autom. Syst., vol. 13, no. 4, pp. 926–933, 2015. Tài liệu tham khảo [16] Y. Jiang and Z.-P. Jiang, “Robust approximate dynamic [1] D. Vrabie, “Online adaptive optimal control for programming and global stabilization with nonlinear continuous-time systems,” 2010. dynamic uncertainties,” in 50th IEEE Conference on [2] R. S. Sutton and A. G. Barto, Introduction to Decision and Control and European Control Conference, reinforcement learning. 1998. 2011, pp. 115–120. [3] K. G. Vamvoudakis, “Online learning algorithms for [17] R. W. Beard, G. N. Saridis, and J. T. Wen, “Galerkin differential dynamic games and optimal control,” 2011. approximations of the generalized [4] Y. Jiang and Z.-P. Jiang, Robust adaptive dynamic Hamilton-Jacobi-Bellman equation,” Automatica, vol. 33, programming. 2017. no. 12, pp. 2159–2177, 1997. [5] J. J. Murray, C. J. Cox, G. G. Lendaris, and R. Saeks, Adaptive dynamic programming. 2002. [6] D. Vrabie, O. Pastravanu, M. Abu-Khalaf, and F. L. Lewis, “Adaptive optimal control for continuous-time linear systems based on policy iteration,” Automatica, vol. 45, no. 2, pp. 477–484, 2009.