Điều khiển bám tàu mặt nước bất định mô hình và nhiễu ngoài thông qua bộ điều khiển học tăng cường thích nghi trực tuyến và rise

pdf 12 trang Gia Huy 3740
Bạn đang xem tài liệu "Điều khiển bám tàu mặt nước bất định mô hình và nhiễu ngoài thông qua bộ điều khiển học tăng cường thích nghi trực tuyến và rise", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfdieu_khien_bam_tau_mat_nuoc_bat_dinh_mo_hinh_va_nhieu_ngoai.pdf

Nội dung text: Điều khiển bám tàu mặt nước bất định mô hình và nhiễu ngoài thông qua bộ điều khiển học tăng cường thích nghi trực tuyến và rise

  1. Kỹ thuật điều khiển & Điện tử ĐIỀU KHIỂN BÁM TÀU MẶT NƯỚC BẤT ĐỊNH MÔ HÌNH VÀ NHIỄU NGOÀI THÔNG QUA BỘ ĐIỀU KHIỂN HỌC TĂNG CƯỜNG THÍCH NGHI TRỰC TUYẾN VÀ RISE Vũ Văn Tú 1, 2*, Đào Phương Nam1, Phan Xuân Minh1 Tóm tắt: Bài viết đề cập tới cách tiếp cận một bộ điều khiển bám quỹ đạo áp dụng cho cho tàu bề mặt có mô hình bất định và chịu ảnh hưởng nhiễu sử dụng cấu trúc mới dựa trên thuật toán học tăng cường thích nghi (ARL) và tích phân bền vững theo hàm dấu của sai lệch bám RISE. Để đảm bảo hiệu suất bám tiệm cận, RISE được sử dụng trong thiết kế điều khiển phản hồi để bù các thành phần bất định trong mô hình và nhiễu loạn bên ngoài. Kỹ thuật học tăng cường thích nghi động được áp dụng để hiệu chỉnh đồng bộ mạng nơ- ron Actor-Critic dùng để xấp xỉ điều khiển tối ưu và hàm chi phí tương ứng. Sự hội tụ của trọng số cũng như vấn đề điều khiển bám được phân tích dựa trên lý thuyết tối ưu và hàm Lyapunov. Cuối cùng, mô phỏng kỹ thuật số được thực hiện để chứng minh sự hiệu quả của thuật toán đề xuất. Từ khóa: Điều khiển tối ưu; Quy hoạch động thích nghi; Tích phân bền vững hàm dấu sai lệch bám RISE; Hệ thống tàu bề mặt; Điều khiển bám quỹ đạo. 1. ĐẶT VẤN ĐỀ Trong những thập kỷ qua, điều khiển bám quỹ đạo của phương tiện hàng hải đã nhận được sự chú ý đáng kể trong công nghệ hàng hải và kỹ thuật điều khiển bởi các ứng dụng rộng rãi của nó như giao thông vận tải, khảo sát môi trường, giám sát và nhiều ứng dụng quân sự và thương mại [1, 2]. Vì các tàu làm việc trong điều kiện khắc nghiệt của môi trường, hệ thống điều khiển bám quỹ đạo phải đối mặt với những thách thức không nhỏ do sự xuất hiện của bất định mô hình và nhiễu loạn bên ngoài [3, 4]. Tất cả các nghiên cứu trên là cơ sở để thiết kế thuật toán điều khiển bám quỹ đạo để giải quyết các vấn đề như cơ cấu chấp hành bão hòa, dự báo hiệu suất, nhiễu loạn môi trường và bất định mô hình sử dụng mạng nơ-ron và bộ quan sát. Tuy nhiên, việc tối ưu hóa hiệu suất chưa được nghiên cứu đầy đủ. Bộ điều khiển tối ưu không chỉ giải quyết vấn đề điều khiển bám quỹ đạo của hệ thống phi tuyến mà còn đảm bảo hiệu suất bám của hệ thống được tối ưu hóa. Trong những năm gần đây, giải thuật học tăng cường (Reinforcement Learning) đã được phát triển để thiết kế bộ điều khiển tối ưu cho mô hình tàu phi tuyến dựa trên việc giải phương trình Hamilton – Jacobi – Bellman (HJB) với nhiều cách tiếp cận như cấu trúc Actor/Citic, kỹ thuật học tăng cường tích phân trực tuyến (On Policy Intergral Reinforcement Learning), [5-11]. Các công trình [5, 6] đã đề xuất thuật toán điều khiển tối ưu bằng cách sử dụng giải thuật học tăng cường (RL) cho các hệ thống tàu mặt nước có động học đã biết. Thuật toán điều khiển tối ưu dựa trên giải thuật lặp PI (Policy Iteration) và nó có thể thu được các giá trị xấp xỉ thích hợp của của hàm chi phí và luật điều khiển được tối ưu hóa. Giải thuật RL dựa trên cấu trúc mạng nơ- ron actor/critic (AC-NNs), trong đó, mạng nơ-ron critic (critic NN) nhắm ước tính hàm chi phí và mạng nơ-ron actor (actor NN) được sử dụng để thiết kế đầu vào phù hợp và giảm thiểu sai lệch bám. AC-NN đã được mở rộng sang lĩnh vực lĩnh vực điều khiển bám quỹ đạo cho các phương tiện hàng hải bao gồm tàu thủy thiếu cơ cấu chấp hành (USVs) và phương tiện tự hành dưới nước [10, 11]. Trong công trình [7], kỹ thuật điều khiển mới có tên là tối ưu hóa Backstepping dựa trên kỹ thuật Backstepping kết hợp với cấu trúc AC-NNs để thực hiện các giải pháp tối ưu hóa cho các hệ thống con tương ứng. Bởi vì thực hiện các giải pháp tối ưu hóa cho các hệ con, trong công trình nghiên cứu này các tác giả sử dụng nhiều mạng nơ-ron dẫn đến tốn tài nguyên, tốc độ hội tụ giảm, bộ điều khiển được thiết kế phức tạp, tốc độ xử lý của các máy tính số không xử lý kịp các 10 V. V. Tú, Đ. P. Nam, P. X. Minh, “Điều khiển bám tàu mặt nước trực tuyến và RISE.”
  2. Nghiên cứu khoa học công nghệ tính toán của các bộ điều khiển. Tuy nhiên, trong các công trình trên vấn đề ảnh hưởng của các yếu tố như bất định mô hình và nhiễu loạn bên ngoài tới bộ điều khiển đã thiết kế không được xem xét. Công trình [9] đề xuất một phương pháp điều khiển bám thích nghi dựa trên cấu trúc AC-NNs cho USVs có thành phần bất định mô hình, nhiễu loạn môi trường và ràng buộc tín hiệu đầu ra bằng cách sử dụng kỹ thuật chuyển đổi sai lệch để xử lý vấn đề rằng buộc sai lệch đảm bảo rằng USV có thể bám chính xác quỹ đạo bám. Đối tượng áp dụng của công trình nghiên cứu này là tàu thủy thiếu cơ cấu chấp hành không phải tàu thủy đủ cơ cấu chấp hành. Trong bài báo này, nghiên cứu sẽ tập trung vào việc giải quyết bài toán điều khiển tối ưu bám quỹ đạo cho tàu mặt nước đủ cơ cấu chấp hành có mô hình phi tuyến bất định và hoạt động trong môi trường có nhiễu loạn. Bộ điều khiển bám phản hồi được đề xuất trên cơ sở kết hợp học tăng cường thích nghi động kết hợp với RISE đảm bảo hệ thống kín ổn định, bám quỹ đạo và bù ảnh hưởng của nhiễu cũng như các thành phần bất định của tàu. Những đóng góp chính của bài báo này tập trung vào những nội dung sau: 1. Xây dựng được cấu trúc AC-NNs để ước lượng hàm chi phí và luật điều khiển tối ưu, luật cập trọng số cả hai mạng nơ-ron đồng bộ trong thời gian thực. 2. Bộ điều khiển tối ưu được xây dựng dựa trên giải thuật RL, bổ xung bộ ước lượng bất định mô hình và nhiễu ngoài RISE. Bằng cách này, bộ điều khiển đề xuất đảm bảo điều khiển tối ưu bằng thuật toán học tăng cường thích nghi động cho phương trình HJB cho hệ có mô hình bất định và chịu ảnh hưởng của nhiễu. 3. Bộ điều khiển được đề xuất cải thiện tốc độ hội tụ của sai số bám và độ quá điều chỉnh nhỏ. Sự kết hợp của RISE và học tăng cường thích nghi động (Adaptive Reinforcement Learning) trong thiết kế bộ điều khiển tối ưu bám giúp giải quyết được vấn đề bất định mô hình và nhiễu, những vấn đề mà chỉ sử dụng hoặc tăng cường thích nghi động chưa giải quyết được [5-7]. 2. MÔ HÌNH TÀU ĐỘNG HỌC TÀU MẶT NƯỚC Phương trình động lực học ba bậc tự do mô tả chuyển động tàu mặt nước trong mặt phẳng ngang như sau:  J( )v (1) MCv (v)v D(v)v g( ) d()t T Trong đó: =x,y,  biểu thị véc-tơ vị trí và hướng trong hệ trục tọa độ Trái đất (n-frame), T v ur,,  biểu thị véc-tơ vận tốc dài và vận tốc góc trong hệ tọa độ gắn thân tàu (b-frame) và J() ma trận chuyển đổi và là ma trận trực giao JJ 1()() T , MM T là ma trận quán tính hệ thống, C( v )( ) CT v ma trận Coriolis và lực hướng tâm hệ thống, Dv() ma trận suy giảm thủy động lực học, g() 3 là véc-tơ lực đẩy và lực trọng trường, T d(t )  d1 ( t ), d 2 ( t ), d 3 ( t ) véc-tơ của nhiễu ngoài biến đổi theo thời gian (gió, sóng, dòng chảy T đại dương, ) ur,,    là véc-tơ của đầu vào điều khiển. Các ma trận M, C ( v ), D ( v ) và ma trận J() như sau: cos sin 0 00 c13 J ( ) sin cos 0 ; Cv( ) 0 0c ; 23 0 0 1 cc13 23 0 Tạp chí Nghiên cứu KH&CN quân sự, Số 74, 8 - 2021 11
  3. Kỹ thuật điều khiển & Điện tử d11 00 m11 00 Dv( ) 0; dd M 0.mm 22 23 22 23 0 dd32 33 0 mm23 33 Để thuận tiện trong việc thiết kế bộ điều khiển, chuyển đổi động học của hệ (1) thành phương trình sau: M()(,,)(,)()() C v D v g ndt (2) T 1 T 11 T 1 T T Trong đó: M J MJ , C J(), C MJ J J D J DJ , g J g, n Jd, T d J Sự phát triển của mô hình (2) dựa trên các giả thiết là và v là đo được và M, C, D, g và n là những hàm chưa biết. Giả thiết 1: Véc-tơ vị trí và hướng và đạo hàm của nó bị chặn bởi hằng số dương 12, sao cho 12, . Giả thiết 2: Nếu , bị chặn thì tất cả những hàm này Cv(,,), D v (,),() g bị chặn. Hơn thế, nếu , bị chặn thì đạo hàm riêng phần bậc nhất và bậc hai của các thành phần Cv(,,), D v (,),() g theo là tồn tại và bị chặn. Giả thiết 3: Quỹ đạo mong muốn d được thiết kế sao cho đạo hàm theo thời gian thứ i của d i 0, 1, , 4 là tồn tại và bị chặn. Giả thiết 4: Thành phần nhiễu phi tuyến và đạo hàm bậc nhất, bậc hai của nó nnn,, bị chặn bởi hằng số đã biết. Giả thiết 5: Với d là một quỹ đạo đặt bị chặn và giả thiết rằng tồn tại một hàm Lipschitz d toàn cục h (.) thỏa mãn h (), h (). d dt d d d d d d Sai lệch bám quỹ đạo của tàu mặt nước được tính như sau: e1 d (3) 3 Để tạo điều kiện cho việc phân tích tiếp theo, các sai số bám đã được lọc, ký hiệu là e2 được định nghĩa là: e2 ee 1 1 1 (4) Thiết lập sai số bám quỹ đạo đã lọc được định nghĩa: r ee2 2 2 (5) 33 Trong đó, 12 0,  là một số dương. Để phát triển một mô hình không gian trạng thái cho sai lệch bám trong (3) và (4), đạo hàm theo thời gian (4) sau đó nhân hai vế với M và thay thế (2), (3) vào ta được: Me22 () C D e f nd (6) 3 Trong đó, hàm phi tuyến fed(,,,,,)1 d d d được định nghĩa như sau: f M(dd 1 e 1 ) ( C D )( 1 e 1 ) g (7) Để thuận tiện triệt tiêu các đại lượng trong công thức đầu vào điều khiển của hệ được thiết kế như sau: 12 V. V. Tú, Đ. P. Nam, P. X. Minh, “Điều khiển bám tàu mặt nước trực tuyến và RISE.”
  4. Nghiên cứu khoa học công nghệ dnfu (8) Kết hợp (4), (6), (8) và dựa trên giả thiết 5 chuyển đổi từ mô hình phụ thuộc theo thời gian T thành mô hình không phụ thuộc thời gian, với biến trạng thái mới X eTTTT e được hệ 12,,,dd mới như sau: e1 1ee 1 23 3 0 d e M 11() C D e M 2 2 u (9) dt d h () 0 dd 33 d hdd() 033 Có thể viết lại hệ mới như sau: d X F()() X G X u (10) dt Trong đó, tín hiệu u được thiết kế bằng cách sử dụng thuật toán điều khiển tối ưu cấu trúc ARL để tối thiểu hóa hàm chi phí. 3. THIẾT KẾ BỘ ĐIỀU KHIỂN CHO TÀU MẶT NƯỚC 3.1. Học tăng cường thích ứng thiết kế dựa trên điều khiển tối ưu Bộ điều khiển u được thiết kế để tối thiểu hàm chi phí: V(,)(())X u Q X uT Ru ds (11) t T 12 12 3 3 Trong đó: QXQXXQXQR() 0; () TT ; ; . Theo lý thuyết về phương trình Hamilton – Jacobi – Bellman (HJB) kinh điển bộ điều khiển tối ưu uX*() và hàm chi phí tối ưu tương ứng V *()X được suy ra như sau: 1V * (X ) u*1()() X R G X (12) 2 X * TT Vds(X , u ) min () X QT X u Ru (13) uX()()  t Do đó, việc học trực tuyến dựa trên giải pháp trực tuyến được xem xét bằng cách sử dụng mạng nơ-ron để xấp xỉ hàm chi phí tối ưu và bộ điều khiển tối ưu tương đương [12]: T T 1   V *()X WTT ()();() X X u * X R 1 G () X W v (14) v 2 XX Giả thiết 6: Ma trận GX() trong biểu thức là đã biết và bị chặn, tồn tại một hằng số dương đã biết G , thỏa mãn 0 GX ( ) G . Giả thiết 7: Các trọng số lý tưởng W là bị chặn bởi một số dương chưa biết W , W W . Giả thiết 8: Véc-tơ hàm tác động ()X và đạo hàm riêng theo X bị chặn. Xét số nơ-ron cố định N , mạng nơ-ron Critic V ()X và mạng nơ-ron Actor uX() được sử dụng để xấp xỉ hàm chi phí và bộ điều khiển tối ưu như: Tạp chí Nghiên cứu KH&CN quân sự, Số 74, 8 - 2021 13
  5. Kỹ thuật điều khiển & Điện tử T TT1 1  V (X ) W ca ( X ); u ( X )( ) R G X W (15) 2 X Luật thích nghi của các trọng số mạng nơ-ron Critic Wc và mạng nơ-ron Actor Wa được thực hiện đồng thời để giảm tích phân sai số bình phương Bellman hjb tương ứng: * T VV* * TTT1  1  hjb HH X,,,, u X u W c W a GR G XXXX 4   (16) T 1 vvv 1*  T GR GF Gu () 4 XX  X  Trong đó: (,)Xu ( FGuFX ); () F;GX () G . X Trong tài liệu [12], luật cập nhật cho trọng số Wc của mạng nơ-ron Critic được đưa ra như sau: d W (17) dt cnomper T Trong đó, nom(,)WW ccctk T 1 TT  1 perk cT WGXRGXW aa ()() 1  4 XX T 1 v 1*T  v  v G()()(()()) X R G X F X G X u 4 XXX   NN Với kc , là các số dương, là ma trận hệ số ước lượng đối xứng được tính và có thể bị chặn như sau [12]: d kt ; ( ) (0) I (18) dt cr1  T 0 Luật cập nhật thích nghi cho mạng nơ-ron Actor được mô tả như sau: T d 1  1 T Wa kk aa12 c hjb a GR a G c ()() W W W W (19) dt 1 T XX Trong đó: WWWWWWc c; a a và ()t là véc-tơ ước tính hồi quy 1  T của mạng Critic tiêu chuẩn hóa bị chặn bởi: 1 (20)  1 Sự hội tụ của các trọng số ước lượng bởi mạng nơ-ron Actor/Critic Wa và Wc phụ thuộc vào điều kiện PE bởi N trong [13]. 1  T t0  I (s )T ( s ) ds I,  t 0, 0, 0 2 1 0 1 2 (21) t0 3.2. Thiết kế bộ điều khiển phản hồi RISE Nhân hai vế của (5) với M và kết hợp với công thức (7), ta được: 14 V. V. Tú, Đ. P. Nam, P. X. Minh, “Điều khiển bám tàu mặt nước trực tuyến và RISE.”
  6. Nghiên cứu khoa học công nghệ Mr () C D e22 fMe 2 nd  (22) Thiết kế điều khiển (8) được hoàn thiện bằng cách ước lượng f n được thiết kế dựa trên khung RISE [14]. f n với sai lệch  c vô cùng nhỏ (23) Để tạo điều kiện cho phân tích ổn định của hệ ở phần tiếp theo, ta định nghĩa một hàm phụ 3 fd(,,) d d d như sau: fd M()(,,)(,)() dd C dddd v D ddd v g d (24) 3 Hàm f (,,,,)ddd cho bởi: fff d (25) Thay (8), (24) và (25) vào vế phải (22) và đạo hàm hai vế thời gian có thể viết lại như sau: 1 Mr Mr N N e (26) 2 D 2 3 Trong công thức (26) có NW(a ,,, d d d ,eeeerNW1 ,,,,,), 1 2 2tt D ( a ,,,,,) d d ee 1 1 là các thành phần phụ được định nghĩa như sau: 1 HWX(,) N ()() CDeCDe Mrf Me Mee a X (27) 2 22 2 2 2 2 2 X HWX(,)a ND fW d na (28) Wa T 1 1 T  Trong công thức (27): u u()()(,) X R G X Waa H W X . 2 X Theo định lý giá trị trung bình (Mean Value Theorem) và các giả thiết 1-8 có thể sử dụng cho giới hạn trên cho nhóm các thành phần phụ: N y y;, NDD12 N (29) T Trong đó, y eTT e r 9 . Hàm giới hạn ()y là một hàm không giảm, khả 11 nghịch toàn cục dương. Dựa trên công thức (26), thành phần điều khiển được thiết kế dựa trên RISE [14] như sau: n f (k s 1) e22 ( k s 1) e (0) ( t ) (30) 3 Với ks , 1 , (t ) được tính bới phương trình toán học sau: (tk ) (s 1)2ee 2 1 sgn( 2 ) (31) RISE feedback 풆2 풅(푡) Surface Vessel 휼 휼 휼 = d/dt 흁 ψ 풆 휆 풆 풖 1 1 1 풆2 흉 Dynamic  휼 휆1 푱 휼 ARL Subsystem 풆 1 d/dt 휼 풆1 Hình 1. Cấu trúc điều khiển ARL-RISE cho mô hình tàu thủy. Tạp chí Nghiên cứu KH&CN quân sự, Số 74, 8 - 2021 15
  7. Kỹ thuật điều khiển & Điện tử 3.3. Phát biểu định lý và chứng minh tính ổn định của hệ kín Định lý 1.1. Hệ thống điều khiển kín bao gồm mô hình tàu thủy (1) và (2) thỏa mãn các giả thiết 1-8 bộ điều khiển ARL-RISE (8) với luật điều khiển RISE (30), luật điều khiển tối ưu (15), luật cập nhật trọng số (17), (19), tín hiệu véc-tơ ()t thỏa mãn điều kiện PE (21), các tham số thiết kế được chọn như sau: 11 min( 12 )  ; 1 1;12  (32) 2 2 Đảm bảo: 1. Sai số của các trọng số các mạng nơ-ron Actor-Critic Wc và Wa sẽ UUB. 2. Sai số bám y 9 của hệ thống tàu mặt nước cũng UUB. Chứng minh Định lý 1.1: Chọn hàm ứng viên Lyapunov cho toàn bộ hệ thống (2): 11 11 VPV r VTT Mr t TT e e e e * (,) W W W (33) Lc22 c 22 a a 1 1 1 2 Với V * là hàm chi phí tối ưu (14), hàm phụ P được định nghĩa [14]: n T PNL 1 ee 22iD(0) (0) (0) (34) i 1 T Trong công thức (34), LN re(sgn(D  ))12. Đạo hàm VL theo thời gian, thay thế (4), (26) và (34) vào thu được: TTTTT VLs V1 Vk 2 e 1 1 e 1 e 2 e 1 2 e 2 e 2 r N 1 r r (35) VV VVVc  c  c T F GuW W nom per a a XX  t WWcc Lại có: VV F Gu Q() X uT Ru (36) XX * V 1122 2 Trong đó: G 2; u*T R eT e e e ; eT ee (); X 2 122 1 2 1 1 1 min 1 1 T 2 T 2 T 2e 2 e 2 2 e 2 ; (kkss 1)r rr ( 1) ; rN (). y r y * Sử dụng các biểu thức (19), (26), (29), (30), (31), (36) và thay thế uu,,hjb , per bằng cách  11 sử dụng các công thức (14), (15), (16), (17) tương ứng, có 3min  min ( 1 ) , 2 ,1 .  22 1 Từ các giả thiết 6-8 có phát triển các giới hạn, chọn c k k k , sử dụng biến đổi ab  a22 b 3a 1 1 2 4 2 ()y 1 và lựa chọn 0 1;33 0 y (2ks ) vào biểu thức (35), VL bị chặn 4ks như sau: 2 22 VL 4y Q( X ) (1 )( c 3 k a 1 k 1 k 2 ) W c k a 2 W a 2 (37) 1 kc c0 k kkkk kkk22 kk kkkk k 4 (c k k k ) 4 3a 1123 a 112 a 11 a 1123 4 3a 1 1 2 2  1 16 V. V. Tú, Đ. P. Nam, P. X. Minh, “Điều khiển bám tàu mặt nước trực tuyến và RISE.”
  8. Nghiên cứu khoa học công nghệ Trong đó: Vtcc(,W ) thỏa mãn các bất đẳng thức được xây dựng trong [12], biến đổi 222(yyy )( )( ) 0 min0 . Ta định nghĩa véc – tơ 34 34 3 444kkksss T z yTTT W W để phân tích vấn đề sai lệch bám của hệ kín. Có thể thấy rằng, tồn tại 2 ca hàm lớp K là 5 và 6 thỏa mãn: 2 22 5()z 4 y Q ()(1)( X c 3 ka 1 k 1 k 2 ) W c k a 2 W a 6 () z (38) Dựa trên biểu thức (38), bất đẳng thức (37) được viết lại thành: 2 1 kc V ()z c0 kkkkkkkkkk 22 kkkkk L54 (c k k k ) 4 3112311211 a a a a 11234 (39) 3a 1 1 2 2  1 Có thể thấy rõ rằng, VL (.) là âm nếu z()t nằm ngoài miền hấp dẫn: 2 1 kc  zz: 12 c0 kkkkkkkk kk z 54 3 1123 112a 11 a a 4 (c3 ka 1 k 1 k 2 ) 2  1 (40) 2 ka1 k 1 k 2 k 3 k 4  Từ (40), ta có z tiến từ z()t tiến đến z là miền hấp dẫn. Gọi T là thời gian z()t tiến vào z . Ta phải chứng minh T hữa hạn, khi t0 t T có VL ở công thức (33) đơn điệu giảm dần từ VtL ()0 đến VTL ( ). Khi đó, ta có thể ký hiệu VLL( t0 ) c , V ( Tc )  ,0 định nghĩa các tập compact sau: c {()},V Lz c  {() V L z  },  {  V L ()} z c . Sử dụng bất phương trình sau: VtL (z , )( ) W3 z (41) Wz3 () là liên tục và xác định dương, ta có: k minWz3 ( ) 0 z  (42) Từ (41) và (42) thu được bất đẳng thức sau: V(zz , t ) k ,   ,  t t0 0 (43) Tích phân hai vế (43) ta được: Vt(())zz Vt (())0 ktt ( 0 ) cktt ( 0 ) (44) Như vậy, z()t  trong khoảng thời gian []tt00, T với T được xác định từ: V(z ( T )) c k ( T t00 ) T ( c  ) / k t (45) và hiển nhiên nó là hữu hạn. 4. MÔ PHỎNG, TÍNH TOÁN, THẢO LUẬN Bài báo thực hiện mô phỏng số trên phần mềm Matlab với mô hình tàu được thu nhỏ với tỷ lệ so với tàu thật 1:75. Khối lượng của tàu là m 21 (kg) chiều dài và chiều rộng tương ứng là 1.2 Tạp chí Nghiên cứu KH&CN quân sự, Số 74, 8 - 2021 17
  9. Kỹ thuật điều khiển & Điện tử m và 0.3 m, với các tham số được tham khảo trong tài liệu [7]: cv1323( ) 19 v 0.72 3132 rcv ; ( ) 20 ucv ; ( ) 19 v 0.72 rcv ; ( ) 20 u 2 d1122( vu ) 0.72 u 1.3 d vv 5.8 r ; ( ) 0.86 36 3 dv233233() 0.12 vrdv 2; () 0.15 vrdv 3; ()64 vr 4 M 20 0 0; 0 19.2 0.72; 0 0.72 2.7 , , ggg123( )( )( ) 0 Các tham số điều khiển được chọn: ka122 0.01, k c 1 2, kk as 50,  0.01, 60, 5, 100 Mạng nơ-ron Critic và Actor có số nơ-ron là N 12 , nhiễu ngoài thỏa mãn giả thiết 4 được lấy như sau: d(tt ) 4 1.5sin(0.8 t ) 1.5cos 0.8 tt ;4 sin 1.2cos(0.6 );4 sin 0.8t 46 6 Hình 2. Quỹ đạo bám với mô hình tàu thủy có bất định và nhiễu ngoài sử dụng bộ điều khiển ARL-RISE. Hình 3. Sự hội tụ của ma trận trọng số Hình 4. Sự hội tụ của ma trận trọng số mạng nơ-ron Critic. mạng nơ-ron Actor. Hình 5. Sai lệch bám quỹ đạo theo trục x,y và theo góc 18 V. V. Tú, Đ. P. Nam, P. X. Minh, “Điều khiển bám tàu mặt nước trực tuyến và RISE.”
  10. Nghiên cứu khoa học công nghệ Hình 6. Ước lượng nhiễu ngoài và thành phần bất định f11 n bởi bộ RISE và sai lệch ước lượng. Hình 7. Ước lượng nhiễu ngoài và thành phần bất định f22 n bởi bộ RISE và sai lệch ước lượng. Hình 8. Ước lượng nhiễu ngoài và thành phần bất định f33 n bởi bộ RISE và sai lệch ước lượng. Trong kết quả mô phỏng của thuật toán, đáp ứng đầu ra bám quỹ đạo của tàu mặt ở Hình 2 có chất lượng rất tốt, tàu bám quỹ đạo đặt. Đáp ứng quỹ đạo ban đầu của tàu còn có sai lệch bám theo xy,, là 0[m][rad] 0.5[m][rad] trong thời gian 7s thể hiện trên hình 5. Sau khi thu thập đủ động học của hệ thống để tính toán ma trận trọng số của mạng nơ-ron, sau đó tính toán luật điều khiển tối ưu cho tàu mặt nước, sai lệch bám theo xy,, về xấp xỉ về 0 thể hiện trên các hình 5, ma trận trọng số của mạng nơ-ron hội tụ như hình 3, hình 4. Các hình 6, hình 7, hình 8 ước lượng nhiễu ngoài và phần bất định mô hình của bộ RISE có sai số nhỏ. Như vậy, bộ điều khiển bám tối ưu dựa trên thuật toán ARL – RISE hoàn toàn đáp ứng yêu cầu điều khiển bám quỹ đạo của hệ thống tàu mặt nước. Tạp chí Nghiên cứu KH&CN quân sự, Số 74, 8 - 2021 19
  11. Kỹ thuật điều khiển & Điện tử 5. KẾT LUẬN Bài báo đã đề xuất một bộ điều khiển bám thích nghi mới cho tàu bề mặt có mô hình bất định và chịu ảnh hưởng của nhiễu dựa trên kỹ thuật học tăng cường thích nghi động và RISE. Kỹ thuật học tăng cường thích nghi động nhằm xác định điều khiển tối ưu bằng phương pháp xấp xỉ nghiệm của phương trình HJB, RISE để bù thành phần bất định và nhiễu. Với cách thiết kế như vậy, bộ điều khiển tối ưu được đề xuất trong bài báo này có thể áp dụng cho lớp mô hình phi tuyến bất định, có nhiễu tác động. Các kết quả đạt được của bài báo đã được chứng minh bằng lý tuyết và mô phỏng số. Các kết quả này cho thấy hiệu quả của bộ điều khiển đề xuất và khả năng ứng dụng trong thực tế của bộ điều khiển này. TÀI LIỆU THAM KHẢO [1]. B. Xiao, X. Yang, and X. Huo, “A Novel Disturbance Estimation Scheme for Formation Control of Ocean Surface Vessels,” IEEE Transactions on Industrial Electronics, vol. 64, no. 6. (2017) pp. 4994–5003, [2]. S. L. Dai, M. Wang, and C. Wang, “Neural Learning Control of Marine Surface Vessels with Guaranteed Transient Tracking Performance,” IEEE Transactions on Industrial Electronics, vol. 63, no. 3. (2016) pp. 1717–1727. [3]. Z. Zhao, W. He, and S. S. Ge, “Adaptive neural network control of a fully actuated marine surface vessel with multiple output constraints,” IEEE Transactions on Control Systems Technology, vol. 22, no. 4. (2014) pp. 1536–1543. [4]. C. S. W. He, Z. Yin, “Adaptive neural network control of a marine vessel with constraints using the asymmetric barrier Lyapunov function,” IEEE Trans. Cybern., vol. 47(7), (2017) pp. 1641–1651. [5]. Z. Yin, W. He, C. Yang, and C. Sun, “Control Design of a Marine Vessel System Using Reinforcement Learning,” Neurocomputing, vol. 311 (2018) pp. 353–362. [6]. Z. Yin, W. He, C. Sun, G. Li, and C. Yang, “Adaptive control of a marine vessel based on reinforcement learning,” Chinese Control Conference, CCC, vol. 2018-July. (2018) pp. 2735–2740. [7]. G. Wen, S. S. Ge, C. L. P. Chen, F. Tu, and S. Wang, “Adaptive tracking control of surface vessel using optimized backstepping technique,” IEEE Trans. Cybern., vol. 49, no. 9, (2019) pp. 3420–3431. [8]. R. C. Xinxin Guo, Weisheng Yan, “Integral Reinforcement Learning-Based Adaptive Systems With Unknown Control Directions,” IEEE Trans. Syst. Man, Cybern. Syst., vol. PP, (2019) pp. 1–10. [9]. Z. Zheng, L. Ruan, M. Zhu, and X. Guo, “Reinforcement learning control for underactuated surface vessel with output error constraints and uncertainties,” Neurocomputing, vol. 399. (2020) pp. 479–490. [10]. P. Walters, R. Kamalapurkar, F. Voight, E. M. Schwartz, and W. E. Dixon, “Online Approximate Optimal Station Keeping of a Marine Craft in the Presence of an Irrotational Current,” IEEE Trans. Robot., vol. 34, no. 2, (2018) pp. 486–496. [11]. A. B. Martinsen, A. M. Lekkas, S. Gros, J. A. Glomsrud, and T. A. Pedersen, “Reinforcement Learning-Based Tracking Control of USVs in Varying Operational Conditions,” Frontiers in Robotics and AI, vol. 7 (2020). [12]. S. Bhasin, R. Kamalapurkar, M. Johnson, K. G. Vamvoudakis, F. L. Lewis, and W. E. Dixon, “A novel actor-critic-identifier architecture for approximate optimal control of uncertain nonlinear systems,” Automatica, vol. 49, no. 1 (2013) pp. 82–92. [13]. K. G. Vamvoudakis and F. L. Lewis, “Online actor critic algorithm to solve the continuous-time infinite horizon optimal control problem,” Proceedings of the International Joint Conference on Neural Networks (2009) pp. 3180–3187. [14]. B. Xian, D. M. Dawson, M. S. De Queiroz, and J. Chen, “A Continuous Asymptotic Tracking Control Strategy for Uncertain Nonlinear Systems,” IEEE Trans. Automat. Contr., vol. 49, no. 7, (2004) pp. 1206–1211. 20 V. V. Tú, Đ. P. Nam, P. X. Minh, “Điều khiển bám tàu mặt nước trực tuyến và RISE.”
  12. Nghiên cứu khoa học công nghệ ABSTRACT TRACKING CONTROL FOR UNCERTAIN SURFACE VESSEL WITH EXTERNAL DISTURBANCE VIA ON-POLICY ADAPTIVE REINFORCEMENT LEARNING – RISE CONTROLLER This article addresses a trajectory tracking control approach for uncertain/disturbed surface vessels using the new structure of adaptive reinforcement learning (ARL) algorithm and Robust Integral of the Sign of the Error (RISE). To obtain an asymptotic tracking performance, a robust integral of the sign of the error (RISE) feedback term is introduced in feedback control design to compensate for the uncertain components in the model and external disturbances. The adaptive reinforcement learning technique is proposed by tuning simultaneously the actor-critic network to approximate the control policy and the cost function, respectively. The convergence of weight as well as tracking control problem was determined by theoretical analysis. Finally, the numerical example is investigated to validate the effectiveness of the proposed control scheme. Keywords: Optimal Control; Adaptive Dynamic Programming (ADP); Surface Vessel (SV) systems; Robust Integral of the Sign of the Error (RISE); Trajectory Tracking Control. Nhận bài ngày 23 tháng 01 năm 2021 Hoàn thiện ngày 14 tháng 6 năm 2021 Chấp nhận đăng ngày 29 tháng 7 năm 2021 Địa chỉ: 1Bộ môn Điều khiển tự động, Trường Đại học Bách Khoa Hà Nội; 2Khoa Điện Cơ, Trường Đại học Hải Phòng; *Email : tuvv@dhhp.edu.vn. Tạp chí Nghiên cứu KH&CN quân sự, Số 74, 8 - 2021 21