Phòng tập thể dục an toàn

[ad_1]

      

Chúng tôi đang phát hành Phòng tập thể dục an toàn, một bộ môi trường và công cụ để đo lường tiến trình hướng tới các tác nhân học tập củng cố, tôn trọng các hạn chế an toàn trong khi đào tạo. Chúng tôi cũng cung cấp một phương pháp chuẩn hóa để so sánh các thuật toán và mức độ chúng tránh được những sai lầm tốn kém trong khi học. Nếu việc học tăng cường sâu được áp dụng vào thế giới thực, cho dù trong các nhiệm vụ robot hay trên internet, điều quan trọng là phải có các thuật toán an toàn ngay cả khi học tập như một chiếc xe tự lái có thể học để tránh tai nạn mà không cần phải thực sự trải nghiệm chúng.

  Giấy
  Phòng tập an toàn
  Đại lý khởi động an toàn

Thăm dò là rủi ro

Các tác nhân học tập củng cố cần khám phá môi trường của họ để học các hành vi tối ưu. Về cơ bản, họ hoạt động theo nguyên tắc thử và sai: họ thử mọi thứ, xem những gì hoạt động hoặc không hoạt động, và sau đó tăng khả năng hành vi tốt và giảm khả năng hành vi xấu. Tuy nhiên, thăm dò về cơ bản là rủi ro: các tác nhân có thể thử các hành vi nguy hiểm dẫn đến các lỗi không thể chấp nhận. Đây là vấn đề thăm dò an toàn của người Viking trong một bản tóm tắt.

Xem xét một ví dụ về cánh tay robot tự trị trong nhà máy sử dụng phương pháp học tăng cường (RL) để tìm hiểu cách lắp ráp các vật dụng. Khi bắt đầu đào tạo RL, robot có thể thử bay ngẫu nhiên, vì nó không biết phải làm gì. Điều này có nguy cơ an toàn cho những người có thể làm việc gần đó, vì họ có thể bị tấn công.

Đối với các ví dụ bị hạn chế như cánh tay robot, chúng ta có thể tưởng tượng ra những cách đơn giản để đảm bảo rằng con người không bị tổn hại chỉ bằng cách tránh xa chúng: tắt robot bất cứ khi nào con người đến quá gần hoặc đặt rào chắn xung quanh robot. Nhưng đối với các hệ thống RL chung hoạt động trong phạm vi điều kiện rộng hơn, các biện pháp can thiệp vật lý đơn giản đã giành được luôn luôn có thể và chúng ta sẽ cần xem xét các phương pháp khác để thăm dò an toàn.

Học tăng cường ràng buộc

Bước đầu tiên để đạt được tiến bộ cho một vấn đề như thăm dò an toàn là định lượng nó: tìm ra những gì có thể đo lường được, và cách tăng hay giảm các số liệu đó đưa chúng ta đến gần hơn với kết quả mong muốn. Một cách khác để nói rằng chúng ta cần chọn một hình thức cho vấn đề thăm dò an toàn. Một chủ nghĩa hình thức cho phép chúng tôi thiết kế các thuật toán đạt được mục tiêu của chúng tôi.

Mặc dù có một số lựa chọn, nhưng vẫn chưa có sự đồng thuận phổ quát trong lĩnh vực nghiên cứu thăm dò an toàn về chủ nghĩa hình thức đúng đắn. Chúng tôi đã dành một chút thời gian để suy nghĩ về nó, và chủ nghĩa hình thức mà chúng tôi nghĩ có ý nghĩa nhất để áp dụng là học tập củng cố bị hạn chế.

RL ràng buộc giống như RL bình thường, nhưng ngoài chức năng phần thưởng mà tác nhân muốn tối đa hóa, môi trường có các hàm chi phí mà tác nhân cần phải hạn chế. Ví dụ, hãy xem xét một đại lý điều khiển một chiếc xe tự lái. Chúng tôi muốn thưởng cho đại lý này vì đã đi từ điểm A đến điểm B nhanh nhất có thể. Nhưng một cách tự nhiên, chúng tôi cũng muốn hạn chế hành vi lái xe để phù hợp với tiêu chuẩn an toàn giao thông.

Chúng tôi nghĩ rằng RL bị ràng buộc có thể hữu ích hơn RL bình thường để đảm bảo rằng các tác nhân đáp ứng các yêu cầu an toàn. Một vấn đề lớn với RL bình thường là mọi thứ về hành vi cuối cùng của tác nhân được mô tả bởi chức năng phần thưởng, nhưng về cơ bản phần thưởng là khó. Một phần quan trọng của thách thức đến từ việc chọn sự đánh đổi giữa các mục tiêu cạnh tranh, chẳng hạn như thực hiện nhiệm vụ và đáp ứng các yêu cầu an toàn. Trong RL bị ràng buộc, thay vào đó, chúng tôi không nên chọn sự đánh đổi, chúng tôi chọn kết quả và để các thuật toán tìm ra sự đánh đổi mang lại cho chúng tôi kết quả mà chúng tôi muốn.

Chúng ta có thể sử dụng vỏ xe tự lái để phác họa ý nghĩa của việc này trong thực tế. Giả sử chiếc xe kiếm được một số tiền cho mỗi chuyến đi mà nó hoàn thành và phải trả tiền phạt cho mỗi lần va chạm.

Trong RL bình thường, bạn sẽ chọn va chạm tốt khi bắt đầu huấn luyện và giữ nó cố định mãi mãi. Vấn đề ở đây là nếu mức chi trả cho mỗi chuyến đi đủ cao, đại lý có thể không quan tâm liệu nó có bị va chạm hay không (miễn là vẫn có thể hoàn thành các chuyến đi). Trên thực tế, việc lái xe liều lĩnh và mạo hiểm với những va chạm đó có thể là một lợi thế. Chúng tôi đã thấy điều này trước đây khi đào tạo các đại lý RL không giới hạn.

Ngược lại, trong RL bị ràng buộc, bạn sẽ chọn tỷ lệ va chạm chấp nhận được khi bắt đầu đào tạo và điều chỉnh mức va chạm tốt cho đến khi tác nhân đáp ứng yêu cầu đó. Nếu chiếc xe đang có quá nhiều khúc cua, bạn sẽ tăng tiền phạt cho đến khi hành vi đó không còn được khuyến khích nữa.

Phòng tập an toàn

Để nghiên cứu RL bị hạn chế để thăm dò an toàn, chúng tôi đã phát triển một bộ môi trường và công cụ mới gọi là Phòng tập thể dục an toàn. Khi so sánh với các môi trường hiện tại cho RL bị hạn chế, môi trường Phòng tập thể dục An toàn phong phú hơn và có phạm vi khó khăn và phức tạp rộng hơn.

Trong tất cả các môi trường Phòng tập An toàn, robot phải điều hướng trong môi trường lộn xộn để đạt được nhiệm vụ. Có ba robot được chế tạo sẵn (Điểm, Xe và Doggo), ba nhiệm vụ chính (Mục tiêu, Nút và Đẩy) và hai mức độ khó cho mỗi nhiệm vụ. Chúng tôi cung cấp một cái nhìn tổng quan về các kết hợp nhiệm vụ robot bên dưới, nhưng hãy đảm bảo kiểm tra giấy để biết chi tiết.

Trong các video này, chúng tôi chỉ ra cách một tác nhân không có ràng buộc cố gắng giải quyết các môi trường này. Mỗi khi robot làm điều gì đó không an toàn, ở đây, có nghĩa là chạy vào lộn xộn, đèn cảnh báo màu đỏ sẽ xuất hiện xung quanh đặc vụ và đặc vụ phải chịu một chi phí (tách biệt với phần thưởng nhiệm vụ). Bởi vì các tác nhân này không bị ràng buộc, họ thường hành xử không an toàn trong khi cố gắng tối đa hóa phần thưởng.

   Điểm là một robot đơn giản bị ràng buộc với mặt phẳng 2D, với một cơ cấu chấp hành để quay và một điểm khác để di chuyển tiến hoặc lùi. Điểm có một hình vuông nhỏ phía trước giúp thực hiện tác vụ Đẩy.

  
  

     Mục tiêu : Di chuyển đến một loạt các vị trí mục tiêu.
  

  
  

     Nút : Nhấn một loạt các nút mục tiêu.
  

  
  

     Đẩy : Di chuyển một hộp đến một loạt các vị trí mục tiêu.
  

   Xe có hai bánh xe song song điều khiển độc lập và bánh sau tự do. Đối với robot này, quay và di chuyển tiến hoặc lùi đòi hỏi phải phối hợp cả hai bộ truyền động.

  
  

     Mục tiêu : Di chuyển đến một loạt các vị trí mục tiêu.
  

  
  

     Nút : Nhấn một loạt các nút mục tiêu.
  

  
  

     Đẩy : Di chuyển một hộp đến một loạt các vị trí mục tiêu.
  

   Doggo là một tứ giác với đối xứng song phương. Mỗi bốn chân của nó có hai điều khiển ở hông, cho góc phương vị và độ cao so với thân và một ở đầu gối, góc điều khiển. Một chính sách ngẫu nhiên thống nhất giữ cho robot không bị ngã và tạo ra du lịch.

  
  

     Mục tiêu : Di chuyển đến một loạt các vị trí mục tiêu.
  

  
  

     Nút : Nhấn một loạt các nút mục tiêu.
  

  
  

     Đẩy : Di chuyển một hộp đến một loạt các vị trí mục tiêu.
  

Điểm chuẩn

. CPO).

Kết quả sơ bộ của chúng tôi chứng minh mức độ khó khăn rộng lớn của môi trường Phòng tập an toàn: môi trường đơn giản nhất dễ giải quyết và cho phép lặp nhanh, trong khi môi trường khó nhất có thể quá khó khăn đối với các kỹ thuật hiện tại. Chúng tôi cũng thấy rằng các phương pháp Lagrangian tốt hơn đáng ngạc nhiên so với CPO, đã vượt qua một kết quả trước đó trong lĩnh vực này.

Dưới đây, chúng tôi hiển thị các đường cong học tập cho lợi nhuận trung bình và tổng chi phí trung bình. Trong bài báo của chúng tôi, chúng tôi mô tả cách sử dụng số liệu này và số liệu thứ ba (chi phí trung bình so với đào tạo) để so sánh các thuật toán và đo lường tiến độ.

Trả lại và đánh đổi chi phí với nhau một cách có ý nghĩa

Để tạo điều kiện tái sản xuất và công việc trong tương lai, chúng tôi cũng phát hành mã thuật toán mà chúng tôi đã sử dụng để chạy các thử nghiệm này dưới dạng repo An toàn của Đại lý khởi xướng.

Vấn đề mở

Vẫn còn rất nhiều việc phải làm để tinh chỉnh thuật toán cho RL bị ràng buộc và kết hợp chúng với các cài đặt vấn đề và kỹ thuật an toàn khác. Có ba điều chúng tôi quan tâm nhất vào lúc này:

  1. Cải thiện hiệu suất trên môi trường Phòng tập An toàn hiện tại.
  2. Sử dụng các công cụ Phòng tập An toàn để điều tra các vấn đề về chuyển đổi học tập và chuyển đổi an toàn.
  3. Kết hợp RL bị ràng buộc với các thông số kỹ thuật ngầm (như sở thích của con người) để nhận phần thưởng và chi phí.

Kỳ vọng của chúng tôi là, giống như cách mà chúng ta ngày nay đo lường độ chính xác hoặc hiệu suất của các hệ thống tại một nhiệm vụ nhất định, cuối cùng chúng ta cũng sẽ đo được hệ thống an toàn của các hệ thống. Các biện pháp như vậy có thể được tích hợp vào các chương trình đánh giá mà các nhà phát triển sử dụng để kiểm tra hệ thống của họ và có khả năng có thể được chính phủ sử dụng để tạo ra các tiêu chuẩn về an toàn. Chúng tôi cũng hy vọng rằng các hệ thống như Safety Gym có thể giúp các nhà phát triển AI cộng tác dễ dàng hơn về an toàn trên toàn lĩnh vực AI thông qua hoạt động trên các hệ thống mở, chia sẻ.

Nếu bạn hào hứng làm việc với các vấn đề thăm dò an toàn với chúng tôi, chúng tôi sẽ thuê mướn!

[ad_2]
Source link: webdesignernews

Leave a Reply

Your email address will not be published. Required fields are marked *

.
.
.
.