기계를 인간처럼 배우라고?

로봇이 사람의 학습 능력을 갖추려면 어떻게 해야 합니까? 버클리의 AI 연구소는 좋은 답인 메타-RL 을 제시했다. 하지만 이번에 버클리 AI 연구소는 메타 강화 학습뿐만 아니라 POMDP, 비동기 전략 그라데이션 등 지식 시스템도 고려했고, 결국 샘플 효율이 높고 탐색 효율이 높은 새로운 알고리즘' 진주' 를 얻었다. 이 성과는 인공지능의 실제 문제를 해결하기 위한 새로운 사고 각도를 제공할 뿐만 아니라 또한 실제 시스템에서 메타 강화 학습을 대규모로 적용하는 첫 번째 단계이기도 하다. 버클리 AI 연구원은 이 성과를 소개하는 블로그를 발표하여 아래와 같이 컴파일했다.

배경

끊임없이 변화하는 복잡한 환경에서 올바르게 작동하려면 새로운 기술을 충분히 빨리 습득해야 합니다. 이와 관련하여 인간의 비범한 능력처럼, 예를 들어 인간은 하나의 예시에서 새로운 물체를 분별하는 법을 배울 수 있다. 몇 분 동안 다른 차의 다른 운전 모드에 적응하다. 비속어를 듣고 나면, 그 단어를 사전에 추가할 수 있습니다.

따라서, 만약 지능이 인간과 같은 학습 능력을 완성하려면, 메타학습은 일종의 참고 방법이다. 이 패러다임을 사용하면 에이전트는 관련 작업을 수행하는 데 축적된 풍부한 경험을 최대한 활용하여 이러한 제한된 데이터를 기반으로 새로운 작업에 적응할 수 있습니다. 조치를 취하고 과거 경험을 쌓아야 하는 이런 지능에 대해 메타 강화 학습은 그들이 새로운 상황에 빠르게 적응하는 데 도움이 될 수 있다. 그러나, 미 중 부족한 것은 훈련된 전략이 에이전트가 새로운 임무에 빠르게 적응하는 데 도움이 될 수 있지만, 메타 훈련 과정에는 일련의 훈련 임무에서 나온 대량의 데이터가 필요하다는 점이다. 이로 인해 곤경에 처한 강화 학습 알고리즘의 샘플 비효율성이 심화되고 있다. 따라서 기존 메타강화 학습 알고리즘은 시뮬레이션 환경에서만 정상적으로 작동할 수 있습니다. 이 글은 메타 강화 학습의 연구 현황을 간략하게 소개한 후, 새로운 알고리즘인 ——Pearl 을 제시했는데, 이 알고리즘은 샘플 효율을 크게 높였다.

메타 강화 학습의 연구 진행

2 년 전 버클리 블로그는' 학습학습' 이라는 문장 (문장 주소는 https://bair.berkeley.edu/blog/2017/07/) 를 게재했다 새로운 알고리즘을 제시하는 것 외에도, 이 글은 당시 원학에 대한 관심의 급증에 대해 조사와 통계를 진행했다. 그 결과, 원학습이 당시와 지금의 관건은 복잡한 문제를 우리가 이미 알고 있는 문제로 단순화하는 것임을 보여준다. 전통적인 기계 학습에서 연구원들은 모델과 일치하는 일련의 데이터 포인트를 제공합니다. 메타 학습에서 이러한 데이터 포인트는 각 데이터 세트마다 하나의 학습 문제에 해당하는 데이터 세트로 대체됩니다. 이러한 문제를 배우는 과정 ('적응' 이라고 함) 이 구분이 가능한 한, 평소대로 그라데이션으로 외부 링 (메타트레이닝) 에서 최적화할 수 있습니다. 일단 훈련을 받으면 어댑티브 프로그램은 소량의 데이터에서 새로운 관련 작업을 신속하게 해결할 수 있습니다.

메타 강화 학습의 최신 발전 (왼쪽에서 오른쪽으로: 메타 학습을 통해 https://arxiv.org/abs/1802.01557 을 모방한 샘플 1803.11347, 진화 전략 그라데이션으로 교육 임무 분포 초과 추정 (https://arxiv.org/ABS/

당시 대부분의 메타 학습 작업은 작은 샘플 이미지의 분류에 집중되어 있었다. 그 후 몇 년 동안 메타 학습은 시각적 탐색, 기계 번역, 음성 인식과 같은 광범위한 문제에 적용되었습니다. 따라서 메타 학습 방법에 집중 학습을 적용하는 것은 도전적이지만 흥미로운 작업입니다. 이러한 결합을 통해 지능이 새로운 임무를 더 빨리 배울 수 있게 될 것으로 예상되기 때문입니다. 이는 복잡하고 변화하는 세계에 배포되는 지능에게 매우 중요합니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 공부명언)

메타 학습 자체의 샘플 복잡성은 깊이 강화 학습과 밀접한 관련이 있기 때문에 메타 학습은 깊이 강화 학습과 결합하여 이 문제를 해결할 수 있습니다. 2 년 전 원학습에 관한 일부 논문 (RL2 Wang 등 및 Maml Https://Arxiv.org/ABs/1703.03400) 은 policygradient 와 denserewards 에 소개됐다. 이후 많은 학자들이 이런 방법에 관심이 많았고, 더 많은 논문은 원학 개념이 더 넓은 환경에서 응용되었다는 것을 보여준다. 예: 인간 시범 학습 (https://arxiv.org/ABS/1802.01557), 모방 학습 (https: 메타학습 모델의 매개변수 외에도 하이퍼매개변수와 손실 함수도 고려했습니다. 희소상 설정 문제를 해결하기 위해 메타학습을 이용하여 전략을 탐구하는 방법이 있다.

이러한 발전에도 불구하고 샘플 효율성은 여전히 도전이다. 실제로 보다 복잡한 작업에 메타-RL 을 적용할 경우 이러한 작업에 빠르게 적응할 수 있는 보다 효과적인 검색 전략이 필요합니다. 따라서 실제 학습 임무에서는 메타 교육 샘플의 비효율적인 문제를 어떻게 해결할 수 있는지 고려해야 합니다. 이에 따라 버클리 AI 연구원은 이 두 가지 문제를 심도 있게 연구하고 이 두 가지 문제를 해결하는 알고리즘을 개발했다.

비동기 전략 요소는 학습의 장점을 강화합니다.

전략 그라데이션 강화 학습 알고리즘은 휴머노이드 로봇 조작과 같은 복잡한 고차원 제어 작업에서 높은 성능을 얻을 수 있지만 샘플 효율성은 여전히 낮습니다. 예를 들어, 가장 진보된 정책 그라데이션 방법 (PPO HTTPS://ARXIV.org/ABS/1 707.06347) 에는1억 개의 샘플이 필요합니다. 실제 로봇에서 이 알고리즘을 실행하여 20 Hz 컨트롤러로 계속 작동하도록 하면 리셋 시간을 계산하지 않고 두 달 가까이 걸려야 배울 수 있습니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 리셋명언) 비효율적인 주된 이유는 정책 그라데이션 업데이트를 형성하는 데이터가 교육 시 재사용하기 전에 수집한 데이터가 아니라 현재 정책에서 샘플링되어야 하기 때문입니다. 최근 비정책 알고리즘 (td3 https://arxiv.org/ABS/1802.09477, sac https://arxiv.org/abbs 연구원들이 이 알고리즘을 이용하여 메타 강화 학습을 할 수 있다면, 몇 주간의 데이터 수집 시간을 반나절로 줄여 메타 학습을 더욱 효율적으로 할 수 있다. 0 부터 훈련을 시작할 때 비동기 전략 학습은 샘플 효율성을 크게 향상시킬 뿐만 아니라 이전에 수집한 정적 데이터 세트뿐만 아니라 다른 장면의 다른 로봇 데이터도 사용할 수 있는 추가 기능 최적화도 제공합니다.

비전략 강화 학습은 전략 그라데이션 학습보다 더 효과적입니다.

문제를 검색하다

감독 메타 학습에서 새로운 임무에 적응할 수 있는 데이터를 제공하였다. 예를 들어, 작은 샘플 이미지 분류에서는 메타 학습 에이전트에 태그를 지정하려는 새 범주의 이미지와 주석을 제공합니다. 강화 학습에서 에이전트는 자체 데이터를 탐색하고 수집할 책임이 있으므로 적응 프로그램에는 효과적인 검색 전략이 포함되어야 합니다. 블랙 박스 메타 학습 에이전트 (RL2 및 https://arxiv.org/ABS/1707.03141 마찬가지로 그라데이션 기반 메타강화 학습 방법은 사전 업데이트 전략에서 수집한 트랙과 업데이트 전략에서 얻은 수익에 신용을 할당하여 탐색 전략을 배울 수 있습니다. 이론적으로는 가능하지만, 실제로 이러한 방법들은 임시로 확장된 탐색 전략을 배우지 않는다.

이 문제를 해결하기 위해 Maesn (https://arxiv.org/ABS/1802.07245) 은 그라데이션 감소를 통해 전략을 결정하고 새로운 작업에 적응할 확률의 잠재적 변수를 결정하여 구조의 무작위성을 높였습니다. 훈련 후 이 모델은 이전 샘플에서 탐색 트랙을 인코딩하고 가변 변수의 샘플은 최적의 가변 궤적을 얻을 수 있도록 합니다. (윌리엄 셰익스피어, 템플릿, Northern Exposure (미국 TV 드라마), 스포츠명언) 일반적으로 이러한 시나리오는 동일한 현재 정책에서 샘플링된 탐색 및 적응 트랙에 의존하므로 동기화된 정책 샘플링이 필요하기 때문에 on-policy 집중 학습 알고리즘에 적용됩니다. 동기화 전략 요소 강화 학습 알고리즘을 구성하기 위해 우리는 다른 방법을 사용하여 탐구할 것이다.

메타 학습 후 샘플링 방법 탐구

완전히 새로운 장면에서 탐험하는 아주 간단한 방법 중 하나는 이것이 당신이 이미 본 것이라고 가장하는 것입니다. (존 F. 케네디, Northern Exposure (미국 TV 드라마), 예술명언) 예를 들어 용과를 처음 보면 먹고 싶으면 망고와 비교해서 망고를 먹는 것처럼 칼로 썰어 줍니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 음식명언) 이것은 맛있는 과육을 먹을 수 있는 좋은 탐구 전략이다. 용과의 과육이 키위와 더 비슷하다는 것을 알게 되면 키위를 먹는 전략으로 전환하여 숟가락으로 과육을 파서 먹을 수 있다.

학습을 강화하는 관련 문헌에서는 이러한 탐색 방법을 사후 검사 샘플링 (또는 Thompson 샘플링) 이라고 합니다. 에이전트는 MDPs 에 데이터 세트 분포를 가지고 이 분포에서 새 MDP 를 반복적으로 샘플링하여 최적의 작동 모드를 결정하고 수집된 데이터로 분포를 업데이트합니다. 수집되는 데이터가 늘어남에 따라 사후 분포가 줄어 탐색과 반복 간의 원활한 전환이 가능합니다. 이런 전략은 목적 없는 탐구를 할 가능성을 배제하기 때문에 한계가 있는 것 같다. 그러나 이전 작업에서 "(더) 효과적인 보상 학습이 후검샘플링을 통과했습니다" 는 최악의 경우 누적 아쉬움이 후검샘플링을 통해 현재의 최적 탐구전략에 근접한다는 것을 보여준다.

후검샘플을 통해 이상한 새 과일을 먹다

실제 문제에서, 우리는 어떻게 MDP 에 이런 분포를 나타낼 수 있습니까? 한 가지 가능성은 전송 및 보상 기능의 분포를 유지하는 것입니다. 샘플 모델에 따라 작업하기 위해 모든 모델 기반 고급 학습 알고리즘을 사용할 수 있습니다. 부트 스트랩 DQN 은 이 사상을 모델없는 깊이 강화 학습에 적용하고 Q 함수에 대해 대략적인 사후 경험을 유지합니다. Q 함수에 대한 다양한 작업의 분포를 학습함으로써 새로운 관련 작업을 탐색하는 데 매우 효과적인 멀티 태스킹 환경으로 이러한 아이디어를 확장할 수 있다고 생각합니다.

사후 샘플링 방법을 메타 강화 학습에 도입하기 위해 먼저 Mdps 에서 Q 함수 기반 분포를 모델링하고, 잠재적 변수 Z 를 인스턴스화하며, 경험 (또는 컨텍스트) 에 따라 모델이 Q 함수를 입력으로 사용하여 예측을 조정한다고 추정합니다. 메타 훈련 과정에서 Z 앞의 모든 변수를 배워서 메타 훈련 임무의 분포를 나타낸다. 새로운 테스트 작업의 경우 에이전트는 이전 가설에서 샘플링한 다음 선택한 가정에 따라 환경에서 수행할 작업을 결정하고 새로운 증명을 통해 사후 분포를 업데이트합니다. 에이전트가 트랙을 수집하면 사후 분포가 줄어들고 에이전트가 현재 작업에 대해 더 나은 예측을 생성합니다.

메타 강화 학습은 POMDP 로 간주됩니다.

메타 강화 학습을 바탕으로 한 베이시안 후험 관점은 메타 강화 학습과 마르코프 의사결정 과정의 일부 관찰 사이의 관계를 보여준다. POMDPs 는 현재 관찰된 것이 현재 환경에 대한 모든 것을 알려 줄 수 없는 경우 (즉, 현재 상태만 부분적으로 관찰할 수 있는 경우) 모델링 환경에 유용합니다. 예를 들어, 건물 근처로 걸어가면 불이 갑자기 꺼집니다. 이때 어둠 속에서 자신이 어디에 있는지 즉시 관찰할 수는 없지만, 불이 꺼지기 전에 본 것을 회상해 볼 수 있기 때문에 여전히 자신의 위치를 추정할 수 있다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 성공명언) POMDPs 를 해결하는 것도 비슷한 원리로, 현재 상태를 정확하게 추정하기 위해 관찰 내역 정보의 통합을 포함합니다.

POMDP 의 이미지 모델

메타 강화 학습은 특수 구조를 가진 POMDP 로 볼 수 있으며, 그 임무는 현재 상태에서 관찰되지 않은 유일한 부분입니다. 우리의 예에서, 임무는 네가 가본 적이 없는 사무실을 찾는 것일 수 있다. 표준 POMDP 에서 대리자는 다음 단계를 수행할 때마다 상태를 다시 평가해야 건물 내 위치 추정을 지속적으로 업데이트할 수 있습니다. 메타 강화 학습의 경우 임무는 모든 탐색 트랙에서 변하지 않습니다. 즉, 실제 환경에서는 사무실 위치가 검색 과정에서 변경되지 않습니다. 즉, 잠재적인 시스템 역학이 각 단계에서 실제 위치를 변경하는 것에 대해 걱정할 필요 없이 사무실 위치에 대한 추정치를 유지할 수 있습니다. 메타 강화 학습 알고리즘을 POMDPs 로 변환합니다. 즉, 에이전트는 작업의 신념 상태를 유지해야 합니다. 즉, 여러 탐색 트랙에서 정보를 수집할 때 작업이 업데이트됩니다.

조개 속의 진주

임무상의 신념 상태를 기존의 비동기 정책 강화 학습 알고리즘과 어떻게 결합합니까? 먼저 컨텍스트 (경험) 를 입력으로 사용하는 인코더 네트워크 q(z|c) 를 사용하여 사후 신념의 변이 근사치를 추정할 수 있습니다. 작동성을 유지하기 위해 후반부를 가우스 함수로 표현합니다. 학습 알고리즘을 강화하는 에이전트의 경우 소프트 배우-비평가 (SAC) 기반 모델링을 선택했습니다. 이는 현재 성능과 샘플 효율성이 가장 높기 때문입니다. 신념 상태의 샘플은 배우와 평론가에게 전달되어 샘플 임무에 따라 예측할 수 있게 되었다. 그런 다음 메타트레이닝 과정에는 지정된 컨텍스트의 후험 q(z|c) 를 학습하고 지정된 Z 에 따라 배우와 평론가를 최적화하는 작업이 포함됩니다. 인코더는 critic 을 사용하는 그라데이션 최적화 (따라서 q(z|c) 는 Q 함수의 분포를 나타냄) 및 정보 병목 현상을 나타냅니다. 이 병목 현상은 변이 하한을 추론한 결과이지만 컨텍스트와 Z 사이의 정보를 최소화하여 Z 에 예측 상태-동작 값에 필요한 최소 정보가 포함되도록 시각적으로 해석할 수도 있습니다.

이 방안에 대해 주목해야 할 점은 배우와 평론가를 훈련시키기 위해 샘플링한 데이터 그룹이 컨텍스트의 데이터 세트에서 분리된다는 것입니다. 직관적으로 이것은 유용합니다. 즉, 작업 신념 상태를 명확하게 표현하여 에이전트는 작업 추론과 제어를 분리하고 완전히 다른 데이터 소스를 사용하여 각 작업을 배울 수 있습니다. 이는 MAML, RL2 등의 방법과 뚜렷한 대조를 이룹니다. 이러한 방법은 작업 추리와 제어를 결합하므로 데이터 배치를 동시에 사용해야 합니다.

이러한 분리는 비동기 전략 메타 훈련에 매우 중요하다는 사실도 증명되었다. 그 이유는 현재의 메타학습 예측이 훈련과 테스트 단계에서 일치해야 한다는 가정에 기반을 두고 있기 때문이다. 예를 들어, 테스트 중 새로운 동물 종 분류 작업을 수행하는 메타 학습 에이전트는 동물을 포함한 클래스 분포에 대한 교육을 받아야 합니다. 마찬가지로 강화 학습에서 에이전트가 테스트 중 동기화 정책 데이터 수집을 통해 조정되는 경우 정책 데이터를 사용하여 교육해야 합니다. 따라서 훈련 시 비동기 전략 데이터를 사용하면 분포에 변화가 생겨 이 기본 가설이 파괴된다. PEARL 에서는 컨텍스트 샘플링 동기화 정책 데이터와 비동기 정책 데이터를 사용한 배우-평론가 교육을 통해 이러한 분포의 변화를 줄이고 비동기 정책 데이터를 대규모로 사용할 수 있습니다.

당시 알고리즘의 일부는 추상적인 인코더 아키텍처였다. 이 인코더는 컨텍스트 (상태, 동작, 보고 및 다음 상태로 구성된 변환 세트) 에서 작동하며 잠재적인 컨텍스트 변수에 가우스 사후 검사 매개변수를 생성합니다. 재귀 신경망은 여기서 현명한 선택인 것 같지만, 마르코프 특성은 트랙에서의 순서에 관계없이 이러한 변환이 코딩될 수 있다는 것을 의미합니다. (존 F. 케네디, Northern Exposure (미국 TV 드라마), 스포츠명언) 이 관찰을 바탕으로 각 변환의 가우스 계수를 독립적으로 예측하고 곱하면 샘플을 형성할 수 있는 정렬 불변성이 있는 인코더를 사용했습니다. 이 아키텍처는 RNN 보다 최적화가 빠르고 안정적이며 더 큰 컨텍스트에 적응할 수 있습니다.

진주가 충분히 준비되면 어떻게 일합니까?

MuJoCo 시뮬레이터를 사용하여 6 개의 벤치마크 연속 제어 도메인에서 PEARL 을 테스트했습니다. 시뮬레이터는 작업마다 상이한 보상 또는 동적 기능을 가지고 있습니다. 예를 들어, 개미 에이전트의 경우, 서로 다른 작업은 2D 평면에서 서로 다른 대상 위치를 탐색하는 것과 일치합니다. 걷기 에이전트의 경우 작업은 해당 관절의 다른 매개변수 및 기타 물리적 매개변수에 해당합니다.

PEARL 을 ProMP, MAML, RL2 등 세 가지 최첨단 메타 강화 학습 알고리즘과 비교했습니다. 결과는 다음 그림과 같습니다. 여기서 파란색 곡선은 PEARL 의 결과를 나타냅니다. 주의해야 할 것은 x 축의 단위 (대수 배율) 입니다. 이 방법은 메타 교육에 비동기 정책 데이터를 사용하여 샘플 효율성을 20- 100 배 높였으며, 최종 성능은 기준 요소보다 우수한 경우가 많습니다.

희소한 보상 분야에서는 효과적인 탐구가 특히 중요하다. 반원에서 다른 대상 위치로 이동해야 하는 점 로봇을 상상해 보십시오. 대상 위치의 작은 반지름 범위 (파란색 영역에서 볼 수 있음) 에 있는 경우에만 보상을 받을 수 있습니다. 대리자는 대상 위치에 대한 다른 가정을 샘플링한 다음 신념 상태를 업데이트하여 대상 위치를 찾을 때까지 효과적으로 탐색할 수 있습니다. PEARL 과 MAESN 을 비교함으로써 MAESN 은 앞서 논의한 잠재 변수로 생성된 메타학습 탐색 전략으로, 결국 PEARL 이 메타훈련에서 샘플링 효율이 높을 뿐만 아니라 더 효과적으로 탐색할 수 있다는 것을 알게 되었습니다.

포인트 로봇은 사용 후 샘플을 사용하여 스파스 보상 설정에서 목표를 탐색하고 발견합니다.

미래 발전 방향

메타 학습은 새로운 장면에 빠르게 적응할 수 있는 스마트한 솔루션을 제공하지만 더 많은 문제가 발생합니다! 예를 들어, 위안 훈련 임무는 어디에서 왔습니까? 수동으로 설계해야 합니까, 아니면 자동으로 생성할 수 있습니까? 메타학습은 본질적으로 우연이지만, 현실 세계는 지속적이고 끝없는 변화 과정이다. 지능은 시간이 지남에 따라 변화하는 임무를 어떻게 처리하는가? (알버트 아인슈타인, 공부명언) 보상 함수의 설계는 매우 어렵습니다. 반대로 메타 강화 학습 알고리즘에서 이진 피드백, 선호도 및 데모를 동시에 사용할 수 있습니까? 우리는' 진주' 중 베이시안 추리에 대한 연구가 이러한 문제를 해결하는 데 새로운 시각을 가져다 줄 수 있다고 생각한다. 또한 PEARL 의 비동기 전략 학습 능력은 실제 시스템에서 메타 강화 학습을 대규모로 적용하는 첫 번째 단계라고 믿습니다.