우리에게는 한 가지를 잡는 것은 매우 간단하지만 로봇에게는 간단하지 않다. 그래서 일부 로봇 전문가들은 무엇이든 들 수 있는 로봇을 개발하려고 하지만, 현재 대부분의 로봇은' 맹목적인 잡기' 로 매번 같은 위치에서 잡는다. (알버트 아인슈타인, Northern Exposure (미국 TV 드라마), 예술명언) 일단 잡히는 물체의 모양, 텍스처 또는 위치가 바뀌면 로봇은 대처할 수 없게 되고, 캡쳐 테스트는 대부분 실패로 끝난다.
로봇이 물건을 완벽하게 잡으려면 아직 갈 길이 멀다. 왜 로봇이 어떤 물체를 잡기가 어렵습니까? 왜냐하면 사람들은 무언가를 잡으려 할 때 시각, 촉각 등의 감각을 결합하기 때문이다. 하지만 현재 많은 로봇은 단지 시각으로만 물건을 잡는다.
사실, 사물에 대한 인간의 파악 능력은 전적으로 시각에 의존하지 않는다. 시각은 물건을 잡는 데 중요하지만 (오른쪽 물체를 겨냥할 때), 시각은 물건을 잡는 모든 것을 알려 주지 않는다. (알버트 아인슈타인, 시각명언) 스티븐 핑크가 사람의 촉각을 어떻게 묘사하는지 생각해 보세요. "우유통을 들고 있다고 상상해보세요. 너무 느슨하게 잡으면 상자가 떨어집니다. 너무 꽉 쥐면 우유를 상자에서 짜낼 수 있다. 손가락의 견인력을 느껴서 상자에 얼마나 많은 우유가 들어 있는지 추정할 수도 있다. " 이것은 그가' 사유가 어떻게 일하는가' 라는 책에서 쓴 것이다. 로봇은 그런 감각능력이 없기 때문에, 인간은 물체를 집어 들고 내려놓는 임무에서 여전히 그것들을 몇 개의 거리에 던졌다. (윌리엄 셰익스피어, 햄릿, 로봇명언)
캐나다 몬트리올 보르도 공대 코로 연구실의 책임자이자 퀘벡에 위치한 로봇 회사인 CoRo IQ IQ 의 공동 설립자로서 저자는 오랫동안 캡처 방법의 중요한 발전을 연구했다. 현재, 필자는 사회 각계의 로봇 시각에 대한 관심이 완벽한 캡쳐를 실현하는 핵심 문제가 아니라고 생각한다. 시각 외에도, 로봇 캡쳐의 발전을 촉진하는 한 가지가 있다: 촉각 지능.
이전의 연구는 촉각 지능이 아니라 시각에 집중했다.
현재, 로봇이 사물을 잡는 것에 대한 많은 연구는 시각적 피드백을 중심으로 지능을 구축하는 데 집중되어 있다. 데이터베이스 이미지 매칭은 지능을 구축하는 방법 중 하나이며, 인류가 백만 객체 챌린지에서 브라운 대학 로봇 실험실에 사용하는 방법이기도 하다. 그들의 생각은 로봇이 카메라를 사용하여 목표를 찾고, 스스로 물체를 움직이고 잡도록 유도하는 것이다. (알버트 아인슈타인, Northern Exposure (미국 TV 드라마), 스포츠명언) 이 과정에서 로봇은 실시간으로 얻은 정보를 데이터베이스에 저장된 3D 이미지와 비교합니다. 로봇이 매칭을 찾으면 현재 상황에 대처할 수 있는 계산 프로그램을 찾을 수 있다.
Danbrown University 는 다양한 물체에 대한 시각 데이터를 수집하고 있지만, 로봇 전문가는 각 로봇이 발생할 수 있는 다양한 상황에 대해 시각 데이터베이스에 각 항목을 구축하지 않을 수 있습니다. 또한 데이터베이스 매칭 방법에는 환경 제한이 없으므로 로봇이 캡처 전략을 조정하여 다른 환경에 적응하지 못하게 합니다.
로봇의 잡기 능력을 향상시키기 위해 다른 과학자들도 로봇 학습 기술을 연구하기 시작했다. 이러한 기술을 통해 로봇은 자신의 경험으로부터 배울 수 있으므로 결국 로봇은 자신이 물건을 잡는 가장 좋은 방법을 찾을 수 있다. 또한 데이터베이스 매칭 방법과 달리 기계 학습에서는 이미지 데이터베이스를 미리 설정할 필요가 없으며 더 많은 연습만 하면 됩니다.
IEEE Spectrum 에 따르면 구글은 최근 시각 시스템과 기계 학습을 결합한 캡처 기술 실험을 진행했다. 과거에 과학자들은 로봇에게 인류가 가장 좋다고 생각하는 방법을 가르쳐 잡는 능력을 높이려고 시도했다. 구글의 가장 큰 돌파구는 로봇에게 컨볼 루션 신경망, 시각시스템, 8 만개 이상의 캡쳐 동작에서 얻은 데이터를 사용하여 과거의 경험에서 배운 지식을 통해 스스로 물건을 잡는 법을 가르칠 수 있다는 것을 보여 주는 것이다.
그들의 전망은 특별히 밝아 보이지 않는다. 로봇의 반응은 사전 프로그래밍된 것이 아니기 때문이다. 과학자 중 한 명이 말했듯이, 그들의 모든 진보는' 공부에서' 라고 할 수 있다. 그러나 시각은 로봇이 물건을 잡는 것이 매우 제한적이라는 것을 알려줄 수 있다. 구글은 이미 이 기술의 최전방에 이르렀을지도 모른다.
시각이 가져오는 몇 가지 문제에만 집중하다.
왜 구글과 다른 과학자들이 단일 비전을 통해 문제를 해결하기가 어렵습니까? 필자의 총결을 거쳐 대략 세 가지 이유가 있다. 첫째, 시야는 기술에 의해 제한됩니다. 가장 진보 된 시각 시스템조차도 투명, 반사 및 낮은 대비 색상과 같은 특정 조명 조건에서 물체를 인식하지 못합니다. 물체가 너무 얇으면 식별도 차단된다.
둘째, 많은 캡쳐 장면에서 모든 물체를 볼 수 없기 때문에 시각이 로봇에 필요한 모든 정보를 제공하기가 어렵습니다. 로봇이 책상에서 나무 시계를 집어내려고 하면 간단한 시각 시스템은 시계의 상반부만 감지할 수 있다. 상자에서 물건을 꺼내면 더 많은 물체가 관련되므로 주변 물체가 대상 물체의 일부 또는 전체를 흐리게 할 수 있습니다.
마지막으로, 가장 중요한 점은 시각이 이 이 일의 본질에 맞지 않는다는 것이다. 물체를 잡는 데는 접촉과 힘이 필요하다는 것이다. 이것은 시각이 통제할 수 없는 것이다. (알버트 아인슈타인, 시각명언) 가장 좋은 경우, 시각은 로봇이 움직임을 성공적으로 잡을 수 있는 손가락 모양을 알 수 있게 해 주지만, 결국 로봇은 촉각 정보를 필요로 한다. 이를 통해 붙잡힌 물체의 물리적 가치를 알 수 있다. (알버트 아인슈타인, Northern Exposure (미국 TV 드라마), 스포츠명언)
촉각 지능은 최고의 도움을 제공한다.
촉각은 인류가 사물을 잡고 통제하는 과정에서 핵심적인 역할을 한다. 두 손을 잃은 절단자에게 가장 큰 곤혹은 의족을 사용할 때 자신이 접촉하는 것을 느끼지 못하는 것이다. 촉각이 없으면 절단자는 물건을 잡고 통제할 때 목표에 접근해야 하며, 건강한 사람은 물건을 들 때 볼 필요도 없다.
현재 과학자들은 촉각 센서가 물체를 잡는 데 중요한 역할을 하고 있다는 것을 이미 인식하고 있다. 지난 30 년 동안, 그들은 인간의 장기를 촉각 센서로 대체하려고 노력해 왔다. 그러나 촉각 센서에서 보내는 정보는 매우 복잡하고 고차원적이어서 로봇에 센서를 추가해도 캡처 능력이 직접적으로 향상되지는 않는다. 우리가 필요로 하는 것은 미처리 저급 데이터를 고급 정보로 변환하여 사물에 대한 파악 및 제어 능력을 높일 수 있는 방법이다. 촉각 지능은 로봇이 물체를 만지고, 인식하고, 슬라이딩하고, 위치를 잡는 것을 통해 자신이 물체를 성공적으로 잡을 수 있는지를 예측할 수 있게 한다.
보르도 공대의 코로 연구소에서 저자와 그의 동료들은 촉각 지능의 핵심 부분을 개발하고 있다. 최신 성과는 압축된 이미지를 사용하여 물체의 성공 여부를 예측하는 로봇 학습 알고리즘입니다. 이 시스템은 딘 콕번과 장 필립 로버거가 개발한 것으로 로봇을 더욱 인간적으로 만들 수 있다. 물론, 인간은 손가락의 모양을 만지고 관찰함으로써 잡는 것이 성공적인지 판단하는 법을 배웠다. 그리고 우리는 충분한 자신감이 있을 때까지 손가락의 모양을 바꾸었다. 로봇이 손가락 모양을 빠르게 조절하는 법을 배우기 전에, 그들은 물체를 잡는 결과를 더 잘 예측할 필요가 있다.
촉각 지능은 로봇이 물체를 잡는 데 얼마나 중요합니까? 이것이 바로 필자가 CoRo 실험실이 절정에 이를 것이라고 생각하는 이유이다. Robotiq 의 로봇과 범용 로봇의 UR 10 컨트롤러를 결합하여 Kinect 시각 시스템을 기반으로 다른 촉각 센서 (각 물체의 기하학적 중심에만 해당) 를 추가하면 로봇이 많은 것을 집어 들고 중간 데이터를 사용하여 자체 학습을 수행할 수 있습니다. 마지막으로, 저자와 동료들은 83% 의 캡처 동작을 정확하게 예측할 수 있는 시스템을 만드는 데 성공했다.
촉각 지능은 로봇 잡기에서 얼마나 중요합니까? Jean-Philippe Roberge 가 이끄는 CoRo 연구소의 또 다른 팀은 슬라이딩 모니터링에 주력하고 있습니다. 인간은 물체를 잡을 때 물체의 슬라이딩을 빠르게 감지할 수 있다. 손가락에 적응성이 강한 기계적 자극 수용기가 있기 때문이다. 이는 피부의 센서로 압력과 진동의 빠른 변화를 느낄 수 있기 때문이다. 물체의 슬라이딩이 손 표면의 진동을 일으키기 때문에 과학자들은 압력 이미지 대신 진동 이미지 (스펙트럼) 를 기계 학습 알고리즘에 넣는다. 예측 캡처 실험과 동일한 로봇을 사용하여 진동 이미지에서 물체 슬라이딩과 관련된 특징을 학습할 수 있으며, 그 식별 물체 슬라이딩의 정확도가 92% 에 달합니다.
로봇이 물체의 슬라이딩이 간단해 보일 수 있다는 것을 알게 한다. 슬라이딩은 일련의 진동일 뿐이기 때문이다. 하지만 로봇은 물체가 로봇 손바닥에서 미끄러지는 진동과 테이블 같은 표면에서 물체를 끌어당기는 진동을 어떻게 구별할 수 있습니까? (존 F. 케네디, Northern Exposure (미국 TV 드라마), 스포츠명언) 로봇 팔의 움직임도 작은 진동을 일으킬 수 있다는 것을 잊지 마세요. 세 가지 다른 동작이 같은 신호를 보내지만 로봇은 다른 반응을 보여야 한다. 따라서 로봇은 서로 다른 동작을 구별하는 법을 배워야 한다.
기계 학습 방면에서 두 CoRo 팀은 모두 인공특징을 로봇 학습 알고리즘에 강요해서는 안 된다는 점에 도달했다. (윌리엄 셰익스피어, Northern Exposure (미국 TV 드라마), 기계명언) 즉, 이 시스템은 과학자의 추측에 의존해서는 안 되며, 로봇이 슬라이딩 (또는 캡처된 결과와 잡는 실험을 예측할 때) 을 선별할 때 무엇이 중요한지 스스로 결정해야 한다는 것이다.
과거에는' 고급 기능' 이 모두 인공적으로 창조되었다. 즉, 과학자들은 로봇이 서로 다른 유형의 슬라이딩 물체를 인식하는 데 도움이 될 수 있다고 생각하는 특징 (또는 잡기 동작이 완벽한지 여부) 을 선택할 것이다. 예를 들어 로봇이 오브젝트의 맨 위에 있는 압력 이미지만 잡을 수 있도록 하는 것을 실패한 캡처 동작과 연결할 수 있습니다. 하지만 로봇이 스스로 공부하게 하는 것이 더 효과적이다. 과학자들이 생각하는 것이 반드시 옳지는 않기 때문이다.
스파스 인코딩은 여기에서 매우 유용합니다. 감독되지 않은 기능 학습 알고리즘으로, 스파스 사전을 만들어 새 데이터를 표현합니다. 먼저 이 사전은 사운드 스펙트럼 (또는 처리되지 않은 압력 이미지) 에 의해 자동으로 생성된 다음 많은 고급 기능을 포함하는 스파스 인코딩 알고리즘을 입력합니다. 그런 다음 다음 캡처 동작에서 새 데이터를 생성할 때 이 사전을 중개자로 사용하여 새 데이터를 대표적인 데이터 (스파스 벡터라고도 함) 로 변환합니다. 마지막으로 스파스 벡터는 서로 다른 진동 (또는 성공 및 실패 캡처 결과) 을 일으키는 그룹으로 나뉩니다.
CoRo Laboratory 는 이제 스파스 코딩 알고리즘을 자동으로 업데이트하는 방법을 테스트하고 있어 각 캡처 동작이 로봇이 더 나은 예측을 하는 데 도움이 됩니다. 그런 다음 각 잡기 동작에서 로봇은 이 정보를 사용하여 자신의 동작을 조정합니다. 결국, 이 연구는 촉각과 시각지능을 결합하여 로봇이 서로 다른 물체를 잡는 법을 배울 수 있도록 도와주는 가장 좋은 예가 될 것이다.
촉각 지능의 미래
이 연구의 관건은 시각을 포기해서는 안 된다는 것이다. 시각은 여전히 절대적인 힘을 바쳐 물건을 잡아야 한다. 하지만 지금은 인공시각이 일정 단계로 발전함에 따라, 시각의 단일 힘을 계속 강조하기보다는 촉각 지능의 새로운 방향을 발전시키는 데 더 집중할 수 있다.
CoRo Laboratory Roberge 는 시각과 촉각 지능의 잠재력을 파레토의 80-20 법칙과 비교했다. 로봇 집단이 시각지능 분야의 80% 가 이미 우세하기 때문에 나머지 20% 를 지배하기 어려워 시각이 사물을 통제하는 데 큰 역할을 하지 않는다는 것이다. 반대로, 로봇 전문가들은 여전히 80% 의 촉각을 위해 분투하고 있다. 상대적으로 80% 를 달성하는 것은 비교적 간단하며 로봇의 캡처 능력 향상에 큰 기여를 할 수 있습니다.
만약 목표가 터치를 통해 물체를 인식하고 인류를 위해 방을 청소하는 것이라면, 우리는 아직 갈 길이 멀다. 하지만 그 날이 올 때, 우리는 촉각 지능을 개발하기 위해 노력한 과학자들에게 진심으로 감사할 것이다. (윌리엄 셰익스피어, 템페스트, 과학명언)