Людям довольно легко определить плотность и рельефность предмета, просто взглянув на него. С таким же успехом можно сказать, как выглядит объект, просто касаясь его с закрытыми глазами. Такие умения помогли бы роботам лучше взаимодействовать с предметами но, к сожалению, до сих пор они не были им доступны. Исследователи из Лаборатории искусственного интеллекта МТИ (CSAIL) решили эту проблему, оснастив роботизированную руку KUKA тактильным датчиком GelSight — таким образом, искусственный интеллект смог изучить связь между визуальной и тактильной информацией, и объединить их.
Использованный тактильный датчик GelSight был разработан группой инженеров под руководством Теда Адельсона в 2014 году. По своей сути он является электронной копией кончика человеческого пальца, в котором для создания трехмерной карты поверхности используется камера и чувствительная резиновая пленка. Устройство уже не раз было проверено в реальных условиях — например, однажды он помог роботу правильно подключить USB-кабель к порту.
Искусственный интеллект объединил органы осязания и зрения
В новом проекте датчик был установлен в робота KUKA, и объединен с искусственным интеллектом — таким образом роботизированная рука научилась на глаз определять рельефность предметов, и вслепую распознавать их форму. Для обучения системы использовался набор из 12 000 видеороликов с 200 объектами, такими как ткани, инструменты и бытовые предметы. Видео были разбиты по кадрам, и именно на их основе робот объединял тактильную и визуальную информацию.
На данный момент робот способен выполнять работу только в контролируемой среде, и только с заранее известными ему предметами. Разработчики системы хотят расширить его возможности, дав искусственному интеллекту больше данных для изучения.
Глядя на сцену, наша модель может представить себе ощущение прикосновения к плоской поверхности или к острому краю. Касаясь вслепую, она может определить форму предметов исключительно по тактильным ощущениям. Объединение этих двух чувств может расширить возможности робота и сократить объем данных, которые могут ему понадобиться для выполнения задач, связанных с манипулированием и захватом объектов, — объяснил Юньчжу Ли, аспирант CSAIL.