«Яндекс» опубликовал набор данных для беспилотных автомобилей, предназначенный для исследований в области машинного обучения и автономного транспорта, который является самым большим в мире открытым всем желающим массивом подобных данных. В нём содержатся данные о более 1600 часов движения, включая 600 тыс. размеченных фрагментов поездок на дорогах России, Израиля и США при различных метеоусловиях — в хорошую погоду, в снег и в дождь.

habr.com
Данные были опубликованы для конкурса Shifts Challenge, который «Яндекс» проведёт в рамках международной конференции NeurIPS 2021 совместно с учёными из Оксфорда и Кембриджа. Главной целью конкурса является привлечь внимание к проблеме «сдвига данных» в машинном обучении.
«Если вы привыкли водить машину в небольшом городе, то в Москве вы не сразу адаптируетесь к трафику и, скорее всего, поначалу будете более осторожны на дороге. Это и есть сдвиг данных. Вы можете оценить его масштаб и скорректировать свои действия. Машинно обученные модели должны уметь делать то же самое — оценивать величину сдвига и эффективно действовать в новых условиях. От того, насколько хорошо алгоритм может работать при сдвиге данных, будет зависеть широта его применения», — рассказал старший исследователь Yandex Research Андрей Малинин.
Сдвиг данных встречается в случае, когда модели машинного обучения сталкиваются с незнакомыми ситуациями и неизвестными данными, то есть — с неопределённостью. Для будущего конкурса «Яндекс» выбрал три области: предсказание траектории движения транспорта и пешеходов на дороге, прогнозирование погоды и машинный перевод текстов.
Чтобы победить, участникам конкурса будет необходимо создать устойчивые к сдвигу модели. То есть модель машинного перевода, прошедшая обучение на художественной литературе, должна будет также качественно переводить и твиты, и ролики на YouTube.
Конкурс также обеспечит учёным доступ к уникальным данным, позволяющим оценить качество работы моделей машинного обучения в реальных условиях. Исследователи «Яндекса» вместе с командами Яндекс.Погоды, Яндекс.Переводчика и беспилотных технологий предоставили для участников конкурса данные сервисов, решающих практические задачи и часто сталкивающихся со сдвигом. Столь разнородные данные помогут ускорить разработку алгоритмов, которые будут гораздо быстрее адаптироваться к новым условиям.
Все представленные в наборе данные обезличены. Датасет по беспилотным автомобилям содержит высокоточные карты маршрутов и треки всех окружающих машин и пешеходов (их положение, скорость, ускорение и пр.), но не имеет видео, где можно распознать номера машин или лица прохожих.
Используя эти данные, исследователи должны будут обучить алгоритмы, после чего проверить качество их работы в условиях сдвига. Для создателей лучших алгоритмов организаторы конкурса приготовили денежные призы. Более подробно о конкурсе можно узнать в блоге компании на Хабре.
Источник: