Теги → нейронная сеть
Быстрый переход

Нейросети «Яндекса» улучшили качество советских мультфильмов

«Яндекс» предлагает желающим просмотреть хиты Союзмультфильма в повышенном качестве: компания увеличила разрешение популярных советских мультфильмов при помощи технологии DeepHD.

В основе DeepHD лежат нейронные сети. Система усиливает детали, которые были задуманы и отрисованы художниками-мультипликаторами, но могли частично потеряться при цифровой обработке плёнки. При этом DeepHD не изменяет цвета и не вносит в изображение лишние элементы.

Обработка изображений в DeepHD проходит в два этапа, причём на каждом используется своя нейронная сеть. На первом этапе производится предварительная подготовка картинки — система избавляет изображение от артефактов. Затем в действие вступает вторая нейронная сеть: особый генератор формирует кадры, которые соответствуют исходному изображению по содержанию, но отличаются более высоким качеством.

Благодаря большому набору данных для обучения сеть запоминает, как должны выглядеть типовые объекты и поверхности в разном качестве и размере. В результате она деликатно дорисовывает недостающие или испорченные детали изображения, не искажая исходное содержание.

Теперь в высоком разрешении можно посмотреть десять мультиков студии «Союзмультфильм». Это «Аленький цветочек» (1952), «Золотая антилопа» (1954), «Снежная королева» (1957), «Дюймовочка» (1964), «Бременские музыканты» (1969), «Умка ищет друга» (1970), «Маугли» (1973), «Щелкунчик» (1973), «Путешествие муравья» (1983) и цикл про «Котёнка по имени Гав» (1976–1982). 

Нейросеть может создавать мемы и влиять на общественное мнение

23-летний аспирант Стэндфордского университета Лоренс Пирсон (Lawrence Peirson), изучающий теоретическую астрофизику, в этом году решил пройти дополнительные курсы в области искусственного интеллекта. Для своего итогового курсового проекта он вместе с коллегой Мелтэмом Толунеем (Meltem Tolunay) создал нейросеть, которая способна придумывать подписи к мемам.

Поначалу исследователь относился скептически к идее, но в итоге считает, что прошедшая глубокое обучение нейросеть выработала довольно интересное и оригинальное чувство юмора. С этим трудно не согласиться: творчество «нейропоэта» от Яндекс тоже вызывает улыбку — главное правильно выбрать объект подражания.

Для обучения сети Лоренс Пирсон использовал библиотеку сайта memegenerator.net, в которой содержится сотни тысяч мемов, созданных на базе шаблонов, подписанных пользователями. Для нужд проекта было использовано 3000 базовых изображений, каждое из которых имеет множество вариантов подписей.

«Среди 400 тысяч мемов большинство не такие уж весёлые, но они, по крайней мере, учат систему, что такое мем и какого рода шутки подходят. Мемы смешны зачастую из-за того, что доносят определённый смысл в довольно абсурдной форме», — пояснил Пирсон. Вот, например, такая подпись получилась у нейросети для шаблона с животным:

Интернет-мемы распространяются по сети в течение многих лет, особенно через сайты Reddit, Facebook, 9GAG и Quick Meme. И самые популярные могут получить более миллиона уникальных подписей. В результате они отражают различные стороны цифровой культуры — в документе описывается перекос данных для обучения к ругательному, расистскому и сексистскому содержанию. Лоренс Пирсон отмечает, что эта проблема выходит далеко за пределы мемов и касается в целом задач обработки естественного языка, и планирует в дальнем обеспечить фильтрацию данных.

Нейросеть была создана на языке CUDA и выполнялась на ускорителях NVIDIA TITAN Xp. Для оценки успешности обучения нейросети был создан критерий, по которому можно было оценить, способна ли нейросеть увидеть определённые паттерны в данных. Но всё-таки настоящей проверкой качества «нейромемов» стал опрос людей, которым предлагалось определить, создан мем человеком или компьютером, и поставить балл за чувство юмора. Согласно отчёту исследователей, созданные сетью мемы практически неотличимы от реальных. Что, признаться, не делает чести людям.

Если алгоритму предложить подписать неизвестное изображение, он будет искать аналогии с известными образцами из набора для обучения. Когда Лоренс показал нейросети свою фотографию, то получил следующий результат:

Исследователи видят большой потенциал своего проекта: искусственный интеллект может создавать мемы к текущим событиям и даже влиять на общественное мнение, технология может найти применение и в рекламе. «Вирусное распространение информации — это отличный способ выйти на рынок», — заключил Пирсон. Авторы очень удивлены вниманию общественности к их работе и обещают в скором времени выпустить в App Store соответствующее приложение Dank Learning.

Google ИИ вместо переводов начал выдавать пророчества о конце света

Искусственный интеллект Google, похоже, решил использовать платформу Translate, чтобы донести древние предсказания о конце света. В результате некоей ошибочной работы алгоритма при многократном повторении слова dog с последующим автоматическим переводом с маори на английский язык, пользователь может получить следующий ответ:

«Время Судного Дня начнётся через три минуты в двенадцать. Мы ощущаем признаки и драматические события в мире, которые свидетельствуют, что мы всё больше приближаемся к концу времён и второму пришествию Иисуса».

Представитель Google сообщил Джону Кристиану (Jon Christian) из Motherboard, первому заметившему сбой, что странные результаты были обусловлены вводом в систему бессмыслицы, в ответ на которую была также сформирована бессмыслица. Другие эксперты сообщили Moterboard, что при обучении системы наверняка использовались религиозные тексты. Сбой, который запечатлён на приведённом видео, скорее всего, связан с типом данных, на основе которых проводилось обучение нейросети — по крайней мере, это самое логичное объяснение.

Джон Кристиан, в свою очередь, предполагает, что такой результат не обошёлся без сознательного участия сотрудников Google, которые решили так пошутить, задействовав религиозный словарь при определённых условиях (в данном случае спусковым механизмом является непереводимый бессмысленный набор слов).

Кстати, приведённый текст — далеко не единственный странный религиозный «перевод», который удалось обнаружить сотрудникам Moterboard. Например, если набирать много раз ag и выбирать перевод с сомалийского на английский, результаты тоже отдают библейскими пророчествами.

Учёные MIT научили ИИ различать музыкальные инструменты на видео

Исследователям Массачусетского технологического института удалось построить нейросеть, способную различать звуки отдельных музыкальных инструментов на видео. Искусственный интеллект под названием PixelPlayer даже может сделать отдельные источники звука громче или тише.

«Мы рассчитывали, что в лучшем случае сможем указать, какие звуки производит отдельный инструмент. Удивительно, что мы смогли обнаружить инструменты в пространстве на уровне пикселей. Эта способность открывает множество возможностей, например, редактирование аудиодорожки с помощью клика по видео», — заявил один из авторов ИИ.

В основе PixelPlayer лежит нейронная сеть, освоившая 714 видеороликов YouTube, входящих в набор данных под названием «Многомодальные источники комбинаций инструментов» (Multimodal Sources of Instrument Combinations, “MUSIC”). Первые пятьсот видеороликов длиной в 60 часов нейросеть обучалась, остальное время учёные использовали для проверки результатов.

PixelPlayer работает самостоятельно, программа может разделить звуки более чем двадцати инструментов, и пользователю не нужно готовить какие-либо заметки. Учёные уверены, что получив больше данных, ИИ научится различать и больше наименований, но пока что им трудно настроить неочевидные различия между классами музыкальных инструментов.

«Мы рассчитываем, что работа поможет раскрыть новые области исследования проблемы разделения источника звука с помощью визуальных и аудиосигналов», — отметили исследователи.

В «Яндекс.Браузере» появился «умный» переводчик веб-страниц

«Яндекс.Браузер» обзавёлся двумя новыми функциями, которые, как утверждают разработчики, существенно улучшили качество перевода веб-страниц.

Одно из изменений коснулось системы выборочного перевода слов и фраз. Раньше для этих целей применялся исключительно статистический метод, то есть, веб-обозреватель самостоятельно обучался на большом количестве статей и их переводов. Но такой подход не учитывает природу слов и связи между ними, из-за чего результат перевода может выглядеть неестественно.

Новый инструмент использует гибридную модель: статистический метод дополнен нейронными сетями. Браузер переводит текст двумя способами, а затем специальный алгоритм оценивает, какой перевод лучше. Вариант, получивший более высокую оценку, демонстрируется пользователю.

Ещё одно нововведение связано с тем, что теперь браузер при переводе учитывает расположение текста на веб-странице и его оформление. Это позволяет определять тип фразы или надписи — скажем, навигационный элемент, заголовок или основной текст. Данные характеристики затем учитываются при переводе, что позволяет дополнительно повысить его качество.

Отмечается, что реализованные изменения позволили повысить качество переводов в «Яндекс.Браузере» в 1,7 раза по сравнению с прежними результатами. Более того, увеличилась скорость работы, поскольку теперь переводится не вся страница целиком, а только та часть, которую в данный момент видит пользователь. 

IBM создала ИИ, успешно вступающий в дебаты с человеком

На недавнем небольшом мероприятии в Сан-Франциско IBM провела дебаты, подобные практикуемым в дискуссионных клубах, но между людьми и ИИ, под названием Project Debater. Цель заключалась в том, чтобы «искусственный интеллект» смог приводить обоснованные аргументы в соответствии с правилами дискуссии: неизвестная заранее тема беседы и никаких предварительно заданных ответов. Каждая сторона выступала с четырёхминутной вступительной речью, четырёхминутным опровержением аргументов оппонента и двухминутным заключительным словом.

Project Debater показал себя неплохо. Машина смогла проанализировать содержимое всех данных, чтобы найти соответствующий ответ, причём «ответ» содержал убедительные факты, связанные с субсидированием космоса и телемедицины и изложенные в четырёхминутных выступлениях. Проект Debater процитировал источники, учитывающие связь аудитории с детьми и ветеранами, и пару раз пошутил на темы докладов.

Это довольно впечатляюще: по сути, алгоритм без предварительной подготовки создал за пару минут текст на заданную тему, соответствующий уровню студента первого курса. База знаний системы включает несколько сотен миллионов статей по 100 областям знаний. Когда Project Debater получает тему, ему требуется несколько минут, чтобы проанализировать весь массив информации, выбрать оптимальные аргументы по теме и сгенерировать небольшую связную речь, описывающую эти моменты.

Но это не так впечатляет, как попытки ИИ спорить с оппонентом почти в реальном времени — системе понадобилось пару минут, чтобы проанализировать 4-минутную речь собеседника, прежде чем выступить с ответной. Впрочем, со стороны речь создавала впечатление, что машина прибегает к таким уловкам в споре, которые, как правило, заставляют слушателей меньше доверять докладчику.

Например, человек-участница дискуссии выдвинула тезис, что правительство не должно субсидировать исследования космоса. Она задала систему ценностей, отметив, что, по её мнению, субсидии должны соответствовать одному из двух конкретных критериев: удовлетворению основных потребностей человека или же созданию вещей, которые могут быть сделаны только правительством. Космические исследования не соответствовали ни тому, ни другому.

Project Debater, цель которого в идеале должна заключаться ответе на поставленный вопрос или попытке опровержения заданной системы ценностей, уклонился от прямой дискуссии. Машина заявила, что субсидирование космических исследований обычно окупается за счёт экономического роста от научных достижений, а также добавила, что для страны вроде США наличие программы космических исследований — важная часть задач великой державы. Впрочем, люди тоже часто уходят в дискуссиях от прямых ответов.

Вице-президент и директор лаборатории IBM по исследованиям в Алмадене Джефф Уэлсер (Jeff Welser) отметил, что Project Debater просто не распознал логику аргументации оппонента и потому ушёл от прямого ответа. ИИ присваивает баллы уверенности каждой информации, которую распознаёт. «Если бы он был уверен, что в самом деле правильно понимает аргументы в речи оппонента, то попытался выдвинуть очень сильный довод против этого момента», — объяснил господин Уэлсер.

В другой дискуссии, посвящённой телемедицине, Project Debater тоже в один из моментов не смог уловить точных нюансов, которые привёл в речи его оппонент-человек, делающий акцент на важности человеческого участия в диагностике. Вместо того, чтобы обсуждать эту тему, ИИ использовал более широкий аргумент, предположив, что, возможно, человек просто боится новаций. «Я же искренне верю в силу технологий, — подытожил ИИ, — как мне и положено».

Цель эксперимента IBM — показать, что она может обучать ИИ в новых областях исследований, которые в конечном итоге могут быть полезны на практике. Технология, анализирующая гору информации для выявления аргументов за и против, может быть использована для помощи в принятии решений о вложениях в акции той или иной компании. Другая сторона Project Debater — методы использования языка в риторике. Эти наработки могут помочь в будущем, например, структурировать аргументацию адвокатов или выявлять поддельные новости.

Пока, впрочем, речь не идёт о реальных продуктах. «Это всё ещё исследовательский проект», — отметил господин Уэлсер. Впрочем, некоторые лежащие в его основе технологии уже начинают применяться в различных проектах IBM.

ИИ-алгоритм Facebook буквально раскрывает людям глаза

Существует множество вариантов манипуляций с фотографиями, призванных сделать портреты лучше: подавление эффектов красных глаз, бликов объектива, недостатков кожи и так далее. Но до сих пор моргание оставалось одним из главных врагов хороших снимков. Это может измениться благодаря интеллектуальному алгоритму, созданному специалистами Facebook: он убедительно заменяет закрытые глаза людей открытыми.

Это далеко не единственный пример «умного дорисовывания», когда ИИ заполняет выбранное пространство, ориентируясь на окружение. Adobe, например, уже годами развивает функции заполнения области с учётом контекста или интеллектуального сжатия и растяжения картинок, когда части изображения (например, лишняя ветвь или облако) реалистично заполняются частями окружения.

Но всё же «интеллектуальная заливка» Adobe не способна достойно ретушировать множество вещей, в том числе не умеет заменять закрытые глаза открытыми: до сих пор это казалось слишком уж сложной задачей для автоматики. Facebook, в базе которой, вероятно, больше фотографий моргающих людей, чем у любой другой компании, решила взяться за эту проблему.

Речь идёт об использовании самообучающейся нейронной сети Generative Adversarial Network. Одна часть этой сети учится распознавать открытые глаза людей. А другая — заменяет закрытые глаза открытыми, и на основе отклика от системы распознавания добивается всё более и более высокой реалистичности работы ИИ-алгоритма. Ориентируясь на изображения-образцы, алгоритм добивается ещё большей реалистичности.

Слева направо: изображения-образцы, исходные фото, обработка алгоритмом Photoshop, метод Facebook

Слева направо: изображения-образцы, исходные фото, обработка алгоритмом Photoshop, метод Facebook

Результаты, как видно, вполне достоверны: нет несогласования цветов или очевидных мест вклейки. При проверке алгоритма в половине случаев люди ошибочно принимали фальшивые фотографии с открытыми глазами за настоящие, или не могли уверенно определить подвох. Если присмотреться, то в большинстве примеров видно, что с глазами и ресницами у людей что-то не то, но беглый взгляд легко может не увидеть проблемы.

В некоторых ситуациях алгоритм создаёт странные артефакты: например, когда глаза человека частично закрыты волосами или когда не выходит точно воссоздать цвет. Но всё это в перспективе может быть преодолено. Подобную технологию вполне можно представить в повседневном будущем: пользователь хочет улучшить групповое фото, и указывает алгоритму человека, которому следует «открыть глаза», ориентируясь на другие его снимки. Вполне полезная функция для пользователей Facebook, не правда ли?

Imagination представила новые ИИ-ускорители PowerVR 2NX

Искусственный интеллект, компьютерное зрение, машинное обучение, нейронные сети — эти понятия всё чаще и активнее звучат в связи с анонсами новых продуктов. Неудивительно, что не только серверы, но даже смартфоны начали получать специализированные блоки для ускорения расчётов алгоритмов такого рода.

Осенью прошлого года Imagination впервые объявила о выпуске IP-модулей для машинного обучения PowerVR 2NX NNA (Neural Network Accelerator). На рынке встроенных и мобильных устройств, на которые прежде всего рассчитаны 2NX NNA, за прошедшее время было представлено немало аппаратных ИИ-блоков: CEVA NeuPro, Cambricon (NPU) в Kirin 970, появилась информация о разработке Project Trillium от самой ARM. Теперь очередь дошла и до Imagination: компания представила новые продукты семейства 2NX NNA: более производительный AX2185 и более дешёвый AX2145.

Imagination позиционирует AX2185 для смартфонов высокого класса, интеллектуальных систем видеонаблюдения и автомобильной промышленности. При этом упрощённый IP-блок AX2145 предлагается для решений нижнего уровня, включая сферу цифрового телевидения и ТВ-приставки. Imagination обещает отличные показательности производительности на ватт и единицу площади кристалла для всех целевых задач. Впрочем, конкретных цифр немного.

Так или иначе, Imagination обещает производительность на уровне 4,1 TOPS для AX2185 и 1 TOPS для AX2145. Эти показатели, по-видимому, основаны на максимальном количестве 8-битных операций умножения с накоплением (MAC) — 2048 на такт каждого ядра ускорителя. Было отмечено, что AX2185 оснащён восемью полноценными вычислительными движками, но неясно, насколько это справедливо для AX2145, который оптимизирован под низкую пропускную способность.

Imagination заявила, что AX2185 уже поставлен избранным партнёрам, причём компания относит AX2185 и AX2145 к NNA-блокам второго поколения, ссылаясь на то, что первое поколение разрабатывалось в партнёрстве с некоторыми лидирующими клиентами (определённые имена не называются). Сведения о внесённых во «втором поколении» оптимизациях и улучшениях не сообщаются.

Архитектурно, похоже, со времени первоначального анонса в сентябре прошлого года ничего не изменилось, и новые ИИ-ускорители основаны на тех же принципах: переменная глубина разрядности с 16 бит до 4 бит (для оптимизации пропускной способности к подсистеме памяти), а также совместимость формата данных с другими компонентами системы (ISP, GPU, CPU) и экосистемой ПО. Для работы с NN-ускорителями Imagination по-прежнему предлагает использовать свои средства разработки вроде PowerVR AI Toolkit и Imagination DNN API, причём оба новых IP-блока поддерживают Google Tensorflow Lite (API для Android) и фреймворк Caffe2Go.

Пока ещё слишком рано судить о конкурентоспособности новых решений, но, по крайней мере, Imagination старается не отставать от тенденций рынка и обеспечивает максимально простую интеграцию новых ИИ-ускорителей с собственными графическими процессорами PowerVR и существующими экосистемами вроде Android. PowerVR 2NX AX2185 и AX2145 уже доступны для лицензирования заинтересованными компаниями.

Система NVIDIA позволит роботам обучаться, наблюдая за человеком

NVIDIA разработала способ обучать роботов выполнять задачи, наблюдая за действиями человека. Компания уже сумела научить робота Baxter поднимать и перемещать разноцветные кубики и игрушечный автомобиль в лабораторных условиях. Предполагается, что благодаря этому машины в конечном счёте смогут спокойно работать бок о бок с людьми.

«В производственной среде роботы по-настоящему хорошо повторяют одни и те же действия, но не адаптируются под изменения в окружении и не обучаются задачам, — рассказал главный научный сотрудник NVIDIA Стэн Бёрчфилд (Stan Birchfield). — Поэтому, чтобы научить робота выполнять новую задачу, вы вынуждены пригласить эксперта, который перепрограммирует робота на довольно низком уровне, и это обойдётся вам дорого. Мы заинтересованы в том, чтобы неспециалисты могли обучать роботов новым задачам, просто показывая им что делать».

Система работает на базе нескольких нейронных сетей. Они отвечают за восприятие, планирование и управление и обучаются на основе исключительно синтетических данных.

«Сейчас в сообществе робототехники наблюдается некоторый сдвиг парадигмы, — продолжил Бёрчфилд. — Мы находимся на том этапе развития, когда с помощью графических процессоров можем бесплатно генерировать, по сути, безграничные объёмы предварительно помеченных данных, а затем разрабатывать и тестировать алгоритмы, и это может позволить нам создавать робототехнические системы, которые будут лучше и безопаснее учиться взаимодействовать с окружающим миром».

Система была создана при помощи исследовательской лаборатории робототехники NVIDIA, которую открыли в прошлом году. Сейчас она насчитывает шесть сотрудников, а летом готовится открыть офис, прилегающий к Вашингтонскому университету.

«Мы говорим о роботах, которые должны открывать двери и ящики, поднимать и передвигать предметы, даже взаимодействовать с людьми на физическом уровне, помогать им — например, пожилым людям, — добавил руководитель по исследованиям в области робототехники NVIDIA Дитер Фокс (Dieter Fox). — Эти роботы должны уметь узнавать людей, понимать их намерения, учиться у них».

«Яндекс» продемонстрировал возможности нейросетей по обработке видео

Технологиями искусственного интеллекта сегодня занимаются тысячи, если не десятки тысяч IT-компаний по всему миру. Активную работу в этой сфере ведёт команда разработчиков «Яндекса», продемонстрировавшая возможности систем машинного обучения и нейронных сетей на примере обработки видеоконтента. Компания провела эксперимент: взяла несколько старых фильмов о Великой Отечественной войне и применила к ним технологию SuperResolution собственной разработки, которая повышает разрешение изображения с помощью нейронных сетей. Результат оказался более чем успешным — технологии искусственного интеллекта позволили не только увеличить разрешение исходного видео, но и улучшить качество изображения.

Результаты обработки видео средствами ИИ (кадр из фильма «Отец солдата»)

Результаты обработки видео средствами ИИ (кадр из фильма «Отец солдата»)

«Разница между версиями до и после обработки особенно заметна, если вглядываться в детали: изучать мимику героев на крупных планах, рассматривать фактуру одежды или рисунок ткани, — говорят в «Яндексе». — Удалось компенсировать и некоторые недостатки оцифровки: например, убрать пересветы на лицах или сделать более заметными предметы, размещённые в тени». В компании подчёркивают, что проведённый эксперимент является одним из примеров значительного прогресса в области искусственного интеллекта.

Сфера применения нейронных сетей весьма разнообразна — это распознавание текста и понимание человеческой речи, семантический поиск, компьютерное зрение, аналитика «больших данных», робототехника, экспертные системы, лингвистика и многое-многое другое. И нет ничего удивительного в том, что аналитики прогнозируют бурное развитие сервисов, использующих технологии машинного обучения и системы искусственного интеллекта на базе нейронных сетей.

У искусственного интеллекта и смежных с ним областей науки и техники очень большие перспективы

У искусственного интеллекта и смежных с ним областей науки и техники очень большие перспективы

По оценкам, ближайшее десятилетие объём мирового рынка программного обеспечения, использующего алгоритмы искусственного интеллекта, вырастет в 28 раз. Если в 2016 году продажи ИИ-софта в глобальном масштабе составили $3,2 млрд, то к 2025-му этот показатель достигнет почти $90 млрд. Что касается России, то в нашей стране данный рынок существенно уступает мировому. Однако эксперты полагают, что отечественный рынок AI-решений к концу текущего десятилетия вырастет до 28 млрд рублей. Согласно прогнозам J’son & Partners Consulting, первоочередными сферами применения ИИ в РФ станут транспорт и финансы, промышленность и телекоммуникации. В более отдалённой перспективе будут затронуты практически все отрасли, включая государственное управление и систему международного обмена товарами и услугами.

Исследователи из РФ научили нейросеть предсказывать вероятность смерти

Специалисты Московского физико-технического института (МФТИ) и российской компании Gero разработали систему на основе нейронной сети, позволяющую предсказывать вероятность смерти.

Искусственный интеллект формирует прогнозы, используя показатели от обычного фитнес-трекера. Результат отображается в мобильном приложении Gero Lifespan, которое можно установить на смартфон или планшет.

При разработке алгоритмов исследователи опирались на медицинские данные 10 000 человек, собранные в 2003–2006 годах в ходе национального исследования NHANES в США. В базе данных содержится информация о том, как люди с разным состоянием здоровья двигались во время непрерывного ношения фитнес-трекера: как часто переходили от движения к состоянию покоя, сколько шагов сделали, какая интенсивность физических нагрузок была максимальной.

МФТИ

МФТИ

Создатели платформы научили нейронную сеть выявлять неблагоприятные тенденции: связывать определённые показатели и повторяющиеся последовательности движений с данными медицинских историй и результатами анализов. В итоге, искусственный интеллект научился точно выявлять испытуемых из группы повышенного риска и определять их биологический возраст. Кроме того, система может спрогнозировать вероятность наступления смерти.

Ожидается, что предложенное решение будет полезно медицинским организациям и страховым компаниям. Подробнее о проекте можно узнать здесь

Google представила инструмент для поиска новых звуков с помощью ИИ

Исследовательский проект Google под названием Magenta, который с помощью ИИ помогает людям проявлять своё творческое начало, представил экспериментальный музыкальный инструмент с открытым исходным кодом NSynth Super. Он использует нейронную сеть NSynth, способную генерировать различные звуки.

NSynth Super — устройство, которое раскрывает потенциал нейронной сети. Как говорит научный сотрудник Google Brain Дуглас Эк (Douglas Eck), NSynth создаёт не ноты, а непосредственно звуки инструмента. Алгоритм изучает ключевые качества того, из чего состоит отдельный звук, и может комбинировать эти звуки, создавая тем самым нечто совершенно новое.

Устройство, на котором Google предлагает экспериментировать с алгоритмом, имеет площадку управления, каждый сектор которой можно привязать к определённому инструменту. Звуки этих инструментов можно комбинировать, водя пальцем по площадке. Но NSynth Super не просто накладывает друг на друга существующие звуки — система синтезирует совершенно новые, основываясь на акустических качествах отдельных инструментов.

NSynth Super может работать с любым источником MIDI-звука, будь то цифровая звуковая рабочая станция, секвенсор или клавишный синтезатор. Устройство позволяет настраивать некоторые параметры звука — например, атаку, спад, поддержку и затухание.

Google не даёт возможности купить NSynth Super, но предлагает инструкцию по созданию собственного устройства на базе Raspberry Pi. Есть даже информация о том, как сделать печатную плату и корпус.

В «Одноклассниках» заработала система распознавания лиц на основе нейросетей

«Одноклассники» запустили «умный» сервис распознавания лиц на фотографиях, полагающийся на нейронные сети и средства машинного зрения.

Новая система позволяет находить знакомых по фотографии и отмечать друзей на изображениях в один клик. В частности, всего по одному снимку можно найти своих старых знакомых или родственников в различных городах и странах.

После загрузки фотографии в альбом, заметку или в ленту новостей социальная сеть предложит автоматические отметки найденных пользователей, после чего автор фотографии сможет подтвердить их или заменить на собственные отметки. При этом пользователи, которых отметили на фото, смогут при необходимости удалить отметку или запретить в настройках профиля отмечать себя на снимках.

Нейросеть в «Одноклассниках» полагается на вычислительные ресурсы ускорителей NVIDIA. Система распознаёт пользователя на изображении за тысячные доли секунды и при этом она устойчива к изменениям лица, таким как появление бороды, новая причёска или очки. Технология адаптируется к разному уровню освещённости, масштабу лиц на фотографиях, поворотам и наклонам головы.

Новый сервис работает на всех устройствах: в обычной и мобильной версиях социальной сети, а также в приложениях на Android и iOS. В ближайшее время все пользователи «Одноклассников», которые присутствуют на фотографиях, но не отмечены на них, получат уведомления с предложением подтвердить автоматическую отметку. 

Twitter начала обрезать интересные части фотографий с помощью машинного обучения

Польза машинного обучения не всегда кроется в крупных функциях — зачастую оно помогает привнести некое мелкое нововведение, которое делает продукт гораздо более удобным. Так произошло и в случае с Twitter, которая с помощью нейронных сетей начала обрезать наиболее интересные части фотографий для создания их миниатюр.

Компания начала работать над нововведением уже достаточно давно, но подробно рассказала о нём лишь сейчас. Исследователь в области машинного обучения Лукас Тис (Lucas Theis) и его руководитель Зехан Вонг (Zehan Wang) поведали, что сначала обрезали с помощью новой функции только лица, а вот с пейзажами, предметами и кошками метод не работал.

Решением проблемы стал метод «обрезания с использованием заметной части». Под «заметной частью» в данном случае подразумевается самая интересная часть картинки — неважно, лицо это или нет. Сотрудники Twitter воспользовались данными исследований в области отслеживания глаз для определения зон изображений, на которые люди смотрят в первую очередь. «Эти данные могут использоваться для тренировки нейронных сетей и алгоритмов, прогнозирующих, на что человек хочет бросить взгляд», — написали Тис и Вонг.

Когда исследователи научили нейронную сеть определять такие зоны, им потребовалось оптимизировать технологию, чтобы она работала на сайте в реальном времени. К счастью, обрезание фотографий для создания миниатюр довольно простое — достаточно выделить примерно треть картинки с самым привлекательным содержимым. Это позволило сузить критерии отбора материала.

В результате получилась нейронная сеть в 10 раз более быстрая, чем первоначальный вариант. «Это позволяет нам производить обнаружение заметной части на всех изображениях по мере их загрузки и обрезать их в реальном времени», — добавили Тис и Вонг.

Вскоре нововведение станет доступно всем пользователям Twitter на настольных устройствах, а также в приложениях для iOS и Android.

Нейронная сеть Alibaba обогнала человека в глобальном тесте по чтению

Институт информационных технологий (iDST), исследовательское подразделение китайского гиганта Alibaba, разработал модель глубокого обучения, которая сумела обогнать человека в тесте по чтению Stanford Question Answering Dataset (Squad). У нейронной сети показатель составил 82,44, а человек ранее сумел достичь оценки 82,304.

Squad состоит более чем из 100 тысяч наборов вопросов и ответов по более чем 500 статьям с «Википедии». Участники должны были создать модели машинного обучения, которые могли бы отвечать на заданные вопросы.

Среди участников теста оказались различные университеты, исследовательские учреждения и поставщики технологий, включая Tencent, Google, IBM, Microsoft, Samsung, Тель-Авивский университет и Канвонский национальный университет в Южной Корее. Некоторые из них уже проходили тест в прошлом году. Например, азиатское исследовательское подразделение Microsoft (Microsoft Research Asia) 17 декабря 2017 года получило оценку 82,136. Предыдущий показатель Alibaba, равный 79,199, был зарегистрирован 28 декабря 2017 года.

Alibaba заявила, что в тесте по чтению сумела обогнать человека первой. Тем не менее, Squad поставил китайскую компанию на одно место с Microsoft Research Asia, которая заработала 82,65 балла. Ранг редмондского гиганта был зарегистрирован 3 января, а оценка Alibaba — 5 января.

Представитель китайского гиганта объяснил, что это даты подачи моделей. Результаты же теста Alibaba были зарегистрированы 11 января — на день раньше, чем у Microsoft. Поэтому Alibaba посчитала, что у неё есть право называть себя первой.

Модель компании основана на иерархической нейронной сети, способной выбирать потенциальные ответы из абзацев, предложений и слов. На базе той же технологии работал чат-бот Dian Xiaomi, который использовался во время фестивалей шопинга и ежедневно обслуживал 3,5 млн пользователей торговых площадок Taobao и Tmall.

По словам главного научного сотрудника iDST по обработке естественного языка Си Луо (Si Luo), Alibaba собирается поделиться методологией создания моделей с сообществом и в ближайшем будущем внедрить актуальную технологию в системы обслуживания клиентов компании.