Сегодня 22 декабря 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → распознавание
Быстрый переход

Российский электромобиль «Атом» будет узнавать водителя по лицу с помощью ИИ

Telegram-канал «Ростеха» сообщил, что перспективный российский электромобиль «Атом» получит систему распознавания лиц на основе искусственного интеллекта. Такое решение позволит «Атому» «узнавать» конкретного водителя и мгновенно адаптироваться под него. Внедрением функций распознавания лиц при помощи ИИ займётся компания NtechLab.

 Источник изображений: «Атом»

Источник изображений: «Атом»

В «Ростехе» утверждают, что эта разработка станет первым в России внедрением функций ИИ в автотранспорт. Аутентификация водителя будет производиться при помощи мобильного приложения. Разработчики гарантируют уверенное распознавание людей в очках и головном уборе. Обман системы исключён — она обучена отличать живого человека от силиконовой маски или фотографии.

В будущем система распознавания лиц «Ростеха» может быть использована в каршеринге и такси.

Серийное производство основанного на отечественной модульной платформе компактного электромобиля «Атом» должно начаться в 2025 году на столичном заводе «Москвич». Электрокар разработан российским стартапом «Кама», ключевой инвестор проекта — дочерняя структура «Росатома» «Рэнера» – отраслевой интегратор в области систем накопления энергии. В настоящий момент ведутся испытания функциональных прототипов. Будущие объёмы производства электрокаров представитель «Камы» не раскрывает.

Компания «Кама» — производитель «Атома» — была основана в августе 2021 года. Основными инвесторами проекта стали гендиректор предприятия «Камаз» Сергей Когогин и основатель и бывший владелец инвестиционной компании «Тройка Диалог» Рубен Варданян.

Экс-сотрудник обвинил Amazon в продаже санкционной технологии распознавания лиц в Россию

Бывший сотрудник обвинил компанию Amazon в нарушении наложенных Великобританией санкций и продаже технологии распознавания лиц российской компании после начала украинских событий, передаёт Financial Times. Amazon все обвинения отвергла.

 Источник изображения: Tumisu / pixabay.com

Источник изображения: Tumisu / pixabay.com

Чарльз Форрест (Charles Forrest) заявил, что был несправедливо уволен в 2023 году за то, что обвинил Amazon в ряде правонарушений в период с ноября 2022-го по май 2023 года. Информацию он представил в Лондонском трудовом трибунале в ходе слушаний на этой неделе. Amazon заключила сделку с российской компанией VisionLabs (принадлежит МТС) о предоставлении доступа к своей технологии распознавания лиц Rekognition, утверждает господин Форрест. Американская компания сделала это «через предположительно подставную компанию в Нидерландах». Бывший сотрудник также обвинил Amazon в нарушении добровольного моратория на предоставление технологии распознавания лиц полицейским структурам.

В Amazon обвинения отвергли. «Считаем обвинения необоснованными и ждём возможности продемонстрировать это в ходе судебного процесса. На основании имеющейся информации и записей о выставлении счетов AWS не продавала услуги Amazon Rekognition компании VisionLabs», — заявил представитель компании. Форрест же был уволен за «грубое нарушение дисциплины», когда отказался работать согласно контракту, не отвечал на электронные письма и не приходил на назначенные встречи. Компания не считает, что её бывший сотрудник раскрыл информацию, которая дала бы ему право на защиту осведомителей.

При этом Amazon, вероятно, признала, что нарушила самозапрет на предоставление полиции доступа к технологии распознавания лиц, но добавила, что тем самым не нарушила никаких законов. «Самостоятельно введённый мораторий не является юридическим обязательством», — пояснили в компании.

Рукописи не горят: ИИ прочитал испорченные извержением вулкана свитки из древнеримской библиотеки

Благодаря машинному обучению археология совершила рывок вперёд. С помощью ИИ разработан метод чтения сожжённых или иным образом повреждённых свитков папируса. Таких документов множество, и находятся всё новые и новые. Технологию ещё предстоит доработать, однако первые результаты оказались успешными.

 Внешний вид обугленного свитка, который был прочитан с помощью ИИ. Источник изображения: scrollprize.org

Внешний вид обугленного свитка, который был прочитан с помощью ИИ (источник изображения: scrollprize.org)

Ещё в 18 веке при раскопках римской виллы в Геркулануме было обнаружено более 1000 целых или частичных свитков в особняке, который, как считалось, принадлежал тестю Юлия Цезаря. Извержение Везувия в 79 году н.э. и последующее погребение свитков землёй превратили их в обугленные останки, развернуть которые можно было только один раз — они при этом рассыпались. Тексты также были нечитаемые, поскольку чернила выгорели вместе с основой. Прочесть всё это и многое другое — это достойно усилий.

Попытки создать технологию для прочтения обугленных свитков из Геркуланума много лет возглавлял специалист по информатике из Университета Кентукки Брент Силз (Brent Seales). Он и его команда с помощью рентгеновской томографии на ускорительном комплексе Diamond Light Source — источнике синхротронного излучения третьего поколения в графстве Оксфордшир — научились распознавать следы чернил в волокнах папируса, не трогая и не разрушая свиток.

Но распознать чернила — это только начало. Необходимо было «развернуть» свиток и прочитать текст. Для этого в 2023 году на деньги спонсоров был объявлен конкурс Vesuvius Challenge с призом около $1 млн. К концу года начали определяться лидеры. В частности, студент факультета компьютерных наук в Университете Небраски в Линкольне Люк Фарритор (Luke Farritor) был объявлен победителем этапа «Первые буквы» за расшифровку первых связных фраз из сожжённого текста, за что получил $40 тыс.

Позже к Фарритору присоединились Юсеф Надер (Youssef Nader) из Германии и Джулиан Шиллигер (Julian Schilliger) из Швейцарии. Они разработали алгоритм «разворачивания» свитков. Все вместе они смогли прочесть более 2000 букв из свитка. Как стало известно на днях, приз в размере $700 тыс. ушёл этой команде.

Искусственный интеллект справляется с задачей в несколько этапов. Свиток разбивается на сектора с определением каждого слоя. Предложено несколько способов решить эту головоломку. Например, ИИ отслеживает паутинку трещин в каждом слое, что позволяет точно определить слой и потом выровнять его цифровую копию. Пожалуй, это самая сложная часть работы.

Распознавание букв греческого алфавита также происходит не напрямую из текста, что важно для подтверждения опыта команды сторонними группами исследователей. Все данные берутся из базы, полученной рентгеновской томографией, а не с помощью программ по оптическому распознаванию символов. Немаловажно и то, что предложенный группой победителей конкурса код открыт и может быть использован другими группами для проверки результатов. И они были подтверждены. ИИ на самом деле восстанавливает текст по обнаруженным остаткам чернил в волокнах свитков.

Технология далека от совершенства, но её возможности обещают привнести множество нового в наши знания о прошлом. Она может быть применена также к прочтению текстов папирусов, в которые заворачивали мумии. Этих папирусов груды в каждом приличном музее, а это кладезь информации о жизни тысячи лет назад.

Искусственный интеллект скоро сможет правдоподобно имитировать почерк человека

Уже сейчас нейросети способны правдоподобно воссоздавать голос человека и имитировать его мимику в соответствии с якобы произносимым текстом. Как считают учёные, вскоре искусственному интеллекту будут по плечу и задачи правдоподобного воспроизведения почерка человека, для этого нейросетям будет достаточно ознакомиться лишь с несколькими абзацами «исходного материала».

 Источник изображения: Unsplash, Hannah Olinger

Источник изображения: Unsplash, Hannah Olinger

Команде специалистов Университета искусственного интеллекта имени Мухаммеда бен Заида в ОАЭ, как сообщает Bloomberg, уже удалось создать профильную нейросеть и опробовать её в деле. Эту разработку авторам даже удалось запатентовать в юрисдикции США. Пока использование данной нейросети сторонними клиентами не подразумевается, и авторы разработки уже выражают опасения по поводу способности недобросовестных пользователей применять её во вред обществу.

Прежде чем этот инструмент начнёт распространяться, по мнению разработчиков, необходимо создать защитные механизмы, предотвращающие его некорректное с этической точки зрения применение. «Это всё равно что создать антивирус для вируса», — пояснили представители университета. Подобные соображения не мешают создателям нейросети планировать её коммерческое применение в течение ближайших месяцев, они уже ищут партнёров для реализации сопутствующего потенциала данной технологии. Помимо прочего, такая система могла бы распознавать рукописный текст — например, для обработки записей в историях болезни пациентов. На генерируемых нейросетью рукописях можно было бы обучать другие подобные системы. Пока нейросеть способна распознавать и генерировать рукописный текст на английском и французском языках, но в перспективе разработчики хотели бы добавить к ним и арабский.

Swarovski Optik представила умный бинокль — он умеет распознавать птиц и животных, снимать фото и видео

На выставке CES 2024 компания Swarovski Optik представила первый в мире умный бинокль AX Visio, который может идентифицировать объекты при помощи искусственного интеллекта, снимать фотографии и видео, а также вести прямую трансляцию изображения. Объектив бинокля диаметром 32 мм обладает 10-кратным увеличением и обеспечивает поле зрения 112 метров на расстоянии 1000 метров.

 Источник изображений: Swarovski Optik

Источник изображений: Swarovski Optik

Разрешение датчика изображения AX Visio составляет 4208 × 3120 пикселей, то есть 13 Мп, однако запись видео возможна лишь в разрешении Full HD. Благодаря мобильному приложению видео и фотографии легко загружаются на смартфон для дальнейшей классификации и обработки. Функция Live View обеспечивает возможность делиться наблюдениями в реальном времени.

Эксперты особо отмечают возможности нового бинокля AX Visio по распознаванию объектов в сфере наблюдений за животным миром. AX Visio оснащён нейропроцессором (NPU), который, как утверждается, способен быстро и надёжно идентифицировать самые разнообразные виды животных и птиц, что очень поможет учёным, экоактивистам и просто любителям природы.

По информации производителя, время автономной работы AX Visio составляет «до 15 часов при нормальной работе и 2 часа при интенсивном использовании». Бинокль имеет встроенный компас и функцию отображения угла наклона гаджета относительно горизонта. Весит устройство чуть менее 1100 граммов. AX Visio уже доступен для заказа по цене $4799.

IBM клялась не разрабатывать системы распознавания лиц, но поступилась принципами за $70 млн

В 2020 году IBM на волне подъёма движения Black Lives Matter объявила об отказе продавать свою технологию распознавания лиц. Но вопреки своим собственным заявлениям компания заключила с британским правительством контракт на поставку такой системы, оцениваемый в $69,8 млн.

 Источник изображения: Carson Masterson / unsplash.com

Источник изображения: Carson Masterson / unsplash.com

В июне 2020 года глава IBM Арвинд Кришна (Arvind Krishna) направил в американский Конгресс письмо, в котором, в частности, отметил: «IBM твердо выступает против и не станет одобрять использование каких-либо технологий, в том числе технологий распознавания лиц, предлагаемых другими поставщиками, для массовой слежки, составления профилей на основе расовой принадлежности, нарушения основных прав и свобод человека или любых целей, не соответствующих нашим ценностям и „Принципам доверия и прозрачности”». Впоследствии компания пошла дальше и призвала к введению в США норм экспортного контроля, которые не позволили бы применять системы распознавания лиц «для подавления инакомыслия, ущемления прав меньшинств или стирания основных запросов на конфиденциальность» даже за рубежом.

Тем не менее, в августе 2023 года IBM заключила с британским правительством контракт на сумму £54,7 млн ($69,8 млн) на разработку национальной биометрической платформы с функцией распознавания лиц, которой смогут пользоваться правоохранительные органы и иммиграционная служба, узнали журналисты американского ресурса The Verge и британской организации журналистских расследований Liberty Investigates. На начальных этапах Платформа сопоставления биометрии МВД (Home Office Biometrics Matcher Platform) Великобритании предусматривает функцию сопоставления отпечатков пальцев, а на более поздних уже предусматривает внедрение системы распознавания лиц для иммиграционной службы — в документах она описывается как «средство стратегического сопоставления лиц для правоохранительных органов». На финальных стадиях проекта речь идёт о функции «сопоставления лиц для использования правоохранительными органами».

Иными словами, речь идёт о сопоставлении фотографий людей с изображениями из базы данных — это называется системой сопоставления типа «один ко многим». В сентября 2020 года IBM напрямую указывала, что системы сопоставления «один ко многим» являются «типом технологии распознавания лиц, который, скорее всего, будет использоваться для массовой слежки, создания профилей на основе расовой принадлежности и прочих нарушений прав человека».

 Источник изображения: Tumisu / pixabay.com

Источник изображения: Tumisu / pixabay.com

В IBM противоречия своих действий собственным заявлениям, кажется, не усматривают. Представитель компании Имтиаз Муфти (Imtiaz Mufti), в частности, заявил: «В соответствии с нашими обязательствами от 2020 года IBM более не предлагает [систем] распознавания лиц общего назначения, не поддерживает использования [систем] распознавания лиц для массового наблюдения, создания профилей на основе расовой принадлежности или прочих нарушений прав человека. <..> Платформа сопоставления биометрии МВД и контракт на связанные с ней услуги не используются для массового наблюдения. Она помогает полиции и иммиграционным службам идентифицировать подозреваемых по базе данных отпечатков и по данным фотографий. Она не способна производить захват видео, который обычно необходим для поддержки снятия биометрии у „лиц в толпе”».

Правозащитники раскритиковали позицию IBM, подчеркнув, что системы распознавания лиц типа «один ко многим» несовместимы с законами о правах человека, и компании следует в соответствии со своими заявлениями прекратить их продажи. Применение полицией подобных систем связывают с неправомерными арестами в США, а в Великобритании его правомерность оспаривалась в суде, напомнили The Verge и Liberty Investigates. В августе 2020 года Апелляционный суд Великобритании постановил, что применение полицией Южного Уэльса системы распознавания лиц нарушает право на неприкосновенность частной жизни и законы о равенстве. После вынесения этого решения полиция приостановила использование этой системы, но впоследствии к ней вернулась.

Моратории на продажи систем распознавания лиц полицейским управлениям США вслед за IBM ввели Amazon и Microsoft. В июне 2020 года был введён однолетний мораторий на продажу полиции системы Amazon Rekognition с намерением впоследствии продлить его на «неопределённый срок» — пресс-секретарь Amazon подтвердила, что он всё ещё действует. Тогда же, в июне 2020 года, Microsoft заявила, что также не станет продавать ПО для распознавания лиц полицейским управлениям США до тех пор, пока не выйдет федеральный закон, регулирующий использование этой технологии. В ответ на запрос The Verge и Liberty Investigates представитель Microsoft сослалась на информацию с сайта компании, где явно указано, что применение сервиса Azure AI Face «полицией штата или муниципальной полицией в США или для них запрещено политикой Microsoft». МВД Великобритании на запрос не ответило.

Беспилотные автомобили с трудом распознают детей и темнокожих пешеходов

Разработчики систем автономного вождения утверждают, что их программное обеспечение одинаково хорошо распознаёт взрослых светлокожих людей, детей и темнокожих пешеходов. Однако исследование учёных из Королевского колледжа в Лондоне показало, что это не совсем так.

 Источник изображения: metamorworks / Shutterstock

Источник изображения: metamorworks / Shutterstock

Исследователи проверили восемь систем обнаружения пешеходов, построенных на базе нейросетей. В ходе тестирования использовалось более 8 тыс. изображений пешеходов. Оказалось, что системы обнаружения пешеходов на 20 % лучше распознают взрослых людей, чем детей. Кроме того, программное обеспечение на 7,5 % точнее определяет светлокожих людей, чем темнокожих пешеходов. По мнению исследователей, проблема распознавания темнокожих людей заключается в том, что системы автономного вождения преимущественно обучаются на изображениях людей со светлой кожей.

«Хотя влияние несправедливых систем искусственного интеллекта хорошо задокументировано, начиная с того, что ИИ-алгоритмы при приёме на работу предпочитают кандидатов-мужчин и заканчивая тем, что алгоритмы распознавания лиц менее точно определяют темнокожих женщин, чем белых мужчин, опасность, которую могут представлять беспилотные автомобили, очень велика. Раньше представителям меньшинств могли отказать в жизненно важных услугах, а теперь они могут столкнуться с серьёзными травмами», — считает доктор Цзе Чжан (Jie Zhang), один из авторов исследования.

Учёные также установили, что точность распознавания темнокожих людей сильно снижается в условиях недостаточной освещённости и низкой контрастности. Это может приводить к возникновению опасных ситуаций при использовании систем обнаружения пешеходов на основе ИИ в тёмное время суток. Автопроизводители не раскрывают подробностей о программном обеспечении, используемом для распознавания пешеходов. Однако исследователи утверждают, что эти алгоритмы, как правило, построены на основе тех же систем с открытым исходным кодом, которые были проверены в ходе исследования.

Google начала тестирование нового способа поиска песен на YouTube: их достаточно напеть

Google тестирует новый способ поиска песен на YouTube — просто напевая их голосом. Этот инновационный шаг, уже доступный ограниченному числу пользователей Android, может кардинально изменить то, как мы находим музыкальные композиции в интернете.

 Источник изображения: SAM-RIZ44 / Pixabay

Источник изображения: SAM-RIZ44 / Pixabay

В мире смартфонов поиск песни по звуку используется уже давно. Сервисы вроде Google Assistant и SoundHound позволяют добавлять треки в плейлист Spotify или воспроизводить клипы на YouTube. Однако новый способ поиска песни кажется более удобным, если вы не помните её название или другие детали.

Google объявила о том, что экспериментирует с поиском песен на YouTube по напеву голосом. Кроме этого, пользователи могут использовать функцию определения песни, записав её фрагмент, который играет фоном, например, в кафе или на радио.

Для активации функции необходимо переключиться из голосового поиска YouTube на поиск песен. После этого пользователь должен напеть или записать фрагмент песни в течение минимум 3 секунд. Затем система перенаправит его к соответствующему контенту на YouTube — официальному клипу, пользовательскому видео или короткому ролику Shorts.

На этапе тестирования новый поиск доступен только ограниченному числу пользователей YouTube на Android. Перед тем, как он окажется в широком доступе, его характеристики могут измениться. Многие надеются, что компания добавит его и в YouTube Music.

Кроме этого, Google тестирует ещё одну функцию для YouTube — «Полка канала» (Channel Shelf) в ленте подписок. Она позволит объединять несколько свежих публикаций одного автора на одной «полке». Таким образом, подписчикам не придётся переходить на YouTube-канал, чтобы увидеть недавние публикации. Google утверждает, что это нововведение снизит давление на авторов контента в плане частоты его публикаций.

В Китае подготовили правила использования технологии идентификации лиц

Управление киберпространства Китая (CAC) выпустило проект правил, регламентирующих надзор за управлением безопасностью технологии лицевой идентификации — её чрезмерное распространение вызывало опасения по поводу конфиденциальности граждан.

 Источник изображения: Tumisu / pixabay.com

Источник изображения: Tumisu / pixabay.com

В ведомстве заявили, что технология распознавания лиц может применяться только при наличии конкретной цели и достаточной необходимости, а также при соблюдении строгих защитных мер. Её использование требует личного согласия. В случаях, когда небиометрические решения идентификации граждан оказываются столь же эффективными, что и технология лицевой идентификации, предпочтение должно отдаваться первым.

Технологии биометрической идентификации, и в первую очередь распознавания лиц, широко применяются в Китае. В 2020 году местные СМИ сообщили, что система распознавания лиц появилась на диспенсерах рулонов туалетной бумаги в общественных уборных, что вызвало негативную реакцию общественности и регулирующих органов. С тех пор местные органы власти выносили запреты на чрезмерное использование этих систем и даже налагали штрафы за злоупотребления.

Новый проект правил запрещает устанавливать устройства захвата изображений и идентификации личности в гостиничных номерах, общественных ванных комнатах, в раздевалках, уборных и других местах, где возникает риск для конфиденциальности граждан. Эти системы следует устанавливать только в целях общественной безопасности и сопровождать их соответствующими предупредительными знаками.

Основатели разработчика системы распознавания лиц NtechLab покинули компанию из-за бизнеса в России

Основатели компании NtechLab Артём Кухаренко и Александр Кабаков были вынуждены покинуть компанию из-за разногласий с менеджментом и инвесторами. По данным источника, они пытались уговорить руководство остановить работу компании в России, но сделать этого не удалось.

 Источник изображения: pixabay.com

Источник изображения: pixabay.com

Напомним, компания NtechLab была основана в 2015 году программистом Артёмом Кухаренко и инвестором Александром Кабаковым. Одним из продуктов разработчика стала платформа FindFace Multi, способная распознавать лица и силуэты людей. Среди заказчиков NtechLab в России госучреждения, а также власти Москвы и Московской области. Алгоритм FindFace является одной из составляющих московской системы распознавания лиц.

Ранее на этой неделе СМИ писали, что разработки NtechLab используются для выявления и задержания лиц, недовольных политикой нынешних властей и принимающих участие в митингах людей. После этого Кухаренко и Кабаков заявили, что они пытались убедить менеджмент и акционеров компании свернуть деятельность в России и переместить всех сотрудников компании за рубеж. Однако руководство NtechLab и большинство акционеров не захотели этого делать, из-за чего Кухаренко и Кабаков решили покинуть компанию.

Представитель NtechLab сообщил журналистам, что ни один акционер не воспользовался правом вето в ходе голосования относительно дальнейшего продолжения работы в России. Это же касается и основателей компании. Однако Кухаренко заявил, что совет директоров никогда не проводил голосование по данному вопросу. Согласно имеющимся данным, он написал заявление об увольнении ещё 25 февраля 2022 года и покинул страну на следующий день. Вся работа была передана сотрудникам компании к концу марта, но Кухаренко продолжал работать в NtechLab до июля.

В России разрабатывается ИИ-система распознавания диких животных — она поможет не пускать их в населённые пункты

Специализирующаяся на технологиях распознавания лиц компания NtechLab готовится к испытаниям решения, предназначенного для обнаружения диких животных. Это поможет гуманным образом предотвращать случайные вторжения зверей в населённые пункты.

 Источник изображения: Robert Balog / pixabay.com

Источник изображения: Robert Balog / pixabay.com

В разработке системы распознавания животных, основанной на алгоритмах искусственного интеллекта NtechLab, компании помогли работники Юганского заповедника, заповедника Малая Сосьва, а также детского технопарка «Кванториум» в Нефтеюганске, пишет «Коммерсантъ» со ссылкой на сообщение компании. Партнёры помогли разработчикам создать базу видео с медведями — на начальном этапе система предназначена для идентификации этих животных, но в перспективе будет добавлена поддержка распознавания и других представителей фауны.

Обнаружив приближающегося к населённому пункту зверя, система отправляет уведомление сотрудникам заповедника, которые смогут оперативно отреагировать и отогнать медведя без необходимости его убивать. Первый этап тестирования системы стартует в апреле, а в коммерческую эксплуатацию её планируют ввести в 2024 году.

Решение NtechLab может быть востребовано в Забайкальском и Камчатском краях, в Коми и Хакасии и даже в Ленинградской области — вторжения диких животных в населённые пункты фиксировались и там. Часто такие инциденты заканчиваются плачевно: в 2021 году в населённые пункты ХМАО-Югры приходили 49 бурых медведей, и 26 из них пришлось ликвидировать; в 2022 году таких вторжений было 39, из которых 8 стоили косолапым жизней.

Опрошенные «Коммерсантом» эксперты отметили, что животные часто выходят в тёмное время суток, и это может усложнить разработку системы. Кроме того, схожий проект сейчас разрабатывается в Канаде, и направлен он на распознавание белых медведей. В Минприроды об инициативе NtechLab услышали впервые, но поддержали идею о «минимизации возможных конфликтных ситуаций животных с человеком» и напомнили, что их разрешение относится к полномочиям полиции.

Microsoft регистрирует через Роспатент товарный знак Dragon, связанный с ПО для распознавания речи

Стало известно, что американская компания Microsoft через свой головной офис, находящийся в Вашингтоне, подала в Роспатент заявку на регистрацию товарного знака Dragon. В материалах Роспатента указано, что товарный знак связан с технологиями распознавания речи.

 Источник изображения: Pixabay

Источник изображения: Pixabay

Согласно имеющимся данным, заявка Microsoft была подана 31 января. Софтверный гигант намерен зарегистрировать знак по двум классам по международной классификации товаров и услуг. В первом случае речь идёт о компьютерном программном обеспечении для использования в приложениях и системах распознавания речи, во втором — о ПО для обработки речи. Кроме того, Microsoft сможет использовать товарный знак для предоставления онлайн незагружаемого ПО для использования в приложениях и системах распознавания речи и диктовке, для оказания консультаций в сфере автоматизированной обработки транскрипций и в области систем распознавания речи.

Напомним, в 2021 году Microsoft купила компанию Nuance Communications за $19,7 млрд. В арсенале разработчиков имеется технология распознавания речи Dragon, которую Microsoft намерена интегрировать в свои продукты, например, в текстовый редактор Word. Отметим также, что в прошлом году Microsoft объявила о постепенном сворачивании деятельности в России и сокращении своего присутствия до минимума или даже полного ухода с рынка.

«Яндекс» научил нейросеть расшифровывать архивные документы даже с дореволюционной орфографией

Специалисты «Яндекса» обучили нейросети расшифровке архивных записей — теперь препятствиями не являются ни рукописный текст, ни дореволюционная орфография. Поработать с технологией можно уже сейчас, открыв службу «Поиск по архивам», в которой доступны более 2,5 млн страниц исторических документов и их текстовая расшифровка.

 Источник изображения: Яндекс

Источник изображения: Яндекс

Нейросеть была обучена при помощи сотен тысяч рукописных строк в реальных архивных документах, датированных с XVIII по XIX вв., а также десятков миллионов примеров, которые были сгенерированы. В работе участвовали эксперты — они производили расшифровку и разметку документов, а также контролировали качество работы системы. Прочитать такие рукописи неподготовленному человеку очень сложно, но нейросеть «Яндекса» справляется с задачей почти мгновенно. При наличии расшифровки появилась возможность быстро находить документы с упоминанием ключевых слов, например, названий населённых пунктов и фамилий.

Служба «Поиск по архивам» поможет в работе историкам, социологам, демографам и генеалогам, а также тем, кто не обладает профессиональной подготовкой, но хочет больше узнать об истории своей семьи. Первыми в базе появились материалы Главархива Москвы, потому что нейросеть обучали на них; впоследствии коллекция пополнилась документами из архивов Оренбургской и Новгородской областей. Со временем к проекту подключатся и другие архивы, документов станет больше.

Сейчас в поиске доступны материалы с XVIII до начала XX вв. — они наиболее популярны у пользователей. В базе есть метрические книги, исповедные ведомости, а также ревизские сказки, в которые внесены результаты переписи населения. Документы открываются как по каталогу, так и через поисковую строку — на странице приводится скан листа и его построчная расшифровка с подсветкой при наведении.

Российская Smart Engines представила систему распознавания текста нового поколения — она поддерживает 102 языка

Разработчики из российской компании Smart Engine создали систему распознавания текста, которая способна находить документы на фото или сканах и распознавать все текстовые данные на 102 языках. Представленное решение является частью продукта Smart Document Engine, включённого в реестр российского программного обеспечения.

 Источник изображения: smartengines.ru

Источник изображения: smartengines.ru

Во всех продуктах Smart Engine применяется собственная технология распознавания GreenOCR. За счёт этого удаётся достигнуть высокого уровня точности распознавания текста даже на некачественных фото. Представленное приложение позиционируется в качестве альтернативы продуктам ABBYY и иностранному ПО в корпоративном и государственном сегментах. Полнотекстовое распознавание является важным элементом ввода документов в системах электронного документооборота, управления бизнес-процессами, электронных архивах и RPA-системах. Скорость и точность извлечения данных оказывают прямое влияние на трудоёмкость и уровень автоматизации процесса обработки документов.

Представленная система должна обеспечить технологический суверенитет, поскольку в ней не используются решения Open Source и иностранные программные компоненты. Отмечается, что процесс обработки одного изображения на современном смартфоне занимает 3-4 секунды. Помимо распознавания текста система Smart Engine автоматически обрезает, разглаживает сложенные документы и улучшает качество снимков, фактически превращая смартфон в сканер. В серверных решениях на 32-ядерном HPC без использования GPU скорость полнотекстового распознавания достигает 15 страниц в секунду.

Разработчики могут интегрировать технологию распознавания текстовых документов в серверные, мобильные, десктопные и веб-приложения в составе продукта Smart Document Engine. Для функционирования системы не требуется подключение к сторонним сервисам и внешним ресурсам, не требуется GPU. Для распознавания документов не требуется постоянное интернет-подключение, поскольку все вычисления выполняются непосредственно на устройстве пользователя. Помимо привычных языков на основе кириллических и латинских символов система может распознавать арабский, армянский, греческий, грузинский, иврит, китайский, корейский и японский языки. Поддерживается работа на устройствах с ALT Linux, Astra Linux, «Ред ОС» и других платформах семейства Linux, а также Windows, macOS, iOS, Android и ОС «Аврора».


window-new
Soft
Hard
Тренды 🔥
Вышел первый настольный компьютер Copilot+PC — Asus NUC 14 Pro AI на чипе Intel Core Ultra 9 25 мин.
Foxconn немного охладела к покупке Nissan, но вернётся к этой теме, если слияние с Honda не состоится 6 ч.
В следующем году выйдет умная колонка Apple HomePod с 7-дюймовым дисплеем и поддержкой ИИ 6 ч.
Продажи AirPods превысили выручку Nintendo, они могут стать третьим по прибыльности продуктом Apple 7 ч.
Прорывы в науке, сделанные ИИ в 2024 году: археологические находки, разговоры с кашалотами и сворачивание белков 15 ч.
Arm будет добиваться повторного разбирательства нарушений лицензий компанией Qualcomm 19 ч.
Поставки гарнитур VR/MR достигнут почти 10 млн в 2024 году, но Apple Vision Pro занимает лишь 5 % рынка 21 ч.
Первая частная космическая станция появится на два года раньше, но летать на неё будет нельзя 22 ч.
В США выпущены федеральные нормы для автомобилей без руля и педалей 23 ч.
Для невыпущенного суперчипа Tachyum Prodigy выпустили 1600-страничное руководство по оптимизации производительности 24 ч.