Сегодня 10 июня 2023
18+
MWC 2018 2018 Computex IFA 2018
Теги → текст
Быстрый переход

«Яндекс» научил нейросеть расшифровывать архивные документы даже с дореволюционной орфографией

Специалисты «Яндекса» обучили нейросети расшифровке архивных записей — теперь препятствиями не являются ни рукописный текст, ни дореволюционная орфография. Поработать с технологией можно уже сейчас, открыв службу «Поиск по архивам», в которой доступны более 2,5 млн страниц исторических документов и их текстовая расшифровка.

 Источник изображения: Яндекс

Источник изображения: Яндекс

Нейросеть была обучена при помощи сотен тысяч рукописных строк в реальных архивных документах, датированных с XVIII по XIX вв., а также десятков миллионов примеров, которые были сгенерированы. В работе участвовали эксперты — они производили расшифровку и разметку документов, а также контролировали качество работы системы. Прочитать такие рукописи неподготовленному человеку очень сложно, но нейросеть «Яндекса» справляется с задачей почти мгновенно. При наличии расшифровки появилась возможность быстро находить документы с упоминанием ключевых слов, например, названий населённых пунктов и фамилий.

Служба «Поиск по архивам» поможет в работе историкам, социологам, демографам и генеалогам, а также тем, кто не обладает профессиональной подготовкой, но хочет больше узнать об истории своей семьи. Первыми в базе появились материалы Главархива Москвы, потому что нейросеть обучали на них; впоследствии коллекция пополнилась документами из архивов Оренбургской и Новгородской областей. Со временем к проекту подключатся и другие архивы, документов станет больше.

Сейчас в поиске доступны материалы с XVIII до начала XX вв. — они наиболее популярны у пользователей. В базе есть метрические книги, исповедные ведомости, а также ревизские сказки, в которые внесены результаты переписи населения. Документы открываются как по каталогу, так и через поисковую строку — на странице приводится скан листа и его построчная расшифровка с подсветкой при наведении.

Российская Smart Engines представила систему распознавания текста нового поколения — она поддерживает 102 языка

Разработчики из российской компании Smart Engine создали систему распознавания текста, которая способна находить документы на фото или сканах и распознавать все текстовые данные на 102 языках. Представленное решение является частью продукта Smart Document Engine, включённого в реестр российского программного обеспечения.

 Источник изображения: smartengines.ru

Источник изображения: smartengines.ru

Во всех продуктах Smart Engine применяется собственная технология распознавания GreenOCR. За счёт этого удаётся достигнуть высокого уровня точности распознавания текста даже на некачественных фото. Представленное приложение позиционируется в качестве альтернативы продуктам ABBYY и иностранному ПО в корпоративном и государственном сегментах. Полнотекстовое распознавание является важным элементом ввода документов в системах электронного документооборота, управления бизнес-процессами, электронных архивах и RPA-системах. Скорость и точность извлечения данных оказывают прямое влияние на трудоёмкость и уровень автоматизации процесса обработки документов.

Представленная система должна обеспечить технологический суверенитет, поскольку в ней не используются решения Open Source и иностранные программные компоненты. Отмечается, что процесс обработки одного изображения на современном смартфоне занимает 3-4 секунды. Помимо распознавания текста система Smart Engine автоматически обрезает, разглаживает сложенные документы и улучшает качество снимков, фактически превращая смартфон в сканер. В серверных решениях на 32-ядерном HPC без использования GPU скорость полнотекстового распознавания достигает 15 страниц в секунду.

Разработчики могут интегрировать технологию распознавания текстовых документов в серверные, мобильные, десктопные и веб-приложения в составе продукта Smart Document Engine. Для функционирования системы не требуется подключение к сторонним сервисам и внешним ресурсам, не требуется GPU. Для распознавания документов не требуется постоянное интернет-подключение, поскольку все вычисления выполняются непосредственно на устройстве пользователя. Помимо привычных языков на основе кириллических и латинских символов система может распознавать арабский, армянский, греческий, грузинский, иврит, китайский, корейский и японский языки. Поддерживается работа на устройствах с ALT Linux, Astra Linux, «Ред ОС» и других платформах семейства Linux, а также Windows, macOS, iOS, Android и ОС «Аврора».

Приложение умной камеры «Яндекса» научилось распознавать текст

Компания «Яндекс» расширила возможности своей умной камеры — специального инструмента, который доступен в браузере и в приложении «Яндекса» для мобильных устройств под управлением операционных систем Android и iOS.

 Источник изображения: «Яндекс»

Источник изображения: «Яндекс»

Появился новый режим «Текст», позволяющий распознавать и копировать тексты. Достаточно навести камеру смартфона на любое слово или фразу, и приложение преобразует надпись в текстовый вид. Далее текст можно сохранить, отправить в мессенджер или в поиск.

Например, чтобы найти в интернете учебник, теперь не нужно набирать его название: можно навести камеру на обложку и нажать кнопку «Найти». Инструмент поможет также скопировать текст со слайда или, скажем, конспект доклада.

Приложение способно распознавать печатные тексты на 47 языках. Для обработки изображений применяются нейронные сети. Одна из них идентифицирует области с текстом, а вторая распознаёт надписи, анализируя контекст: начертания букв, соседние буквы и слова. Аналогичная технология применяется при распознавании текста в режиме «Перевод».

«Умная камера помогает в решении разных задач. С её помощью можно искать товары, переводить текст, сканировать документы и распознавать предметы. Например, она подскажет модель автомобиля или название комнатного растения», — отмечает «Яндекс».

«Яндекс» представил YaLM 100B — самую большую открытую нейросеть для генерации текстов

Компания «Яндекс» анонсировала нейросеть YaLM 100B, предназначенную для генерации и обработки текстов на русском и английском языках. Утверждается, что на сегодняшний день это самая большая в мире GPT-подобная (Generative Pre-trained Transformer) модель, опубликованная в свободном доступе.

 Источник изображений: pixabay.com / geralt

Источник изображений: pixabay.com / geralt

YaLM 100В содержит 100 млрд параметров — больше, чем какая-либо из существующих моделей для русского языка. Благодаря этому нейросеть можно применять для решения широкого круга задач, связанных с обработкой естественного языка.

Языковые модели семейства YaLM определяют принцип построения текстов и генерируют новые, опираясь на законы лингвистики и свои знания о мире. Допускается формирование текстов любого типа: это могут быть ответы, стихи, поздравления и пр. Более того, алгоритмы способны придумывать идеи для рекламных кампаний, создавать описания товаров и видео, а также классифицировать тексты.

 Источник изображения: pixabay.com / Gerd Altmann

Источник изображения: pixabay.com / Gerd Altmann

В процессе обучения сети были задействованы суперкомпьютеры «Яндекса», признанные самыми мощными в Восточной Европе. YaLM 100B обработала около 2 Тбайт текстов из открытых источников и интернета на английском и русском языках.

Теперь нейросеть могут использовать разработчики и исследователи со всего мира. Модель предоставляется по открытой лицензии Apache 2.0 и доступна на GitHub.

Google Фото для ПК теперь поддерживает возможность копирования текста из изображений

Компания Google добавила для десктопной версии Google Фото поддержку технологии распознавания изображений Google Lens, доступной до этого в мобильной версии приложения. Теперь, благодаря функции оптического распознавания символов (OCR), пользователь сервиса Google Фото сможет копировать текст из фотографий в другой файл для удобного сохранения.

Наличие функции OCR в Google Фото позволяет сфотографировать документ, книгу или любой текст с помощью телефона, открыть его в браузере и скопировать его содержимое в файл Office.

Для того, чтобы воспользоваться функцией в десктопной версии сервиса, необходимо загрузить фото с текстом (например, страницу книги, вывеску, квитанцию и т. д.) на сайт Google Фото, и если Google обнаружит текст, появится кнопка «Копировать текст из изображения». Щелчок по ней откроет отдельную панель для копирования и вставки. Сервис также позволяет выделять фрагменты, если нет надобности в копировании всего текста.

Google Lens имеет гораздо больше возможностей на платформе Android (и в приложении Google Фото для iOS), но похоже, что копирование текста — единственное, что пока стало доступным для пользователей настольных компьютеров.

В Нью-Йорке хотят штрафовать за набор текстовых сообщений при переходе улицы

Следуя по стопам Гонолулу, где пару лет назад ввели запрет на набор текстовых сообщений при пересечении улицы, сенат штата Нью-Йорк на прошлой неделе внёс на рассмотрение законопроект, предлагающий аналогичный запрет.

 Time Magazine

Time Magazine

В случае одобрения законопроекта пешеходам может быть выписан штраф в размере от $25 до $50 после первого нарушения. В случае повторного проступка в течение 18 месяцев нарушителю придётся выплатить в казну города штраф в размере $250.

Закон распространяется не только на смартфоны. Вас могут оштрафовать, если при переходе улицы вы будете смотреть на экран планшета, экшен-камеры или другого электронного гаджета. Единственное исключение — если вы набираете текстовые сообщения в связи с какой-то чрезвычайной ситуацией.

Российский гаджет «Чарли» переведёт устную речь в текст

Лаборатория «Сенсор-Тех», по сообщению ТАСС, уже в июне планирует организовать производство специального устройства, которое поможет людям с нарушениями слуха наладить связь с внешним миром.

Гаджет получил название «Чарли». Этот прибор предназначен для преобразования обычной устной речи в текст. Фразы могут отображаться на стационарном экране, планшете, смартфоне или даже на дисплее Брайля.

Весь цикл производства «Чарли» будет проходить в России. Внешне устройство выглядит как небольшой диск диаметром около 12 сантиметров. Гаджет оборудован массивом микрофонов для улавливания речи.

В настоящее время прибор проходит тестирование в Доме слепоглухих в деревне Пучково в Троицком административном округе Москвы. Кроме того, как отмечается, идёт подготовка для начала опытного использования новинки в крупном российском банке и одном из отечественных операторов сотовой связи.

 Лаборатория «Сенсор-Тех»

Лаборатория «Сенсор-Тех»

В перспективе устройства могут появиться в различных местах и учреждениях — скажем, в Многофункциональных центрах предоставления государственных и муниципальных услуг, поликлиниках, на вокзалах, в аэропортах и пр. О стоимости прибора пока ничего не сообщается.

Android-версия Amazon Alexa получила функцию голосового набора СМС-сообщений

Голосовой ассистент Alexa способен удивлять обилием разнообразных навыков и возможностей, однако умеет он по-прежнему далеко не всё. Разработчики из Amazon совершенствуют цифрового помощника с каждым новым апдейтом, стремясь сделать виртуального собеседника неотличимым от живого человека. Однако не забывают в Amazon и о расширении традиционной функциональной составляющей Alexa, которая на днях пополнилась возможностью набора СМС-сообщений в устной форме.

 www.cnet.com

www.cnet.com

Если вы являетесь пользователем мобильной версии Alexa, заточенной под Android-гаджеты, то надиктовать СМС и разослать его контактам из адресной книги теперь выйдет без тактильного взаимодействия со смартфоном. Среагировать на голосовую команду Alexa сможет при условии, что на вашем мобильном устройстве будет установлена ОС Android 5.0 или выше. Пользователю также придётся пройти регистрацию в сервисе Alexa Calling & Messaging, а затем в настройках ПО активировать опцию «Отправка SMS».

 www.groovypost.com

www.groovypost.com

Проделав описанные выше манипуляции, обладатель Android-смартфона сможет отправлять через Amazon Alexa лишь текстовые СМС-сообщения. Групповая рассылка, загрузка фото- и видеофайлов, а также обращение в службу спасения посредством голосового ассистента останутся недоступными.

Владельцы iPhone оценить функцию CМС-набора при помощи Alexa не смогут, так как специалисты Amazon не имеют доступа к необходимому инструментарию для разработчиков.

Клавиатура в ретро-стиле AZIO Retro Classic стала доступна в Bluetooth-версии

В продажу поступила оригинальная клавиатура AZIO Retro Classic BT, подходящая для использования с компьютерами под управлением операционных систем Windows и macOS.

Главная особенность устройства — исполнение в ретро-стиле. Клавиатура стилизована под старинную пишущую машинку: она наделена круглыми и овальными клавишами с окантовкой.

В модели Retro Classic BT применены механические переключатели AZIO Typelit Mechanical Switch (Kailh). При этом предусмотрены несколько вариантов исполнения клавиатуры.

Для подключения к компьютеру служит беспроводное соединение Bluetooth. Питание обеспечивает аккумуляторная батарея ёмкостью 6000 мА·ч. Утверждается, что на одной подзарядке новинка может функционировать более года с выключенной подсветкой и один–два месяца со включенной (в зависимости от интенсивности подсветки).

Подзарядка осуществляется через порт USB Type-C. Так что использовать клавиатуру можно и в проводном режиме. Габариты составляют 455 × 147 × 40 мм, вес — 1587 граммов.

Правда, за оригинальность исполнения и поддержку Bluetooth придётся довольно много заплатить: клавиатура предлагается по цене 220 долларов США.

Исследователи разработали вращающуюся клавиатуру для «умных» часов

Вводить текст на «умных» часах далеко не так же удобно, как на смартфоне — особенно если у часов нет виртуальной клавиатуры. Команда исследователей разработала вращающуюся клавиатуру под названием COMPASS. Она позволяет набирать сообщения на часах, не используя сенсорный экран устройства.

COMPASS — метод ввода текста, который использует безель часов. Пользователь может вращать три указателя и с помощью них выбирать нужные символы. После выбора буквы расположение указателей динамически оптимизируется, чтобы человек мог добраться до следующей буквы как можно быстрее.

Похожим образом работает предиктивный ввод на современных смартфонах. Но на «умных» часах подобная технология появилась впервые.

Разработчики COMPASS оценили эффективность метода, проведя исследование с обычными пользователями. За 90 минут использования технологии скорость ввода выросла с 10 слов в минуту до 12,5.

Команда опубликовала научно-исследовательскую работу, в которой рассказала о разработке и возможностях реализации COMPASS. Преимущество метода заключается в том, что, в отличие от обычной T9-клавиатуры на, например, Samsung Gear S2, COMPASS позволяет сохранять круглую форму остальной области экрана. Следовательно, содержимое экрана можно масштабировать, чтобы оно помещалось во внутреннюю область без изменения внешнего вида.

Авторы исследования — сотрудники Университета штата Нью-Йорк в Стоуни-Брук и Университета Цинхуа в Пекине. Представители Ключевой лаборатории продвинутых вычислений и Национальной лаборатории информационной науки и технологий Цинхуа также принимали участие в разработке COMPASS.

Распознавание текста через мобильное ПО Adobe Scan: быстро, качественно и бесплатно

Мобильное ПО для оцифровывания напечатанного текста или записей, сделанных от руки, для многих является просто незаменимым инструментом в повседневной жизни. Функция распознавания текста в таких программах где-то реализована чуть лучше, где-то — хуже. Часть подобного софта предлагается на бесплатной основе, другая же откроет доступ ко всем своим возможностям лишь после оплаты. Новое детище специалистов Adobe — мобильное приложение Scan — сочетает в себе всё самое лучшее, что представлено сегодня в обозначенном направлении. Оно быстро и качественно справится с преобразованием рукописных заметок в редактируемый текст, не потребовав при этом за выполненную работу ни цента.

 blogs.adobe.com

blogs.adobe.com

Программа Adobe Scan интуитивно понятна и проста в обращении: от пользователя потребуется лишь одно базовое действие, после чего в дело вступит продвинутый программный алгоритм. Посредством камеры мобильного гаджета Adobe Scan захватывает область с текстом, а затем система автоматически преобразует её в страницу PDF-файла. Не покидая приложения, текст из PDF-документа можно будет сразу же и отредактировать. Благодаря технологии оптического распознавания символов стали возможными не только внесение правок, но и быстрый поиск по ключевым словам.

Adobe Scan полностью бесплатна и не имеет каких-либо ограничений в функциональном плане. Приложение, доступное для загрузки через App Store и Google Play, справляется с конвертацией многостраничных документов за считанные секунды.

Единственным нюансом, на который стоит обратить внимание пользователям Adobe Scan, значится способ резервного хранения преобразованного в PDF текста. Программа самостоятельно размещает отсканированные материалы в облачном хранилище Adobe Document Cloud, чтобы обеспечить оперативный доступ к ним со сторонних устройств без использования чужих сервисов.

Logitech K840: механическая клавиатура для набора текстов

Обычно, если речь заходит о клавиатурах с механическими переключателями, то на ум сразу приходят решения для геймеров. Однако на самом деле качественная клавиатура с «механикой» не меньше нужна и тем, кому приходится много печатать. Именно на последнюю категорию пользователей рассчитана Logitech K840.

На первый взгляд Logitech K840 очень похожа на игровую модель G413 этой же компании. Однако в силу своего «офисного» позиционирования K840 лишена заменяемых колпачков кнопок WASD, возможности подключать устройства через переходной USB-порт и LED-подсветки. Тем не менее, в ней всё также применяются механические переключатели Romer-G со сроком службы 70 млн нажатий и корпус из анодированного алюминия.

Присутствуют также поддержка до 26 одновременных нажатий и функция блокировки клавиши Windows во избежание её случайного срабатывания. Иными словами, новинка подойдёт и тем, кто после работы любит поиграть в компьютерные игры. Рекомендуемая производителем розничная цена Logitech K840 составляет $80, однако о дате начала поставок пока ничего не сообщается.

Facebook* позволит набирать текст силой мысли

Facebook* представила проект исследовательской группы Building 8, которая разрабатывает интерфейс, позволяющий набирать текст силой мысли. Анонс сделала Регина Дуган (Regina Dugan), бывший директор Управления перспективных исследовательских проектов Министерства обороны США (DARPA) и бывший глава экспериментальной группы Google, ATAP, в рамках конференции F8.

Дуган, которая возглавляет Building 8, заявила, что цель команды — создать нечто простое, дающее возможность с помощью мозга давать команды «Да» и «Нет». По её словам, это может в корне изменить то, как люди взаимодействуют c технологиями.

Она рассказала о «мозговой мыши для дополненной реальности». Технология может стать идеальным методом получения прямого сигнала нейронной активности, что избавит от необходимости использовать устройства дополненной реальности для отслеживания движений рук и других частей тела. Устройство также может пригодиться пациентам с тяжёлым параличом, выступая как «речевой протез».

Дуган отметила, что компания не собирается вторгаться в мысли людей. Речь идёт скорее о «декодировании слов, которые вы уже решили произнести, посредством их отправки в центр речи вашего мозга». Facebook* сравнивает это с ситуацией, когда у человек есть много фотографий и он решает поделиться с друзьями лишь некоторыми из них.

Facebook* не планирует создавать какой-либо инвазивный имплантат. «Мы думаем, лучше всего начинать с оптической визуализации», — заявила Дуган. Использование нейронной визуализации может быть единственным неинвазивным подходом, который позволит передавать данные о нейронной активности во входы электронных устройств, говорит она. Это может быть что-то вроде шапочки, которую человек носит на голове. Но технология пока не существует, а на её разработку уйдут годы.

Над прототипом в виде имплантируемого устройства для медицинских целей сейчас работает команда более чем из 60 учёных и инженеров Калифорнийского университета в Сан-Франциско, Калифорнийского университета в Беркли и ряда других учреждений. Этот прототип хотят создать в течение следующих двух лет. Долгосрочная цель — разработать неинвазивное коммерческое нейронное устройство, которое будет использовать технологии визуализации мозга.


* Внесена в перечень общественных объединений и религиозных организаций, в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25.07.2002 № 114-ФЗ «О противодействии экстремистской деятельности».

Виртуальная клавиатура от Google позволит набирать сообщения силой мысли

Google сильно продвинулась в разработке «умных» клавиатур: приложение Gboard, например, умеет предугадывать слова, которые пользователь только собирается напечатать, и предлагает эмодзи по ситуации. Но на этом компания останавливаться не собирается и скоро выпустит клавиатуру, которая читает мысли и сама вводит текст.

Приложение выйдет на iOS и Android и получит название Mindkeys. В плане интерфейса оно практически не отличается от Gboard. Для того чтобы пользоваться продуктом, придётся приобрести специальный датчик, который устанавливается за ухом и считывает мозговые импульсы.

 TechFaster

TechFaster

Google разработала продвинутую систему машинного обучения, которой достаточно десяти минут, чтобы выучить все привычки пользователя и понять, как он мыслит. По словам компании, излучение датчика может быть опасно при долгом использовании. Поэтому ей пришлось создать технологию, которая изучает пользователя за короткий промежуток времени.

Mindkeys потребует установить датчик за ухом всего один раз: он перенесёт всю нужную информацию по Bluetooth, после чего устройство можно будет отдать другому человеку. Google осознаёт, что датчик, стоимость которого составляет $50, сможет себе позволить не каждый, поэтому предлагает покупать его «вскладчину».

 Droid Life

Droid Life

После завершения настройки пользователю нужно будет только указать тематику диалога, чтобы клавиатура сама начала вводить текст. При использовании приложения с поиском Google тематику указывать не нужно: движок определяет её по первому слову запроса.

Клавиатура поддерживает и традиционный способ ввода. Но даже при ручном наборе пользователь сможет сразу ощутить силу предиктивных технологий Google.

Мессенджер Supersonic Fun Voice преобразует речь в текст и сам расставит «смайлы»

В современную цифровую эпоху эмоции при виртуальном текстовом общении лучше всего передают не слова или символы, а «смайлы». Выражающая гнев или радость иконка многим и вовсе заменяет традиционное общение. Разработчики мобильного мессенджера Supersonic Fun Voice Messenger решили предложить своим пользователям не просто ещё один сервис по обмену сообщениями, а услугу, которая бы смогла распознать ваше эмоциональное состояние и передать его собеседнику.

На первый взгляд приложение Supersonic Fun Voice Messenger, доступное владельцам гаджетами с iOS и Android, представляет собой классический мессенджер. Однако его «изюминка» кроется в методе отправки текстовых сообщений, которые не нужно печатать на экранной или любой другой клавиатуре. Набор текста здесь осуществляется только голосом и никак иначе.

 www.androidheadlines.com

www.androidheadlines.com

При этом разработчики из Area 120 — авторы Supersonic Fun Voice Messenger и по совместительству сотрудники корпорации Google — сделали «фишкой» мессенджера другую его особенность. Во время голосового набора программа распознаёт эмоциональный окрас фразы и автоматически ставит те самые «смайлы» для придания соответствующей интонации. «Смайлы» появляются в конце предложения, символизируя или вложенные в фразу чувства, или подчёркивая ключевое слово.

Supersonic Fun Voice Messenger дублирует все отправленные сообщения в двух вариациях, предлагая собеседнику или прочитать распознанный приложением текст, или прослушать оригинальную голосовую запись. Возможна организация групповых бесед.

Мессенджер Supersonic Fun Voice Messenger доступен для загрузки в iTunes App Store и Google Play на бесплатной основе.

window-new
Soft
Hard
Тренды 🔥