Сегодня 14 июля 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

«Яндекс» научил нейросеть расшифровывать архивные документы даже с дореволюционной орфографией

Специалисты «Яндекса» обучили нейросети расшифровке архивных записей — теперь препятствиями не являются ни рукописный текст, ни дореволюционная орфография. Поработать с технологией можно уже сейчас, открыв службу «Поиск по архивам», в которой доступны более 2,5 млн страниц исторических документов и их текстовая расшифровка.

 Источник изображения: Яндекс

Источник изображения: Яндекс

Нейросеть была обучена при помощи сотен тысяч рукописных строк в реальных архивных документах, датированных с XVIII по XIX вв., а также десятков миллионов примеров, которые были сгенерированы. В работе участвовали эксперты — они производили расшифровку и разметку документов, а также контролировали качество работы системы. Прочитать такие рукописи неподготовленному человеку очень сложно, но нейросеть «Яндекса» справляется с задачей почти мгновенно. При наличии расшифровки появилась возможность быстро находить документы с упоминанием ключевых слов, например, названий населённых пунктов и фамилий.

Служба «Поиск по архивам» поможет в работе историкам, социологам, демографам и генеалогам, а также тем, кто не обладает профессиональной подготовкой, но хочет больше узнать об истории своей семьи. Первыми в базе появились материалы Главархива Москвы, потому что нейросеть обучали на них; впоследствии коллекция пополнилась документами из архивов Оренбургской и Новгородской областей. Со временем к проекту подключатся и другие архивы, документов станет больше.

Сейчас в поиске доступны материалы с XVIII до начала XX вв. — они наиболее популярны у пользователей. В базе есть метрические книги, исповедные ведомости, а также ревизские сказки, в которые внесены результаты переписи населения. Документы открываются как по каталогу, так и через поисковую строку — на странице приводится скан листа и его построчная расшифровка с подсветкой при наведении.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Вечерний 3DNews
Каждый будний вечер мы рассылаем сводку новостей без белиберды и рекламы. Две минуты на чтение — и вы в курсе главных событий.
Материалы по теме
Прежде чем оставить комментарий, пожалуйста, ознакомьтесь с правилами комментирования. Оставляя комментарий, вы подтверждаете ваше согласие с данными правилами и осознаете возможную ответственность за их нарушение.
Все комментарии премодерируются.
Комментарии загружаются...

window-new
Soft
Hard
Тренды 🔥
Сотрудники OpenAI обвинили компанию в препятствовании огласке о рисках ИИ 2 ч.
Новая статья: Anger Foot — где мои кроссовки? Рецензия 8 ч.
Новая статья: Gamesblender № 682: закрытие авторов «Готики», подорожание Game Pass и маркировка игр в России 9 ч.
MWS увеличила выручку от облака в I квартале на 32 % 10 ч.
Razer добавила киберспортивным мышам динамическую чувствительность и поддержку движения под углом 15 ч.
ИИ повышает индивидуальную креативность, но ухудшает качество материалов в целом 15 ч.
«Это не игра, это набор бессвязных механик»: аудитория The First Descendant превысила 10 млн игроков, но проблем у шутера пока хватает 16 ч.
OpenAI так и не разрешила некоторые вопросы безопасности ИИ 21 ч.
ЕС утвердил Закон об ИИ: в числе запретов извлечение изображений лиц из интернета 13-07 05:20
Еврокомиссия замахнулась на X Илона Маска: соцсеть обвинили в обмане из-за синей галочки 13-07 02:16
Google провела кадровые перестановки для возрождения AR-устройств, но уже на основе ИИ 33 мин.
Тайваньские производители в июне хорошо заработали на буме ИИ 56 мин.
BlackRock: ИИ — это новая промышленная революция, которая подстегнёт быстрое развитие ЦОД 10 ч.
Американские производители оборудования для выпуска чипов нарастили поставки в Китай, несмотря на санкции 13 ч.
Asus представила третью версию GeForce RTX 4060 Dual с уменьшенными вентиляторами 14 ч.
Суд в США отклонил иск к Apple по поводу закрытой экосистемы и завышенных цен на iPhone 18 ч.
В Сан-Франциско начинает курсировать первый в мире пассажирский паром на водородном топливе 19 ч.
Учёные создали дистилляционный костюм для астронавтов почти как в «Дюне» — он делает питьевую воду из мочи 21 ч.
ИИ-гаджет Rabbit R1 сохранял переписку с пользователями без возможности её удалить 21 ч.
SpaceX запросила пятикратное увеличение частоты запусков Starship в Техасе 24 ч.