В блоге разработчиков Google появилось подробное описание свежего обновления спам-фильтров почтового сервиса Gmail. В компании его называли «одним из крупнейших обновлений системы защиты за последние годы».
Речь идёт об интеграции в почтовую службу новой системы классификации текстов Resilient & Efficient Text Vectorizer (RETVec). По словам разработчиков, она эффективно определяет спам-сообщения, включая электронные письма с большим количеством специальных символов, смайлов, опечаток и других элементов, которые прежде были различимы для человека, но трудно определяемы для спам-фильтров. Согласно имеющимся данным, новый алгоритм эффективно определяет, в том числе, сообщения с гомоглифами, т.е. графически сильно похожими друг на друга знаками, разными по значению.
По данным Google, алгоритм RETVec обучен для эффективного выявления сообщений, в которых содержится текст, подвергавшийся каким-либо манипуляциям, включая вставку или удаление символов, опечатки, гомоглифы и др. Алгоритм обучался с использованием продвинутого кодировщика, способного эффективного кодировать любые символы и слова в формате UTF-8. В итоге разработчики получили алгоритм, который «из коробки» работает на более чем 100 языках мира.
RETVec, судя по всему, во-многом работает также, как читают люди. Алгоритм построен на базе ИИ-фреймворка TensorFlow и в процессе его работы определяется визуальное «сходство» для определения значения слов, а не символы, из которых они фактически состоят. По данным Google, замена используемого ранее текстового векторизатора Gmail на RETVec позволила повысить уровень обнаружения спама по сравнению с базовым на 38 %, а количество ложных срабатываний уменьшилось на 19,4 %. При этом количество используемых моделью тензорных вычислительных процессоров (TPU) снизилось на 83 %, что делает нынешнее обновление одним из крупнейших для системы защиты Gmail за последние годы.