Сегодня 04 апреля 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

На просторах даркнета обучили ИИ-модель DarkBERT, но предназначена она для науки

Исследователи Корейского института науки и технологий (KAIST) создали ИИ-модель DarkBERT для поиска «ценных научных сведений» в даркнете. Нейросеть имеет для этого специальные фильтры, призванные оградить пользователей от нежелательной информации.

 Источник изображения: freepik

Источник изображения: freepik

DarkBERT основан на архитектуре RoBERTa, разработанной ещё в 2019 году. Она пережила своего рода ренессанс, и исследователи обнаружили, что на самом деле данная архитектура даёт больше производительности, чем можно было извлечь из неё ранее. Чтобы обучить ИИ-модель, исследователи просканировали даркнет через анонимный брандмауэр сети Tor, а затем отфильтровали необработанные данные, применив методы дедупликации, балансировки категорий и предварительной обработки данных с целью создания необходимого для обучения массива информации. Результатом проделанной работы стал DarkBERT, который может анализировать фрагменты контента из даркнета и извлекать из него полезную информацию.

Одной из основных характеристик больших языковых моделей (LLM) является понимание языка. В даркнете используется весьма специфическая смесь языков для делового общения, и DarkBERT был обучен именно на ней. Исследование показало, что DarkBERT превосходит другие большие языковые модели, что должно позволить исследователям безопасности и правоохранительным органам глубже проникнуть в даркнет.

Как и в случае с другими LLM, это не означает, что работа над DarkBERT закончена. По заявлениям исследователей, они намерены продолжить дальнейшее обучение и настройку модели, чтобы улучшить её результаты.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Трамп заявил, что сделка с TikTok близка к заключению, и тарифы могут пригодиться в переговорах с Китаем 52 мин.
Amazon добавила ИИ-функцию кратких обзоров книг Kindle, но предупредила о спойлерах 4 ч.
Инвесторы потребовали от Ubisoft пересмотреть условия сделки с Tencent и готовы добиваться своего через суд 9 ч.
Microsoft запустила собственный ИИ-поисковик Copilot Search 9 ч.
Спустя почти пять лет после дебюта на консолях The Last of Us Part II наконец вышла на ПК 10 ч.
ЕС оштрафует TikTok на €500 млн за передачу данных европейцев в Китай 11 ч.
Представлена ранняя ПК-версия российской ОС «Аврора» — на ней уже запускается Telegram и не только 12 ч.
«РТК ИТ Плюс» пополнила ИТ-экосистему «Лукоморье» тремя новыми продуктами 13 ч.
Microsoft подтвердила дату выхода GTA V в PC Game Pass — подписчики получат доступ к GTA V Enhanced 13 ч.
Новый контент в Elden Ring: Tarnished Edition для Nintendo Switch 2 появится и на других платформах 14 ч.
Intel и TSMC почти договорились работать вместе 8 ч.
Новая статья: Обзор блока питания Formula V Line APMM-1000GM 8 ч.
Большой адронный коллайдер собрал базу для выхода за пределы известной физики 11 ч.
Восьмиядерные CPU стали самыми популярными в мире по статистике CPU-Z — AMD стремительно отбирает рынок у Intel и Nvidia 11 ч.
Apple потеряла $250 млрд стоимости за день — пошлины Трампа обвалили акции техногигантов 13 ч.
Nintendo Switch 2 получила поддержку трассировки лучей и DLSS, но их появление в играх зависит от разработчиков 13 ч.
Nikon представила полнокадровую камеру Z5 II с улучшенным автофокусом и повышенной скоростью съёмки за $1700 13 ч.
«Акустическое совершенство»: Bang & Olufsen представила каменную колонку Beosound Balance Natura 13 ч.
У россиян вырос интерес к планшетам — продажи подскочили на 15 % в первом квартале 14 ч.
Samsung выпустила 20-метровые телевизоры для кинотеатров Onyx 15 ч.