Сегодня 30 апреля 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

На просторах даркнета обучили ИИ-модель DarkBERT, но предназначена она для науки

Исследователи Корейского института науки и технологий (KAIST) создали ИИ-модель DarkBERT для поиска «ценных научных сведений» в даркнете. Нейросеть имеет для этого специальные фильтры, призванные оградить пользователей от нежелательной информации.

 Источник изображения: freepik

Источник изображения: freepik

DarkBERT основан на архитектуре RoBERTa, разработанной ещё в 2019 году. Она пережила своего рода ренессанс, и исследователи обнаружили, что на самом деле данная архитектура даёт больше производительности, чем можно было извлечь из неё ранее. Чтобы обучить ИИ-модель, исследователи просканировали даркнет через анонимный брандмауэр сети Tor, а затем отфильтровали необработанные данные, применив методы дедупликации, балансировки категорий и предварительной обработки данных с целью создания необходимого для обучения массива информации. Результатом проделанной работы стал DarkBERT, который может анализировать фрагменты контента из даркнета и извлекать из него полезную информацию.

Одной из основных характеристик больших языковых моделей (LLM) является понимание языка. В даркнете используется весьма специфическая смесь языков для делового общения, и DarkBERT был обучен именно на ней. Исследование показало, что DarkBERT превосходит другие большие языковые модели, что должно позволить исследователям безопасности и правоохранительным органам глубже проникнуть в даркнет.

Как и в случае с другими LLM, это не означает, что работа над DarkBERT закончена. По заявлениям исследователей, они намерены продолжить дальнейшее обучение и настройку модели, чтобы улучшить её результаты.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Релиз амбициозного китайского боевика Lost Soul Aside отложили на три месяца — объявлена новая дата выхода 2 ч.
Криптобиржу Grinex заподозрили в связях с заблокированной российской биржей Garantex 3 ч.
Reddit заблокировала учёных за тайный эксперимент с ИИ-ботами в дискуссиях 5 ч.
OpenAI откатила обновление ChatGPT из-за подхалимского поведения ИИ 6 ч.
Mozilla Firefox представила долгожданную функцию разделения профилей, как в Chrome 6 ч.
Маск объявил скорый выход Grok 3.5 — размышляющего ИИ, который будет «создавать ответы с нуля» без интернета 12 ч.
Московский суд оштрафовал Blizzard на 600 тысяч рублей за нарушение правил работы в России 12 ч.
Electronic Arts отменила эвакуационный шутер по Titanfall и устроила новую волну сокращений в Respawn 13 ч.
Meta похвасталась, что число загрузок ИИ-моделей Llama перевалило за 1,2 млрд 13 ч.
ИИ-блокнот Google NotebookLM заговорил на русском и ещё более чем 50 языках 14 ч.
США собрались пересмотреть экспортные ограничения на ИИ-чипы, но вряд ли остальным странам станет от этого лучше 19 мин.
AWS построит в Индиане дата-центр, который будет потреблять энергии как половина населения штата 3 ч.
Выручка Seagate выросла на 31 % и превзошла ожидания аналитиков 3 ч.
Ракета Firefly Alpha доставила спутник в Тихий океан вместо орбиты — всему виной загадочный сбой 4 ч.
Прибыль Samsung в полупроводниковом секторе упала на 42 % из-за санкций и низких цен 5 ч.
TSMC приступила к строительству третьего предприятия в штате Аризона 6 ч.
Новая статья: Гид по выбору складного смартфона в 2025 году 11 ч.
Inventec вложит до $85 млн в производство серверов в Техасе 13 ч.
Европейская ракета Vega-C вывела в космос научный спутник ESA Biomass для подсчёта лесов на планете 13 ч.
SilverStone выпустила блок питания мощностью 2500 Вт, которых хватит на трио RTX 5090 или квартет RTX 5080 13 ч.