Эта большая языковая модель была обучена в даркнете для оценки угроз кибербезопасности. Вот что вам нужно знать.
Популярность больших языковых моделей (LLM) стремительно растет, и на сцену постоянно выходят новые. Эти модели, такие как ChatGPT, обычно обучаются на различных интернет-источниках, включая статьи, веб-сайты, книги и социальные сети.
Предприняв беспрецедентный шаг, команда южнокорейских исследователей разработала DarkBERT, LLM, обученную на наборах данных, взятых исключительно из даркнета. Их цель состояла в том, чтобы создать инструмент искусственного интеллекта, который превосходит существующие языковые модели и помогает исследователям угроз, правоохранительным органам и специалистам по кибербезопасности в борьбе с киберугрозами.
Что такое DarkBERT?
DarkBERT — это модель кодировщика на основе преобразователя, основанная на архитектуре RoBERTa. LLM прошел обучение на миллионах темных веб-страниц, включая данные с хакерских форумов, мошеннических веб-сайтов и других онлайн-источников, связанных с незаконной деятельностью.
Термин «темная паутина» относится к скрытому интернет-разделу. недоступны через стандартные веб-браузеры. Подраздел известен тем, что укрывает анонимные веб-сайты и торговые площадки, печально известные незаконной деятельностью, такой как торговля украденными данными, наркотиками и оружием.
Для обучения DarkBERT исследователи получили доступ к темной паутине через сеть Tor и собрал необработанные данные. Они тщательно отфильтровали эти данные, используя такие методы, как дедупликация, балансировка категорий и предварительная обработка. создать усовершенствованную базу данных даркнета, которая затем передавалась в RoBERTa в течение примерно 15 дней для создания ДаркБЕРТ.
Возможное использование DarkBERT в кибербезопасности
DarkBERT прекрасно понимает язык киберпреступников и превосходно определяет конкретные потенциальные угрозы. Он может исследовать темную сеть и успешно выявлять и помечать угрозы кибербезопасности, такие как утечка данных и программы-вымогатели, что делает его потенциально полезным инструментом для борьбы с киберугрозами.
Чтобы оценить эффективность DarkBERT, исследователи сравнили его с двумя известными моделями НЛП: BERT и RoBERTa, оценивая их производительность в трех важнейших случаях использования, связанных с кибербезопасностью, исследование, Опубликовано arxiv.org, указывает.
1. Мониторинг темных веб-форумов на наличие потенциально опасных тем
Мониторинг темных веб-форумов, которые обычно используются для обмена незаконной информацией, имеет решающее значение для выявления потенциально опасных тем. Однако просмотр их вручную может занять много времени, что делает автоматизацию процесса полезной для экспертов по безопасности.
Исследователи сосредоточились на потенциально опасных действиях на хакерских форумах, разработав правила аннотирования. для заслуживающих внимания потоков, включая обмен конфиденциальными данными и распространение критических вредоносных программ или уязвимости.
DarkBERT превзошел другие языковые модели с точки зрения точности, отзыва и оценки F1, став лучшим выбором для выявления заслуживающих внимания тем в даркнете.
2. Обнаружение сайтов, на которых размещена конфиденциальная информация
Хакеры и группы вымогателей используют темную сеть для создания сайтов утечки, где они публикуют конфиденциальные данные, украденные у организаций, которые отказываются выполнять требования о выкупе. Другие киберпреступники просто загружают утечку конфиденциальных данных, таких как пароли и финансовая информация, в темную сеть с намерением продать их.
В своем исследовании исследователи собрали данные из печально известные группы вымогателей и проанализировали сайты утечки программ-вымогателей, которые публикуют личные данные организаций. DarkBERT превзошел другие языковые модели в идентификации и классификации таких сайтов, продемонстрировав свое понимание языка, используемого на подпольных хакерских форумах в даркнете.
DarkBERT использует функцию заполнения маски, неотъемлемую особенность языковых моделей семейства BERT, для точного определения ключевых слов, связанных с незаконной деятельностью, включая продажу наркотиков в даркнете.
Когда слово «МДМА» было замаскировано на странице продажи наркотиков, DarkBERT генерировал слова, связанные с наркотиками, тогда как другие модели предлагали общие слова и термины, не связанные с наркотиками, например, различные профессии.
Способность DarkBERT идентифицировать ключевые слова, связанные с незаконными действиями, может быть полезна при отслеживании и устранении возникающих киберугроз.
Доступен ли DarkBERT для широкой публики?
DarkBERT в настоящее время недоступен для общественности, но исследователи открыты для запросов на его использование в академических целях.
Используйте возможности ИИ для обнаружения и предотвращения угроз
DarkBERT был предварительно обучен на данных даркнета и превосходит существующие языковые модели в нескольких случаях использования кибербезопасности, позиционируя себя как важнейший инструмент для продвижения исследований даркнета.
Обученный даркнету ИИ может использоваться для решения различных задач кибербезопасности, в том числе для выявления веб-сайтов, продающих утечку информации. конфиденциальные данные, мониторинг темных веб-форумов для обнаружения незаконного обмена информацией и определение ключевых слов, связанных с кибербезопасностью. угрозы.
Но вы всегда должны помнить, что, как и другие LLM, DarkBERT находится в стадии разработки, и его производительность можно улучшить за счет постоянного обучения и тонкой настройки.