1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/cloudopt-baize

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
Клонировать/Скачать
README.md 5.7 КБ
Копировать Редактировать Web IDE Исходные данные Просмотреть построчно История
gitlife-traslator Отправлено 28.11.2024 17:57 5e682f7

Байзе (Baize) — это движок конфиденциальности на основе машинного обучения, который работает непосредственно в браузере, блокируя скрипты отслеживания и вредоносные рекламные скрипты. Разработанный на JavaScript, он может работать в Node.js и в среде браузера.

Традиционная фильтрация выполняется с использованием правил фильтрации, но они основаны на ручных обновлениях от организаций с открытым исходным кодом, государственных служб или отдельных лиц и требуют больших трудозатрат для поддержания. Мы предлагаем автоматический и эффективный подход машинного обучения на основе интеграционного обучения, имитирующий эвристический механизм антивирусного программного обеспечения. Многомерные характеристики скриптов используются для изучения и создания классификаторов для блокировки скриптов отслеживания и вредоносных рекламных скриптов.

Оценка эффективности

Мы собрали все веб-запросы с домашней страницы 100 лучших веб-сайтов Alexa, всего 11764 строки для обучения. Чтобы получить лучший результат тестирования, мы выбрали некоторые известные веб-сайты в Китае, которые не включены в обучающий набор, и общее количество веб-запросов составило 760 строк.

Мы протестировали данные в обучающем наборе, и Байзе достиг точности 91,8%. Он смог идентифицировать большинство вредоносных запросов с точностью 65%.

Название Точность AUC Отзыв
Байзе 91.8% 78.3% 80.2%

В большинстве случаев для прогнозирования безопасности сетевого запроса требуется всего 0,1 мс.

Функции

Для обучения и прогнозирования мы выбрали следующие восемь функций. Байзе может автоматически преобразовать URL в массив функций в большинстве случаев.

Функция Описание
Домен Доменное имя
Сторонний Является ли запрос сторонним?
Тип Тип запроса
Корневой домен Корневой домен
Длина пути Длина пути запроса
Количество параметров запроса Количество параметров запроса
AdWords Соответствие общему правилу?
Субдомен Является ли это субдоменом?

Выбор модели

Мы проверили почти каждый интегрированный алгоритм обучения на рынке, учитывая время обучения, производительность прогнозирования, размер файла и совместимость с браузерами, и наконец выбрали AdaBoost.

AdaBoost, сокращённо от Adaptive Boosting, представляет собой метаалгоритм машинного обучения, сформулированный Йоавом Фройндом и Робертом Шапиром, получившими премию Гёделя 2003 года за свою работу. Его можно использовать в сочетании со многими другими типами алгоритмов обучения для повышения производительности. Выходные данные других алгоритмов обучения («слабых учеников») объединяются в взвешенную сумму, которая представляет окончательный результат усиленного классификатора. AdaBoost является адаптивным в том смысле, что последующие слабые ученики настраиваются в пользу тех экземпляров, которые были неправильно классифицированы предыдущими классификаторами. AdaBoost чувствителен к зашумлённым данным и выбросам. В некоторых задачах он может быть менее подвержен проблеме переобучения, чем другие алгоритмы обучения. Отдельные ученики могут быть слабыми, но пока производительность каждого из них немного лучше случайного угадывания, можно доказать, что окончательная модель сходится к сильному ученику.

Опубликовать ( 0 )

Вы можете оставить комментарий после Вход в систему

1
https://api.gitlife.ru/oschina-mirror/cloudopt-baize.git
git@api.gitlife.ru:oschina-mirror/cloudopt-baize.git
oschina-mirror
cloudopt-baize
cloudopt-baize
master