Скоростной облачный оптимизированный веб-паук — это программа для вертикального сбора веб-страниц с сайта, предоставляющая пользовательский интерфейс для управления сайтами для сбора и правилами сбора статей.
Сбор данных осуществляется с помощью jsoup. Заголовки и содержимое собираются с использованием селекторов. Извлечение ссылок выполняется с применением регулярных выражений. Например, http://www.runoob.com/java/[\w|\d|-]+.html
представляет собой соответствие адресу, заканчивающемуся на html и содержащему любые символы после java/.
Селектор заголовков: #content>h1
, что означает получение содержимого тега h1 под элементом с идентификатором content.
Селектор содержимого: #content
, что означает извлечение содержимого элемента с идентификатором content. Собранные данные сохраняются в базе данных (конкретная таблица — page_info).
Для дополнительных правил извлечения страниц можно создавать собственные плагины в пакете com.suyunyou.spider.plugins.page
. Для использования необходимо добавить их в метод SpiderUtil.addSiteFetcherPage(...)
.
Плагины для дополнительных правил извлечения ссылок можно создавать в пакете com.suyunyou.spider.plugins.link
.
Извлечение информации о публичных аккаунтах WeChat осуществляется с помощью плагина LinkWeixinPlugin
.
Начальная программа включает создание базы данных с именем spider и учётной записью root с паролем root. Структура таблицы создаётся автоматически при запуске программы.
Соединение с базой данных настраивается в файле application.properties
. Затем запускается Redis с изменением конфигурации в файле resources/application.properties
. После этого выполняется скрипт doc/init.sql
для инициализации тестовых данных паука.
Адрес входа: http://127.0.0.1:6080/
Логин: admin
Пароль: 123456
Страница управления веб-сайтом:
Страница управления правилами веб-сайта:
Страница управления ссылками:
Страница управления содержимым:
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Комментарии ( 0 )