1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/yuejing-suyunyou-spider

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
В этом репозитории не указан файл с открытой лицензией (LICENSE). При использовании обратитесь к конкретному описанию проекта и его зависимостям в коде.
Клонировать/Скачать
Внести вклад в разработку кода
Синхронизировать код
Отмена
Подсказка: Поскольку Git не поддерживает пустые директории, создание директории приведёт к созданию пустого файла .keep.
Loading...
README.md

速云优网络爬虫 — Функциональное описание

Скоростной облачный оптимизированный веб-паук — это программа для вертикального сбора веб-страниц с сайта, предоставляющая пользовательский интерфейс для управления сайтами для сбора и правилами сбора статей.

Сбор данных осуществляется с помощью jsoup. Заголовки и содержимое собираются с использованием селекторов. Извлечение ссылок выполняется с применением регулярных выражений. Например, http://www.runoob.com/java/[\w|\d|-]+.html представляет собой соответствие адресу, заканчивающемуся на html и содержащему любые символы после java/.

Селектор заголовков: #content>h1, что означает получение содержимого тега h1 под элементом с идентификатором content.

Селектор содержимого: #content, что означает извлечение содержимого элемента с идентификатором content. Собранные данные сохраняются в базе данных (конкретная таблица — page_info).

Для дополнительных правил извлечения страниц можно создавать собственные плагины в пакете com.suyunyou.spider.plugins.page. Для использования необходимо добавить их в метод SpiderUtil.addSiteFetcherPage(...).

Плагины для дополнительных правил извлечения ссылок можно создавать в пакете com.suyunyou.spider.plugins.link.

Извлечение информации о публичных аккаунтах WeChat осуществляется с помощью плагина LinkWeixinPlugin.

Начальная программа

Начальная программа включает создание базы данных с именем spider и учётной записью root с паролем root. Структура таблицы создаётся автоматически при запуске программы.

Соединение с базой данных настраивается в файле application.properties. Затем запускается Redis с изменением конфигурации в файле resources/application.properties. После этого выполняется скрипт doc/init.sql для инициализации тестовых данных паука.

Логин

Адрес входа: http://127.0.0.1:6080/

Логин: admin

Пароль: 123456

Страницы администрирования веб-пауком

Завершённые функции

  • Разработка функций управления ссылками, включая возможность массового удаления ссылок.
  • Связывание статей и доменов.
  • Создание предварительного просмотра списка содержимого веб-сайтов.
  • Добавление веб-сайтов в управление веб-страницами.
  • Определение правил извлечения содержимого.
  • Определение формата извлекаемого содержимого.
  • Анализ и загрузка соответствующих страниц в память на основе предоставленных ссылок.

Функции в разработке

  • Распределённая обработка:
    • Перезапуск паука.
    • Распределение адресов веб-страниц.

Комментарии ( 0 )

Вы можете оставить комментарий после Вход в систему

Введение

Программа вертикального парсинга веб-страниц сайта предоставляет интерфейс пользователя (UI) для управления парсингом сайтов и правилами сбора содержимого статей. Для получения заголовков и контента используется библиотека jsoup, основной метод — выбор элементов с помощью селекторов. Развернуть Свернуть
Отмена

Обновления

Пока нет обновлений

Участники

все

Недавние действия

Загрузить больше
Больше нет результатов для загрузки
1
https://api.gitlife.ru/oschina-mirror/yuejing-suyunyou-spider.git
git@api.gitlife.ru:oschina-mirror/yuejing-suyunyou-spider.git
oschina-mirror
yuejing-suyunyou-spider
yuejing-suyunyou-spider
master