1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/daqiangge-SpiderV

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
Клонировать/Скачать
README.md 4.4 КБ
Копировать Редактировать Web IDE Исходные данные Просмотреть построчно История
gitlife-traslator Отправлено 26.11.2024 03:44 3a48bfc

SpiderV

Описание: Приложение предназначено для сбора данных с вертикальных веб-сайтов. Система после простой настройки может выполнять типичную последовательность действий «условие выбора» —> «поиск» —> «сбор данных списка». Часть извлечения можно реализовать самостоятельно, используя JSOUP. Классы реализации должны быть помещены в папку (com/yzq/os/spider/v/service/spider/impl).

Система поддерживает кластерный режим работы. Весь код серверов унифицирован и может автоматически синхронизироваться и управляться. Уникальный хост определяется по конфигурации в базе данных, и хост отвечает за некоторые повседневные действия инициализации и очистки. На каждом сервере можно настроить автоматическое выполнение задач по сбору данных.

В соответствии с параметрами поиска система автоматически генерирует комбинации поисковых URL. После первого запуска результаты поиска могут быть сохранены, а при следующем запуске данные будут взяты из сохранённых URL, что позволяет сократить количество ненужных запросов.

После успешного ручного запуска можно настроить периодическое выполнение задачи, запуская её каждый день по расписанию.

Управление приложением осуществляется через maven, а само приложение использует кодировку UTF-8.

Требования к программному обеспечению: Linux, JDK 1.6, Tomcat 6+, MySQL 5.5+ (с использованием InnoDB-движка и кодировки UTF-8 для базы данных).

Установка, развёртывание и запуск: 1. Сначала загрузите исходный код проекта. 2. В зависимости от вашей ситуации внесите изменения в файл properties. 3. Запустите maven для создания пакета war. 4. Разверните пакет в каталоге webapps на Tomcat. 5. Создайте учётную запись MySQL и выполните файлы /scripts/create_database.sql и /scripts/init.sql (необходимо изменить их в соответствии с вашей ситуацией). 6. Проанализируйте веб-сайты, которые вы хотите собрать данные. Это можно сделать с помощью класса WebSiteCrawlTest (для сбора конфигурационных данных). 7. Настройте параметры поискового движка и параметры поиска. 8. Выберите класс для извлечения данных, например, com.yzq.os.spider.v.service.spider.impl.DemoCrawlTask. 9. Инициализируйте параметры поискового URL: http://localhost:8080/SpiderVertical/admin/createurl/form. 10. Выполните сбор данных: http://localhost:8080/SpiderVertical/admin/spider/form. 11. Просмотрите ход выполнения: http://localhost:8080/SpiderVertical/admin/statis. 12. После завершения сбора просмотрите результаты: http://localhost:8080/SpiderVertical/admin/spider/view_tables.

Примечание: при использовании системы соблюдайте протокол Robots.

Если у вас есть вопросы, отправьте сообщение по электронной почте на адрес xingyu_yzq@163.com.

Опубликовать ( 0 )

Вы можете оставить комментарий после Вход в систему

1
https://api.gitlife.ru/oschina-mirror/daqiangge-SpiderV.git
git@api.gitlife.ru:oschina-mirror/daqiangge-SpiderV.git
oschina-mirror
daqiangge-SpiderV
daqiangge-SpiderV
master