SpiderV
Описание: Приложение предназначено для сбора данных с вертикальных веб-сайтов. Система после простой настройки может выполнять типичную последовательность действий «условие выбора» —> «поиск» —> «сбор данных списка». Часть извлечения можно реализовать самостоятельно, используя JSOUP. Классы реализации должны быть помещены в папку (com/yzq/os/spider/v/service/spider/impl).
Система поддерживает кластерный режим работы. Весь код серверов унифицирован и может автоматически синхронизироваться и управляться. Уникальный хост определяется по конфигурации в базе данных, и хост отвечает за некоторые повседневные действия инициализации и очистки. На каждом сервере можно настроить автоматическое выполнение задач по сбору данных.
В соответствии с параметрами поиска система автоматически генерирует комбинации поисковых URL. После первого запуска результаты поиска могут быть сохранены, а при следующем запуске данные будут взяты из сохранённых URL, что позволяет сократить количество ненужных запросов.
После успешного ручного запуска можно настроить периодическое выполнение задачи, запуская её каждый день по расписанию.
Управление приложением осуществляется через maven, а само приложение использует кодировку UTF-8.
Требования к программному обеспечению: Linux, JDK 1.6, Tomcat 6+, MySQL 5.5+ (с использованием InnoDB-движка и кодировки UTF-8 для базы данных).
Установка, развёртывание и запуск: 1. Сначала загрузите исходный код проекта. 2. В зависимости от вашей ситуации внесите изменения в файл properties. 3. Запустите maven для создания пакета war. 4. Разверните пакет в каталоге webapps на Tomcat. 5. Создайте учётную запись MySQL и выполните файлы /scripts/create_database.sql и /scripts/init.sql (необходимо изменить их в соответствии с вашей ситуацией). 6. Проанализируйте веб-сайты, которые вы хотите собрать данные. Это можно сделать с помощью класса WebSiteCrawlTest (для сбора конфигурационных данных). 7. Настройте параметры поискового движка и параметры поиска. 8. Выберите класс для извлечения данных, например, com.yzq.os.spider.v.service.spider.impl.DemoCrawlTask. 9. Инициализируйте параметры поискового URL: http://localhost:8080/SpiderVertical/admin/createurl/form. 10. Выполните сбор данных: http://localhost:8080/SpiderVertical/admin/spider/form. 11. Просмотрите ход выполнения: http://localhost:8080/SpiderVertical/admin/statis. 12. После завершения сбора просмотрите результаты: http://localhost:8080/SpiderVertical/admin/spider/view_tables.
Примечание: при использовании системы соблюдайте протокол Robots.
Если у вас есть вопросы, отправьте сообщение по электронной почте на адрес xingyu_yzq@163.com.
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Опубликовать ( 0 )