1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/daqiangge-SpiderV

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
Клонировать/Скачать
Внести вклад в разработку кода
Синхронизировать код
Отмена
Подсказка: Поскольку Git не поддерживает пустые директории, создание директории приведёт к созданию пустого файла .keep.
Loading...
README.md

SpiderV

Описание: Приложение предназначено для сбора данных с вертикальных веб-сайтов. Система после простой настройки может выполнять типичную последовательность действий «условие выбора» —> «поиск» —> «сбор данных списка». Часть извлечения можно реализовать самостоятельно, используя JSOUP. Классы реализации должны быть помещены в папку (com/yzq/os/spider/v/service/spider/impl).

Система поддерживает кластерный режим работы. Весь код серверов унифицирован и может автоматически синхронизироваться и управляться. Уникальный хост определяется по конфигурации в базе данных, и хост отвечает за некоторые повседневные действия инициализации и очистки. На каждом сервере можно настроить автоматическое выполнение задач по сбору данных.

В соответствии с параметрами поиска система автоматически генерирует комбинации поисковых URL. После первого запуска результаты поиска могут быть сохранены, а при следующем запуске данные будут взяты из сохранённых URL, что позволяет сократить количество ненужных запросов.

После успешного ручного запуска можно настроить периодическое выполнение задачи, запуская её каждый день по расписанию.

Управление приложением осуществляется через maven, а само приложение использует кодировку UTF-8.

Требования к программному обеспечению: Linux, JDK 1.6, Tomcat 6+, MySQL 5.5+ (с использованием InnoDB-движка и кодировки UTF-8 для базы данных).

Установка, развёртывание и запуск: 1. Сначала загрузите исходный код проекта. 2. В зависимости от вашей ситуации внесите изменения в файл properties. 3. Запустите maven для создания пакета war. 4. Разверните пакет в каталоге webapps на Tomcat. 5. Создайте учётную запись MySQL и выполните файлы /scripts/create_database.sql и /scripts/init.sql (необходимо изменить их в соответствии с вашей ситуацией). 6. Проанализируйте веб-сайты, которые вы хотите собрать данные. Это можно сделать с помощью класса WebSiteCrawlTest (для сбора конфигурационных данных). 7. Настройте параметры поискового движка и параметры поиска. 8. Выберите класс для извлечения данных, например, com.yzq.os.spider.v.service.spider.impl.DemoCrawlTask. 9. Инициализируйте параметры поискового URL: http://localhost:8080/SpiderVertical/admin/createurl/form. 10. Выполните сбор данных: http://localhost:8080/SpiderVertical/admin/spider/form. 11. Просмотрите ход выполнения: http://localhost:8080/SpiderVertical/admin/statis. 12. После завершения сбора просмотрите результаты: http://localhost:8080/SpiderVertical/admin/spider/view_tables.

Примечание: при использовании системы соблюдайте протокол Robots.

Если у вас есть вопросы, отправьте сообщение по электронной почте на адрес xingyu_yzq@163.com.

Комментарии ( 0 )

Вы можете оставить комментарий после Вход в систему

Введение

Программа для сбора данных, написанная на Java, с веб-интерфейсом управления. Автоматически генерирует поисковые URL. Реализует простой сбор данных. Поддерживает работу на нескольких устройствах. Задачи автоматически запускаются по расписанию и т. д. Предоставляет различные точки расширения и адаптируется к различным ситуациям. Развернуть Свернуть
Apache-2.0
Отмена

Обновления

Пока нет обновлений

Участники

все

Недавние действия

Загрузить больше
Больше нет результатов для загрузки
1
https://api.gitlife.ru/oschina-mirror/daqiangge-SpiderV.git
git@api.gitlife.ru:oschina-mirror/daqiangge-SpiderV.git
oschina-mirror
daqiangge-SpiderV
daqiangge-SpiderV
master