YayCrawler: проект по обмену опытом в области технологий краулеров
Приветствуем вас присоединиться к группе для обсуждения YayCrawler! Быстрое начало работы!
Цель проекта
В рамках своих возможностей максимально повысить производительность разработчиков веб-краулеров, предлагая им чистый поток в рамках фреймворка краулера.
Основные функции
YayCrawler представляет собой полноценный распределённый фреймворк краулера, разработанный на основе WebMagic. Фреймворк имеет следующие особенности:
Выбор технологий ● Основной фреймворк: Webmagic Spring boot. ● Планирование задач: Spring + Quartz. ● Фреймворк постоянного слоя: Spring Jpa. ● База данных и пул соединений: Alibaba Druid MongoDB MySql. ● Кэш-фреймворк: Redis Ehcache. ● Управление журналами: SLF4J, Log4j2. ● Фронтенд-фреймворк: Bootstrap + Jquary.
Конфигурация среды разработки
Запуск
Импортируйте проект и установите модули Admin, Worker и Master с помощью команды maven install. Затем скопируйте сгенерированный Jar-файл в каталоги crawler.worker / deploy. Запомните настройки IP для Redis, MySQL и MongoDB в файле конфигурации. Нажмите start.bat для запуска.
(Linux & Windwos) java -jar worker.war --spring.config.location=worker_local.properties
Команда закрытия
(Windows) for /f "tokens=1-5 delims= " %%a in ('"netstat -ano|findstr "^:8086""') do taskkill /f /pid %%e
Взаимодействие между компонентами
A. Admin Admin отвечает за конфигурацию правил страницы, конфигурацию сайта, управление ресурсами и публикацию задач. B. Master Master является центром управления распределённого краулера и отвечает за получение задач от Admin и распределение их рабочим. C. Worker Worker выполняет реальную работу, получая задачи от Master и выполняя их. Он периодически сообщает о своём состоянии Master.
Docker-образ: в разработке.
Номер группы разработчиков для обмена опытом: YayCrawler — обмен опытом в области краулеров 559745472.
Установка jar: https://gitee.com/shentong_012/G-Crawler.release.
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Комментарии ( 0 )