XXL-CRAWLER — это легковесный фреймворк для веб-скрапинга.
— Стартовая страница —
XXL-CRAWLER — это легковесный фреймворк для веб-скрапинга. Одной строкой кода можно создать многопоточный скрапер, используя аннотации для сбора данных с веб-страниц и преобразования их в Java-объекты. Фреймворк поддерживает многопоточность, аннотации, рендеринг JavaScript, использование прокси, распределенные расширения и другие функции.## Документация
Внимание: Используйте только для учебных и тестовых целей. Если нарушили права, свяжитесь с нами для удаления.Вот тестовый код, который можно просмотреть в репозитории: каталог тестового кода| № | Название паука | Описание функциональности | Файл тестового кода | |----|-----------------------------|-------------------------------------------------------------------------------------|------------------| | 1 | Паук данных высокорейтинговых проектов Gitee [извлечение данных с страницы] | Одной строкой запускается многопоточный паук, который расширяет поиск по страницам "списка проектов Gitee", автоматически извлекает данные с страницы с помощью "аннотаций" и упаковывает их в PageVo для вывода; | XxlCrawlerTest01 | | 2 | Паук скачивания страниц Gitee [скачивание страниц] | Скачивает "список проектов Gitee", получает исходные данные страницы html и генерирует локальный html файл; | XxlCrawlerTest02 | | 3 | Паук скачивания изображений с NetEase [скачивание изображений] | Скачивает изображения новостей с сайта NetEase и загружает их локально; | XxlCrawlerTest03 | | 4 | Паук новостей Baidu [извлечение данных с API] | Скачивает данные с не-Web страницы, в данном случае это JSON API, выводит данные ответа напрямую; | XxlCrawlerTest04 | | 5 | Паук цен на товары электронной коммерции [рендеринг JS; интеграция Selenium] | Паук получает цены на товары электронной коммерции, так как цены рендерятся асинхронно; данное решение использует Selenium + ChromeDriver для рендера JS и имитации поведения браузера для сбора данных; | XxlCrawlerTest05 || 6 | Паук получения данных с использованием прокси [метод с использованием прокси] | Скачивает данные с целевой страницы с использованием прокси; позволяет преодолеть ограничения доступа и обеспечить безопасность данных; | XxlCrawlerTest06 | | 7 | Паук получения данных с использованием кластера [метод с использованием кластера Redis] | Скачивает данные с целевой страницы с использованием кластерного метода; в кластере несколько XxlCrawler совместно используют RunUrlPool для расширения URL и выполнения задач сбора данных, что повышает производительность сбора данных; | XxlCrawlerTest07 |## Коммуникация - Общение с сообществом
Вклады приветствуются! Откройте pull request для исправления ошибки или создайте Issue для обсуждения новой функции или изменения.
Добро пожаловать в проект! Например, вы можете отправить pull request для исправления ошибки или создать Issue для обсуждения новой функции или изменения.
Если ваша компания хочет интегрироваться, пожалуйста, зарегистрируйтесь на адресе регистрации. Регистрация проводится только для продвижения продукта.
Этот продукт является открытым исходным кодом и бесплатным, и будет продолжать предоставлять бесплатную техническую поддержку сообщества. Индивидуальные или корпоративные пользователи могут свободно использовать его.
Независимо от суммы, она достаточно выражает ваше мнение, большое спасибо :) Перейти к пожертвованию
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Опубликовать ( 0 )