1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/javacoo-CowSwing

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
Клонировать/Скачать
Внести вклад в разработку кода
Синхронизировать код
Отмена
Подсказка: Поскольку Git не поддерживает пустые директории, создание директории приведёт к созданию пустого файла .keep.
Loading...
README.md

CowSwing

Описание

Уродливый мини-собиратель — это профессиональное программное обеспечение для сетевой сборки данных / информационной добычи, основанное на Java Swing. Благодаря гибкому конфигурированию можно легко и быстро собирать структурированные данные с веб-страниц, такие как текст, изображения и файлы. После редактирования и отбора этих данных они могут быть опубликованы на сайте.

Архитектура программы

JAVACOO-CRAWLER использует модульную архитектуру, где все модули координируются контроллером (классом CrawlController). Контроллер является сердцем пауков, он управляет началом, продолжением, приостановкой и завершением всех задач сбора информации.

Класс CrawlController включает следующие основные модули:1. Параметры конфигурации паука (CrawlScope): хранят текущую конфигурацию паука, такую как кодировка страниц, список фильтров, семена для сбора, реализацию объекта памяти паука и т. д. CrawlController использует эти параметры для инициализации других модулей. 2. Класс помощи по кодировкам (CharsetHandler): инициализируется согласно текущей конфигурации кодировки и используется во время всего процесса сбора данных. 3. Объект HttpClient: инициализируется согласно текущей конфигурации паука, таким образом, что можно установить прокси, настроить соединение/запрос на время ожидания, максимальное количество соединений и т. д. 4. Обертка HtmlParser (HtmlParserWrapper): специализированная обёртка для парсера HtmlParser, чтобы удовлетворять требованиям сбора данных. 5. Контроллер границ паука (Frontier): загружает семена для сбора и инициализирует очередь задач, которую затем используют потоки управления (ProcessorManager) для выполнения задач. 6. Контроллер потока управления (ProcessorManager): управляет количеством потоков выполнения задач, запуская необходимое количество потоков для выполнения задач. 7. Фабрика фильтров (FilterFactory): регистрирует текущий набор фильтров, который может использоваться для проверки задач сбора данных. 8. Кэш HTTP-хостов (HostCache): кэширует объекты HttpHost.Цепочка обработчиков (ProcessorChainList): по умолчанию создаются пять цепочек обработчиков, которые используются в потоках выполнения задач: предварительная подготовка, извлечение, выгрузка, запись и отправка. - Предварительная выгрузка цепи: в основном выполняются подготовительные работы, такие как отложенные операции и повторная обработка, а также отказ от последующих действий.

  • Выгрузка цепи: основной задачей является загрузка веб-страниц, выполнение преобразования DNS, заполнение таблиц запросов и ответов.
  • Экстракция цепи: когда процесс экстракции завершён, извлекаются интересующие HTML и JavaScript.
  • Цепь записи: хранение результатов сбора данных, можно создать полнотекстовый индекс прямо здесь.
  • Цепь отправки: окончательная обработка всех действий, связанных с этим URL.#### Инструкции по использованию
  1. Интерфейс входа в систему Введите описание изображения
  2. Интерфейс запуска системы Введите описание изображения
  3. Основной интерфейс системы (1) Информация о системе, плагины, мониторинг памяти и мониторинг задач Информация о системе (2) Настройка сбора: базовая конфигурация сбора, включая удалённые базы данных, FTP, пользовательские данные Настройка сбора (3) Сбор данных: управление процессами сбора, включая общие параметры, правила сбора, историю сбора, содержание сбора Сбор данных (4) Мониторинг задач: включает мониторинг задач сбора, задач сбора в БД, задач обработки изображений, задачи загрузки Мониторинг задач (5) Расписание задач: периодическое выполнение задач сбора Расписание задач (6) Утилиты: включает обработку изображений Утилиты#### Установочный пакет Ссылка: https://pan.baidu.com/s/1OMWnlNIVQYljn9cAC2pHYw Код доступа: l50r

Внесение вклада

  1. Fork этого репозитория
  2. Создайте ветку Feat_xxx
  3. Подтвердите изменения
  4. Создайте Pull Request
  5. Стать разработчиком: https://gitee.com/javacoo/CowSwing/invite_link?invite=b692750432b02a7ee1daea0aa240b4e4773a8dfd17f8e5278b40572f73d50c1efb609ee9707c83fb2ab77e71ff39a3f6

Уникальные возможности Gitee

  1. Используйте Readme_XXX.md для поддержки различных языков, таких как Readme_en.md, Readme_zh.md
  2. Официальный блог Gitee blog.gitee.com
  3. Вы можете посетить этот адрес, чтобы узнать о выдающихся открытых проектах на Gitee https://gitee.com/explore
  4. GVP расшифровывается как Самый ценный открытый проект на Gitee, это лучшие открытые проекты, выбранные командой Gitee
  5. Официальное руководство пользователя от Gitee https://gitee.com/help
  6. Проект "Звезды Gitee" представляет собой раздел, где демонстрируются достижения членов сообщества Gitee https://gitee.com/gitee-stars/

Комментарии ( 0 )

Вы можете оставить комментарий после Вход в систему

Введение

Описание недоступно Развернуть Свернуть
Java и 2 других языков
Apache-2.0
Отмена

Обновления

Пока нет обновлений

Участники

все

Недавние действия

Загрузить больше
Больше нет результатов для загрузки
1
https://api.gitlife.ru/oschina-mirror/javacoo-CowSwing.git
git@api.gitlife.ru:oschina-mirror/javacoo-CowSwing.git
oschina-mirror
javacoo-CowSwing
javacoo-CowSwing
CowSwing_maven