Уродливый мини-собиратель — это профессиональное программное обеспечение для сетевой сборки данных / информационной добычи, основанное на Java Swing. Благодаря гибкому конфигурированию можно легко и быстро собирать структурированные данные с веб-страниц, такие как текст, изображения и файлы. После редактирования и отбора этих данных они могут быть опубликованы на сайте.
JAVACOO-CRAWLER использует модульную архитектуру, где все модули координируются контроллером (классом CrawlController). Контроллер является сердцем пауков, он управляет началом, продолжением, приостановкой и завершением всех задач сбора информации.
Класс CrawlController включает следующие основные модули:1. Параметры конфигурации паука (CrawlScope): хранят текущую конфигурацию паука, такую как кодировка страниц, список фильтров, семена для сбора, реализацию объекта памяти паука и т. д. CrawlController использует эти параметры для инициализации других модулей.
2. Класс помощи по кодировкам (CharsetHandler): инициализируется согласно текущей конфигурации кодировки и используется во время всего процесса сбора данных.
3. Объект HttpClient: инициализируется согласно текущей конфигурации паука, таким образом, что можно установить прокси, настроить соединение/запрос на время ожидания, максимальное количество соединений и т. д.
4. Обертка HtmlParser (HtmlParserWrapper): специализированная обёртка для парсера HtmlParser, чтобы удовлетворять требованиям сбора данных.
5. Контроллер границ паука (Frontier): загружает семена для сбора и инициализирует очередь задач, которую затем используют потоки управления (ProcessorManager) для выполнения задач.
6. Контроллер потока управления (ProcessorManager): управляет количеством потоков выполнения задач, запуская необходимое количество потоков для выполнения задач.
7. Фабрика фильтров (FilterFactory): регистрирует текущий набор фильтров, который может использоваться для проверки задач сбора данных.
8. Кэш HTTP-хостов (HostCache): кэширует объекты HttpHost.Цепочка обработчиков (ProcessorChainList): по умолчанию создаются пять цепочек обработчиков, которые используются в потоках выполнения задач: предварительная подготовка, извлечение, выгрузка, запись и отправка. - Предварительная выгрузка цепи: в основном выполняются подготовительные работы, такие как отложенные операции и повторная обработка, а также отказ от последующих действий.
Feat_xxx
Readme_XXX.md
для поддержки различных языков, таких как Readme_en.md
, Readme_zh.md
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Комментарии ( 0 )