1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/liuyueyi-quick-crawler

В этом репозитории не указан файл с открытой лицензией (LICENSE). При использовании обратитесь к конкретному описанию проекта и его зависимостям в коде.
Клонировать/Скачать
Внести вклад в разработку кода
Синхронизировать код
Отмена
Подсказка: Поскольку Git не поддерживает пустые директории, создание директории приведёт к созданию пустого файла .keep.
Loading...
README.md

Быстрый краулер

Java-реализация фреймворка для краулеров

С нуля, шаг за шагом, создаём готовый к использованию фреймворк для краулинга. В ключевые моменты добавляем теги, чтобы зафиксировать процесс создания проекта.

Список тегов

1. v0.001

Реализован простейший и базовый краулер, который уже можно использовать.

2. v0.002

HttpClient используется вместо http-запросов JDK; добавлены настройки параметров HTTP.

3. v0.003

Реализована глубокая паутина:

  • поддерживается прямой и обратный фильтр ссылок;
  • в памяти сохраняются записи о просканированных страницах для дедупликации;
  • предоставляется метод обратного вызова после завершения сканирования для обработки результатов.

4. v0.004

Реализовано сканирование очереди:

  • каждый Job выполняет сканирование только текущей страницы, а ссылки, удовлетворяющие условиям глубокого сканирования, помещаются в очередь;
  • добавлен класс Fetcher для управления задачами сканирования.

5. v0.005

Разделение сканирования и анализа результатов в задачах Job; установка флага завершения задачи:

  • новый класс ResultFilter анализирует просканированные страницы и помещает соответствующие ссылки в очередь сканирования;
  • новый класс JobCount отслеживает количество выполненных задач сканирования для определения завершения всей работы.

6. v0.006

Добавлены логические точки отслеживания.

7. v.0.007

Поддержка динамической конфигурации:

  • используется конфигурационный файл для динамического изменения настроек.

Связанные статьи

Комментарии ( 0 )

Вы можете оставить комментарий после Вход в систему

Введение

Фреймворк для создания краулеров на Java. Развернуть Свернуть
Отмена

Обновления

Пока нет обновлений

Участники

все

Недавние действия

Загрузить больше
Больше нет результатов для загрузки
1
https://api.gitlife.ru/oschina-mirror/liuyueyi-quick-crawler.git
git@api.gitlife.ru:oschina-mirror/liuyueyi-quick-crawler.git
oschina-mirror
liuyueyi-quick-crawler
liuyueyi-quick-crawler
master