1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/coliza-MongooCrawler

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
Клонировать/Скачать
Внести вклад в разработку кода
Синхронизировать код
Отмена
Подсказка: Поскольку Git не поддерживает пустые директории, создание директории приведёт к созданию пустого файла .keep.
Loading...
README.md

MongooCrawler

Это программное обеспечение с открытым исходным кодом для распределённого сканирования. Если вам нравится этот проект, не забудьте поставить ему «звезду».

MongooCrawler решает проблему несоответствия скорости сканирования и скорости сохранения данных путём внедрения параллельной структуры disruptor.

Данные, которые были просканированы, делятся на две категории: текст и URL. URL временно обрабатываются с помощью алгоритма MD5 для удаления дубликатов, а затем помещаются в очередь. Текст сразу отправляется в базу данных.

Если вы хотите пообщаться в частном порядке, вы можете оставить комментарий в моём блоге.

Добро пожаловать на мой блог: http://blog.csdn.net/flashflight

Преимущества MongooCrawler:

  1. Распределённость.

Реализация проекта Spiderman основана на Redis, но это делает Redis единой точкой отказа. Если возникнут проблемы с сетью или произойдёт сбой сервера Redis, часть данных не будет просканирована, что ухудшит пользовательский опыт. MongooCrawler использует кластерную архитектуру Redis для развёртывания настоящего кластера. Узлы могут взаимодействовать друг с другом, и если некоторые узлы недоступны, это не влияет на работоспособность сканера.

  1. Проверка подлинности.

Эти фреймворки не предоставляют решения для проверки подлинности, но MongooCrawler предлагает несколько решений, основанных на личном опыте автора.

  1. Cookie.

Cookie предоставляет функцию автоматического отслеживания. Популярные фреймворки для открытого сканирования не могут эффективно решить проблему междоменного переноса cookie при едином входе (SSO). MongooCrawler предоставляет решение.

  1. Антисканерные меры.

Популярные фреймворки для сканирования не предлагают простого и удобного способа контролировать частоту доступа. Необходимо вручную кодировать вызовы функций для управления. Информация о заголовках, такая как user-agent, также не имеет простого и удобного интерфейса управления и полностью зависит от ручного кодирования пользователя.

  1. Высокая производительность.

В популярных фреймворках для сканирования нет реализации эластичного управления. Они не используют эффективно аппаратные ресурсы разных узлов в соответствии с их различиями в производительности. Нет механизмов отключения и мониторинга, но всё это есть в MongooCrawler.

Обновления:

  • 2017-07-02 добавлена поддержка пула соединений с базой данных Druid, что повышает эффективность хранения данных в MySQL.
  • 2017-05-03 завершена логика сканирования книг.
  • 2017-04-16 добавлена логика сканирования товаров в электронных книгах.
  • 2017-01-12 добавлена логика анализа HTML, которая зависит от пакета jsoup.
  • 2017-04-12 добавлен пример.
  • 2017-05-24 разработан мониторинг.

Дальнейшие планы:

  • Развертывание на сервере и демонстрация работы веб-сайта.
  • Поддержка кластера (в разработке).

Комментарии ( 0 )

Вы можете оставить комментарий после Вход в систему

Введение

Описание недоступно Развернуть Свернуть
Java
Apache-2.0
Отмена

Обновления

Пока нет обновлений

Участники

все

Недавние действия

Загрузить больше
Больше нет результатов для загрузки
1
https://api.gitlife.ru/oschina-mirror/coliza-MongooCrawler.git
git@api.gitlife.ru:oschina-mirror/coliza-MongooCrawler.git
oschina-mirror
coliza-MongooCrawler
coliza-MongooCrawler
feature/monitor