MongooCrawler
Это программное обеспечение с открытым исходным кодом для распределённого сканирования. Если вам нравится этот проект, не забудьте поставить ему «звезду».
MongooCrawler решает проблему несоответствия скорости сканирования и скорости сохранения данных путём внедрения параллельной структуры disruptor.
Данные, которые были просканированы, делятся на две категории: текст и URL. URL временно обрабатываются с помощью алгоритма MD5 для удаления дубликатов, а затем помещаются в очередь. Текст сразу отправляется в базу данных.
Если вы хотите пообщаться в частном порядке, вы можете оставить комментарий в моём блоге.
Добро пожаловать на мой блог: http://blog.csdn.net/flashflight
Преимущества MongooCrawler:
Реализация проекта Spiderman основана на Redis, но это делает Redis единой точкой отказа. Если возникнут проблемы с сетью или произойдёт сбой сервера Redis, часть данных не будет просканирована, что ухудшит пользовательский опыт. MongooCrawler использует кластерную архитектуру Redis для развёртывания настоящего кластера. Узлы могут взаимодействовать друг с другом, и если некоторые узлы недоступны, это не влияет на работоспособность сканера.
Эти фреймворки не предоставляют решения для проверки подлинности, но MongooCrawler предлагает несколько решений, основанных на личном опыте автора.
Cookie предоставляет функцию автоматического отслеживания. Популярные фреймворки для открытого сканирования не могут эффективно решить проблему междоменного переноса cookie при едином входе (SSO). MongooCrawler предоставляет решение.
Популярные фреймворки для сканирования не предлагают простого и удобного способа контролировать частоту доступа. Необходимо вручную кодировать вызовы функций для управления. Информация о заголовках, такая как user-agent, также не имеет простого и удобного интерфейса управления и полностью зависит от ручного кодирования пользователя.
В популярных фреймворках для сканирования нет реализации эластичного управления. Они не используют эффективно аппаратные ресурсы разных узлов в соответствии с их различиями в производительности. Нет механизмов отключения и мониторинга, но всё это есть в MongooCrawler.
Обновления:
Дальнейшие планы:
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Комментарии ( 0 )