1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/xiaohuo-SeimiCrawler

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
Клонировать/Скачать
ChangeLog.md 9.2 КБ
Копировать Редактировать Web IDE Исходные данные Просмотреть построчно История
gitlife-traslator Отправлено 01.12.2024 11:00 b22ecaa

Change log

v1.3.1

  • В рамках фреймворка принудительно выполняется кодирование всех китайских параметров в формате utf8 с помощью urlEncode, что максимально снижает вероятность искажённых запросов.
  • При обработке запросов Request диапазон различения был расширен до установленных параметров запроса.

v1.3.0

  • Поддержка настройки заголовка (map) для текущего запроса в объекте Request и поддержка настройки cookies с помощью semiCookies, которые напрямую попадают в cookiesStore. Для последующих запросов в том же домене эти cookies остаются активными.
  • Оптимизация стандартного способа запуска. Модификация cn.wanghaomiao.seimi.boot.Run поддерживает CommandLineParser, позволяя использовать -c и -p для передачи параметров. Параметр -c используется для указания имён краулеров, разделённых ',', а -p — для указания порта. Также можно выборочно запускать встроенный HTTP-сервис и активировать использование встроенного HTTP-интерфейса.
  • Обновление плагина maven-seimicrawler-plugin до версии 1.3.0. Улучшение скриптов для Linux и добавление файла конфигурации запуска. Подробные сведения доступны на главной странице maven-seimicrawler-plugin (https://github.com/zhegexiaohuozi/maven-seimicrawler-plugin).
  • По умолчанию загрузчик заменён на Apache Httpclient, с OkHttp3 в качестве запасного варианта.
  • Частичная оптимизация кода.
  • Все журналы demo по умолчанию выводятся на консоль.

v1.2.0

  • OkhttpDownloader теперь обрабатывает страницы с китайскими символами без указанной кодировки в заголовке contentType.
  • Возможность настройки времени ожидания для HTTP-запросов через атрибут httpTimeOut в аннотации @Crawler. Значение по умолчанию составляет 15000 мс.

v1.1.0

  • Реализация более сложных начальных триггеров запросов через метод startRequests() в классе SeimiCrawler, который реализует List.
  • SemiQueue загружается по требованию.
  • Исправлена проблема, возникавшая при попытке сопоставления meta refresh при извлечении данных о типе файла.

v1.0.0

  • Переработка обработчика HTTP-запросов с использованием okhttp3 по умолчанию и возможность переключения на apache httpclient через аннотацию @Crawler и атрибут httpType.
  • Частичная оптимизация кода.
  • Поддержка получения снимков экрана страниц (png/pdf) через seimiAgent (https://github.com/zhegexiaohuozi/SeimiAgent).
  • Обновление JsoupXpath до версии v0.3.1.

Это крупное обновление SeimiCrawler предоставляет более мощный опыт извлечения данных.

v0.3.2

  • Улучшена надёжность соединения с redis в распределённом режиме.
  • Исправление ошибок.

v0.3.0

  • Встроенная поддержка SeimiAgent для идеального решения проблем с извлечением динамически генерируемых страниц.
  • Устранена ошибка автоматического перехода в некоторых случаях.

v0.2.7

  • Встроенный HTTP-интерфейс теперь может принимать не только одиночные запросы в формате Json, но и массивы запросов в формате Json.
  • Объект Request поддерживает настройку skipDuplicateFilter, чтобы указать Seimi обрабатывать запросы без учёта механизма дублирования. По умолчанию механизм дублирования не пропускается.
  • Добавлена возможность использования таймера для планирования задач.
  • Функции обратного вызова передают пользовательские параметры типа значения через объект Request, который теперь является строкой для упрощения обработки.
  • Исправлено сообщение журнала.

v0.2.6

  • Создан унифицированный стартовый класс для использования вместе с будущими плагинами сборки maven для SeimiCrawler.
  • Мета-обновление оптимизировано, и установлен верхний предел в 3 раза для предотвращения бесконечного обновления страницы.
  • Ошибка исправлена: проблема с передачей пользовательских данных в Response была устранена.

v0.2.5

  • Механизм повторной обработки запросов при серьёзных исключениях. Если запрос продолжает вызывать серьёзные исключения после попытки повторного выполнения, он будет повторно поставлен в очередь для последующей обработки. Если количество повторных попыток достигает максимального предела, Seimi вызовет метод handleErrorRequest(Request request), предоставленный разработчиком, для обработки запроса. Этот механизм может помочь избежать потери записей запросов из-за стратегий защиты от сканирования на сайтах.
  • Улучшено определение дубликатов.
  • Улучшен способ получения кодировок для нестандартных страниц.

v0.2.4

  • Автоматическое перенаправление усилено, включая поддержку определения перенаправлений через meta refresh.
  • Метод getRealUrl() добавлен к объекту Response для получения реального URL после перенаправления или перехода.
  • Управление включением системного уровня механизма устранения дубликатов контролируется через свойство 'useUnrepeated' в аннотации @Crawler, которое по умолчанию включено.

v0.2.3

  • Пользовательские динамические прокси поддерживаются. Разработчики могут переопределить метод proxy() в BaseSeimiCrawler для самостоятельного выбора прокси для каждого запроса. Если метод proxy() возвращает действительный адрес прокси, свойство proxy в аннотации @Crawler становится недействительным.
  • Динамический прокси добавлен, включая демонстрацию динамического User-Agent.

v0.2.2

  • Усилена поддержка нестандартных кодировок веб-страниц.

v0.2.1

  • Чёрно-белый список регулярных выражений улучшен.

v0.2.0

  • Поддерживается отправка запросов JSON формата во встроенные HTTP-сервисы.
  • Настройка правил белого списка и чёрного списка для URL-адресов запросов с использованием allowRules и denyRules, соответственно, в виде регулярных выражений. По умолчанию правила не применяются.
  • Унифицированная проверка допустимости запросов.
  • Задержка между запросами настраивается.

Опубликовать ( 0 )

Вы можете оставить комментарий после Вход в систему

1
https://api.gitlife.ru/oschina-mirror/xiaohuo-SeimiCrawler.git
git@api.gitlife.ru:oschina-mirror/xiaohuo-SeimiCrawler.git
oschina-mirror
xiaohuo-SeimiCrawler
xiaohuo-SeimiCrawler
master