0.5.1 (2020-07-31)
Функции / оптимизация:
- добавлена информация об ошибках;
- добавлена поддержка языка программирования Golang;
- добавлены скрипты установки Web Driver для Chrome и Firefox;
- система задач похожа на обычные задачи краулеров, позволяет пользователям просматривать журналы задач, таких как установка языков;
- установка языка перенесена из RPC в систему задач.
Исправление ошибок:
- исправлена ошибка 500 при первой загрузке краулера на рынке краулеров;
- исправлены некоторые проблемы с переводом;
- исправлена проблема с ошибкой 500 в деталях задачи;
- исправлена проблема сброса пароля;
- исправлена проблема невозможности загрузки CSV;
- исправлена проблема установки Node.js;
- исправлена проблема отключения по умолчанию при пакетном добавлении запланированных задач.
0.5.0 (2020-07-19)
Функции / оптимизация:
- рынок краулеров — позволяет пользователям загружать открытые краулеры в Crawlab;
- пакетные операции — позволяют пользователям взаимодействовать с Crawlab партиями, например, запускать задачи партиями или удалять краулеры партиями;
- миграция драйвера MongoDB в MongoDriver;
- оптимизация логики узла;
- изменение значения по умолчанию task.workers на 16;
- изменение значения по умолчанию nginx client_max_body_size на 200m;
- поддержка записи журналов в ElasticSearch;
- отображение подробной информации об ошибке на странице Scrapy;
- удаление страницы вызова;
- перемещение страниц обратной связи и отказа от ответственности наверх.
Исправление ошибок:
- исправление проблемы с журналами, которые не истекают из-за отсутствия индекса TTL;
- настройка срока действия журнала по умолчанию на один день;
- индекс task_id не создан;
- исправление проблем с docker-compose.yml;
- исправление ошибки 404;
- исправление проблемы невозможности предварительного создания рабочих узлов.
0.4.10 (2020-04-21)
Функции / оптимизация:
- улучшенное управление журналом — централизованное управление журналами в MongoDB, уменьшение зависимости от PubSub, возможность обнаружения аномалий в журнале;
- автоматическая установка зависимостей — возможность автоматической установки зависимостей из requirements.txt и package.json;
- API Token — возможность для пользователей создавать API Tokens и использовать их для интеграции со своими системами;
- Web Hook — запуск HTTP-запросов к предопределённым URL-адресам при запуске или завершении задачи;
- автоматическое создание результатов — если не настроено, результаты устанавливаются автоматически как results_<spider_name>;
- улучшение списка проектов — список проектов больше не показывает «No Project»;
- обновление Node.js — обновление версии Node.js с v8.12 до v10.19;
- запланированные задачи с кнопкой запуска — возможность ручного запуска запланированных задач краулеров на интерфейсе запланированных задач.
Исправление ошибок:
- невозможность регистрации;
- выражение Cron в запланированных задачах краулеров показывает секунды;
- ежедневные данные краулеров отсутствуют;
- количество результатов не обновляется немедленно.
0.4.9 (2020-03-31)
Функции / оптимизация:
- вызов — пользователи могут выполнять различные интересные вызовы;
- более высокий уровень контроля доступа — более детальный контроль доступа, такой как разрешение обычным пользователям только просматривать или управлять своими собственными краулерами или проектами, а администраторам — просматривать или управлять всеми краулерами или проектами;
- обратная связь — возможность отправлять обратную связь и оценки команде разработчиков Crawlab;
- лучшие индикаторы домашней страницы — улучшенные индикаторы на домашней странице;
- настраиваемый краулер в качестве пользовательского краулера Scrapy — возможность для пользователей преобразовывать свои собственные настраиваемые краулеры в Scrapy настраиваемые краулеры;
- просмотр задач, запущенных запланированными задачами — возможность просмотра задач, запущенных запланированными задачами;
- поддержка дедупликации результатов — возможность настройки дедупликации результатов;
- поддержка повторной попытки задачи — возможность повторной попытки выполнения задачи.
Исправление ошибок:
- невозможность регистрации;
- CLI нельзя использовать в Windows;
- повторная загрузка вызывает проблемы;
- потеря каталога файлов при загрузке;
- невозможно добавить запланированную задачу в метку запланированной задачи краулера.
0.4.8 (2020-03-11)
Функции / оптимизация:
- поддержка большего количества языков программирования для установки — теперь пользователи могут устанавливать или предварительно устанавливать больше языков программирования, включая Java, .Net Core и PHP;
- оптимизированный интерфейс установки — пользователи могут лучше просматривать и управлять списком узлов на странице установки;
- дополнительная поддержка Git — возможность просматривать историю Git Commits и проверять соответствующие Commit;
- использование Hostname в качестве типа регистрации узла — возможность использования Hostname в качестве уникального идентификатора узла;
- поддержка RPC — добавлена поддержка RPC для лучшего управления связью между узлами;
- работает ли он на главном узле — возможность выбора, будет ли задача выполняться на главном узле, если нет, все задачи будут выполняться на рабочем узле;
- отключение учебника по умолчанию;
- добавление боковой панели соответствующей документации;
- оптимизация загрузки страницы.
Исправление ошибок:
- повторяющиеся узлы;
- повторяющаяся загрузка краулеров;
- сбой установки сторонних модулей на узлах приводит к тому, что части, использующие сторонние модули, становятся недоступными;
- задачи также создаются на отключённых узлах.
0.4.7 (2020-02-24)
Функции / оптимизация:
- лучшая поддержка Scrapy — распознавание краулеров, конфигурация settings.py, выбор уровня журнала, выбор краулеров;
- синхронизация Git — возможность синхронизации проекта Git с Crawlab;
- поддержка длительных задач — возможность добавления краулеров для длительных задач, эти краулеры могут запускать длительные задачи;
- список краулеров оптимизирован — подсчёт количества задач в состоянии, всплывающее окно с подробными сведениями о списке задач, легенда;
- обнаружение обновлений версии — проверка наличия последней версии и уведомление пользователя об обновлении;
- массовые операции с краулерами — возможность массового запуска/остановки краулеров и массового удаления краулеров;
- копирование краулеров — возможность копирования существующих краулеров для создания новых краулеров;
- QR-код WeChat Group.
Исправление ошибок:
-
проблема выбора краулеров в запланированных задачах. Повторная регистрация узла
-
Crawlab 0.4.0 (2019-12-06)
-
Функции и оптимизация:
- Настраиваемый паук: пользователям разрешено добавлять Spiderfile для настройки правил сканирования.
- Режимы выполнения: пользователи могут выбирать три режима выполнения задач: все узлы, указанные узлы и случайные.
-
Исправление ошибок:
- Задачи неожиданно убиты.
- Исправление документации.
- Непосредственное развёртывание несовместимо с Windows.
- Потеря файлов журнала.
-
Crawlab 0.3.5 (2019-10-28)
-
Функции и оптимизация:
- Изящное завершение работы.
- Оптимизация информации об узлах.
- Добавление системных переменных окружения в задачи.
- Автоматическое обновление журналов задач.
- Разрешение HTTPS-развёртывания.
-
Исправление ошибок:
- В запланированных задачах невозможно получить список пауков.
- Невозможно получить информацию о рабочем узле.
- При запуске задач паука невозможно выбрать узел.
- Не удаётся получить количество результатов при большом объёме результатов.
- Проблемы с узлами в запланированных задачах.
-
Crawlab 0.3.1 (2019-08-25)
-
Функции и оптимизация:
- Docker-образы оптимизированы: образы Docker разделены на версии master, worker и frontend.
- Модульное тестирование: покрытие части кода бэкенда модульными тестами.
- Улучшение интерфейса: оптимизация входа в систему, размера кнопок и подсказок загрузки.
- Более гибкая регистрация узлов: пользователям разрешено передавать переменную в качестве регистрационного ключа вместо MAC-адреса по умолчанию.
-
Исправление ошибок:
- Ошибка при загрузке больших файлов пауков: проблема с утечкой памяти при загрузке.
- Синхронизация пауков невозможна: исправлено путём повышения уровня разрешений на запись.
- Проблема со страницей паука: исправлена путём удаления поля Site.
- Отображение узлов некорректно: при запуске нескольких контейнеров Docker на разных машинах отображение узлов некорректно.
-
Crawlab 0.3.0 (2019-07-31)
-
Функции и оптимизация:
- Golang backend: бэкенд переписан с Python на Golang, что значительно повысило стабильность и производительность.
- Топология узлов сети: визуализация топологии узлов сети.
- Системная информация об узлах: возможность просмотра системной информации, включая операционную систему, количество процессоров и исполняемые файлы.
- Мониторинг и регистрация узлов через Redis.
- Управление файлами: онлайн-редактирование файлов пауков, включая подсветку кода.
- Страница входа/регистрации/управления пользователями: требуется вход пользователя перед использованием Crawlab, разрешена регистрация и управление пользователями, есть некоторые механизмы аутентификации на основе ролей.
- Автоматическая установка пауков: пауки будут автоматически установлены или синхронизированы на всех онлайн-узлах.
- Меньшие образы Docker: облегчённые образы Docker, размер образов Docker уменьшен с 1,3 ГБ до примерно 700 МБ за счёт многоэтапной сборки.
-
Исправление ошибок:
- Состояние узла: состояние узла не обновляется при отключении узла.
- Ошибки установки пауков: исправлены путём автоматической установки пауков.
- Узлы не отображаются: исправлено отображением узлов в сети.
- Запланированные задачи не работают: исправлено с помощью Golang backend.
- Flower выдаёт ошибки: исправлено с помощью Golang backend.
-
Crawlab 0.2.4 (2019-07-07)
-
Функции и оптимизация:
- Документация: более качественная и подробная документация.
- Лучший Crontab: генерация выражений Cron через интерфейс пользователя.
- Лучшая производительность: переход от родного движка Flask к gunicorn.
-
Исправление ошибок:
- Удаление пауков: при удалении пауков они должны быть удалены не только из базы данных, но и из соответствующих папок, задач и запланированных задач.
- MongoDB-аутентификация: разрешено указывать authenticationDatabase для подключения к MongoDB.
- Совместимость с Windows: добавление eventlet в requirements.txt.
-
Crawlab 0.2.3 (2019-06-12)
-
Функции и оптимизация:
- Docker: пользователи могут запускать образы Docker для ускорения развёртывания.
- CLI: разрешение пользователям выполнять программу Crawlab через командную строку.
- Загрузка пауков: разрешение пользователям загружать пользовательские пауки в Crawlab.
- Предварительное редактирование полей во время предварительного просмотра: разрешение пользователям редактировать поля во время предварительного просмотра данных в настраиваемых пауках.
-
Исправление ошибок:
- Страницы пауков: исправление проблем с разбиением на страницы на страницах списка пауков.
-
Crawlab 0.2.2 (2019-05-30)
-
Функции и оптимизация:
- Автоматический сбор полей: автоматический сбор полей на странице списка настраиваемых пауков.
- Скачивание результатов: разрешение скачивания результатов в виде CSV-файлов.
- Статистика Baidu: разрешение выбора, отправлять ли статистику в Baidu. Страница результатов. #45 (https://github.com/tikazyq/crawlab/issues/45)
0.2.1 (2019-05-27)
— Настраиваемый веб-сканер: пользователи могут создавать веб-сканеры для сбора данных без написания кода.
0.2 (2019-05-10)
— Расширенная статистика данных: расширенная статистика данных на странице сведений о веб-сканере.
— Данные веб-сайтов: добавлен список веб-сайтов (Китай), позволяющий пользователям просматривать информацию, такую как robots.txt и время отклика главной страницы.
0.1.1 (2019-04-23)
— Базовая статистика: пользователи могут просматривать базовые статистические данные, включая количество неудачных задач и количество результатов в сканерах и на страницах задач.
— Информация о задачах в реальном времени: данные периодически (каждые 5 секунд) отправляются на сервер для просмотра информации о задачах почти в реальном времени.
— Периодические задачи: использование apscheduler для реализации периодических задач, позволяющих пользователям устанавливать периодические задачи, подобные Cron.
0.1 (2019-04-17)
— Первый выпуск
Опубликовать ( 0 )