1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/medcl-gopa

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
Клонировать/Скачать
CHANGES.md 11 КБ
Копировать Редактировать Web IDE Исходные данные Просмотреть построчно История
gitlife-traslator Отправлено 25.11.2024 07:38 3783e88

Gopa

[狗爬], [aims to be] A high performance distributed and lightweight spider written in GO.

CHANGES

v0.11

breaking changes:
  1. Извлеките общий кодовый код в другой репозиторий: https://github.com/infinitbyte/framework.
features:
improvement:
  1. Оптимизируйте SQL, ускорьте список задач.
bugfix:
  1. Исправьте MySQL как опцию базы данных.
  2. Обновите update_check_time, исправьте init next_fetch time.

v0.10

breaking changes:
  1. Рефакторинг домена на хост, API и отображение изменилось.
  2. Рефакторинг модуля, обновите настройки yml: module->name.
features:
  1. Динамическое создание конвейеров.
  2. Инициализация архитектуры плагинов.
  3. Поддержка извлечения тегов по пути CSS.
  4. Добавьте Chrome Fetch Joint через протокол отладки Chrome.
  5. Добавьте автозаполнение в пользовательский интерфейс поиска.
  6. Поддержка поиска UI для мобильных устройств.
  7. Поддержка контроля доступа с помощью GitHub OAuth.
improvement:
  1. Удалите goleveldb из-за утечки памяти.
  2. Обновите логотип.
  3. Удалите жёстко заданную версию.
  4. Обновите пользовательский интерфейс задачи, поддержите фильтрацию по статусу и хосту.
  5. Очистите меню offset_canvas.
bugfix: * *

v0.9

breaking changes:
  1. Переместите репозиторий в infinitbyte/gopa для улучшения совместной работы, пространство имён также изменилось.
  2. Разделите API и пользовательский интерфейс, слушайте на разных портах.
  3. Добавьте MySQL в качестве опции базы данных.
  4. Добавьте Elasticsearch в качестве хранилища данных (снимок).
features:
  1. Получение и обновление задач с пошаговой задержкой.
  2. Добавьте хэш-соединение к конвейеру искателя.
  3. Отправляйте задачи и автоматически обновляйте задачи.
  4. Добавьте прокси для получения соединения.
  5. Фильтруйте URL перед отправкой в ​​проверку.
  6. Добавьте конфигурацию правил в фильтр URL.
  7. Поддержите Elasticsearch в качестве магазина базы данных.
  8. Добавьте task_deduplication в проверочную фразу.
  9. Добавьте проверку хэша содержимого для обнаружения дублирования.
  10. Реорганизуйте webhunter, поддерживайте базовую аутентификацию.
  11. Добавьте конвейерное соединение для определения языка веб-страницы.
  12. Добавьте пользовательский интерфейс поиска.
improvement:
  1. Поддержка нескольких экземпляров на локальном компьютере.
  2. Оптимизация кластеризации на локальном компьютере.
  3. Модули и конвейеры готовы к динамической конфигурации.
  4. Конвейер и контекст реорганизованы для поддержки динамических параметров.
  5. Сохраните снимок в хранилище KV и обновите управление задачами.
  6. Оптимизируйте логику завершения работы, сократите половину горутин.
  7. Добавьте вики о том, как создать gopa в Windows.
  8. По умолчанию отключите тайм-аут в очереди.
  9. Улучшите производительность statsd с буферизованным клиентом.
  10. Уточните уровень журнала, включите pprof для настройки адреса прослушивания.
  11. Обновите пользовательский интерфейс задач, ограничьте длину имени.
  12. Обнаружение мёртвого процесса, замените файл блокировки.
  13. Сохраняйте последовательность идентификаторов с автоматическим увеличением на диск.
  14. Упрощённое совместное использование регистра.
  15. Добавьте высокую производительность в функции tolowercase и touppercase.
  16. Добавьте статистику очереди api.
bugfix:
  1. Удалите simhash из-за низкой производительности и утечки памяти.
  2. Исправьте неправильный относительный URL с использованием индекса Unicode.
  3. Исправьте statsd, данные не были отправлены.
  4. Исправьте низкую производительность слияния строк.
  5. Исправьте утечку горутины HTTP.

v0.8

features:
  1. Кластеризация Raft.
  2. Динамически меняйте настройки ведения журнала с консоли, можно фильтровать журнал по уровню, сообщению, файлу и имени функции.
  3. Динамически создавайте конвейер.
  4. Добавьте TLS в API безопасности и WebSocket.
  5. Добавьте прокси в конвейер искателя.
improvement:
  1. Используйте механизм шаблонов, рефакторинг пользовательского интерфейса.
  2. Добавьте логотип.
bugfix:
  1. Исправление неправильного номера статистики, неправильное задание фильтра.
  2. Исправление некорректного обработчика перенаправления, игнорирование URL.

v0.7

features:
  1. Добавьте API статистики для предоставления информации о задачах, http://localhost:8001/stats.
  2. Добавьте WebSocket и простой пользовательский интерфейс для взаимодействия с Gopa, http://localhost:8001/ui/.
  3. Добавьте API задач для приёма семян.
  4. Динамически измените конфигурацию seelog через API, [GET/POST] http://localhost:8001/setting/seelog/.
  5. Следуйте перенаправлению 301/302 и продолжайте выборку.
  6. Добавьте страницу состояния boltdb, http://localhost:8001/ui/boltdb.
  7. Добавьте структуру конвейера для создания искателя.
  8. Добавьте команду для динамического изменения уровня ведения журнала и добавления семенного URL.
  9. Экспортируйте метрики в statsD.
  10. Поддержка режима демона в Linux и Darwin.
  11. Добавить управление задачами api.
improvement:
  1. Добавьте настройку update_ui в Makefile, чтобы создать статический пользовательский интерфейс.
  2. Добавьте журнал коммитов git и build_date в двоичный файл gopa.
  3. Пользовательский интерфейс консоли поддерживает повторное подключение WebSocket. Функции:
  4. Контроль скорости сканирования.
  5. Поддержка файлов cookie.
  6. Краткий формат ведения журнала.

Исправления ошибок:

  1. Исключение nil при завершении работы.
  2. Неправильная относительная ссылка в синтаксическом анализе фразы.

Версия 0.5

Функции:

  1. Управляемое извлечение данных.
  2. Возможность сохранения и перезагрузки смещения извлечения/анализа.
  3. Консоль HTTP.

Версия 0.4

Улучшения:

  1. Рефакторинг интерфейса хранилища, теперь путь к данным можно настроить.
  2. По умолчанию pprof отключён.
  3. Вместо Kafka используется локальное хранилище, позже Kafka будет удалена.
  4. Перед загрузкой удалённой страницы проверяется наличие локального файла.

Исправление ошибок:

  1. Устранена утечка памяти, вызванная фильтром Блума.

Функции:

  1. Загрузка по шаблону URL.
  2. Список загружаемых страниц.

Версия 0.3

  1. Добавлен инструмент профилирования для Golang (HTTP://localhost:6060/debug/pprof/). — go tool pprof HTTP://localhost:6060/debug/pprof/heap. — go tool pprof HTTP://localhost:6060/debug/pprof/profile. — go tool pprof HTTP://localhost:6060/debug/pprof/block.

  2. Интеграция с Kafka для обеспечения управляемости и возможности восстановления задач.

  3. Параметры настраиваются.

  4. Теперь можно управлять горутинами.

Версия 0.2

  1. Постоянство фильтра Блума.
  2. Скрипт сборки работает.

Версия 0.1

  1. Просто запустите.

Опубликовать ( 0 )

Вы можете оставить комментарий после Вход в систему

1
https://api.gitlife.ru/oschina-mirror/medcl-gopa.git
git@api.gitlife.ru:oschina-mirror/medcl-gopa.git
oschina-mirror
medcl-gopa
medcl-gopa
master