1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/gsh199449-spider

Клонировать/Скачать
README.md 3.1 КБ
Копировать Редактировать Web IDE Исходные данные Просмотреть построчно История
gitlife-traslator Отправлено 29.11.2024 06:52 0f153d0

Добро пожаловать на Gather Platform — платформу для сбора и анализа данных


Readme in English

Приглашаем присоединиться к группе общения Gather Platform QQ: 206264662.

Подробные инструкции по использованию доступны в онлайн-документации.

Build Status

Gather Platform — это платформа для сбора данных, основанная на Webmagic и предоставляющая интерфейс для настройки веб-задач и управления ими. Она обладает следующими функциями:

  • Сбор данных в соответствии с настроенными шаблонами;
  • Автоматическое обнаружение текста веб-страниц и извлечение времени публикации статей без предварительной настройки шаблонов сбора;
  • Извлечение динамических и статических полей;
  • Управление собранными данными, включая поиск, добавление, изменение и удаление данных, а также повторный сбор данных на основе новых шаблонов;
  • Обработка собранных данных с помощью NLP, включая извлечение ключевых слов, составление резюме и выделение сущностей;
  • Предложение связанных статей и анализ взаимосвязей между людьми и местами в статьях.

Развёртывание занимает всего 5 минут, а создание поискового робота — полминуты. После этого можно приступать к сбору данных. Для создания функционального поискового робота не требуется писать код.

show

Поддержка всех платформ Windows/Mac/Linux

Для работы системы требуются следующие зависимости:

  • JDK 8 или выше;
  • Tomcat 8.3 или выше.

Дополнительные компоненты (необязательные):

 - Elasticsearch 5.0.

Все инструкции по развёртыванию, использованию, разработке и часто задаваемые вопросы доступны в онлайн-документации

Свяжитесь со мной

Электронная почта: 63388@qq.com

Опубликовать ( 0 )

Вы можете оставить комментарий после Вход в систему

1
https://api.gitlife.ru/oschina-mirror/gsh199449-spider.git
git@api.gitlife.ru:oschina-mirror/gsh199449-spider.git
oschina-mirror
gsh199449-spider
gsh199449-spider
master