1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/xiaohuo-maven-seimicrawler-plugin

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
Клонировать/Скачать
Внести вклад в разработку кода
Синхронизировать код
Отмена
Подсказка: Поскольку Git не поддерживает пустые директории, создание директории приведёт к созданию пустого файла .keep.
Loading...
readme.md

maven-seimicrawler-plugin

Описание

maven-seimicrawler-plugin — это плагин, основанный на maven-war-plugin версии 2.6 и модифицированный. Он предназначен для того, чтобы разработчикам было удобно быстро упаковывать проект SeimiCrawler и независимо его развёртывать.

Начало

Добавление плагина в pom:

<plugin>
    <groupId>cn.wanghaomiao</groupId>
    <artifactId>maven-seimicrawler-plugin</artifactId>
    <version>1.3.0</version>
    <executions>
        <execution>
            <phase>package</phase>
            <goals>
                <goal>build</goal>
            </goals>
        </execution>
    </executions>
    <!--<configuration>-->
        <!-- 默认target目录 -->
        <!--<outputDirectory>/some/path</outputDirectory>-->
    <!--</configuration>-->
</plugin>

Выполните mvn clean package, и пакет будет создан со следующей структурой каталогов:

.
├── bin             # 相应的脚本中也有具体启动参数说明介绍,在此不再敖述
│   ├── run.bat    # windows下启动脚本
│   └── run.sh     # Linux下启动脚文
│   └── seimi.cfg  # Linux下启动配置
└── seimi
    ├── classes     # Crawler工程业务类及相关配置文件目录
    └── lib         # 工程依赖包目录

Запуск

Linux

  • Запуск:
SeimiCrawler service helper
usage: run.sh [options]
       start          start service
       stop           stop service
       help           Print service help
  • ./bin/run.sh start — запускает сервис Seimicrawler.
  • ./bin/run.sh stop — останавливает текущий сервис Seimicrawler.
  • ./bin/run.sh help — показывает справку по использованию.
  • Конфигурационный файл:
[init_cfg]
params=-c basic -p 8080

[linux]
stdout=/tmp/seimicrawler.stdout.log

params используется только при запуске Seimicrawler и указывает параметры запуска. Здесь -p определяет порт для запуска встроенного HTTP-сервиса, который принимает запросы через HTTP-интерфейс (см. документацию Seimicrawler для получения информации о конкретных интерфейсах). -c указывает имя crawler, которое нужно запустить. Если не указано, по умолчанию все crawler запускаются в форме workers и начинают прослушивать запросы на сканирование. Оба параметра не являются обязательными. stdout определяет путь к файлу журнала консоли после запуска сервиса Seimicrawler.

Windows

Windows-сценарий проще, и всё содержимое находится в файле run.bat. Просто измените его напрямую.

Проект Seimicrawler

Seimicrawler — это быстрый, независимый и распределённый Java-фреймворк для сканирования. Его цель — максимально снизить порог входа для новичков, желающих создать эффективную и высокопроизводительную систему сканирования, а также повысить эффективность разработки таких систем. В мире Seimicrawler большинству людей достаточно сосредоточиться на написании бизнес-логики сканирования, остальное Seimicrawler сделает за вас. С точки зрения дизайна, Seimicrawler во многом вдохновлён Python-фреймворком Scrapy и объединяет особенности языка Java и Spring. Кроме того, он стремится использовать более эффективный и доступный XPath для анализа HTML в Китае, поэтому по умолчанию HTML-парсером в Seimicrawler является JsoupXpath (отдельный проект расширения, не входящий в состав jsoup), и все операции по анализу и извлечению данных из HTML выполняются с использованием XPath (конечно, можно выбрать другой анализатор для обработки данных).

Перейдите прямо к проекту Seimicrawler.

Сообщество

Если у вас есть какие-либо вопросы или предложения, вы можете обсудить их в списке рассылки. Перед тем как отправить своё первое сообщение, необходимо подписаться и дождаться одобрения (в основном это делается для фильтрации спама).

  • Подписка: отправьте электронное письмо на адрес seimicrawler+subscribe@googlegroups.com.
  • Выступление: отправьте электронное письмо по адресу seimicrawler@googlegroups.com.
  • Отписка: отправьте электронное письмо на seimicrawler+unsubscribe@googlegroups.com.

Комментарии ( 0 )

Вы можете оставить комментарий после Вход в систему

Введение

seismicrawler проект построение инструмент. Развернуть Свернуть
Apache-2.0
Отмена

Обновления

Пока нет обновлений

Участники

все

Недавние действия

Загрузить больше
Больше нет результатов для загрузки
1
https://api.gitlife.ru/oschina-mirror/xiaohuo-maven-seimicrawler-plugin.git
git@api.gitlife.ru:oschina-mirror/xiaohuo-maven-seimicrawler-plugin.git
oschina-mirror
xiaohuo-maven-seimicrawler-plugin
xiaohuo-maven-seimicrawler-plugin
master