xiaohuo-maven-seimicrawler-plugin: seismicrawler проект построение инструмент.

maven-seimicrawler-plugin

Описание

maven-seimicrawler-plugin — это плагин, основанный на maven-war-plugin версии 2.6 и модифицированный. Он предназначен для того, чтобы разработчикам было удобно быстро упаковывать проект SeimiCrawler и независимо его развёртывать.

Начало

Добавление плагина в pom:

<plugin>
    <groupId>cn.wanghaomiao</groupId>
    <artifactId>maven-seimicrawler-plugin</artifactId>
    <version>1.3.0</version>
    <executions>
        <execution>
            <phase>package</phase>
            <goals>
                <goal>build</goal>
            </goals>
        </execution>
    </executions>
    <!--<configuration>-->
        <!-- 默认target目录 -->
        <!--<outputDirectory>/some/path</outputDirectory>-->
    <!--</configuration>-->
</plugin>

Выполните mvn clean package, и пакет будет создан со следующей структурой каталогов:

.
├── bin             # 相应的脚本中也有具体启动参数说明介绍，在此不再敖述
│   ├── run.bat    # windows下启动脚本
│   └── run.sh     # Linux下启动脚文
│   └── seimi.cfg  # Linux下启动配置
└── seimi
    ├── classes     # Crawler工程业务类及相关配置文件目录
    └── lib         # 工程依赖包目录

Запуск

Linux

Запуск:

SeimiCrawler service helper
usage: run.sh [options]
       start          start service
       stop           stop service
       help           Print service help

./bin/run.sh start — запускает сервис Seimicrawler.
./bin/run.sh stop — останавливает текущий сервис Seimicrawler.
./bin/run.sh help — показывает справку по использованию.

Конфигурационный файл:

[init_cfg]
params=-c basic -p 8080

[linux]
stdout=/tmp/seimicrawler.stdout.log

params используется только при запуске Seimicrawler и указывает параметры запуска. Здесь -p определяет порт для запуска встроенного HTTP-сервиса, который принимает запросы через HTTP-интерфейс (см. документацию Seimicrawler для получения информации о конкретных интерфейсах). -c указывает имя crawler, которое нужно запустить. Если не указано, по умолчанию все crawler запускаются в форме workers и начинают прослушивать запросы на сканирование. Оба параметра не являются обязательными. stdout определяет путь к файлу журнала консоли после запуска сервиса Seimicrawler.

Windows

Windows-сценарий проще, и всё содержимое находится в файле run.bat. Просто измените его напрямую.

Проект Seimicrawler

Seimicrawler — это быстрый, независимый и распределённый Java-фреймворк для сканирования. Его цель — максимально снизить порог входа для новичков, желающих создать эффективную и высокопроизводительную систему сканирования, а также повысить эффективность разработки таких систем. В мире Seimicrawler большинству людей достаточно сосредоточиться на написании бизнес-логики сканирования, остальное Seimicrawler сделает за вас. С точки зрения дизайна, Seimicrawler во многом вдохновлён Python-фреймворком Scrapy и объединяет особенности языка Java и Spring. Кроме того, он стремится использовать более эффективный и доступный XPath для анализа HTML в Китае, поэтому по умолчанию HTML-парсером в Seimicrawler является JsoupXpath (отдельный проект расширения, не входящий в состав jsoup), и все операции по анализу и извлечению данных из HTML выполняются с использованием XPath (конечно, можно выбрать другой анализатор для обработки данных).

Перейдите прямо к проекту Seimicrawler.

Сообщество

Если у вас есть какие-либо вопросы или предложения, вы можете обсудить их в списке рассылки. Перед тем как отправить своё первое сообщение, необходимо подписаться и дождаться одобрения (в основном это делается для фильтрации спама).

Подписка: отправьте электронное письмо на адрес seimicrawler+subscribe@googlegroups.com.
Выступление: отправьте электронное письмо по адресу seimicrawler@googlegroups.com.
Отписка: отправьте электронное письмо на seimicrawler+unsubscribe@googlegroups.com.

OSCHINA-MIRROR/xiaohuo-maven-seimicrawler-plugin

Linux

Windows

Комментарии ( 0 )

Введение

Обновления

Участники

Недавние действия

OSCHINA-MIRROR/xiaohuo-maven-seimicrawler-plugin .gitee-modal { min-width: 500px !important; } .gitee-modal .close { right: 0.6rem !important; }

Linux

Windows

Комментарии ( 0 )

Введение

Обновления

Участники

Недавние действия

OSCHINA-MIRROR/xiaohuo-maven-seimicrawler-plugin