maven-seimicrawler-plugin
Описание
maven-seimicrawler-plugin — это плагин, основанный на maven-war-plugin версии 2.6 и модифицированный. Он предназначен для того, чтобы разработчикам было удобно быстро упаковывать проект SeimiCrawler и независимо его развёртывать.
Начало
Добавление плагина в pom:
<plugin>
<groupId>cn.wanghaomiao</groupId>
<artifactId>maven-seimicrawler-plugin</artifactId>
<version>1.3.0</version>
<executions>
<execution>
<phase>package</phase>
<goals>
<goal>build</goal>
</goals>
</execution>
</executions>
<!--<configuration>-->
<!-- 默认target目录 -->
<!--<outputDirectory>/some/path</outputDirectory>-->
<!--</configuration>-->
</plugin>
Выполните mvn clean package, и пакет будет создан со следующей структурой каталогов:
.
├── bin # 相应的脚本中也有具体启动参数说明介绍,在此不再敖述
│ ├── run.bat # windows下启动脚本
│ └── run.sh # Linux下启动脚文
│ └── seimi.cfg # Linux下启动配置
└── seimi
├── classes # Crawler工程业务类及相关配置文件目录
└── lib # 工程依赖包目录
Запуск
SeimiCrawler service helper
usage: run.sh [options]
start start service
stop stop service
help Print service help
./bin/run.sh start
— запускает сервис Seimicrawler../bin/run.sh stop
— останавливает текущий сервис Seimicrawler../bin/run.sh help
— показывает справку по использованию.[init_cfg]
params=-c basic -p 8080
[linux]
stdout=/tmp/seimicrawler.stdout.log
params
используется только при запуске Seimicrawler и указывает параметры запуска. Здесь -p
определяет порт для запуска встроенного HTTP-сервиса, который принимает запросы через HTTP-интерфейс (см. документацию Seimicrawler для получения информации о конкретных интерфейсах). -c
указывает имя crawler, которое нужно запустить. Если не указано, по умолчанию все crawler запускаются в форме workers и начинают прослушивать запросы на сканирование. Оба параметра не являются обязательными. stdout
определяет путь к файлу журнала консоли после запуска сервиса Seimicrawler.
Windows-сценарий проще, и всё содержимое находится в файле run.bat. Просто измените его напрямую.
Проект Seimicrawler
Seimicrawler — это быстрый, независимый и распределённый Java-фреймворк для сканирования. Его цель — максимально снизить порог входа для новичков, желающих создать эффективную и высокопроизводительную систему сканирования, а также повысить эффективность разработки таких систем. В мире Seimicrawler большинству людей достаточно сосредоточиться на написании бизнес-логики сканирования, остальное Seimicrawler сделает за вас. С точки зрения дизайна, Seimicrawler во многом вдохновлён Python-фреймворком Scrapy и объединяет особенности языка Java и Spring. Кроме того, он стремится использовать более эффективный и доступный XPath для анализа HTML в Китае, поэтому по умолчанию HTML-парсером в Seimicrawler является JsoupXpath (отдельный проект расширения, не входящий в состав jsoup), и все операции по анализу и извлечению данных из HTML выполняются с использованием XPath (конечно, можно выбрать другой анализатор для обработки данных).
Перейдите прямо к проекту Seimicrawler.
Сообщество
Если у вас есть какие-либо вопросы или предложения, вы можете обсудить их в списке рассылки. Перед тем как отправить своё первое сообщение, необходимо подписаться и дождаться одобрения (в основном это делается для фильтрации спама).
seimicrawler+subscribe@googlegroups.com
.seimicrawler@googlegroups.com
.seimicrawler+unsubscribe@googlegroups.com
.Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Комментарии ( 0 )