Адрес проекта:
News Passage Content Extractor (NPCE), компонент предназначен для извлечения основного текста HTML-статей.
С помощью компонента libnpce можно извлечь следующие поля информации со страниц новостей:
Компонент предоставляет интерфейсы вызова для динамической библиотеки ссылок SO, RESTful-сервисов и вызовов Python:
\
-include заголовочные файлы
-src исходные файлы
-test примеры использования и тесты
-cgifile файлы для развёртывания CGI
-parseapp компоненты для обработки приложений
-python общий интерфейс для вызовов на Python
-server RESTful-сервисы
-Makefile
-publish опубликованная версия
-readme.txt файл с описанием
-bin каталог с двоичными файлами
-run.sh скрипт для запуска тестов
(1) Установите чистую операционную систему CentOS 7.
(2) Установите GCC и C++ с помощью команды:
yum install -y gcc gcc-c++
(3) Установка зависимостей исходного кода:
wget http://www.python.org/ftp/python/2.7.6/Python-2.7.6.tar.xz
tar xJf Python-2.7.6.tar.xz
cd Python-2.7.6
./configure --enable-shared --prefix=/usr/local/python2.7
make
make install
wget http://ftp.gnu.org/pub/gnu/libiconv/libiconv-1.15.tar.gz
tar -zxvf libiconv-1.15.tar.gz
cd libiconv-1.15
./configure
make && make install
(4) Установите зависимости:
yum install -y epel-release openssl-devel zlib-devel zlib-devel c-ares-devel curl-devel python-pip
git clone https://gitee.com/inrgihc/libnpce.git
cd libnpce/
make lib
make clean && make # сборка библиотеки libnpce
make clean all -C parseapp # сборка библиотеки libparseapp
make clean all -C server
make clean all -C python # сборка библиотеки python golaxynpce
cd /root/libnpce/python/server/
pip install -r requirements.txt
make clean && make build # сборка программы сервера HTTP на Python
Дополнительные параметры сборки см. в файле Makefile.
(1) Развёртывание с использованием бинарного пакета:
git clone https://gitee.com/inrgihc/libnpce.git
cd libnpce/publish/
tar zxvf httpd_npce_server_1.0.36_bin.tar.gz
cd httpd_npce_server/
./startup.sh
(2) Развёртывание в Docker-контейнере:
docker run -d --name py_npce_httpd -p 7645:7645 inrgihc/py_npce_httpd:latest
Сервисы основаны на mongoose и предоставляют доступ по протоколу HTTP. Параметры передаются методом POST. Подробные параметры настройки:
----------------------------------------------------------------------
| Параметр | Значение по умолчанию | Описание
----------------------------------------------------------------------
| url | значение не может быть пустым | URL для извлечения основной информации (необходимо кодировать URL)
----------------------------------------------------------------------
| img | 0 | Извлекать ли изображения из основного текста, 1 — да, 0 — нет
----------------------------------------------------------------------
| flg | 0 | Отмечать ли положение изображений в основном тексте, 1 — да, 0 — нет
----------------------------------------------------------------------
Примечание: Изображения в основном тексте обозначаются как "{IMG:N}", где N — номер изображения. Пример вызова с использованием CURL:
$ curl "http://127.0.0.1:7654/npce" -d "img=1&flg=1&url=http://news.sina.com.cn/c/2016-11-07/doc-ifxxnffr6962826.shtml"
(1) https://blog.csdn.net/inrgihc/article/details/103739874
(2) https://tangyibo.github.io/libariry/2020/01/17/a-news-passage-content-extractor-library/
Если вы использовали или оценили этот инструмент, пожалуйста, поставьте лайк этому проекту. Если вы столкнулись с ошибками при использовании, пожалуйста, сообщите о них в issue. Также вы можете присоединиться к группе обсуждения, отсканировав QR-код ниже (добавьте «Программа обмена» при добавлении в друзья):
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Комментарии ( 0 )