HTMLP

Обзор

Инструмент для автоматического анализа атрибутов содержимого HTML-страницы, автоматически извлекает заголовок статьи, основной текст, автора, время публикации, источник и оригинальный источник.

Использование

// Извлечение основного текста
String txt = HtmLP.getContent(html).getTxt(); // Основной текст без тегов
String content = HtmLP.getContent(html).getContent(); // Основной текст с тегами
// Извлечение заголовка
String title = HtmLP.getTitle(html, metaTitle);
// Извлечение автора
String author = HtmLP.getAuthor(txt);
// Извлечение времени
String time = HtmLP.getTime(html);

Принцип работы

Извлечение основного текста

Извлечение основного текста основано на подсчёте количества символов в строке. Считается, что когда содержимое страницы отфильтровано от HTML-тегов, оставшееся содержимое подсчитывается построчно. Когда количество символов после указанной строки превышает пороговое значение, считается, что это начало основного текста. Когда оно снова становится меньше порогового значения, считается, что основной текст закончился.

Извлечение заголовка

Заголовок определяется как наиболее похожее на содержимое тега title в основном тексте.

Извлечение атрибутов (автор, время, источник)

Атрибуты извлекаются с помощью регулярного выражения. Существует два типа источников: один — это текущий сайт как источник статьи, другой — текущий сайт, который перепечатывает статьи из других СМИ. В этом случае другие СМИ рассматриваются как один из источников. Метод извлечения выбирается в соответствии с фактическими потребностями.

OSCHINA-MIRROR/scrapy4j-htmlp

HTMLP

Обзор

Использование

Принцип работы

Извлечение основного текста

Извлечение заголовка

Извлечение атрибутов (автор, время, источник)

Комментарии ( 0 )

Введение

Обновления

Участники

Недавние действия

OSCHINA-MIRROR/scrapy4j-htmlp .gitee-modal { min-width: 500px !important; } .gitee-modal .close { right: 0.6rem !important; }

HTMLP

Обзор

Использование

Принцип работы

Извлечение основного текста

Извлечение заголовка

Извлечение атрибутов (автор, время, источник)

Комментарии ( 0 )

Введение

Обновления

Участники

Недавние действия

OSCHINA-MIRROR/scrapy4j-htmlp