1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/scrapy4j-htmlp

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
Клонировать/Скачать
Внести вклад в разработку кода
Синхронизировать код
Отмена
Подсказка: Поскольку Git не поддерживает пустые директории, создание директории приведёт к созданию пустого файла .keep.
Loading...
README.md

HTMLP

Обзор

Инструмент для автоматического анализа атрибутов содержимого HTML-страницы, автоматически извлекает заголовок статьи, основной текст, автора, время публикации, источник и оригинальный источник.

Использование

// Извлечение основного текста
String txt = HtmLP.getContent(html).getTxt(); // Основной текст без тегов
String content = HtmLP.getContent(html).getContent(); // Основной текст с тегами
// Извлечение заголовка
String title = HtmLP.getTitle(html, metaTitle);
// Извлечение автора
String author = HtmLP.getAuthor(txt);
// Извлечение времени
String time = HtmLP.getTime(html);

Принцип работы

Извлечение основного текста

Извлечение основного текста основано на подсчёте количества символов в строке. Считается, что когда содержимое страницы отфильтровано от HTML-тегов, оставшееся содержимое подсчитывается построчно. Когда количество символов после указанной строки превышает пороговое значение, считается, что это начало основного текста. Когда оно снова становится меньше порогового значения, считается, что основной текст закончился.

Извлечение заголовка

Заголовок определяется как наиболее похожее на содержимое тега title в основном тексте.

Извлечение атрибутов (автор, время, источник)

Атрибуты извлекаются с помощью регулярного выражения. Существует два типа источников: один — это текущий сайт как источник статьи, другой — текущий сайт, который перепечатывает статьи из других СМИ. В этом случае другие СМИ рассматриваются как один из источников. Метод извлечения выбирается в соответствии с фактическими потребностями.

Комментарии ( 0 )

Вы можете оставить комментарий после Вход в систему

Введение

Описание недоступно Развернуть Свернуть
MIT
Отмена

Обновления

Пока нет обновлений

Участники

все

Недавние действия

Загрузить больше
Больше нет результатов для загрузки
1
https://api.gitlife.ru/oschina-mirror/scrapy4j-htmlp.git
git@api.gitlife.ru:oschina-mirror/scrapy4j-htmlp.git
oschina-mirror
scrapy4j-htmlp
scrapy4j-htmlp
master