Инструмент для автоматического анализа атрибутов содержимого HTML-страницы, автоматически извлекает заголовок статьи, основной текст, автора, время публикации, источник и оригинальный источник.
// Извлечение основного текста
String txt = HtmLP.getContent(html).getTxt(); // Основной текст без тегов
String content = HtmLP.getContent(html).getContent(); // Основной текст с тегами
// Извлечение заголовка
String title = HtmLP.getTitle(html, metaTitle);
// Извлечение автора
String author = HtmLP.getAuthor(txt);
// Извлечение времени
String time = HtmLP.getTime(html);
Извлечение основного текста основано на подсчёте количества символов в строке. Считается, что когда содержимое страницы отфильтровано от HTML-тегов, оставшееся содержимое подсчитывается построчно. Когда количество символов после указанной строки превышает пороговое значение, считается, что это начало основного текста. Когда оно снова становится меньше порогового значения, считается, что основной текст закончился.
Заголовок определяется как наиболее похожее на содержимое тега title в основном тексте.
Атрибуты извлекаются с помощью регулярного выражения. Существует два типа источников: один — это текущий сайт как источник статьи, другой — текущий сайт, который перепечатывает статьи из других СМИ. В этом случае другие СМИ рассматриваются как один из источников. Метод извлечения выбирается в соответствии с фактическими потребностями.
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Комментарии ( 0 )