HtmlSucker
HtmlSucker — это небольшой набор инструментов, который используется для извлечения информации из статей на веб-страницах. Например, с помощью него можно извлечь заголовок статьи, автора, дату публикации, изображение обложки и содержание статьи. Анализ HTML выполняется на основе библиотеки jsoup.
В HtmlSucker есть два алгоритма извлечения текста:
На данный момент проект находится на начальной стадии разработки, но уже может быть использован.
Часть кода в проекте взята из проекта Crux, например класс HeuristicString.
Maven:
<dependency>
<groupId>net.oschina.htmlsucker</groupId>
<artifactId>HtmlSucker</artifactId>
<version>0.0.2</version>
</dependency>
Пример кода:
public static void main(String[] args) throws IOException {
String url = "https://www.oschina.net/news/92798/micro-match-1-0-1-released";
System.out.println(HtmlSucker.select(HtmlSucker.TEXT_DENSITY_EXTRACTOR).parse(url, 20000));
}
Результат выполнения:
title: «Стыковка платформы 1.0.1: выпуск, раскрытие интерфейса удалённого вызова — сообщество Китая по открытым исходникам».
keywords: «открытые исходники Китая», «микро-стыковка», «выпуск платформы 1.0.1, раскрытие интерфейса удалённого вызова».
description: «Выпуск платформы микро-стыковки 1.0.1 с раскрытием интерфейса удалённого вызова и оптимизацией алгоритмов подсчёта количества стыковок: 1 — интерфейс покупки ордера, 2 — интерфейс продажи ордера, 3 — интерфейс стыковки, 4 — интерфейс запроса результатов стыковки. Подробности см.: https://my.oschina.net/jeffreyning/blog/1612810...».
author: нет данных.
date: null.
image: https://www.oschina.net/img/logo_s2.png.
content:
<p style="margin:0 0 10px 0;"><a data-traceid="news_detail_above_text_link_1" data-tracepid="news_detail_above_text_link" style="color:#A00;font-weight:bold;" href="http://click.aliyun.com/m/18500/" target="_blank">Высокопроизводительные облачные серверы Alibaba Cloud, скидка 50%! >>> >>></a> <img src="https://my.oschina.net/img/hot3.png" align="" style="max-height: 32px; max-width: 32px;"></p>
<p>Выпуск платформы микро-стыковки 1.0.1 с раскрытием интерфейса удалённого вызова и оптимизацией алгоритма подсчёта количества стыковок.</p>
<p>1 — интерфейс покупки ордера.</p>
<p>2 — интерфейс продажи ордера.</p>
<p>3 — интерфейс стыковки.</p>
<p>4 — интерфейс запроса результатов стыковки.</p>
<p>Подробности см.: <a data-cke-saved-href="https://my.oschina.net/jeffreyning/blog/1612810" href="https://my.oschina.net/jeffreyning/blog/1612810" target="_blank">https://my.oschina.net/jeffreyning/blog/1612810</a></p>
.
Проект использует лицензию WTFPL, что означает «используй как хочешь». Однако часть кода взята из проекта WebCollector, который имеет лицензию GPLv2.
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Комментарии ( 0 )