1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/ld-HtmlSucker

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
В этом репозитории не указан файл с открытой лицензией (LICENSE). При использовании обратитесь к конкретному описанию проекта и его зависимостям в коде.
Клонировать/Скачать
Внести вклад в разработку кода
Синхронизировать код
Отмена
Подсказка: Поскольку Git не поддерживает пустые директории, создание директории приведёт к созданию пустого файла .keep.
Loading...
Readme.md

HtmlSucker

HtmlSucker — это небольшой набор инструментов, который используется для извлечения информации из статей на веб-страницах. Например, с помощью него можно извлечь заголовок статьи, автора, дату публикации, изображение обложки и содержание статьи. Анализ HTML выполняется на основе библиотеки jsoup.

В HtmlSucker есть два алгоритма извлечения текста:

  1. Алгоритм максимального текстового блока: анализируются все узлы HTML-документа и извлекаются те из них, которые содержат наибольшее количество текста.
  2. Алгоритм плотности текста: используется код из проекта WebCollector.

На данный момент проект находится на начальной стадии разработки, но уже может быть использован.

Часть кода в проекте взята из проекта Crux, например класс HeuristicString.

Maven:

<dependency>
    <groupId>net.oschina.htmlsucker</groupId>
    <artifactId>HtmlSucker</artifactId>
    <version>0.0.2</version>
</dependency>

Пример кода:

public static void main(String[] args) throws IOException {
    String url = "https://www.oschina.net/news/92798/micro-match-1-0-1-released";
    System.out.println(HtmlSucker.select(HtmlSucker.TEXT_DENSITY_EXTRACTOR).parse(url, 20000));
}

Результат выполнения:

title: «Стыковка платформы 1.0.1: выпуск, раскрытие интерфейса удалённого вызова — сообщество Китая по открытым исходникам». keywords: «открытые исходники Китая», «микро-стыковка», «выпуск платформы 1.0.1, раскрытие интерфейса удалённого вызова». description: «Выпуск платформы микро-стыковки 1.0.1 с раскрытием интерфейса удалённого вызова и оптимизацией алгоритмов подсчёта количества стыковок: 1 — интерфейс покупки ордера, 2 — интерфейс продажи ордера, 3 — интерфейс стыковки, 4 — интерфейс запроса результатов стыковки. Подробности см.: https://my.oschina.net/jeffreyning/blog/1612810...». author: нет данных. date: null. image: https://www.oschina.net/img/logo_s2.png. content: <p style="margin:0 0 10px 0;"><a data-traceid="news_detail_above_text_link_1" data-tracepid="news_detail_above_text_link" style="color:#A00;font-weight:bold;" href="http://click.aliyun.com/m/18500/" target="_blank">Высокопроизводительные облачные серверы Alibaba Cloud, скидка 50%! &gt;&gt;&gt; &gt;&gt;&gt;</a>&nbsp;&nbsp;<img src="https://my.oschina.net/img/hot3.png" align="" style="max-height: 32px; max-width: 32px;"></p> <p>Выпуск платформы микро-стыковки 1.0.1 с раскрытием интерфейса удалённого вызова и оптимизацией алгоритма подсчёта количества стыковок.</p> <p>1 — интерфейс покупки ордера.</p> <p>2 — интерфейс продажи ордера.</p> <p>3 — интерфейс стыковки.</p> <p>4 — интерфейс запроса результатов стыковки.</p> <p>Подробности см.: <a data-cke-saved-href="https://my.oschina.net/jeffreyning/blog/1612810" href="https://my.oschina.net/jeffreyning/blog/1612810" target="_blank">https://my.oschina.net/jeffreyning/blog/1612810</a></p>.

Проект использует лицензию WTFPL, что означает «используй как хочешь». Однако часть кода взята из проекта WebCollector, который имеет лицензию GPLv2.

Комментарии ( 0 )

Вы можете оставить комментарий после Вход в систему

Введение

Данный проект используется для извлечения информации из HTML, включая заголовок, основной текст, автора и дату публикации. Развернуть Свернуть
Отмена

Обновления

Пока нет обновлений

Участники

все

Недавние действия

Загрузить больше
Больше нет результатов для загрузки
1
https://api.gitlife.ru/oschina-mirror/ld-HtmlSucker.git
git@api.gitlife.ru:oschina-mirror/ld-HtmlSucker.git
oschina-mirror
ld-HtmlSucker
ld-HtmlSucker
master