1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/xautlx-nutch-ajax

В этом репозитории не указан файл с открытой лицензией (LICENSE). При использовании обратитесь к конкретному описанию проекта и его зависимостям в коде.
Клонировать/Скачать
README.md 4.2 КБ
Копировать Редактировать Web IDE Исходные данные Просмотреть построчно История
gitlife-traslator Отправлено 26.11.2024 10:24 c55f7c0

Nutch AJAX page Fetch, Parse, Index Plugin

Введение

Согласно реализации Apache Nutch 2.X, мы не можем получить динамическую информацию HTML с помощью запросов fetch страниц, включая AJAX запросы, поскольку они будут игнорировать все AJAX запросы.

Этот плагин будет использовать Htmlunit и Selenium WebDriver для получения всего содержимого страницы с необходимыми динамическими AJAX запросами. Он разработан и протестирован с Apache Nutch 2.3, вы можете попробовать его на других версиях Nutch 2.X или рефакторить исходные коды в соответствии с вашим дизайном.

Компоненты

  • HTML Parser: используется для анализа HTML и извлечения данных из AJAX запросов.

  • AJAX Parser: использует jQuery ajax для обработки AJAX запросов и извлечения данных.

  • Ajax Fetcher: использует Htmlunit и Selenium WebDriver для извлечения AJAX данных.

  • Parse Data: обрабатывает данные, полученные через Ajax Fetcher, используя XPath и другие методы.

Установка

Для установки и использования плагина следуйте инструкциям на сайте: http://wiki.apache.org/nutch/.

Также можно использовать Eclipse IDE для сборки и запуска проекта. Для этого необходимо импортировать проект в Eclipse, запустить его и настроить сборку с использованием ANT.

На скриншотах показаны результаты работы плагина в среде разработки Eclipse.

Библиотеки

Плагин использует следующие библиотеки:

  • lib-pinyin: для парсинга и индексации данных с использованием Solr.
  • lib-htmlunit: для работы с Htmlunit.
  • protocol-s2jh: для реализации fetcher с использованием Htmlunit и Selenium WebDriver.
  • parse-s2jh: для обработки данных с использованием XPath.
  • index-s2jh: для индексации данных в Solr.

Решение для Nutch & Solr

Решение для интеграции Nutch и Solr с поддержкой AJAX предоставляет следующие возможности:

  • Извлечение данных с поддержкой AJAX.
  • Парсинг и индексация данных с использованием Solr.
  • Поддержка различных форматов данных, таких как MySQL и MongoDB.

Лицензия

Проект является бесплатным открытым исходным кодом. Также предоставляется платная поддержка.

Для получения поддержки можно обратиться по электронной почте: s2jh-dev@hotmail.com или QQ: 2414521719.

Ссылки

Ссылки на ресурсы, связанные с проектом:

Опубликовать ( 0 )

Вы можете оставить комментарий после Вход в систему

1
https://api.gitlife.ru/oschina-mirror/xautlx-nutch-ajax.git
git@api.gitlife.ru:oschina-mirror/xautlx-nutch-ajax.git
oschina-mirror
xautlx-nutch-ajax
xautlx-nutch-ajax
master