1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/xautlx-nutch-htmlunit

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
В этом репозитории не указан файл с открытой лицензией (LICENSE). При использовании обратитесь к конкретному описанию проекта и его зависимостям в коде.
Клонировать/Скачать
Внести вклад в разработку кода
Синхронизировать код
Отмена
Подсказка: Поскольку Git не поддерживает пустые директории, создание директории приведёт к созданию пустого файла .keep.
Loading...
README.md

Nutch Htmlunit Plugin

Проект: на основе Apache Nutch 1.8 и компонента Htmlunit реализован полный сбор содержимого динамических страниц AJAX-запросов.

Описание: согласно реализации Apache Nutch 1.8, невозможно получить динамическую HTML-информацию с загружаемых страниц, включая AJAX-запросы, поскольку они игнорируются. Этот плагин использует Htmlunit для сбора всего содержимого страницы с необходимыми динамическими AJAX-запросами. Он разработан и протестирован с Apache Nutch 1.8. Можно попробовать его на другой версии Nutch или реорганизовать исходный код в соответствии с дизайном.

Основные функции:

  • Сбор обычного HTML-контента: для обычных страниц без AJAX-функций можно использовать встроенный протокол-http-плагин Nutch.
  • Сбор обычных AJAX-страниц: для большинства страниц, таких как jQuery ajax-загрузка, можно использовать протокол-htmlunit-плагин.
  • Сбор специальных AJAX-запросов: страницы, использующие Kissy Javascript, требуют ожидания запросов, инициированных Kissy, перед сбором данных.
  • Сбор данных на основе прокрутки AJAX-запроса: такие страницы, как Tmall или Taobao, используют прокрутку для загрузки информации о товарах. Протокол-htmlunit может быть расширен для сбора данных с таких страниц.

Опыт работы: поскольку Nutch работает в среде Unix/Linux, необходимо подготовить систему Unix/Linux или среду выполнения Cygwin. После клонирования всего кода проекта выполните локальную загрузку каталога:

cd nutch-htmlunit/runtime/local
bin/crawl urls crawl false 1

После завершения работы можно увидеть, что все данные, такие как цены, описания и изображения, загруженные при прокрутке, были полностью собраны.

Для справки по журналам выполнения посетите: http://git.oschina.net/xautlx/nutch-htmlunit/wikis/Log.

Расширение плагина:

  • protocol-htmlunit: плагин Fetcher на основе Htmlunit.
  • parse-s2jh: анализ элементов страницы на основе XPath; вывод структурированных данных на основе модели базы данных.
  • index-s2jh: добавление атрибутов, которые должны быть переданы в индекс Solr; настройка правил, не требующих индексации.

Исходный код: проект основан на исходном коде Apache Nutch 1.8 с расширениями плагинов. Плагины определяются и настраиваются в соответствии с официальной документацией Apache Nutch 1.8. Для ознакомления с реализацией и кодом рекомендуется импортировать проект в Eclipse.

Лицензия: весь код проекта является открытым исходным кодом. Его можно свободно использовать любым способом (открытым, закрытым, коммерческим или некоммерческим) при условии сохранения информации об источнике проекта и отказа от несанкционированной продажи.

Если вы заинтересованы в сотрудничестве, например, в предоставлении услуг по расширению на основе технологий Apache Nutch/Solr/Lucene, технических консультациях, руководстве по дипломным проектам или разработке вторичных проектов, свяжитесь с E-Mail: xautlx@hotmail.com или QQ: 2414521719 (при обращении через QQ укажите: nutch/solr/lucene).

Ссылки:

  • Nutch 2.X AJAX Plugins (Active): расширение на основе Apache Nutch 2.3 и компонентов Htmlunit, Selenium WebDriver для полного сбора содержимого AJAX-загружаемых страниц и анализа и индексации определённых данных.
  • S2JH4Net (Active): фреймворк для разработки веб-приложений на основе Spring MVC+Spring+JPA+Hibernate.
  • S2JH (Deprecated): фреймворк на основе Struts2+Spring+JPA+Hibernate для разработки корпоративных веб-приложений.
  • Nutch 1.X AJAX Plugins (Deprecated): расширение на базе Apache Nutch 1.X и Htmlunit для реализации AJAX-сбора страниц.
  • 12306 Hunter (Deprecated): версия 12306 помощника по бронированию билетов Swing C/S, которая больше не функционирует, но может служить примером Swing-разработки.

Комментарии ( 0 )

Вы можете оставить комментарий после Вход в систему

Введение

Описание недоступно Развернуть Свернуть
Отмена

Обновления

Пока нет обновлений

Участники

все

Недавние действия

Загрузить больше
Больше нет результатов для загрузки
1
https://api.gitlife.ru/oschina-mirror/xautlx-nutch-htmlunit.git
git@api.gitlife.ru:oschina-mirror/xautlx-nutch-htmlunit.git
oschina-mirror
xautlx-nutch-htmlunit
xautlx-nutch-htmlunit
master