Nutch Htmlunit Plugin
Проект: на основе Apache Nutch 1.8 и компонента Htmlunit реализован полный сбор содержимого динамических страниц AJAX-запросов.
Описание: согласно реализации Apache Nutch 1.8, невозможно получить динамическую HTML-информацию с загружаемых страниц, включая AJAX-запросы, поскольку они игнорируются. Этот плагин использует Htmlunit для сбора всего содержимого страницы с необходимыми динамическими AJAX-запросами. Он разработан и протестирован с Apache Nutch 1.8. Можно попробовать его на другой версии Nutch или реорганизовать исходный код в соответствии с дизайном.
Основные функции:
Опыт работы: поскольку Nutch работает в среде Unix/Linux, необходимо подготовить систему Unix/Linux или среду выполнения Cygwin. После клонирования всего кода проекта выполните локальную загрузку каталога:
cd nutch-htmlunit/runtime/local
bin/crawl urls crawl false 1
После завершения работы можно увидеть, что все данные, такие как цены, описания и изображения, загруженные при прокрутке, были полностью собраны.
Для справки по журналам выполнения посетите: http://git.oschina.net/xautlx/nutch-htmlunit/wikis/Log.
Расширение плагина:
Исходный код: проект основан на исходном коде Apache Nutch 1.8 с расширениями плагинов. Плагины определяются и настраиваются в соответствии с официальной документацией Apache Nutch 1.8. Для ознакомления с реализацией и кодом рекомендуется импортировать проект в Eclipse.
Лицензия: весь код проекта является открытым исходным кодом. Его можно свободно использовать любым способом (открытым, закрытым, коммерческим или некоммерческим) при условии сохранения информации об источнике проекта и отказа от несанкционированной продажи.
Если вы заинтересованы в сотрудничестве, например, в предоставлении услуг по расширению на основе технологий Apache Nutch/Solr/Lucene, технических консультациях, руководстве по дипломным проектам или разработке вторичных проектов, свяжитесь с E-Mail: xautlx@hotmail.com или QQ: 2414521719 (при обращении через QQ укажите: nutch/solr/lucene).
Ссылки:
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Комментарии ( 0 )