Nutch AJAX page Fetch, Parse, Index Plugin
Согласно реализации Apache Nutch 2.X, мы не можем получить динамическую информацию HTML с помощью запросов fetch страниц, включая AJAX запросы, поскольку они будут игнорировать все AJAX запросы.
Этот плагин будет использовать Htmlunit и Selenium WebDriver для получения всего содержимого страницы с необходимыми динамическими AJAX запросами. Он разработан и протестирован с Apache Nutch 2.3, вы можете попробовать его на других версиях Nutch 2.X или рефакторить исходные коды в соответствии с вашим дизайном.
HTML Parser: используется для анализа HTML и извлечения данных из AJAX запросов.
AJAX Parser: использует jQuery ajax для обработки AJAX запросов и извлечения данных.
Ajax Fetcher: использует Htmlunit и Selenium WebDriver для извлечения AJAX данных.
Parse Data: обрабатывает данные, полученные через Ajax Fetcher, используя XPath и другие методы.
Для установки и использования плагина следуйте инструкциям на сайте: http://wiki.apache.org/nutch/.
Также можно использовать Eclipse IDE для сборки и запуска проекта. Для этого необходимо импортировать проект в Eclipse, запустить его и настроить сборку с использованием ANT.
На скриншотах показаны результаты работы плагина в среде разработки Eclipse.
Плагин использует следующие библиотеки:
Решение для интеграции Nutch и Solr с поддержкой AJAX предоставляет следующие возможности:
Проект является бесплатным открытым исходным кодом. Также предоставляется платная поддержка.
Для получения поддержки можно обратиться по электронной почте: s2jh-dev@hotmail.com или QQ: 2414521719.
Ссылки на ресурсы, связанные с проектом:
Nutch 2.X AJAX Plugins (Active) — плагин для Apache Nutch 2.3 с использованием Htmlunit и Selenium WebDriver.
S2JH4Net (Active) — Spring MVC+Spring+JPA+Hibernate веб-приложение.
S2JH (Deprecated) — Struts2+Spring+JPA+Hibernate веб-приложение.
Nutch 1.X AJAX Plugins (Deprecated) — плагин для Apache Nutch 1.X с использованием Htmlunit.
12306 Hunter (Deprecated) — приложение для поиска билетов на поезд 12306.
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Комментарии ( 0 )