1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/sdyan-gspider

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
В этом репозитории не указан файл с открытой лицензией (LICENSE). При использовании обратитесь к конкретному описанию проекта и его зависимостям в коде.
Клонировать/Скачать
Внести вклад в разработку кода
Синхронизировать код
Отмена
Подсказка: Поскольку Git не поддерживает пустые директории, создание директории приведёт к созданию пустого файла .keep.
Loading...
README.md

GSpider

a Java/Groovy Spider, make crawl easy.

Один из основанных на Java/Groovy пауков, который делает процесс сканирования проще.

Feature — особенности

  • easy to use, support crawl DSL. Прост в использовании, поддерживает сканирование DSL.
  • easy to manipulating html, by transform to jsoup document or json or just text. Легко манипулировать HTML, можно преобразовать в документ jsoup, JSON или просто текст.
  • config like nutch. Конфигурация похожа на Nutch. Можно настроить начальные точки, количество потоков, количество сканирований, диапазон страниц (включая и исключая), обработчики и т. д., после чего можно запускать.
  • develop use java or groovy. Можно разрабатывать с использованием Java или Groovy. Конечно, также можно использовать любой язык, поддерживаемый JVM.
  • deploy alone, distribute, and support multi-spider. Можно развернуть отдельно, распределить и поддерживать несколько пауков.

Example — пример

This is a Groovy script example. Это пример скрипта на Groovy.

        Spider.crawl {
            seeds "http://www.luoyouzhijia.cn/"
            handle { Page page ->
                println("Handle -> " + page.url)
                println("Title -> " + page.document.title())
            }
        }

more example — больше примеров

Warning — предупреждение

Do not fetch too much before change the seeds, just for test. Не скачивайте слишком много перед изменением начальных точек, только для теста.

别抓太多哈,这个网站可是我亲儿子,别整坏了。 Не скачите слишком много, этот сайт — мой родной сын, не сломайте его.

How to use — как использовать

Gradle code

compile 'xyz.itbang:gspider:3.1.1'

Something to say — что сказать

Если вы не можете читать по-китайски, ничего важного, просто чтобы выпить чашку чая. Когда-нибудь я скажу это снова на английском.

Мне нужно было просканировать некоторые данные, и я рассмотрел несколько инструментов или фреймворков для сканирования в области Java. Я не был полностью удовлетворён.

Nutch, великий предшественник, породил группу блестящих младших братьев, но сам, похоже, пришёл в упадок. По сравнению с официальной документацией, он даже не работает, документация очень неполная, и она не обновлялась уже много лет.

WebMagic, ребята говорят, что они хотят создать учебник по сканированию в стиле Java, наравне со Scrapy, хорошая документация, полезная. Однако я думаю, что некоторые конструкции слишком сложны, слишком много упаковки может привести к недостаточной гибкости, а слишком много работы может привести к выходу за рамки.

После того как я посетил двух великих богов, я подумал, что всё равно лучше сделать свой собственный. Так родился GSpider.

Пример, который все уже видели, вероятно, нет более простого, лёгкого в использовании и мощного сканера на рынке. Благодаря Groovy, замыканиям, DSL, GPath и т.д., всё становится простым и мощным.

Весь проект занял примерно две недели, включая изучение отраслевых знаний и написание кода. Весь проект насчитывает около 200 строк (не считая комментариев), и он реализовал основные функции двух предшественников. Функционально он больше похож на Nutch.

Я немного взволнован, когда закончил его, и хочу выпить немного пива 82 года. Но я не смог его найти. У кого-нибудь есть? Может быть, кто-то хочет угостить меня?

Хватит хвастаться, пора скромно и осторожно заниматься делом.

Добро пожаловать всем, кто хочет поставить лайк, форкнуть, предложить идеи или комментарии. Мой WeChat — jackyanq. Если вам нравится этот проект, вы можете поддержать меня.

Комментарии ( 0 )

Вы можете оставить комментарий после Вход в систему

Введение

Спайдер на основе Java/Groovy, который упрощает сбор данных. Развернуть Свернуть
Отмена

Обновления

Пока нет обновлений

Участники

все

Недавние действия

Загрузить больше
Больше нет результатов для загрузки
1
https://api.gitlife.ru/oschina-mirror/sdyan-gspider.git
git@api.gitlife.ru:oschina-mirror/sdyan-gspider.git
oschina-mirror
sdyan-gspider
sdyan-gspider
master