a Java/Groovy Spider, make crawl easy.
Один из основанных на Java/Groovy пауков, который делает процесс сканирования проще.
This is a Groovy script example. Это пример скрипта на Groovy.
Spider.crawl {
seeds "http://www.luoyouzhijia.cn/"
handle { Page page ->
println("Handle -> " + page.url)
println("Title -> " + page.document.title())
}
}
more example — больше примеров
Warning — предупреждение
Do not fetch too much before change the seeds, just for test. Не скачивайте слишком много перед изменением начальных точек, только для теста.
别抓太多哈,这个网站可是我亲儿子,别整坏了。 Не скачите слишком много, этот сайт — мой родной сын, не сломайте его.
Gradle code
compile 'xyz.itbang:gspider:3.1.1'
Если вы не можете читать по-китайски, ничего важного, просто чтобы выпить чашку чая. Когда-нибудь я скажу это снова на английском.
Мне нужно было просканировать некоторые данные, и я рассмотрел несколько инструментов или фреймворков для сканирования в области Java. Я не был полностью удовлетворён.
Nutch, великий предшественник, породил группу блестящих младших братьев, но сам, похоже, пришёл в упадок. По сравнению с официальной документацией, он даже не работает, документация очень неполная, и она не обновлялась уже много лет.
WebMagic, ребята говорят, что они хотят создать учебник по сканированию в стиле Java, наравне со Scrapy, хорошая документация, полезная. Однако я думаю, что некоторые конструкции слишком сложны, слишком много упаковки может привести к недостаточной гибкости, а слишком много работы может привести к выходу за рамки.
После того как я посетил двух великих богов, я подумал, что всё равно лучше сделать свой собственный. Так родился GSpider.
Пример, который все уже видели, вероятно, нет более простого, лёгкого в использовании и мощного сканера на рынке. Благодаря Groovy, замыканиям, DSL, GPath и т.д., всё становится простым и мощным.
Весь проект занял примерно две недели, включая изучение отраслевых знаний и написание кода. Весь проект насчитывает около 200 строк (не считая комментариев), и он реализовал основные функции двух предшественников. Функционально он больше похож на Nutch.
Я немного взволнован, когда закончил его, и хочу выпить немного пива 82 года. Но я не смог его найти. У кого-нибудь есть? Может быть, кто-то хочет угостить меня?
Хватит хвастаться, пора скромно и осторожно заниматься делом.
Добро пожаловать всем, кто хочет поставить лайк, форкнуть, предложить идеи или комментарии. Мой WeChat — jackyanq. Если вам нравится этот проект, вы можете поддержать меня.
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Комментарии ( 0 )