Ползун, созданный с использованием GOLANG для вертикальных сообществ.
Последняя стабильная версия: Версия 1.2 (23 сентября 2014 года).
Китайская документация && Часто задаваемые вопросы.
go get github.com/hu17889/go_spider
go get github.com/PuerkitoBio/goquery
go get github.com/bitly/go-simplejson
go get golang.org/x/net/html/charset
Этот проект основан на simplejson, goquery.
Вы можете скачать пакеты с http://gopm.io/ в Китае.
Вот пример для парсинга содержимого GitHub. Вы можете попробовать процесс парсинга.
go install github.com/hu17889/go_spider/example/github_repo_page_processor
./bin/github_repo_page_processor
Больше примеров здесь: примеры.## Создание вашего ползуна
// Входящие данные ползуна:
// PageProcesser ;
// Имя задачи, используемое в Pipeline для записи;
spider.NewSpider(NewMyPageProcesser(), "TaskName").
AddUrl("https://github.com/hu17889?tab=repositories", "html"). // Начальный URL, тип ответа ("html" или "json")
AddPipeline(pipeline.NewPipelineConsole()). // Отображение результата на экране
SetThreadnum(3). // Запросы парсер выполняются тремя корутинами
Run()
Используйте встроенные модули
Используйте свои модули
Просто скопируйте встроенные модули и измените их!
Если вы создали модуль Downloader, вы можете использовать его с помощью Spider.SetDownloader(ваш_донлоадер)
.
Если вы создали модуль Pipeline, вы можете использовать его с помощью Spider.AddPipeline(ваш_пайплайн)
.
Если вы создали модуль Scheduler, вы можете использовать его с помощью Spider.SetScheduler(ваш_scheduler)
.
Папка расширений включает модули или другие инструменты, которые кто-то делится. Вы можете отправить свой код без ошибок.
Краткое описание: Инициализация парсера, управление одновременной работой, базовый модуль, управление модулем, установка конфигураций.
Функции:- Функции запуска парсера: Get, GetAll, Run
Краткое описание: Парсер отправляет запрос в Scheduler, содержащий URL для парсинга. Затем Downloader скачивает результат (HTML, JSON, JSONP, текст) запроса. Результат сохраняется в объекте Page для последующего анализа в PageProcessor. Анализ HTML основан на пакете goquery, анализ JSON — на пакете simplejson, а JSONP преобразуется в JSON. Текст представляет собой простой текст без использования парсера.
Функции:
Краткое описание: Модуль PageProcessor выполняет анализ результатов. Модуль получает ключ-значение пары результатов и URL следующих шагов парсинга. Эти ключ-значение пары сохраняются в объектах PageItems, а URL добавляются в Scheduler.
Функции:
Краткое описание: Сохраняет информацию запроса.
Функции:
Функции:
Краткое описание: Модуль пайплайна выводит результат и сохраняет его там, где вам это нужно. По умолчанию используется модуль PipelineConsole (вывод в стандартный поток) и PipelineFile (вывод в файл).
Функции:
Краткое описание: Модуль запроса содержит конфигурацию HTTP-запросов, такие как URL, заголовки и cookies.
Функции:
go_spider лицензировано под Mozilla Public License Version 2.0
Mozilla кратко описывает область действия лицензии следующим образом:
MPL: Копирон права применимы ко всем файлам, содержащим код с лицензией MPL.
Это значит:
Для получения более подробной информации о лицензии прочтите MPL 2.0 FAQ.Вы можете прочитать полные условия здесь: LICENSE.
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Комментарии ( 0 )