1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/shenyangpy-scrapy

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
Клонировать/Скачать
Внести вклад в разработку кода
Синхронизировать код
Отмена
Подсказка: Поскольку Git не поддерживает пустые директории, создание директории приведёт к созданию пустого файла .keep.
Loading...
README.md

Scrapy: фреймворк для создания пауков на Python

Scrapy — это фреймворк на Python, который используется для создания программ-пауков (или краулеров), предназначенных для сбора данных с веб-сайтов. Эти данные могут быть использованы для различных целей, таких как анализ рынка, мониторинг цен или сбор информации о продуктах.

Пример использования Scrapy

В качестве примера можно рассмотреть программу, которая собирает данные о транспортных средствах с сайта «Автомобиль дома», а также информацию о недвижимости с сайтов «Дом семян» и «Цепочка домов».

Для работы с Scrapy необходимо установить Python версии 2.7 и сам фреймворк версии 1.12.

Чтобы создать паука, нужно выполнить команду:

scrapy crawl car -o Trunks.json

Эта команда создаст файл Trunks.json, в котором будут содержаться собранные данные.

Также можно запустить паука без сохранения данных:

scrapy crawl car

Команда scrapy list покажет список созданных пауков.

Scrapy изначально был разработан для сбора данных с веб-страниц, но его также можно использовать для получения данных из API, например, Amazon Associates Web Services.

Что такое паук?

Паук — это программа, которая автоматически посещает веб-сайты и собирает с них данные. Пауки используются для различных задач, таких как индексация поисковых систем, сбор данных для анализа рынка или мониторинг цен.

Хотя можно написать паука с нуля, использование фреймворка может значительно ускорить процесс разработки и сократить время, необходимое для создания программы. Scrapy — это лёгкий и простой в использовании фреймворк, написанный на Python.

Основные компоненты Scrapy включают:

Engine: обрабатывает поток данных в системе и инициирует транзакции. — Scheduler: принимает запросы от Engine и помещает их в очередь, возвращая их при повторном запросе Engine. — Downloader: загружает содержимое веб-страницы и передаёт его Spider. — Spider: основной компонент, который определяет правила для извлечения данных с конкретной веб-страницы. — Project Pipeline: отвечает за обработку данных, извлечённых Spider, выполняя такие задачи, как очистка, проверка и хранение данных. — Downloader Middleware: промежуточное ПО между Engine и Downloader, которое обрабатывает запросы и ответы между ними. — Spider Middleware: промежуточное ПО между Engine и Spider, которое обрабатывает входные данные и выходные запросы Spider. — Scheduler Middleware: промежуточное ПО между Engine и Scheduler, которое обрабатывает запросы и ответы между ними.

Использование Scrapy позволяет легко собирать данные с веб-сайтов, экономя время и усилия разработчиков.

Официальный сайт Scrapy: http://scrapy.org/.

Исходный код доступен на GitHub: https://github.com/scrapy/scrapy.

Пример кода: https://github.com/asen477/scrapy.

Комментарии ( 0 )

Вы можете оставить комментарий после Вход в систему

Введение

Scrapy: веб-сайт паук фреймворк библиотека, захват. Развернуть Свернуть
Apache-2.0
Отмена

Обновления (1)

все

Участники

все

Недавние действия

Загрузить больше
Больше нет результатов для загрузки
1
https://api.gitlife.ru/oschina-mirror/shenyangpy-scrapy.git
git@api.gitlife.ru:oschina-mirror/shenyangpy-scrapy.git
oschina-mirror
shenyangpy-scrapy
shenyangpy-scrapy
master