1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/zymITsky-ECommerceCrawlers

Клонировать/Скачать
Внести вклад в разработку кода
Синхронизировать код
Отмена
Подсказка: Поскольку Git не поддерживает пустые директории, создание директории приведёт к созданию пустого файла .keep.
Loading...
README.md

GitHub вкладчики

ECommerceCrawlers

Множество пауков для сбора данных с различных электронных торговых площадок 🐍, а также практика использования пауков. Через реальные проекты можно тренироваться решать проблемы, возникающие при использовании пауков.

Чтобы узнать процесс сбора данных, прочитайте README каждого проекта.

Для опытных пользователей Python это отличный пример того, как минимизировать повторное создание колеса при сборе данных. Проект регулярно обновляется и поддерживается, чтобы обеспечивать готовое к использованию состояние и снижать время сбора данных.

Для новичков через ✍️реальные проекты можно получить представление о том, как создаются пауки от нуля до конца. Анализ процесса сбора данных можно найти в проектной wiki.

Сбор данных может быть сложной задачей с высокими требованиями к знаниям, но используя правильные методы, можно быстро научиться собирать данные с основных сайтов. Однако рекомендуется иметь конкретную цель с самого начала.При наличии цели обучение будет более целенаправленным и эффективным. Все необходимые предварительные знания можно получить во время выполнения этой цели 😁😁😁.

Все желающие могут указывать недостатки этого проекта, отправляйте ⭕ Issues или 🔔 Pull Requests.

В прошлом были загружены большие файлы, что занимало 3/4 всех коммитов. Обнаружено, что каждый клон достигает размера 100 МБ, что противоречит нашим первоначальным планам. Мы не смогли эффективно удалить каждый файл (слишком ленивы), поэтому будем заново инициализировать репозиторий и больше не будем загружать данные пауков, чтобы оптимизировать структуру репозитория. ## Примеры парсеров- [x] DianpingCrawler: Парсинг сайта Dianping (大众点评爬取)

жду вас

Какие технологии использовать в этом проекте?

Какие полезные технологии используются в этом проекте:

  • Анализ данных
    • Chrome DevTools
    • Fiddler
    • Firefox
    • Appium
    • AnyProxy
    • mitmproxy
  • Получение данных
  • Парсинг данных
    • re
    • BeautifulSoup
    • XPath
    • PyQuery
    • CSS
  • Сохранение данных
    • Текстовый файл
    • CSV
    • Excel
    • MySQL
    • Redis
    • MongoDB
  • Обход защиты от парсинга
    • mitmproxy для обхода проверки Taobao
    • Расшифровка JS-данных
    • Создание базы данных для распознавания JS-данных
    • Текстовая маскировка
    • Вставка случайных данных
  • Эффективность парсинга
    • Однопоточный
    • Многопоточный
    • Многопроцессорный
    • Асинхронный
    • Дистрибутивный парсер

Ссылка указывает на официальную документацию или рекомендованное пример

Что такое паук 🕷️?

🙋‍♂️0x01 Описание паука

Паук

Паук — это программа или скрипт, который автоматически собирает информацию с веб-страниц по определённым правилам.Цели использования пауков

  • Анализ рынка: анализ электронной коммерции, районов бизнеса, первичного и вторичного рынков и т. д.

  • Наблюдение за рынком: мониторинг электронной коммерции, новостей, недвижимости и т. д.

  • Поиск возможностей: сбор информации о тендерах, поиск клиентов, выявление корпоративных клиентов и т. д.Описание страницы

  • URL

  • HTML

  • CSS

  • JS

Протокол Robots

Без правил нет порядка, протокол Robots — это правила для пауков и поисковых систем, которые указывают, какие страницы можно и нельзя просматривать. Обычно это текстовый файл robots.txt, расположенный в корневой директории сайта.

🙋0x02 Процесс получения данных

Получение данных

Моделирование получения данных

🙋0x03 Парсинг данных

Re

BeautifulSoup

XPath

PyQuery

CSS

🙋0x04 Сохранение данных

Малый объём данных (текст)

  • Текстовый файл
  • CSV
  • Excel

Большой объём данных (базы данных)

  • MySQL
  • Redis
  • MongoDB

🙋0x05 Меры против парсеров

Против парсеров

Против мер против парсеров

🙋0x06 Эффективные парсеры

Многопоточность

Многопроцессорность

Асинхронные короутины

Фреймворк Scrapy

Padding

…………

Awesome-Example😍:

Комментарии ( 0 )

Вы можете оставить комментарий после Вход в систему

Введение

Практика по сбору данных с различных веб-сайтов и платформ электронной коммерции. Включает: товары с Taobao, официальные аккаунты WeChat, обзоры с Dazhong Dianping, Aли задания, посты с Baidu Tieba, фильмы с Douban, изображения с Baogou, панорамные снимки с Quan Jingwang, музыка с Douban Music, данные из управления по контролю за лекарствами в о... Развернуть Свернуть
MIT
Отмена

Обновления

Пока нет обновлений

Участники

все

Недавние действия

Загрузить больше
Больше нет результатов для загрузки
1
https://api.gitlife.ru/oschina-mirror/zymITsky-ECommerceCrawlers.git
git@api.gitlife.ru:oschina-mirror/zymITsky-ECommerceCrawlers.git
oschina-mirror
zymITsky-ECommerceCrawlers
zymITsky-ECommerceCrawlers
master