1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/AJay13-ECommerceCrawlers

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
Клонировать/Скачать
Внести вклад в разработку кода
Синхронизировать код
Отмена
Подсказка: Поскольку Git не поддерживает пустые директории, создание директории приведёт к созданию пустого файла .keep.
Loading...
README.md

ECommerceCrawlers

Многочисленные проекты по сбору данных о товарах с различных торговых площадок, написанные членами команды. Каждый проект представляет собой практическое упражнение по написанию и запуску парсеров.

Анализ процесса сбора данных можно провести, ознакомившись с файлом readme каждого проекта.

Для опытных специалистов по парсингу это будет хорошим примером того, как избежать повторного написания кода. Проекты регулярно обновляются и поддерживаются, что обеспечивает их актуальность и сокращает время на сбор данных.

Новички могут использовать эти проекты для изучения основ парсинга. Знания, необходимые для создания парсера, можно получить из проекта wiki (https://github.com/DropsDevopsOrg/ECommerceCrawlers/wiki/%E7%88%AC%E8%99%AB%E5%88%B0%E5%BA%95%E8%BF%9D%E6%B3%95%E5%90%97%3F). Парсинг может показаться сложным и требующим глубоких знаний процессом, но при правильном подходе можно быстро научиться собирать данные с популярных сайтов. Однако рекомендуется с самого начала иметь чёткую цель.

Целенаправленное обучение будет более эффективным и точным. Все необходимые предварительные знания можно приобрести в процессе достижения цели 😁😁😁.

Если вы хотите улучшить свои навыки парсинга, рекомендуется изучить курс «Парсинг и обратная разработка» от мастера Ван Пина (https://j.youzan.com/zF-n-2), который предлагает AJay13.

Мы приветствуем обратную связь по проекту. Вы можете оставить свои замечания в разделах ⭕️Issues или 🔔Pr.

В предыдущих версиях проекта было загружено большое количество файлов, занимающих около 3/4 всех коммитов. Мы обнаружили, что каждый раз, когда мы клонируем репозиторий, его размер достигает 100 Мбайт. Это противоречит нашей первоначальной идее. Мы не можем эффективно удалить каждый файл (слишком лениво), поэтому решили повторно инициализировать репозиторий и больше не загружать данные парсинга, а оптимизировать структуру репозитория.

About

Income

Почти 80 % проектов были написаны для клиентов. Перед загрузкой в хранилище все они прошли согласование клиента на открытие исходного кода.

CrawlerDemo

  • DianpingCrawler: сбор данных с платформы Dianping.
  • East_money: парсинг сайта East money с помощью Scrapy.
  • 📛TaobaoCrawler(new): сбор информации с платформ Alibaba (Taobao, Tmall, Xianyu, Juhuasuan, Feizhu и других).
  • 📛SIPO 专利审查: автоматизированный клиент для проверки патентов SIPO.
  • 📛QiChaCha: сбор информации о предприятиях и промышленных зонах со всей страны.
  • TaobaoCrawler: парсинг товаров с Taobao.
  • 📛ZhaopinCrawler: сбор данных с крупных сайтов по поиску работы.
  • ShicimingjuCrawleAndDisplayr: сбор и отображение данных с сайта Shicimingju.
  • XianyuCrawler: сбор товаров с Xianyu.
  • SohuNewCrawler: сбор новостей с Sohu.
  • WechatCrawler: сбор данных из публичных аккаунтов WeChat.
  • cnblog: парсинг Blog Garden с помощью Scrapy.
  • WeiboCrawler: сбор данных Weibo без использования cookie.
  • OtherCrawlers: несколько интересных примеров парсеров:

Примечание: в ответе не удалось перевести некоторые слова и фразы, так как они могут быть специфическими терминами или именами собственными. Какие технологии используются в проекте?

В данном проекте используются следующие технологии:

  • Анализ данных:

    • Chrome Devtools;
    • Fiddler;
    • Firefox;
    • Anyproxy;
    • Mitmproxy.
  • Сбор данных:

    • urllib;
    • requests;
    • scrapy;
    • selenium.
  • Разбор данных:

    • re;
    • beautifulsoup;
    • xpath;
    • pyquery;
    • css.
  • Сохранение данных:

    • txt-текст;
    • csv;
    • excel;
    • mysql;
    • redis;
    • mongodb.
  • Защита от парсинга:

    • обход обнаружения Taobao с помощью mitmproxy;
    • расшифровка данных JS;
    • создание отпечатков пальцев для данных JS;
    • запутывание текста;
    • внедрение грязных данных (не удалось перевести).
  • Эффективный парсинг:

    • однопоточный;
    • многопоточный;
    • многопроцессный;
    • асинхронное взаимодействие;
    • модель производитель-потребитель для многопоточности;
    • распределённая система парсинга.

Что такое «паук»?

Паук — это программа или скрипт, который автоматически собирает информацию из интернета в соответствии с определёнными правилами.

Для чего нужен паук?

Пауки используются для:

  • анализа рынка, включая анализ электронной коммерции, анализ торговых кругов и анализ рынков первого и второго уровней;
  • мониторинга рынка, такого как электронная коммерция, новости и мониторинг недвижимости;
  • поиска бизнес-возможностей, таких как сбор информации о тендерах, поиск клиентских данных и поиск корпоративных клиентов.

Какие элементы есть у веб-страницы?

Веб-страница включает в себя:

  • URL;
  • HTML;
  • CSS;
  • JS.

Robots Protocol

Robots Protocol — это набор правил для пауков и поисковых систем, которые определяют, какие страницы можно сканировать, а какие нет. Обычно он представлен в виде текстового файла robots.txt, расположенного в корневом каталоге сайта.

Процесс сбора данных

Сбор данных может осуществляться путём имитации действий пользователя.

Анализ данных

Данные могут быть проанализированы с использованием следующих инструментов:

  • re;
  • beautifulsoup;
  • xpath;
  • pyquery;
  • css.

Хранение данных

Малые объёмы данных могут храниться в текстовых файлах, CSV-файлах или Excel-таблицах. Большие объёмы данных обычно хранятся в базах данных, таких как MySQL, Redis или MongoDB.

Защита от парсинга

Существуют различные методы защиты от парсинга, такие как использование mitmproxy для обхода обнаружения Taobao, расшифровка данных JavaScript, создание отпечатков пальцев для данных JavaScript и запутывание текста.

Эффективный парсинг

Для повышения эффективности парсинга могут использоваться многопоточность, многопроцессность, асинхронное взаимодействие, модель производитель-потребитель и распределённые системы парсинга.

Комментарии ( 0 )

Вы можете оставить комментарий после Вход в систему

Введение

Практика по созданию различных веб-сайтов и ботов для сбора данных с сайтов электронной коммерции. Включает в себя: товары с Taobao, публичные аккаунты WeChat, отзывы с Dazhongdianping, сайты поиска работы, Xiaoyu, задачи от Alibaba, Scrapy с Blogspot, Weibo, Baidu Tiepiaob, фильмы с Douban, изображения с Baoguangwang, панорамные изображения с Q... Развернуть Свернуть
MIT
Отмена

Обновления

Пока нет обновлений

Участники

все

Недавние действия

Загрузить больше
Больше нет результатов для загрузки
1
https://api.gitlife.ru/oschina-mirror/AJay13-ECommerceCrawlers.git
git@api.gitlife.ru:oschina-mirror/AJay13-ECommerceCrawlers.git
oschina-mirror
AJay13-ECommerceCrawlers
AJay13-ECommerceCrawlers
master