AJay13-ECommerceCrawlers: Практика по созданию различных веб-сайтов и ботов для сбора данных с сайтов электронной коммерции. Включает в себя: товары с Taobao, публичные аккаунты WeChat, отзывы с Dazhongdianping, сайты поиска работы, Xiaoyu, задачи от Alibaba, Scrapy с Blogspot, Weibo, Baidu Tiepiaob, фильмы с Douban, изображения с Baoguangwang, панорамные изображения с Quanjingwang, музыку с Douban, данные о фармацевтическом надзоре в одной из провинций, новости с Sohu, сбор текстовых данных для машинного обучения, сбор данных об активах с Fofa, автомобили с Carhome, данные государственной статистики с National Bureau of Statistics, количество ключевых слов, зарегистрированных на Baidu, каталог с Spiderpan, заголовки новостей с Jinri Toutiao, обзоры фильмов с Douban. Проект по демонстрации ботов, созданных для сбора данных через WeChat:

ECommerceCrawlers

Многочисленные проекты по сбору данных о товарах с различных торговых площадок, написанные членами команды. Каждый проект представляет собой практическое упражнение по написанию и запуску парсеров.

Анализ процесса сбора данных можно провести, ознакомившись с файлом readme каждого проекта.

Для опытных специалистов по парсингу это будет хорошим примером того, как избежать повторного написания кода. Проекты регулярно обновляются и поддерживаются, что обеспечивает их актуальность и сокращает время на сбор данных.

Новички могут использовать эти проекты для изучения основ парсинга. Знания, необходимые для создания парсера, можно получить из проекта wiki (https://github.com/DropsDevopsOrg/ECommerceCrawlers/wiki/%E7%88%AC%E8%99%AB%E5%88%B0%E5%BA%95%E8%BF%9D%E6%B3%95%E5%90%97%3F). Парсинг может показаться сложным и требующим глубоких знаний процессом, но при правильном подходе можно быстро научиться собирать данные с популярных сайтов. Однако рекомендуется с самого начала иметь чёткую цель.

Целенаправленное обучение будет более эффективным и точным. Все необходимые предварительные знания можно приобрести в процессе достижения цели 😁😁😁.

Если вы хотите улучшить свои навыки парсинга, рекомендуется изучить курс «Парсинг и обратная разработка» от мастера Ван Пина (https://j.youzan.com/zF-n-2), который предлагает AJay13.

Мы приветствуем обратную связь по проекту. Вы можете оставить свои замечания в разделах ⭕️Issues или 🔔Pr.

В предыдущих версиях проекта было загружено большое количество файлов, занимающих около 3/4 всех коммитов. Мы обнаружили, что каждый раз, когда мы клонируем репозиторий, его размер достигает 100 Мбайт. Это противоречит нашей первоначальной идее. Мы не можем эффективно удалить каждый файл (слишком лениво), поэтому решили повторно инициализировать репозиторий и больше не загружать данные парсинга, а оптимизировать структуру репозитория.

About

Код облачного хранилища: AJay13/ECommerceCrawlers
Репозиторий GitHub: DropsDevopsOrg/ECommerceCrawlers
Платформа для демонстрации проектов: http://wechat.doonsec.com

Income

Почти 80 % проектов были написаны для клиентов. Перед загрузкой в хранилище все они прошли согласование клиента на открытие исходного кода.

CrawlerDemo

Примечание: в ответе не удалось перевести некоторые слова и фразы, так как они могут быть специфическими терминами или именами собственными. Какие технологии используются в проекте?

В данном проекте используются следующие технологии:

Анализ данных:
- Chrome Devtools;
- Fiddler;
- Firefox;
- Anyproxy;
- Mitmproxy.
Сбор данных:
- urllib;
- requests;
- scrapy;
- selenium.
Разбор данных:
- re;
- beautifulsoup;
- xpath;
- pyquery;
- css.
Сохранение данных:
- txt-текст;
- csv;
- excel;
- mysql;
- redis;
- mongodb.
Защита от парсинга:
- обход обнаружения Taobao с помощью mitmproxy;
- расшифровка данных JS;
- создание отпечатков пальцев для данных JS;
- запутывание текста;
- внедрение грязных данных (не удалось перевести).
Эффективный парсинг:
- однопоточный;
- многопоточный;
- многопроцессный;
- асинхронное взаимодействие;
- модель производитель-потребитель для многопоточности;
- распределённая система парсинга.

Что такое «паук»?

Паук — это программа или скрипт, который автоматически собирает информацию из интернета в соответствии с определёнными правилами.

Для чего нужен паук?

Пауки используются для:

анализа рынка, включая анализ электронной коммерции, анализ торговых кругов и анализ рынков первого и второго уровней;
мониторинга рынка, такого как электронная коммерция, новости и мониторинг недвижимости;
поиска бизнес-возможностей, таких как сбор информации о тендерах, поиск клиентских данных и поиск корпоративных клиентов.

Какие элементы есть у веб-страницы?

Веб-страница включает в себя:

URL;
HTML;
CSS;
JS.

Robots Protocol

Robots Protocol — это набор правил для пауков и поисковых систем, которые определяют, какие страницы можно сканировать, а какие нет. Обычно он представлен в виде текстового файла robots.txt, расположенного в корневом каталоге сайта.

Процесс сбора данных

Сбор данных может осуществляться путём имитации действий пользователя.

Анализ данных

Данные могут быть проанализированы с использованием следующих инструментов:

re;
beautifulsoup;
xpath;
pyquery;
css.

Хранение данных

Малые объёмы данных могут храниться в текстовых файлах, CSV-файлах или Excel-таблицах. Большие объёмы данных обычно хранятся в базах данных, таких как MySQL, Redis или MongoDB.

Защита от парсинга

Существуют различные методы защиты от парсинга, такие как использование mitmproxy для обхода обнаружения Taobao, расшифровка данных JavaScript, создание отпечатков пальцев для данных JavaScript и запутывание текста.

Эффективный парсинг

Для повышения эффективности парсинга могут использоваться многопоточность, многопроцессность, асинхронное взаимодействие, модель производитель-потребитель и распределённые системы парсинга.

OSCHINA-MIRROR/AJay13-ECommerceCrawlers

ECommerceCrawlers

About

Income

CrawlerDemo

Комментарии ( 0 )

Введение

Обновления

Участники

Недавние действия

OSCHINA-MIRROR/AJay13-ECommerceCrawlers .gitee-modal { min-width: 500px !important; } .gitee-modal .close { right: 0.6rem !important; }

ECommerceCrawlers

About

Income

CrawlerDemo

Комментарии ( 0 )

Введение

Обновления

Участники

Недавние действия

OSCHINA-MIRROR/AJay13-ECommerceCrawlers