1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/shengqiangzhang-examples-of-web-crawlers

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
Клонировать/Скачать
Внести вклад в разработку кода
Синхронизировать код
Отмена
Подсказка: Поскольку Git не поддерживает пустые директории, создание директории приведёт к созданию пустого файла .keep.
Loading...
README.MD

Здесь есть одна программа для Mac под названием Pap.er, которая может быть одним из лучших инструментов для обоев. Она предлагает разнообразные типы обоев и имеет разрешение 5K сверхвысокой чёткости.

Pap.er позволяет переносить обои с разрешением 5К на другие платформы, такие как Windows или Linux. Для этого необходимо выполнить определённые шаги:

  1. Перейти в текущий каталог.
  2. Удалить зависимости библиотеки.
  3. Переустановить зависимости библиотеки.
  4. Запустить программу.

Для запуска программы необходимо выполнить следующие команды:

# перейти в текущий каталог
cd 目录名

# удалить зависимости библиотеки
pip uninstall -y -r requirement.txt

# переустановить зависимости библиотеки
pip install -r requirement.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

# запустить программу
python main.py

Функциональность

Программа предоставляет возможность переноса обоев с разрешением 5K софта для Mac на другие операционные системы.

Скриншоты

В тексте запроса нет скриншотов.

Как запустить

Инструкция по запуску программы приведена выше.

[6. Скачивание данных о фильмах из рейтинга Douban][getMovieInRankingList]

Проект основан на задании из курса и предназначен для поиска фильмов по рейтингу и отзывам. Программа использует два метода сбора данных: из рейтингов и ключевых слов.

Функциональность

  • Поиск фильмов по ключевым словам.
  • Поиск фильмов из рейтинга (TOP250).
  • Отображение рейтинга IMDB и другой базовой информации.
  • Предоставление доступа к онлайн-видеосайтам без необходимости VIP-аккаунта.
  • Возможность поиска видео на облачных дисках.
  • Возможность скачивания видео с различных сайтов.

Инструкции по запуску

  1. Открыть Chrome и ввести в адресной строке «chrome://version», чтобы узнать версию браузера.
  2. Посетить сайт chromedriver.storage.googleapis.com/index.html и загрузить драйвер, соответствующий версии Chrome. После загрузки файл необходимо распаковать.
  3. Открыть файл getMovieInRankingList.py в текущем каталоге и изменить путь к драйверу в строке 107 на путь к загруженному файлу.
  4. Установить необходимые зависимости с помощью команды pip install -r requirement.txt.
  5. Запустить программу командой python main.py.

Содержимое

  • x — поиск фильмов по ключевым словам;
  • x — поиск фильмов из рейтинга TOP250;
  • x — отображение рейтинга IMDB и других основных сведений;
  • x — предоставление доступа к нескольким онлайн-видеоплатформам без VIP-аккаунтов;
  • x — возможность поиска видео на нескольких облачных дисках;
  • x — возможность скачивания видео с нескольких сайтов.

[7. Многопоточность и пул прокси для сбора данных с сайта TianTian Jinyinwang (без использования фреймворков для парсинга)[fund_data]]

Цель проекта — продемонстрировать использование многопоточности и пула прокси для обхода ограничений веб-сайтов. В качестве примера выбран сайт TianTian Jinyinwang.

Технические аспекты

  • Пул прокси.
  • Многопоточность.
  • Парсинг и обход защиты от него.

Формат данных: 000056, 建信消费升级混合, 2019-03-26, 1.7740, 1.7914, 0.98, 2019-03-27 15:00.

000031, 华夏复兴混合, 2019-03-26, 1.5650, 1.5709, 0.38, 2019-03-27 15:00.

000048, 华夏双债增强债券C, 2019-03-26, 1.2230, 1.2236, 0.05, 2019-03-27 15:00.

000008, 嘉实中证500ETF联接A, 2019-03-26, 1.4417, 1.4552, 0.93, 2019-03-27 15:00.

000024, 大摩双利增强债券A, 2019-03-26, 1.1670, 1.1674, 0.04, 2019-03-27 15:00.

000054, 鹏华双债增利债券, 2019-03-26, 1.1697, 1.1693, -0.03, 2019-03-27 15:00.

000016, 华夏纯债债券C, 2019-03-26, 1.1790, 1.1793, 0.03, 2019-03-27 15:00.

Скриншот

На скриншоте показана анимация процесса сбора данных.

Конфигурация

Перед запуском программы необходимо установить следующие библиотеки: requests, random, re, queue, threading, csv, json.

    # убедиться, что установлены следующие библиотеки, если нет, то выполнить в среде python3 команду pip install модуль
    import requests
    import random
    import re
    import queue
    import threading
    import csv
    import json

[8. Генерация отчёта о личных данных из WeChat][generate_wx_data]

Программа анализирует данные из WeChat, включая псевдонимы, пол, возраст, местоположение, примечания, подписи, аватары, группы и публичные аккаунты.

Анализ включает в себя:

  • типы друзей (незнакомые, отмеченные как важные, те, кому запрещено просматривать мой профиль, те, кто не разрешает мне просматривать их профиль);
  • распределение друзей по провинциям Китая и анализ наиболее популярных мест.

Также программа анализирует:

  • соотношение полов среди друзей;
  • наиболее близких друзей;
  • особенности друзей;
  • количество общих друзей с самыми популярными группами;
  • подписи друзей;
  • аватары друзей;
  • использование реальных фотографий в качестве аватаров.

Инструкции по запуску:

# перейти в текущий каталог
cd 目录名

# удалить зависимости библиотеки
pip uninstall -y -r requirement.txt

# переустановить зависимости библиотеки
pip install -r requirement.txt

# запустить программу
python generate_wx_data.py

Инструкция по созданию исполняемого файла

Чтобы создать исполняемый файл, необходимо выполнить следующие действия:

  1. Установить pyinstaller с помощью команды pip install pyinstaller.
  2. Перейти в каталог с программой.
  3. Удалить зависимости с помощью pip uninstall -y -r requirement.txt.
  4. Переустановить зависимости с помощью pip install -r requirement.txt.
  5. Создать исполняемый файл с помощью команды pyinstaller generate_wx_data.py.

[9. Генерация отчёта об истории использования QQ][generate_qq_data]

Программа собирает данные об использовании QQ, включая подробную информацию, время онлайн с включённым и выключенным скрытым режимом, активность в QQ, количество односторонних друзей, анализ активов, анализ групп, данные о группах, которые я покинул за последний год, данные о друзьях, которых я удалил за последний месяц, информацию о платежах, людей, которые меня интересуют, и людей, которым интересен я.

Из-за сложности интерфейсов QQ программа не анализирует данные о друзьях.

Инструкции по запуску

# перейти в текущий каталог
cd 目录名

# удалить зависимости библиотеки
pip uninstall -y -r requirement.txt

# переустановить зависимости библиотеки
pip install -r requirement.txt

# запустить программу
python main.py

10. Генерация электронной книги с данными из моего профиля в WeChat

Программа позволяет создавать электронные книги с данными о профиле в WeChat. Текст на китайском языке:

微信朋友圈保存着你的数据,它保存了美好的回忆,记录了我们成长的点点滴滴。发朋友圈从某种意义上来讲是在记录生活,感受生活,并从中看到了每个人每一步的成长。

这么一份珍贵的记忆,何不将它保存下来呢?只需一杯咖啡的时间,即可一键打印你的朋友圈。它可以是纸质书,也可以是电子书,可以长久保存,比洗照片好,又有时间足迹记忆。

现在,你可以选择打印电子书或者纸质书。打印纸质书的话,可以找第三方机构花钱购买;打印电子书的话,我们完全可以自己动手生成,这可以省下一笔不小的开支

Текст на русском языке:

В WeChat-круге друзей хранятся ваши данные, они хранят прекрасные воспоминания, записывают моменты нашего роста. Отправка сообщений в круг друзей в некотором смысле означает запись жизни, ощущение жизни и наблюдение за ростом каждого человека.

Почему бы не сохранить эти драгоценные воспоминания? Всего лишь за время, необходимое для чашки кофе, вы можете распечатать свой круг друзей одним нажатием кнопки. Это может быть бумажная книга или электронная книга, она может храниться долго, лучше, чем распечатанные фотографии, и имеет воспоминания о времени.

Теперь вы можете выбрать печать электронной книги или бумажной книги. Для печати бумажной книги можно обратиться к сторонним организациям и заплатить за неё; для печати электронной книги мы можем сделать это самостоятельно, что позволит сэкономить значительную сумму. [generate_qq_data]:https://github.com/shengqiangzhang/examples-of-web-crawlers/tree/master/9.%E4%B8%80%E9%94%AE%E7%94%9F%E6%88%90QQ%E4%BA%BA%E5%8E%86%E5%AF%BC%E5%85%AC%E6%81%AF

Комментарии ( 0 )

Вы можете оставить комментарий после Вход в систему

Введение

Некоторые интересные примеры Python-краулеров, которые дружелюбны к новичкам. Они в основном сканируют сайты Taobao, Tmall, WeChat, Douban и QQ. Развернуть Свернуть
MIT
Отмена

Обновления

Пока нет обновлений

Участники

все

Недавние действия

Загрузить больше
Больше нет результатов для загрузки
1
https://api.gitlife.ru/oschina-mirror/shengqiangzhang-examples-of-web-crawlers.git
git@api.gitlife.ru:oschina-mirror/shengqiangzhang-examples-of-web-crawlers.git
oschina-mirror
shengqiangzhang-examples-of-web-crawlers
shengqiangzhang-examples-of-web-crawlers
master