1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/JIANGWL-ZhihuSpider

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
В этом репозитории не указан файл с открытой лицензией (LICENSE). При использовании обратитесь к конкретному описанию проекта и его зависимостям в коде.
Клонировать/Скачать
README.md 4.5 КБ
Копировать Редактировать Web IDE Исходные данные Просмотреть построчно История
gitlife-traslator Отправлено 25.11.2024 11:07 2b79ba5

ZhihuSpider

Пользовательский паук для www.zhihu.com

1. Установите python3 и пакеты

Убедитесь, что у вас установлен python3. Используйте pip для установки зависимостей.

pip install Image requests beautifulsoup4 html5lib redis PyMySQL 

2. Конфигурация базы данных

Установите mysql, создайте свою базу данных. Импортируйте init.sql для создания таблицы.

3. Установите redis

# (ubuntu)
apt-get install redis

# или (centos)
yum install redis

# или (macos)
brew install redis

4. Настройте приложение

Заполните config.ini.

5. Запустите

python get_user.py
или команда python3
python3 get_user.py

На китайском языке

В моём блоге есть подробное объяснение кода: Я использовал Python для сбора данных о 100 000 пользователей Zhihu.

Анализ статистических данных: Анализ данных 100 000 пользователей Zhihu.

Это программа для многопоточного сбора информации о пользователях Zhihu.

Требования

Необходимые пакеты: beautifulsoup4 html5lib image requests redis PyMySQL

Установка всех зависимых пакетов с помощью pip:

pip install Image requests beautifulsoup4 html5lib redis PyMySQL 

Требуется поддержка китайского языка в среде выполнения.

Тестирование среды выполнения: python3.5, не гарантируется идеальная работа в других средах выполнения.

1.Необходимо установить mysql и redis

2.Настройте файл config.ini, установите mysql и redis, а также введите свой аккаунт на Zhihu (мастер-ветка нового паука не требует входа в систему, но могут возникнуть проблемы с устареванием, можно переключиться на использование ветки new-ui)

Скорость работы паука можно контролировать с помощью настройки файла config.ini [sys] sleep_time (рекомендуется использовать рекомендуемые значения, слишком быстрая работа может привести к блокировке со стороны Zhihu), thread_num настраивает количество потоков.

3.Импортируйте init.sql в базу данных

Запуск

Начните сбор данных: python get_user.py Просмотрите собранное количество: python check_redis.py

Эффект

Эффект изображения 1 Эффект изображения 2

Docker

Если вы не хотите тратить время, вы можете обратиться к моему простому руководству по созданию базовой среды с использованием docker: mysql и redis — официальные образы.

docker run --name mysql -itd mysql:latest
docker run --name redis -itd redis:latest

Затем используйте docker-compose для запуска образа python, мой docker-compose.yml для python:

python:
    container_name: python
    build: .
    ports:
      - "84:80"
    external_links:
      - memcache:memcache
      - mysql:mysql
      - redis:redis
    volumes:
      - /docker_containers/python/www:/var/www/html
    tty: true
    stdin_open: true
    extra_hosts:
      - "python:192.168.102.140"
    environment:
        PYTHONIOENCODING: utf-8

Мой Dockerfile:

From kong36088/zhihu-spider:latest

Опубликовать ( 0 )

Вы можете оставить комментарий после Вход в систему

1
https://api.gitlife.ru/oschina-mirror/JIANGWL-ZhihuSpider.git
git@api.gitlife.ru:oschina-mirror/JIANGWL-ZhihuSpider.git
oschina-mirror
JIANGWL-ZhihuSpider
JIANGWL-ZhihuSpider
master