1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/poet-WechatSpider

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
Клонировать/Скачать
README.md 4.5 КБ
Копировать Редактировать Web IDE Исходные данные Просмотреть построчно История
gitlife-traslator Отправлено 30.11.2024 03:08 fa5cfe2

WechatSpider

С помощью AnyProxy + JS + Java можно собрать все статьи из публичных аккаунтов в WeChat.

Запуск проекта

// Клонируем проект на локальный компьютер
git clone https://gitee.com/poet/WechatSpider.git

// Изменяем адрес базы данных в `WechatSpider/src/main/resources/application.properties`
vim ~/WechatSpider/src/main/resources/application.properties

// После внесения изменений выполняем сборку
cd ~/WechatSpider && mvn clean install -Dmaven.test.skip=true

// Устанавливаем AnyProxy
npm install -g anyproxy

// Устанавливаем npm-плагины
cd ~/WechatSpider/src/main/resources && npm install

// Запускаем AnyProxy
anyproxy --intercept --silent true  --rule ~/WechatSpider/src/main/resources/spider.js

// Запускаем проект
cd ~/WechatSpider
java -jar target/WechatSplider-1.0-SNAPSHOT.jar

Установка RootCA от AnyProxy, установка сертификата на доверие через сканирование с мобильного устройства

Настройка прокси: host — это IP-адрес сервера, на котором запущен сервис

Использование

  1. Откройте публичный аккаунт в WeChat и перейдите к списку сообщений.
  2. С помощью автоматического прокручивания вниз соберите данные обо всех статьях.
  3. После сбора данных о статьях перейдите к любой статье и откройте её. Программа соберёт данные о содержании статьи, количестве лайков, комментариев и просмотров. Через 10 секунд произойдёт автоматический переход к следующей статье, и процесс сбора данных повторится до тех пор, пока не будут собраны данные обо всех статьях.

Функционал

  1. Автоматический сбор данных из истории сообщений.
  2. Сбор данных о содержании статей, лайках, просмотрах и комментариях.
  3. Оптимизация сетевых запросов: запросы изображений заменены на запросы с использованием фоновых изображений.

Конфигурация для сбора данных

// Код для сбора данных на JavaScript
vim ~/WechatSpider/src/main/resources/splider.js

// Конфигурационные настройки
var config = {
    host: 'http://127.0.0.1:8080', // Адрес сервера
    crawlHistory: true, // Сбор данных из списка сообщений
    crawlArticle: true, // Сбор данных о статьях
    crawlComment: true, // Сбор комментариев
    crawlLikeReadNum: true, // Сбор информации о лайках и просмотрах
    autoNextScroll: true, // Автоматическое прокручивание для сбора данных
    autoNextPage: true, // Автоматическая смена страниц
    autoPostData: true, // Отправка данных на сервер
    m: 3000, // Интервал времени для автоматического пролистывания (от m до n секунд)
    n: 5000,
    jumpInterval: 10, // Время ожидания перед переходом к следующей статье
    saveContentType: 'html',// Формат сохранения данных: html или text
    localImg: true // Возврат локальных изображений вместо изображений из публичного аккаунта
}

Схема работы

Ссылки

  1. http://anyproxy.io/cn
  2. https://github.com/lqqyt2423/wechat_spider
  3. http://www.cnblogs.com/luojiangwen/p/7943696.html
  4. https://gitee.com/zsyoung01/AnyProxy

Опубликовать ( 0 )

Вы можете оставить комментарий после Вход в систему

1
https://api.gitlife.ru/oschina-mirror/poet-WechatSpider.git
git@api.gitlife.ru:oschina-mirror/poet-WechatSpider.git
oschina-mirror
poet-WechatSpider
poet-WechatSpider
master