1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/isyuu-wxhub

В этом репозитории не указан файл с открытой лицензией (LICENSE). При использовании обратитесь к конкретному описанию проекта и его зависимостям в коде.
Клонировать/Скачать
Внести вклад в разработку кода
Синхронизировать код
Отмена
Подсказка: Поскольку Git не поддерживает пустые директории, создание директории приведёт к созданию пустого файла .keep.
Loading...
README.md

Инструмент для сбора статей из публичных аккаунтов

Используя схему редактирования ссылок публичных аккаунтов, преодолеваем ограничение в 10 запросов схемы Sogou. ~~~ ;-)

2018.12

  • В публичном аккаунте добавлено извлечение ссылок и паролей к Baidu Netdisk (указан метод baidu_pan_links).
  • Добавлен метод whole_page для извлечения всех страниц HTML.
  • Добавили переменные todo.list и mask.
todo.list записывает все данные ссылок на статьи в публичном аккаунте. Из-за частого вызова интерфейса поиска статей или перехода по страницам может произойти бан. Поэтому текущий подход заключается в использовании маски для записи всех данных обработки индекса, что гарантирует отсутствие повторного перехода на одну и ту же страницу и повышает вероятность получения новых ссылок.

2019.01

  • Добавлен параметр -pl для ограничения количества переходов на страницы публичного аккаунта за один раз. Рекомендуется использовать значение не более 10.
    • N = 0: не переходить на другие страницы, только повторно обрабатывать URL из предыдущего списка (todo.list).
    • N < 0: без ограничений на переходы (по умолчанию), останавливается при достижении конца или ошибке.
    • N > 0: перейти на следующую страницу N раз.

Подготовка

pip install -r requirements.txt

Структура

wxhub/
├── README.md
├── arti.cache.list		(создаётся после использования)	
├── chromedriver			(версия macOS по умолчанию, версия для Windows доступна для отдельной загрузки, просто переименуйте её)
├── cookies.json			(создаётся после использования)
├── gongzhonghao.py		(создаётся после использования)
├── output				(создаётся после использования)
├── requirements.txt	
├── url.cache.list		(создаётся после использования)
└── wxhub.py

Использование

(py3) isyuu:wxhub isyuu$ python wxhub.py -h
использование: wxhub.py [-h] -biz BIZ [-chrome CHROME] [-arti ARTI] [-method METHOD]
                [-sleep SLEEP] [-pipe PIPE] [-pl PAGE_LIMIT]

решает все проблемы с общедоступными аккаунтами

необязательные аргументы:
  -h, --help      показать это справочное сообщение и выйти
  -biz BIZ        обязательно: имя общедоступного аккаунта
  -chrome CHROME  необязательно: путь к веб-браузеру Chrome, по умолчанию используется chromedriver в том же каталоге скрипта
  -arti ARTI      необязательно: название статьи, по умолчанию обрабатываются все статьи
  -method METHOD  необязательно, метод обработки: all_images, baidu_pan_links, whole_page
  -sleep SLEEP    время ожидания между переходами на страницы, по умолчанию 1 секунда на страницу.
  -pipe PIPE      при указании метода как pipe этот параметр определяет процесс обработки потока. Например: "pipe_example,
                  pipe_example1, pipe_example2, pipe_example3"
  -pl PAGE_LIMIT  указывает максимальное количество переходов на страницы, слишком большое количество переходов на одни и те же страницы общедоступного аккаунта в течение короткого времени может привести к бану, 0: не переходит на другие страницы и обрабатывает только todo.list, по умолчанию <0: нет ограничений
                  >0: количество переходов на страницу

В настоящее время есть функции кэширования, и кэш хранится в следующих файлах.

  • Файлы cookie пользователя.
  • Ссылки на уже извлечённые статьи. --> arti.cache.list
  • Уже загруженные ссылки. --> url.cache.list

Если необходимо полностью перезагрузить данные, удалите соответствующие файлы.

Известные проблемы

  • Иногда, когда срок действия сеанса в cookies истекает, возникает ошибка «Не удалось получить страницу!» (в этом случае можно использовать файл параметров cookies.json).
  • Если появляется сообщение «Поиск слишком частый», возможно, в WeChat существует механизм защиты от сканирования поисковых интерфейсов; текущее решение — удалить cookies.json, войти в систему с другим аккаунтом или подождать несколько часов (в будущем планируется попробовать сначала кэшировать все ссылки, а затем извлекать их по очереди).

Комментарии ( 0 )

Вы можете оставить комментарий после Вход в систему

Введение

Статья вэйсинь (Weixin) — неограниченный сбор данных. Развернуть Свернуть
Отмена

Обновления

Пока нет обновлений

Участники

все

Недавние действия

Загрузить больше
Больше нет результатов для загрузки
1
https://api.gitlife.ru/oschina-mirror/isyuu-wxhub.git
git@api.gitlife.ru:oschina-mirror/isyuu-wxhub.git
oschina-mirror
isyuu-wxhub
isyuu-wxhub
master