1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/changleibox-TiebaCrawler

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
Клонировать/Скачать
Внести вклад в разработку кода
Синхронизировать код
Отмена
Подсказка: Поскольку Git не поддерживает пустые директории, создание директории приведёт к созданию пустого файла .keep.
Loading...
README.md

Краулер для Baidu Tieba

Реализовано автоматическое посещение и публикация сообщений на Baidu Tieba, а также автоматическая публикация ответов.

Также реализована возможность работы без входа в систему с использованием Cookies.

Версия Python:

Python2.7

Реализация:

В основном используется фреймворк Scrapy для сканирования, библиотека PIL для реализации распознавания капчи. Перед запуском необходимо установить Scrapy и PIL.

Установка Scrapy: Следуйте инструкциям из вводного руководства Scrapy-chs (http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html).

Использование библиотеки PIL: Используйте учебное пособие на китайском языке с официального сайта (https://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/00140767171357714f87a053a824ffd811d98a83b58ec13000).

Запуск:

Запустите файл run.py или используйте командную строку:

scrapy crawl AutoSign

и

scrapy crawl AutoPost

Код:

import logging
    
from scrapy import cmdline
from scrapy.crawler import CrawlerRunner
from scrapy.utils.log import configure_logging
from scrapy.utils.project import get_project_settings
from twisted.internet import reactor

from tieba import spiders

def run_auto_sign():
    cmdline.execute('scrapy crawl AutoSign'.split())

def run_auto_post():
    cmdline.execute('scrapy crawl AutoPost'.split())

if __name__ == '__main__':
    # run_auto_sign()
    settings = get_project_settings()
    configure_logging(settings)
    runner = CrawlerRunner(settings)
    runner.crawl(spiders.AutoSignSpider)
    # runner.crawl(spiders.AutoPostSpider)

    d = runner.join()
    # noinspection PyUnresolvedReferences
    d.addBoth(lambda _: reactor.stop())

    # blocks process so always keep as the last statement
    # noinspection PyUnresolvedReferences
    reactor.run()
logging.info('all finished.')

Нерешённые проблемы:

Не реализована проверка подлинности пользователя при посещении, публикации сообщений и ответах на них.

Отказ от ответственности:

Этот проект предоставляет информацию и технологии только для справки.

Никто не должен нести ответственность за любые ошибки, неточности или упущения, допущенные при передаче информации любым способом.

Запрещается нарушать любые законные права Baidu. Пользователи должны соблюдать правила использования Baidu, не сканировать запрещённый контент Baidu, в противном случае они несут полную ответственность. Этот проект и его поставщики не несут никакой ответственности.

В рамках, разрешённых законом, настоящим проектом заявлено, что он не несёт ответственности за любой ущерб, включая, но не ограничиваясь, упущенной выгодой, ожидаемой прибылью или потерей бизнеса, невыполнением ожиданий или компенсацией за штрафные или карательные убытки, вызванные использованием или невозможностью использования информации, предоставленной этим проектом, или любых ссылок или проектов.

Если использование или распространение информации, предоставляемой этим проектом, нарушает законы или постановления в любой юрисдикции или приводит к тому, что этот проект или его третьи стороны подвергаются ограничениям со стороны любого регулирующего органа в этой юрисдикции, то такая информация не должна использоваться или распространяться в этой юрисдикции. Пользователь должен гарантировать, что он или она не будет подвергаться каким-либо ограничениям.

Проект не может определить авторские права на изображения или текст, загруженные пользователями, поскольку проект позволяет пользователям загружать и изменять их. Если авторские права нарушены, пожалуйста, сообщите нам немедленно, и проект удалит такие материалы в кратчайшие сроки.

Любой, кто загружает или использует материалы этого проекта любым способом, считается добровольно принимающим ограничения, установленные этим заявлением.

Лицензия:

Copyright © 2017 CHANGLEI. Все права защищены.

Лицензия Apache версии 2.0 (далее «Лицензия»);
вы не можете использовать этот файл иначе, чем в соответствии с Лицензией.
Вы можете получить копию Лицензии по адресу:

   http://www.apache.org/licenses/LICENSE-2.0

Если это не требуется применимым законодательством или не согласовано в письменной форме, программное обеспечение, распространяемое в соответствии с настоящей Лицензией, предоставляется на условиях «КАК ЕСТЬ», БЕЗ КАКИХ-ЛИБО ГАРАНТИЙ ИЛИ УСЛОВИЙ ЛЮБОГО РОДА, явных или подразумеваемых. См. Лицензию для конкретного языка, регулирующего разрешения и ограничения в рамках Лицензии.

Комментарии ( 0 )

Вы можете оставить комментарий после Вход в систему

Введение

Описание недоступно Развернуть Свернуть
Apache-2.0
Отмена

Обновления

Пока нет обновлений

Участники

все

Недавние действия

Загрузить больше
Больше нет результатов для загрузки
1
https://api.gitlife.ru/oschina-mirror/changleibox-TiebaCrawler.git
git@api.gitlife.ru:oschina-mirror/changleibox-TiebaCrawler.git
oschina-mirror
changleibox-TiebaCrawler
changleibox-TiebaCrawler
master