1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/null_445_0302-baike_spider

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
В этом репозитории не указан файл с открытой лицензией (LICENSE). При использовании обратитесь к конкретному описанию проекта и его зависимостям в коде.
Клонировать/Скачать
Внести вклад в разработку кода
Синхронизировать код
Отмена
Подсказка: Поскольку Git не поддерживает пустые директории, создание директории приведёт к созданию пустого файла .keep.
Loading...
README.MD

#spider_main.py---爬虫调度端:启动爬虫,停止爬虫,监视爬虫运行情况

#url_manager.py---URL管理器:对将要爬取的和已经爬取过的URL进行管理;可取出带爬取的URL,将其传送给“网页下载器”

#html_downloader.py---网页下载器:将URL指定的网页下载,存储成一个字符串,在传送给“网页解析器”

#html_parser.py---网页解析器:解析网页可解析出①有价值的数据②另一方面,每个网页都包含有指向其他网页的URL,解析出 来后可补充进“URL管理器”

#html_outputer.py---网页输出器:从网页解析器分析拿到的数据和url,按照编码好的格式以html的形式展示出来

#python3.6 #windows8

#run:运行调度端(spider_main.py)里的SpiderMain()方法,等到爬虫爬取完后,刷新项目,会在里面生成一个output.html 和output.md文件,这是最终需要的文件

#该爬虫是在python3.6环境下开发的,需要注意的是,内部一些方法和包和python2.7有所不同。

Комментарии ( 0 )

Вы можете оставить комментарий после Вход в систему

Введение

Это проект по сбору данных с 1000 страниц статей из энциклопедии Python, написанный на основе фреймворка BeautifulSoup4. Проект подойдёт начинающим любителям парсинга для практики. Развернуть Свернуть
Отмена

Обновления

Пока нет обновлений

Участники

все

Недавние действия

Загрузить больше
Больше нет результатов для загрузки
1
https://api.gitlife.ru/oschina-mirror/null_445_0302-baike_spider.git
git@api.gitlife.ru:oschina-mirror/null_445_0302-baike_spider.git
oschina-mirror
null_445_0302-baike_spider
null_445_0302-baike_spider
master