1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/gitee-community-gitee-7th-event-3

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
В этом репозитории не указан файл с открытой лицензией (LICENSE). При использовании обратитесь к конкретному описанию проекта и его зависимостям в коде.
Клонировать/Скачать
有了这代码_斗图没输过.py 1.5 КБ
Копировать Редактировать Web IDE Исходные данные Просмотреть построчно История
bao101 Отправлено 02.06.2020 13:05 61cb380
#!/usr/bin/env python
# -*- coding:utf-8 -*-
# 爬取无反爬虫技术网站 -->爱斗图网
import os
# 发送就收requests请求
import requests
from lxml import html, etree
# 爬取有意思的表情包,心有多大,硬盘有多大,表情包就有多大
class Spider(object):
def start_request(self):
#循环抓取网页,相当于网站翻页
for i in range(1,2676):
#1.获取网站整体数据
print("======正在抓取%s页======"% i)
response = requests.get("http://www.adoutu.com/picture/list/"+str(i))
html = etree.HTML(response.content.decode())
self.xpath_data(html)
def xpath_data(self,html):
#2.抽取想要的数据
src_list = html.xpath('//div[@class="row text-center picture-list"]/a/img/@src')
#在div中找到类选择器“video-play”,进入value下的src,可获得视频链接
tit_list = html.xpath('//div[@class="row text-center picture-list"]/a/img/@title')
#同理找到视频名称
for src,tit in zip(src_list,tit_list):
#3.视频文件名,视频下载
url = src
file_name="表情包\\" + tit +".gif";
print("抓取成功:"+file_name)
content = requests.get(url).content
#4.存储数据
with open(file_name,"wb") as f:
f.write(content)
spider = Spider()
spider.start_request()

Опубликовать ( 0 )

Вы можете оставить комментарий после Вход в систему

1
https://api.gitlife.ru/oschina-mirror/gitee-community-gitee-7th-event-3.git
git@api.gitlife.ru:oschina-mirror/gitee-community-gitee-7th-event-3.git
oschina-mirror
gitee-community-gitee-7th-event-3
gitee-community-gitee-7th-event-3
master