1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/xinxin93666-crawler_baidu_post_bar

Клонировать/Скачать
tools.py 1.1 КБ
Копировать Редактировать Web IDE Исходные данные Просмотреть построчно История
zhangxinxin Отправлено 01.12.2018 05:36 3919f30
import re
class StrTools(object):
@staticmethod
def strip_symbol(string):
# 1.去除文本中的标签
ele_pattern = re.compile(r'<.*?>', re.S)
string = re.sub(ele_pattern, "", string)
string = string.strip()
return string
@staticmethod
def process_come_from(string):
"""处理来自客户端"""
if '来自' in string:
pattern = re.compile(r'<span class="tail-info.*?>(.*?)</span.*?<sp.*?>(.*?)</sp.*?<sp.*?>(.*?)<', re.S)
res = re.findall(pattern, string)
# 取出小元组
info = res[0]
come_from = StrTools.strip_symbol(info[0])
# 返回 来自客户端 楼层 日期时间
return come_from, info[1], info[2]
else:
pattern = re.compile(r'<span class="tail-info.*?>(.*?)</span.*?<sp.*?>(.*?)</sp', re.S)
res = re.findall(pattern, string)
info = res[0]
# 返回 来自客户端 楼层 日期时间
return '未知客户端', info[0], info[1]

Опубликовать ( 0 )

Вы можете оставить комментарий после Вход в систему

1
https://api.gitlife.ru/oschina-mirror/xinxin93666-crawler_baidu_post_bar.git
git@api.gitlife.ru:oschina-mirror/xinxin93666-crawler_baidu_post_bar.git
oschina-mirror
xinxin93666-crawler_baidu_post_bar
xinxin93666-crawler_baidu_post_bar
master