Этот код пауков устарел и больше не поддерживается
Ранее Weibo помещал HTML-код в JS, поэтому можно было извлекать нужные данные непосредственно из кода
Внезапно захотел узнать о ежедневной смене пассажиропотока в Пекинском метро, и написал паука. Результат был очень интересным, еженедельные изменения пассажиропотока были весьма регулярными.
https://www.ikaze.cn/sub_flows.html
get_flow_from_html()
def get_flow_from_html(html):
# Нужно корректировать год в зависимости от количества страниц
year = 2018
soup = bs(html, 'html.parser')
work_list = soup.find_all('div', class_='work_list')
data = work_list[0].find_all('li')
for d in data:
s = d.get_text()
...
Затем просто запустите цикл:
page = 200
while page > 0:
html = get_html(get_page_url(page))
get_flow_from_html(html)
...
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Комментарии ( 0 )