1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/vet0704-spiders

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
В этом репозитории не указан файл с открытой лицензией (LICENSE). При использовании обратитесь к конкретному описанию проекта и его зависимостям в коде.
Клонировать/Скачать
Внести вклад в разработку кода
Синхронизировать код
Отмена
Подсказка: Поскольку Git не поддерживает пустые директории, создание директории приведёт к созданию пустого файла .keep.
Loading...
README.md

Личная информация

  • Имя: У Пэнфэй.
  • Дата рождения: 4 июля 1992 года.
  • Место жительства: Пекин, Чанпин.
  • Телефон: +86 155 1011 9444.
  • Электронная почта: wu.pengfei55555@163.com.

Образование

  • 2012.09–2016.07 — Аграрный университет Цзилинь, степень бакалавра.

Ищу работу

  • Характер работы: полный рабочий день.
  • Желаемая профессия: Python-разработчик веб-краулеров.
  • Ожидаемая отрасль: интернет/услуги обработки данных.
  • Регион работы: Пекин.
  • Ожидаемый уровень заработной платы: обсуждается.
  • Текущая ситуация: уволился, дата выхода на новую работу обсуждается.

Опыт работы

  • Апрель 2016 г. — январь 2018 г. — компания Zhongrui International Co., Ltd., Python-разработчик.

Профессиональные навыки

  1. Хорошо знаком с операционной системой Linux;
  2. Хорошо знаю язык программирования Python;
  3. Знаком с процессом создания веб-краулера, владею технологиями краулинга с использованием пакета Requests и фреймворка Scrapy;
  4. Понимаю и использую многопоточные веб-краулеры на Python и их механизмы;
  5. Знаю технологии извлечения данных re, xpath, BeautifulSoup4;
  6. Понимание динамического HTML-скрапинга с помощью Selenium+PhantomJS;
  7. Знание работы с базами данных MySQL, MongoDB, Redis;
  8. Знакомство с протоколами HTTP/HTTPS, TCP/IP;
  9. Следую стандарту PEP8.

Личные проекты

  1. SuningSpider — краулер книг Сунин. Скрап данных о книгах со всего сайта Сунин, построение URL для получения списка всех книг, сохранение уникальных элементов в локальный файл JSON с помощью DuplicatesPipeline.
  2. SinaSpider — краулер аккаунтов и постов в соцсети Weibo. Сбор данных об аккаунтах и постах пользователей, а также о подписчиках и подписках. Код получает Cookie для входа в аккаунт, что позволяет использовать несколько учётных записей для предотвращения блокировки. Использует фреймворк Scrapy.
  3. distribute_crawler — распределённый краулер для скачивания романов. Использует Scrapy, Redis, MongoDB и graphite для реализации распределённого сетевого краулера. Хранит данные в кластере MongoDB, использует Redis для распределения задач, показывает состояние краулера с помощью graphite. Нацелен на один сайт с романами.
  4. LianJiaSpider — краулер данных о сделках с недвижимостью на сайте Lianjia. Собирает данные о сделках по продаже недвижимости в Пекине за последние годы. Включает код для имитации входа на сайт Lianjia.
  5. scrapy_jingdong — краулер сайта JD.com на основе Scrapy. Сохраняет данные в формате CSV.
  6. QunarSpider — краулер сервиса Qunar. Реализует скрапинг с использованием Selenium и прокси-серверов для входа на сайт. Поддерживает многопроцессный скрапинг.
  7. findtrip — краулер авиабилетов (Qunar и Ctrip). Findtrip — это краулер билетов на самолёт на основе Scrapy, который интегрирует данные с двух крупных сайтов продажи авиабилетов в Китае (Qunar + Ctrip).
  8. 163spider — краулер контента для клиентов NetEase на основе запросов, MySQLdb и tornado.
  9. doubanspiders — набор краулеров для разных категорий Douban (фильмы, книги, группы, фотоальбомы, товары и т. д.).
  10. tbcrawler — краулеры Taobao и Tmall, которые могут собирать информацию о страницах поиска товаров, услуг или информации по ключевым словам или идентификаторам товаров. Данные хранятся в MongoDB.

Самооценка

  1. Обладаю отличными навыками чтения документации, могу легко читать различные технические документы API и т. п.;
  2. Сильная способность к обучению, ясное мышление, есть интерес к новым технологиям;
  3. Ответственный, быстро адаптируюсь к команде, выполняю задачи, поставленные руководством;
  4. Хорошие коммуникативные навыки, активный и инициативный, отношусь к работе серьёзно и ответственно, устойчив к стрессу.

Комментарии ( 0 )

Вы можете оставить комментарий после Вход в систему

Введение

Проект краулера на основе фреймворка Scrapy. Развернуть Свернуть
Отмена

Обновления

Пока нет обновлений

Участники

все

Недавние действия

Загрузить больше
Больше нет результатов для загрузки
1
https://api.gitlife.ru/oschina-mirror/vet0704-spiders.git
git@api.gitlife.ru:oschina-mirror/vet0704-spiders.git
oschina-mirror
vet0704-spiders
vet0704-spiders
master