1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/kidd_yu-beanbun

Клонировать/Скачать
Внести вклад в разработку кода
Синхронизировать код
Отмена
Подсказка: Поскольку Git не поддерживает пустые директории, создание директории приведёт к созданию пустого файла .keep.
Loading...
README.md

Введение

Beanbun — это простой и расширяемый фреймворк для создания веб-краулеров, который поддерживает распределённую архитектуру, а также два режима работы: обычный и режим сторожевого процесса на основе Workerman. Для загрузчика используется Guzzle.

Документация

https://github.com/kiddyuchina/Beanbun/blob/master/docs/chs/README.md

Реклама

Рекомендую SmartProxy — глобальный прокси-сервис, который я недавно обнаружил. Это профессиональный зарубежный HTTP-прокси-провайдер с 1 миллиардом реальных домашних IP-адресов, охватывающих весь мир. Они обеспечивают высокую степень анонимности и маскировки, а также предлагают 100% оригинальные домашние IP-адреса. Сервис подходит для социальных аккаунтов, платформ электронной коммерции и сбора сетевых данных.

SmartProxy также легко решает проблемы с ограничениями IP. Я сам протестировал этот сервис и остался доволен. Сейчас действует весенняя скидка — динамические домашние прокси всего за 65% от обычной стоимости!

Особенности

  • Поддержка двух режимов работы: сторожевой процесс (только для Linux) и обычный.
  • По умолчанию используется Guzzle для загрузки.
  • Поддерживает распределённые системы.
  • Работает с различными очередями, такими как память и Redis.
  • Позволяет настраивать фильтры URI.
  • Предлагает два метода сканирования: ширину и глубину.
  • Следует стандарту PSR-4.
  • Разделяет сканирование веб-страниц на несколько шагов, каждый из которых может быть настроен с дополнительными действиями, такими как добавление прокси или изменение user-agent.
  • Гибкий механизм расширения позволяет легко создавать плагины для фреймворка, такие как пользовательские очереди и методы сканирования.

Установка

Для установки Beanbun можно использовать Composer.

$ composer require kiddyu/beanbun

Быстрый старт

Создайте файл start.php со следующим содержимым:

<?php
use Beanbun\Beanbun;
$beanbun = new Beanbun;
$beanbun->seed = [
	'http://www.950d.com/',
	'http://www.950d.com/list-1.html',
	'http://www.950d.com/list-2.html',
];
$beanbun->afterDownloadPage = function($beanbun) {
	file_put_contents(__DIR__ . '/' . md5($beanbun->url), $beanbun->page);
};
$beanbun->start();

Запустите его в командной строке:

$ php start.php

Теперь вы можете просматривать журналы сканирования.

Плагины

beanbun-parser — плагин для извлечения данных https://github.com/kiddyuchina/beanbun-parser

Более подробную информацию см. в документации.

Комментарии ( 0 )

Вы можете оставить комментарий после Вход в систему

Введение

Beanbun — это многопроцессный сетевой фреймворк для парсинга, написанный на PHP. Он поддерживает распределённую обработку и обладает хорошей открытостью и высокой расширяемостью на основе Workerman. Развернуть Свернуть
MIT
Отмена

Обновления

Пока нет обновлений

Участники

все

Недавние действия

Загрузить больше
Больше нет результатов для загрузки
1
https://api.gitlife.ru/oschina-mirror/kidd_yu-beanbun.git
git@api.gitlife.ru:oschina-mirror/kidd_yu-beanbun.git
oschina-mirror
kidd_yu-beanbun
kidd_yu-beanbun
master