1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/zxhm-PageSpider

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
Клонировать/Скачать
Внести вклад в разработку кода
Синхронизировать код
Отмена
Подсказка: Поскольку Git не поддерживает пустые директории, создание директории приведёт к созданию пустого файла .keep.
Loading...
README.md

Простой инструмент для веб-скрейпинга

Простой инструмент для веб-скрейпинга, который подходит для сбора изображений и текста с не слишком сложных веб-страниц.

Технические требования:

  • .Net Framework 4.5.2;
  • компонент CefSharp версии 67 для работы с браузерами;
  • AngleSharp для парсинга DOM.

Параметры:

  1. URL главной страницы: обязательный параметр, адрес главной веб-страницы, которую необходимо обработать.
  2. Выборщик на главной странице: обязательный параметр, элемент или селектор, который определяет контент, который нужно собрать с главной страницы.
  3. Заголовок на главной странице: обязательный параметр, заголовок или элемент, который определяет заголовок контента, который будет собран с главной страницы.
  4. Выборщик следующей страницы: используется в сочетании с параметром «количество страниц», если количество страниц равно 1, то этот параметр не требуется.
  5. Выборщик второй страницы: если он указан, выборщик на главной странице будет использоваться только для перехода на вторую страницу, а контент будет собираться с помощью этого параметра.
  6. Выборщик заголовка на второй странице: если вторая страница содержит заголовок, этот параметр определяет его.
  7. Выборщик ссылки на следующую страницу на второй странице: определяет ссылку на следующую страницу.
  8. Префикс файла: префикс для файлов изображений или текстовых файлов, которые будут собраны.
  9. Папка для сохранения файлов: папка, в которой будут сохранены собранные файлы.
  10. Количество страниц на главной: определяет количество страниц, которые нужно обработать на главной странице. Если значение равно 1, следующий выборщик не нужен.

Примеры:

Пример «Открытие Китая»

  • Параметры запуска:
    • Изображение: пример «Открытие Китая 1».
  • Папка результатов:
    • Изображение: пример «Открытие Китая 2».
  • Результат:
    • Файл: пример «Открытие Китая 3».

Пример «Редкое ПО»

  • Параметры запуска:
    • Изображение: пример «Редкое ПО 1».
  • Папка результатов:
    • Изображение: пример «Редкое ПО 2».
  • Результат:
    • Файл: пример «Редкое ПО 3».

Пример «Картинки девушек»

  • Параметры запуска:
    • Изображение: пример «Картинки девушек 1».
  • Папка результатов:
    • Изображение: пример «Картинки девушек 2».
  • Результат:
    • Файл: пример «Картинки девушек 3».

Недостатки

— [ ] Инструмент подходит только для обработки веб-сайтов с относительно простой структурой. Более сложные сайты могут вызвать проблемы. — [ ] Обработка ошибок в коде требует доработки. — [ ] При преобразовании HTML-контента в текстовые файлы обработка HTML-тегов, особенно кода JavaScript, недостаточно чистая.

Комментарии ( 0 )

Вы можете оставить комментарий после Вход в систему

Введение

Простой инструмент для веб-скрейпинга, который подходит для сбора изображений и текста с не слишком сложных веб-страниц. Развернуть Свернуть
Apache-2.0
Отмена

Обновления

Пока нет обновлений

Участники

все

Недавние действия

Загрузить больше
Больше нет результатов для загрузки
1
https://api.gitlife.ru/oschina-mirror/zxhm-PageSpider.git
git@api.gitlife.ru:oschina-mirror/zxhm-PageSpider.git
oschina-mirror
zxhm-PageSpider
zxhm-PageSpider
master