1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/puguoan-Crawler

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
В этом репозитории не указан файл с открытой лицензией (LICENSE). При использовании обратитесь к конкретному описанию проекта и его зависимостям в коде.
Клонировать/Скачать
Внести вклад в разработку кода
Синхронизировать код
Отмена
Подсказка: Поскольку Git не поддерживает пустые директории, создание директории приведёт к созданию пустого файла .keep.
Loading...
README.md

Версия Crwaler V1.0.3

Добавлено регулярное выражение для парсинга данных

-cr URL -rule "[регулярное выражение]" лучше использовать двоеточие для разделения {другие данные} можно указать -input для записи результата в файл

Пример парсинга email с форума Tieba -------------------------------код------------------------------ 2016.04.01

Версия Crwaler V1.0.2

Исправлена ошибка команды -cl, добавлен автоматический фильтр повторяющихся записей -cl URL -cq div[class=XX] -cl URL -cq div[class=xx] -file <путь к файлу> сохраняет URL построчно в указанном месте

-cq может быть <a href=""> достаточно передать a -cq a  
Если есть <div class="xss"> <a ... </a> <a2>... </a> ... n</div>, то -cq div[class=xss] позволяет вытащить все URL и удалить повторяющиеся записи

-------------------------------код------------------------------ 2016.03.28

Версия Crawler v1.0.1

Дополнительные данные -header User-Agent@Android -cookie CookieValue -data user=x&pass=x -proxy IP:PORT -timesec время -post Команда: -v версия манипулятора Crawler -h справка по использованию Crawler -u [url] {другие данные} -cw [url] -cq k,v@k,v k=title v=div[class=XXX] {другие данные} -ci -file <путь к списку> -input <путь к входным данным> -cq k,v@k,v... {другие данные}

  1. Добавлено подделывание HTTP-заголовков -header для имитации браузера или других аутентификационных данных
  2. Добавлено использование cookies для логина -cookie для имитации входа пользователя
  3. Добавлено выполнение POST/GET запросов с параметрами -data user=XX? pass=xx
  4. Добавлено использование прокси -proxy ip:port 128.0.0. 1:3389
  5. Добавлено задерживание между запросами --timesec 1000 = 1 секунда Пример использования: C:\Users\ssHss\Desktop\ImageTemp>java -jar 1.jar -ci -file url.txt -cq title,h1[id=artibodyTitle]#date,span[id=pub_date]#nodes,div[id=artibody] -input dataxsxs.xml Необходимо правильно указывать параметры -------------------------------код------------------------------ 2016. 03. 25

Версия Crawler V1. 0. 0

  1. Код еще не оптимизирован
  2. Структура проста
  3. Некоторые функции требуют ваших пожеланий для дальнейшего тестирования Описание работы

Команда: java -jar Crawler.jar -[опция]
-v информация о версии
-h справка по использованию
-ct [url] проверка парсинга одного сайта URL: адрес для проверки
-cw [url] [k,v] проверка извлечения информации | URL: адрес для проверки | [k,v] title,div[class=title] если несколько параметров, используйте # для разделения
   -ci [urllist] [k,v] <InputResult> Сохраняет правила извлеченной информации в XML, можно использовать импорт SQL-инструментов для загрузки данных в базу данных или преобразования в другие форматы | <InputResult> Сохранение результата в каталоге вывода
   -cl [url] [k,v] <InputUrllist> Сохраняет список URL для указанного URL в файле, что позволяет использовать ci для более глубокого парсинга

Примеры

  1. -ci URL-файл правила парсера путь выходных данных URL-файл
  2. Выполнение java -jar crawler.jar -ci url.txt title,h1[id=artibodyTitle]#date,span[id=pub_date]#nodes,div[id=artibody] data.xmlРезультат выполнения Затем мы можем использовать импорт SQL-инструментов, чтобы загрузить данные в XML, а затем преобразовать его в различные форматы, такие как XML, TXT, EXCEL, WORD и т. д. Инструменты, такие как Navicat
  3. Команда -cl используется для создания файла urllist.txt, после чего можно выполнить команду ci Напрямую отправьте мне запрос через ISS или электронную почту, и я помогу вам улучшить это. У меня есть множество незаконченных проектов. Завершенные задачи:
  4. Форматирование URL, проблемы с некоторыми сайтами, использующими "/", ". /", ". ./", "//" уже решены
  5. HTTP-прокси-интерфейсы имеются, но ещё не добавлены
  6. Добавление пользовательского User-Agent и Cookie для входа также реализовано, но ещё не добавлено
  7. JDBC было ранее доступно, но чувствовалось медлительным при сравнении с импортом XML, поэтому было удалено
  8. Оставлены возможности для специализированных инструментов, таких как массовое извлечение адресов электронной почты, номеров QQ и мобильных телефонов
  9. Создана возможность для автоматического тестирования SQL-инъекций и XSS с помощью SQLMap
  10. Возможность интеграции с Nutch
  11. Если вы заметили какие-либо проблемы, сообщите мне, и я запишу их и буду постепенно улучшать. Код открытый, GUI на Java PS: Пользователи должны иметь среду выполнения Java --------Современные функции могут быть использованы вместе со Shell DOS-командами для создания периодических и распределённых паразитов, которые можно свободно комбинировать. QQ группа: 549067011

Комментарии ( 0 )

Вы можете оставить комментарий после Вход в систему

Введение

Описание недоступно Развернуть Свернуть
Отмена

Обновления

Пока нет обновлений

Участники

все

Недавние действия

Загрузить больше
Больше нет результатов для загрузки
1
https://api.gitlife.ru/oschina-mirror/puguoan-Crawler.git
git@api.gitlife.ru:oschina-mirror/puguoan-Crawler.git
oschina-mirror
puguoan-Crawler
puguoan-Crawler
master