Версия Crwaler V1.0.3

Добавлено регулярное выражение для парсинга данных

-cr URL -rule "[регулярное выражение]" лучше использовать двоеточие для разделения {другие данные} можно указать -input для записи результата в файл

Пример парсинга email с форума Tieba -------------------------------код------------------------------ 2016.04.01

Версия Crwaler V1.0.2

Исправлена ошибка команды -cl, добавлен автоматический фильтр повторяющихся записей -cl URL -cq div[class=XX] -cl URL -cq div[class=xx] -file <путь к файлу> сохраняет URL построчно в указанном месте

-cq может быть <a href=""> достаточно передать a -cq a

Если есть <div class="xss"> <a ... </a> <a2>... </a> ... n</div>, то -cq div[class=xss] позволяет вытащить все URL и удалить повторяющиеся записи

-------------------------------код------------------------------ 2016.03.28

Версия Crawler v1.0.1

Дополнительные данные -header User-Agent@Android -cookie CookieValue -data user=x&pass=x -proxy IP:PORT -timesec время -post Команда： -v версия манипулятора Crawler -h справка по использованию Crawler -u [url] {другие данные} -cw [url] -cq k,v@k,v k=title v=div[class=XXX] {другие данные} -ci -file <путь к списку> -input <путь к входным данным> -cq k,v@k,v... {другие данные}

Добавлено подделывание HTTP-заголовков -header для имитации браузера или других аутентификационных данных
Добавлено использование cookies для логина -cookie для имитации входа пользователя
Добавлено выполнение POST/GET запросов с параметрами -data user=XX? pass=xx
Добавлено использование прокси -proxy ip:port 128.0.0. 1:3389
Добавлено задерживание между запросами --timesec 1000 = 1 секунда Пример использования: C:\Users\ssHss\Desktop\ImageTemp>java -jar 1.jar -ci -file url.txt -cq title,h1[id=artibodyTitle]#date,span[id=pub_date]#nodes,div[id=artibody] -input dataxsxs.xml Необходимо правильно указывать параметры -------------------------------код------------------------------ 2016. 03. 25

Версия Crawler V1. 0. 0

Код еще не оптимизирован
Структура проста
Некоторые функции требуют ваших пожеланий для дальнейшего тестирования Описание работы

Команда: java -jar Crawler.jar -[опция]

-v информация о версии

-h справка по использованию

-ct [url] проверка парсинга одного сайта URL: адрес для проверки

-cw [url] [k,v] проверка извлечения информации | URL: адрес для проверки | [k,v] title,div[class=title] если несколько параметров, используйте # для разделения

   -ci [urllist] [k,v] <InputResult> Сохраняет правила извлеченной информации в XML, можно использовать импорт SQL-инструментов для загрузки данных в базу данных или преобразования в другие форматы | <InputResult> Сохранение результата в каталоге вывода

   -cl [url] [k,v] <InputUrllist> Сохраняет список URL для указанного URL в файле, что позволяет использовать ci для более глубокого парсинга

Примеры

-ci URL-файл правила парсера путь выходных данных
Выполнение java -jar crawler.jar -ci url.txt title,h1[id=artibodyTitle]#date,span[id=pub_date]#nodes,div[id=artibody] data.xmlРезультат выполнения Затем мы можем использовать импорт SQL-инструментов, чтобы загрузить данные в XML, а затем преобразовать его в различные форматы, такие как XML, TXT, EXCEL, WORD и т. д. Инструменты, такие как Navicat
Команда -cl используется для создания файла urllist.txt, после чего можно выполнить команду ci Напрямую отправьте мне запрос через ISS или электронную почту, и я помогу вам улучшить это. У меня есть множество незаконченных проектов. Завершенные задачи:
Форматирование URL, проблемы с некоторыми сайтами, использующими "/", ". /", ". ./", "//" уже решены
HTTP-прокси-интерфейсы имеются, но ещё не добавлены
Добавление пользовательского User-Agent и Cookie для входа также реализовано, но ещё не добавлено
JDBC было ранее доступно, но чувствовалось медлительным при сравнении с импортом XML, поэтому было удалено
Оставлены возможности для специализированных инструментов, таких как массовое извлечение адресов электронной почты, номеров QQ и мобильных телефонов
Создана возможность для автоматического тестирования SQL-инъекций и XSS с помощью SQLMap
Возможность интеграции с Nutch
Если вы заметили какие-либо проблемы, сообщите мне, и я запишу их и буду постепенно улучшать. Код открытый, GUI на Java PS: Пользователи должны иметь среду выполнения Java --------Современные функции могут быть использованы вместе со Shell DOS-командами для создания периодических и распределённых паразитов, которые можно свободно комбинировать. QQ группа: 549067011

OSCHINA-MIRROR/puguoan-Crawler

Версия Crwaler V1.0.3

Версия Crwaler V1.0.2

Версия Crawler v1.0.1

Версия Crawler V1. 0. 0

Комментарии ( 0 )

Введение

Обновления

Участники

Недавние действия

OSCHINA-MIRROR/puguoan-Crawler .gitee-modal { min-width: 500px !important; } .gitee-modal .close { right: 0.6rem !important; }

Версия Crwaler V1.0.3

Версия Crwaler V1.0.2

Версия Crawler v1.0.1

Версия Crawler V1. 0. 0

Комментарии ( 0 )

Введение

Обновления

Участники

Недавние действия

OSCHINA-MIRROR/puguoan-Crawler