Слияние кода завершено, страница обновится автоматически
简介:
应用用来抓取垂直网站数据,系统经过简单配置即可完成典型的“条件选择”--》“搜索”--》“列表数据”这总结构的数据抓取,抽取部分通过JSOUP自己写一个实现即可。实现类要求放到(com/yzq/os/spider/v/service/spider/impl)
系统支持集群模式,所有服务器代码统一,可自动化同步管理,通过数据库中的配置标识唯一主机,主机负责一些日常初始化及清理动作。每台服务器可以分别设定自动抓取任务。
系统根据搜索参数配置自动生成搜索URL组合,并可以通过一次运行后,将有结果数据的搜索URL备份,下次从备份URL中取出运行,减少不必要的搜索条件提交;
手动运行一次如果正常后可以设定定时任务,每天定时运行;
系统采用maven管理,应用采用UTF-8编码。
软件要求:
linux jdk 1.6 tomcat6+ mysql 5.5+ (InnoDB引擎,数据库编码UTF-8)
安装部署及运行:
1、首先下载项目源代码;
2、根据自己情况修改properties文件;
3、运行maven打包war;
4、部署到tomcat webapps目录下
5、创建mysql账号,并执行/scripts/create_database.sql 和/scripts/init.sql(需要根据自身情况修改)
6、分析要抓取的网站。可以通过WebSiteCrawlTest类来进行(收集配置数据)
7、配置搜索引擎、搜索引擎参数、列表页面配置
8、可选择实现数据抽取类,参考com.yzq.os.spider.v.service.spider.impl.DemoCrawlTask
9、初始化搜索URL参数http://localhost:8080/SpiderVertical/admin/createurl/form
10、执行抓取http://localhost:8080/SpiderVertical/admin/spider/form
11、查看运行进度http://localhost:8080/SpiderVertical/admin/statis
12、运行完查看数据结果http://localhost:8080/SpiderVertical/admin/spider/view_tables
注意:使用系统请遵守Robots协议
有问题请发送mail到:xingyu_yzq@163.com
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Опубликовать ( 0 )