基于webmagic的通用爬虫抓取应用,核心在于简单易用,搭建好后轻松抓取数据
在线演示地址: http://easycrawl.lomoye.top/ (在线演示地址第一次打开有点慢,请耐心等待)
教程文档地址: http://doc.lomoye.top/guide/doc.html
https://gitee.com/mountFuji/easy-crawl-front
软件架构说明
如何查看数据库数据:默认是使用嵌入式的h2数据库,可以用浏览器打开http://localhost:8080/h2-console登录, 默认用户名root,默认密码test
如何替换数据源: 默认是使用嵌入式的h2数据库,如果想替换成mysql,请在application.yml中更改数据源配置
1.通过网页页面中的文字推测字段xpath规则
1.字段长度有些可能偏长,现在默认最多存储255个字节,应该提供用户选择字段长度 2.可以定义字段的类型,比如图片链接,这样在显示的时候可以直接根据图片属性显示出图片
1.解决豆瓣爬取报403的问题,403不是因为豆瓣防爬,而是因为0.7.3版本的webmagic的SSL协议只支持TLSv1.0,自己重写了逻辑,可以支持TLSv1.2 2.在jdk下的jre/lib/security/java.security文件里面有一个配置项为jdk.tls.disabledAlgorithms,最好把这个给注释了,不然版本新一点的jdk可能会因为这个请求https的url会报错
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Комментарии ( 0 )