一个分享WordPress、Zblog、Emlog、Typecho等主流博客的教程网站!
当前位置:网站首页 > 博客教程 > 其他教程 > 正文

解决火车头7.6版本无法采集部分https网站问题

作者:xlnxin发布时间:2021-05-12分类:其他教程浏览:1118


导读:火车采集器是市面上应用比较广泛的一款数据采集工具,相信很多做网站的朋友都或多或少听说过。由于某些原因,目前使用量较多的还是2013年推出的火车头采集器7.6的版本。火车头7.6版本...

火车采集器是市面上应用比较广泛的一款数据采集工具,相信很多做网站的朋友都或多或少听说过。由于某些原因,目前使用量较多的还是2013年推出的火车头采集器7.6的版本。火车头7.6版本由于发布时间久远,虽然采集器大部分功能都还可以正常使用,但是现在很多网站都从之前的http协议切换到了https协议。

当火车头7.6遇到新版的https协议时,经常无法完成网页请求而无法继续使用,比如部分TLS 1.3加密的网站,用火车头采集会直接请求不到数据。

解决办法:可以在本地搭建一个简易http服务,用这个服务去请求源代码,然后用火车头请求这个简易http即可。原理就是给火车头和目标网页中间加了一层中转,从而解决火车头无法直接请求获取源代码的问题。

使用该软件的优点:
1,在采集数据时需要该软件保持运行,从而实现请求的中转
2,编写采集规则时,需要在网址前面添加简易http服务的前缀"http://127.0.0.1:8000?url=",当然这个在采集规则中可以很简单的通过内容替换功能来过滤掉

 使用说明
1,首先双击打开locoy-https.exe,使用时请勿关闭软件

2,制作采集规则,在起始网址处输入"http://127.0.0.1:8000/?url=你要采集的网址",其他部分跟正常规则定制是一样的

下载地址
代码仓库:https://github.com/beijiyouyu/locoy-https

软件下载地址:https://raw.githubusercontent.com/beijiyouyu/locoy-https/master/dist/locoy-https.exe