GitHub最最最火的开源爬虫工具箱，一爬就取

现在一般网站都有反爬虫机制，对于爱爬虫的朋友来说，想爬虫些数据，做下数据分析。是越来越难了。不过最近我们，发现一个超宝藏的爬虫工具箱。

这个爬虫工具箱有多火呢？

开源没几天就登上GitHub周榜第四，标星1.3K，累计分支 172 个。同时作者已经开源了所有的项目代码及使用文档，并且在B站上还有使用视频讲解。

在这样一个信息爆炸的时代，每个人都有很多个账号，账号一多就会出现这么一个情况：个人数据分散在各种各样的公司之间，就会形成数据孤岛，多维数据无法融合，这个项目可以帮你将多维数据进行融合并对个人数据进行分析，这样你就可以更直观、深入了解自己的信息。

InfoSpider 是一个集众多数据源于一身的爬虫工具箱，旨在安全快捷的帮助用户拿回自己的数据，工具代码开源，流程透明，并提供数据分析功能，基于用户数据生成图表文件。

目前支持数据源包括GitHub、QQ邮箱、网易邮箱、阿里邮箱、新浪邮箱、Hotmail邮箱、Outlook邮箱、京东、淘宝、支付宝、中国移动、中国联通、中国电信、知乎、哔哩哔哩、网易云音乐、QQ好友、QQ群、生成朋友圈相册、浏览器浏览历史、12306、博客园、CSDN博客、开源中国博客、简书。

根据创建者介绍，InfoSpider 具有以下特性：

InfoSpider使用起来也非常简单，你只需要安装python3和Chrome浏览器，运行 python3 main.py，在打开的窗口点击数据源按钮, 根据提示选择数据保存路径，接着输入账号密码，就会自动爬取数据，根据下载的目录就可以查看爬下来的数据。

依赖安装

工具运行

在对应的目录下可以查看下载下来的数据(xxx.json), 数据分析图表(xxx.html)

作者认为该项目的最大潜力在于能把多维数据进行融合并对个人数据进行分析，是个人数据效益最大化。

当然如果你想自己去练习和学习爬虫，作者也开源了所有的爬取代码，非常适合实战。

标签: 转载