转载

优雅的使用WebMagic框架写Java爬虫

优雅的使用WebMagic框架，爬取唐诗别苑网的诗人诗歌数据

同时在几种动态加载技术（HtmlUnit、PhantomJS、Selenium、JavaScriptEngine）中对比作选择

WebMagic虽然差不多两年没有维护，但其本身是一个优秀的爬虫框架的实现，源码中有很多值得参考的地方，特别是对爬虫多线程的控制。另外，由于页面爬取到的是非结构化数据，所以数据保存到MongoDB。

技术准备

pom.xml文件中的依赖非常简单，并没有使用到Spring系列的框架，所以有些地方自己编码实现了Spring提供的功能

根据需求将数据保存到MongoDB数据库，因此在程序运行前必须设置好 resources/mongodb.properties 文件

最好保证MongoDB的版本是4.0以上。另外MongoDB的用户管理比较麻烦，过程大致如下：首先需要创建存储数据的数据库，如命名为user_tangpoem，并存入随便一条数据（集合）使数据库有效化，然后创建一个

admin数据库的root用户，继续创建一个可以读写应用数据库user_tangpoem的用户，然后修改MongoDB配置文件使其以安全认证模式启动。重启数据库，选择admin数据库（use admin）

用刚刚创建的用户（非root用户）使用db.auth()进行登录，返回1说明验证成功，选择user_tangpoem数据库（use user_tangpoem），输入show collections，如果看到最初创建数据库时的集合，则说明用户创建成功。

详细可参考 MongoDB4.0.0 远程连接及用户名密码认证登陆配置——windows

爬虫以多线程的方式运行，在 resources/spider.properties 文件中可以 设置线程数和线程睡眠时间 ，在设置好数据库配置的基础上，直接运行Main.main()，爬虫就会开始爬取。

线程睡眠，是WebMagic框架源码中每线程爬取完一个url后必然经历的过程，但作者文档并没有对此进行说明，请根据实际情况调整

WebMagic底层已经很好的使用了HttpClient加载静态页面，对于动态页面，也有 PhantomJSDownloader 和 SeleniumDownloader 两个常用的利用

浏览器内核模拟浏览器行为的实现，其中，PhantomJS需要指定phantomjs.exe和进行爬取的JS文件，而seleniumDownloader需要指定chromedriver.exe，需要自行下载对应操作系统的版本，

使用起来并不难，本项目不多作讨论。这里关键说明 HtmlUnit

一款开源的Java页面分析工具,读取页面后,可以有效的使用HtmlUnit分析页面上的内容。使用 纯Java实现的 模拟浏览器，不需要指定外部文件。

虽然其对JS的支持并不完全，但总体而言HtmlUnit的内存消耗、CPU消耗和效率都比PhantomJS和Selenium好，值得进行使用

本项目使用2.25版本的HtmlUnit并没有出现JS加在不成功的问题，但使用2.3x的版本会无法加载

因为 JavaScriptEngine是有局限性的 ，最明显就是其不支持jquery的语法，因为jquery使用了浏览器内置的对象，而JS引擎本身是没有浏览器对象的

当然可以，只要分析过页面的加载逻辑，如果不涉及浏览器对象的使用，或者将JS逻辑进行转化，还是能够使用JS引擎的，但 牺牲了泛用性 。本项目经分析后使用JS引擎加载

经过测试，三者比较如下

PhantomJS使用外置的程序，所以JVM无法管理这部分的硬件资源，需要打开任务管理器

经过分析，爬取步骤分为4步：

爬取所有的诗人id。调用一次接口即可获得所有的诗人id，返回JSON格式数据，接口地址为： http://poem.studentsystem.org...
爬取所有的诗人信息。根据上一步的诗人id逐一爬取对应的诗人详细信息，一共有 2529 条数据，则接口调用 2529 次，返回JSON格式数据，接口地址为： http://poem.studentsystem.org... {id}
爬取所有的诗歌信息。根据上一步的诗人信息获取所有的诗歌id，然后逐一调用接口获取诗歌详细信息，一共有约 48000 条数据，则接口调用 48000 次，返回html页面，需要模拟浏览器动态执行JS，接口地址为： http://poem.studentsystem.org... {id}
由于动态执行JS可会能超时，因此最后要处理未成功加载完毕的诗歌信息，从数据库中读取这类数据，再次构成url调用接口爬取，直到所有数据都完整。这类数据约占1%，则接口调用约 480 次

优化后使用Java8的nashorn JS引擎执行JS代码，不需要动态加载JS，所以不会出现4的问题