有很多方法可以帮助你部署一个定时执行的爬虫代码,本文记录了如何使用Jenkins部署的大体流程,Jenkins会在我们规定的时间拉取我们存放在Github仓库的代码并编译运行,然后将爬取的结果以pull request的方式更新到我们的Github仓库去。

安装Jenkins

请参照官方教程安装Jenkins。

安装插件

因为我的爬虫代码是Go语言编写的,所以我需要安装Go的相关插件。你应当根据你自己的需求安装对应的插件。这里我默认Jenkins已经安装了Git相关插件。

Jenkins配置

以下主要给出一些较重要的配置。你可以根据你自己的需求修改你自己的配置。

全局工具配置

下载你的工程依赖版本的Go语言。 image 点击保存。

系统配置

在系统配置里面添加系统管理员邮箱地址。 image 配置你的SMTP服务器地址和你的邮箱地址。邮箱地址应当与系统管理员邮箱地址相同。 image 配置好后你可以测试下邮件发送功能,然后点击保存。

工程配置

配置你的Github仓库地址,我这里使用的是access_token这种访问方式,你也可以使用其他Github提供的访问方式。 image 在构建触发器这里我们选择定时构建。这样我们的爬虫代码会定时在每个月的第一天执行。 image 勾选下图中的配置,你也可以按照自己需求勾选。 image 这里我们选择通过执行shell脚本来自动化我们的爬虫代码构建和运行,同时添加构建失败后通知的邮件地址。 image 点击保存。

可选配置

当你完成上面的配置,你已经可以在Jenkins尝试构建你的项目失败后收到通知邮件了,但是如果你想在你的项目构建成功的时候也收到通知邮件的话需要配置以下⬇️信息。

可选系统配置

根据你自己需求配置Extended E-mail Notification image

可选工程配置

根据你自己需求配置Editable Email Notification image

结语

现在你就全都配置好啦!只要你的Jenkins服务不宕掉,你的代码会在每月的第一天执行,并且自动将爬取的结果PR到你的仓库去。请参照hugoThemesRanking