详细介绍请看博客:风雨雾凇
- 环境准备:
- python3.6
- scrapy1.5
- numpy
- PIL
- wordcloud
- pymysql
- jieba 具体安装教程请百度。
- 使用git下载完整项目后,打开**/lagou/lagou/pipelines.py**文件。修改第26、41行: (建议数据库名为lagou,表名为lagou)
修改表名lagou
26 sql = "insert into lagou values(null,\"%s\",\"%s\",\"%s\",\"%s\",\"%s\",\"%s\",\"%s\",\"%s\",\"%s\")" % (
#修改成你的数据库host和用户密码、数据库名
41 sql = sqlHelper("localhost", "root", "admin", "lagou")
- 在该项目文件目录下打开命令行,输入:
scrapy crawl lagouSpider
#30改成对应总页数
11 for i in range(1, 30):
#java
12 start_urls.append('https://www.lagou.com/zhaopin/Java/2/?filterOption=' + str(i))
#python
12 start_urls.append('https://www.lagou.com/zhaopin/Python/2/?filterOption=' + str(i))
- 打开**/chiyun/demo.py**,同样修改51行 的数据库相关代码后,运行,稍等片刻则可以出现结果。
- 制作其他关键词词云请修改**/chiyun/demo.py**,55行:
54 for data in datas:
# 2对应拉钩网每个职位的工资范围 (可以通过修改代码计算出平均范围)
# 3对应拉钩网每个职位的最低要求
# 4对应拉钩网每个职位的关键要求tag
# 6对应拉钩网每个招聘公司类型
# 8对应拉钩网招聘公司的关键词
55 text += data[4]
#更改为你放进去的字体和背景图名称
58 font = path.join(path.dirname(__file__), "xingshu.ttf")
59 background = np.array(Image.open(path.join(d, "demo.webp")))