File tree 1 file changed +11
-6
lines changed
1 file changed +11
-6
lines changed Original file line number Diff line number Diff line change @@ -24,20 +24,25 @@ pyawf库原生的并不支持3.x,需要安装Py3Awf. 此外导入时会报错
24
24
25
25
因为今天的数据较多有8W,所以开了python的多进程,感觉跟坐了火箭一样...
26
26
27
- ## [ 1.25爬取国家家养动物资源平台核心元数据] ( )
27
+ ## [ 1.25爬取国家家养动物资源平台核心元数据] ( https://github.com/LouisYZK/ShiXi_inWuhan/tree/master/1.25 )
28
28
插曲:今天拖了一下昨天的进度,因为数据部的同事告诉我数据量质量不行,大概是不太会处理json文件吧,我看了一下数据部的同志们大多用的是Matlab,spss,stata等还有一堆我没听过名字的数据分析软件。这样的话非结构化的数据确实让他们有点为难。
29
29
30
30
不过这不是我的锅... 经过交涉,他们愿意自学非结构处理方法...
31
31
32
32
今天的网页还算简单,ajax的post请求,用charles抓包之后构造详图的包就行。
33
33
34
- ## [ 1.26] ( )
34
+ ## [ 1.26 财务处数据变换写法 ] ( https://github.com/LouisYZK/ShiXi_inWuhan/tree/master/1.26 )
35
35
今天武汉下起了大雪,又是周五,所以一同实习的小伙伴一整天都很躁动呀~ !
36
- ## [ 1.27:周六无聊找事情做] ( )
36
+ ## [ 1.27:周六无聊找事情做] ( https://github.com/LouisYZK/ShiXi_inWuhan/tree/master/1.27 )
37
37
娱乐之余分析爬取了新教务系统的课程信息。新的教务系统在课程信息展示方面更加人性化,为跨专业选课提供了方便。经过分析,使用的技术主要就是ajax渲染,简单方便。
38
- ## [ 1.28爬虫界的天坑:百度指数] ( )
38
+ ## [ 1.28爬虫界的天坑:百度指数] ( https://github.com/LouisYZK/ShiXi_inWuhan/tree/master/1.28 )
39
39
在没有学习爬虫之前就听闻了网络数据采集较为困难的几个点,其中百度指数因其诡异的数据生成方式而被很多人成为天坑。。。 我就很好奇想试试这个项目。。。 这个项目估计会搞好久,慢慢更新
40
- ## [ 1.29微信搜狗搜索模拟] ( )
40
+ ## [ 1.29微信搜狗搜索模拟] ( https://github.com/LouisYZK/ShiXi_inWuhan/tree/master/1.29_wx )
41
41
微信公总号文章的搜索也是常用的一种搜索手段,其数据也是研究自媒体信息发布趋势和基本情况的基础。微信搜狗搜索仅仅需要突破的技术难题就是代理跌换。经过测试,每个IP在请求100次左右就会被封锁,此时需要更换代理。
42
42
43
- 于是赶出了一个抓取免费可用代理的脚本。
43
+ 于是赶出了一个抓取免费可用代理的脚本。
44
+
45
+ ## [ 1.30 再次使用Pyamf爬取flash数据] ( https://github.com/LouisYZK/ShiXi_inWuhan/tree/master/1.30_agriData )
46
+ 这是此次实习时间最长的一次项目,因为要深度剖析flash的请求原理和amf编码解码方式并应用在python爬虫中,这方面的文档很少,自主探索的内容多。
47
+ ## [ 1.31爬取农业批发市场空间分布数据] ( https://github.com/LouisYZK/ShiXi_inWuhan/tree/master/1.31_agri_map )
48
+ 使用地图js框架渲染的页面有很多,数据产生的方式也不一样,这次的页面地图数据直接放在了头部的js文本里(可能是数据不太多吧...)需要正则表达式和字符串的深度处理。
You can’t perform that action at this time.
0 commit comments