Skip to content

Commit 7ae9063

Browse files
committed
*
1 parent a1bb21a commit 7ae9063

File tree

1 file changed

+11
-6
lines changed

1 file changed

+11
-6
lines changed

README.md

Lines changed: 11 additions & 6 deletions
Original file line numberDiff line numberDiff line change
@@ -24,20 +24,25 @@ pyawf库原生的并不支持3.x,需要安装Py3Awf. 此外导入时会报错
2424

2525
因为今天的数据较多有8W,所以开了python的多进程,感觉跟坐了火箭一样...
2626

27-
## [1.25爬取国家家养动物资源平台核心元数据]()
27+
## [1.25爬取国家家养动物资源平台核心元数据](https://github.com/LouisYZK/ShiXi_inWuhan/tree/master/1.25)
2828
插曲:今天拖了一下昨天的进度,因为数据部的同事告诉我数据量质量不行,大概是不太会处理json文件吧,我看了一下数据部的同志们大多用的是Matlab,spss,stata等还有一堆我没听过名字的数据分析软件。这样的话非结构化的数据确实让他们有点为难。
2929

3030
不过这不是我的锅... 经过交涉,他们愿意自学非结构处理方法...
3131

3232
今天的网页还算简单,ajax的post请求,用charles抓包之后构造详图的包就行。
3333

34-
## [1.26]()
34+
## [1.26 财务处数据变换写法](https://github.com/LouisYZK/ShiXi_inWuhan/tree/master/1.26)
3535
今天武汉下起了大雪,又是周五,所以一同实习的小伙伴一整天都很躁动呀~
36-
## [1.27:周六无聊找事情做]()
36+
## [1.27:周六无聊找事情做](https://github.com/LouisYZK/ShiXi_inWuhan/tree/master/1.27)
3737
娱乐之余分析爬取了新教务系统的课程信息。新的教务系统在课程信息展示方面更加人性化,为跨专业选课提供了方便。经过分析,使用的技术主要就是ajax渲染,简单方便。
38-
## [1.28爬虫界的天坑:百度指数]()
38+
## [1.28爬虫界的天坑:百度指数](https://github.com/LouisYZK/ShiXi_inWuhan/tree/master/1.28)
3939
在没有学习爬虫之前就听闻了网络数据采集较为困难的几个点,其中百度指数因其诡异的数据生成方式而被很多人成为天坑。。。 我就很好奇想试试这个项目。。。 这个项目估计会搞好久,慢慢更新
40-
## [1.29微信搜狗搜索模拟]()
40+
## [1.29微信搜狗搜索模拟](https://github.com/LouisYZK/ShiXi_inWuhan/tree/master/1.29_wx)
4141
微信公总号文章的搜索也是常用的一种搜索手段,其数据也是研究自媒体信息发布趋势和基本情况的基础。微信搜狗搜索仅仅需要突破的技术难题就是代理跌换。经过测试,每个IP在请求100次左右就会被封锁,此时需要更换代理。
4242

43-
于是赶出了一个抓取免费可用代理的脚本。
43+
于是赶出了一个抓取免费可用代理的脚本。
44+
45+
## [1.30 再次使用Pyamf爬取flash数据](https://github.com/LouisYZK/ShiXi_inWuhan/tree/master/1.30_agriData)
46+
这是此次实习时间最长的一次项目,因为要深度剖析flash的请求原理和amf编码解码方式并应用在python爬虫中,这方面的文档很少,自主探索的内容多。
47+
## [1.31爬取农业批发市场空间分布数据](https://github.com/LouisYZK/ShiXi_inWuhan/tree/master/1.31_agri_map)
48+
使用地图js框架渲染的页面有很多,数据产生的方式也不一样,这次的页面地图数据直接放在了头部的js文本里(可能是数据不太多吧...)需要正则表达式和字符串的深度处理。

0 commit comments

Comments
 (0)