Python爬虫之利用Github搜索资源的小技巧
这段时间以来,我发现大家都把Github挂在嘴上,但是不少人其实并不会用Github。具体怎么说呢,比方说实现某些简单的功能的时候,自己可能需要花2-3小时去实现,那么大家愿意自己去实现。
具体一些,比方说我以前写一个简单的爬虫采集大众点评的一些数据的时候,我可能需要花时间去了解网站结构然后写爬虫,写下来没个半天不行。但是这种网站你上Github搜索「大众点评爬虫」或者「dazhongdianping」等等关键词。你会发发现有一堆的爬虫项目,你直接拿来稍微改一下就能用了。
这个直接能节省你半天甚至一天的时间,你可以节省这一天的时间用在更有意义的事情上面,比如说做深入的挖掘分析。
我们很多搞技术的人经常会陷入所有事情都要亲自干的这种误区。但记住并不是所有事情都要亲力亲为的,有时候只是浪费时间。比你成功的人通常不会重复造轮子,而是会利用资源。
相关推荐:《Python教程》
在利用Github搜索资源的时候其实也是有一些小技巧的。也不能称之为技巧,但你往下看肯定是让你非常受益的。
1、awesome + xx
awesome这个单词表示的棒极了一类意思,如果你在Github中搜索awesome + xxxg关键词,你就能搜索这个关键词的资源大全,比方说:
awesome python
awesome go
awesome linux
你就会发现关于这些东西的学习资料真的是一大堆一大堆的。无论是书籍资源,库资源,还是学习视频、学习笔记,应有尽有。会了这个技能你再也不用到处求学习资源了。
2、功能 + 网站
我在上面举了个例子。比方说当你想采集某个网站的时候,你可以在Github里面搜「网站名称 +Scrapy」,如果搜不到可以搜「网站名称+采集」,还可以搜「网站名称+Python」等等。
如果你想做一个仿大众点评的App,那么你在Github上搜「仿大众点评」,你就能快速找到别人做的一个大众点评项目,拿来几乎可以直接用了,想一想这节省了你多少时间?
有时候你找不到,可能仅仅是你关键词弄得不对,记得换一换关键词,比如说英文搜索,拼音搜索,大多时候就能搜到了。
3、接口
大家在开发调用一些数据接口查询的时候,个人开发者一般来说都有一些调用的限制,必须要成为企业或者付费才能调高这些限制。
比如说百度的地图的路线规划API,普通开发者的Key一天只能调用2000次,而且并发只有20次,这个数量肯定不够,但是我们个人开发者又不愿意花钱去搞这件事情,怎么办呢?
我们看到这个接口调用是这样调用的,只要在最后写上开发者的AK就行了,所以我们把这个网址中不是自定义的内容直接拿到Github里面搜就可以了。全是你想要的东西。
其实类似的操作很多的,比方说搜数据库的密码。你想想在开发的过程中哪些东西是约定俗成不会变的,你在GitHub中就能搜索到了。当然并没有让你去干坏事撒。
类似的小技巧其实挺多的,Github其实真是一个藏宝的地方,关键是你会不会用。要会发挥想象力,多想多动手,千万不要不想只动手。
来源:PY学习网:原文地址:https://www.py.cn/article.html