在python3上利用urllib与BeautifulSoup开发的最简单的知乎(www.zhihu.com)爬虫
getTopics()可以获得所有的以及topic信息
getSubTopics和getSubTopic或者一级话题下面的所有子话题以及第一子话题。第一子话题是与该话题一致的大类话题
getTopicBestPeople()获得自话题下的最佳回答者
getPersonInfo()获取回答者基本信息
getAnswerByDefaultOrder()用来获取某人按照点赞数排序的某条答案
getAnswerContent()用来获取某条答案的详细内容
需要注意的是,知乎貌似会屏蔽连续对知乎的访问,所以需要请求之间有一个等待延时。
同时,知乎的某些网页以及网页的某些组件对未登录用户是不公开的,所以需要进行登陆,将cookies获取到之后放入程序的全局headers变量中
最后,urllib并不是一个很好的爬虫,再运行一段时间后有可能会出现程序假死,要么增加try catch进行重试,要么可以采用更高效的scrapy框架