python网络爬虫requests库(1)


python网络爬虫requests库(1)

requests库的安装

requests库属于python的第三方库,需要去进行安装,具体的操作为:

1、打开cmd在里面输入: pip list
image-20210531134605991

可以看到当前pip里面没有requests库,所以需要去进行安装。

2、输入安装指令: pip install requests -i https://pypi.douban.com/simple/

在这里会出现很多种情况,比如:

image-20210531135019990

这种一般都是开启了代理模式导致的,我们需要把代理关掉,一下是具体操作:

点击设置进入设置页面

image-20210531135153967

输入: 代理 - 选择 - 代理服务器设置

image-20210531135220458

在这里把 手动设置代理 关闭

image-20210531135307899

然后再次来执行:

image-20210531135533757 image-20210531135628473

问题不大,这表示的是你的pip要更新一下了,我们将单引号里面的内容复制粘贴一遍基本就没有啥问题了

image-20210531140055695

image-20210531140148135

这个时候我们再来输入指令: pip list

来查看当前安装的库。

image-20210531140301094

当你看到这个的时候就表示这个库下载完成了,编程搞起!

image-20210531140556750

requests库的使用

这里羔羊用的是自带的IDLE编程,第一个站就选择经典的豆瓣top250

网址:https://movie.douban.com/top250

目标:获取当前网站页面

1、代码和运行结果

image-20210531142028177

当你输入完并且解决掉自己打的错误代码和报错以后你就会看到一行这样的字

image-20210531142136401

你点击他,选择确定,就会显示出来整个页面了

image-20210531142225124

2、代码讲解

接下来我们来一行一行代码来进行复盘:

  1. import requests #导入requests库
  1. url = 'https://movie.douban.com/top250' #设置网址并且将其设定为一个变量url 相当于给这么长的网址起一个短点的名字

  2. headers = {`

        `'user-agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.183 Safari/537.36'`
        }`
    

#将自己伪装成一个浏览器来进行访问,不然的话对方识别到你是一个python

这里我会给大家提供多个伪装的东西,来让大家选择:

Chrome Win7: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1
Firefox Win7: Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0
Safari
Win7:
Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50
Opera
Win7:
Opera/9.80 (Windows NT 6.1; U; zh-cn) Presto/2.9.168 Version/11.50
IE
Win7+ie9:
Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 2.0.50727; SLCC2; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.3; .NET4.0C; Tablet PC 2.0; .NET4.0E)
Win7+ie8: Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; InfoPath.3)
WinXP+ie8: Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; GTB7.0)
WinXP+ie7: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)
WinXP+ie6: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)
傲游3.1.7在Win7+ie9,高速模式: Mozilla/5.0 (Windows; U; Windows NT 6.1; ) AppleWebKit/534.12 (KHTML, like Gecko) Maxthon/3.0 Safari/534.12
傲游3.1.7在Win7+ie9,IE内核兼容模式: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.3; .NET4.0C; .NET4.0E)
搜狗3.0在Win7+ie9,IE内核兼容模式: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.3; .NET4.0C; .NET4.0E; SE 2.X MetaSr 1.0)
搜狗3.0在Win7+ie9,高速模式: Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.3 (KHTML, like Gecko) Chrome/6.0.472.33 Safari/534.3 SE 2.X MetaSr 1.0
360浏览器3.0在Win7+ie9: Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.3; .NET4.0C; .NET4.0E)
QQ浏览器6.9(11079)在Win7+ie9,极速模式: Mozilla/5.0 (Windows NT 6.1) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/13.0.782.41 Safari/535.1 QQBrowser/6.9.11079.201
QQ浏览器6.9(11079)在Win7+ie9,IE内核兼容模式: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.3; .NET4.0C; .NET4.0E) QQBrowser/6.9.11079.201
阿云浏览器Win7+ie9 Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0)
  1. reponse = requests.get(url = url,headers = headers) #可以理解为去和网站沟通,告诉他你要访问的网站,你是什么浏览器,都写在这里,然后他就会去帮你访问。
  2. print(reponse.text)#以文本格式将你获取的网站内容打印出来

文章作者: Gao Yang
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Gao Yang !
评论
  目录