python网络爬虫requests库(1)
requests库的安装
requests库属于python的第三方库,需要去进行安装,具体的操作为:
1、打开cmd在里面输入: pip list
可以看到当前pip里面没有requests库,所以需要去进行安装。
2、输入安装指令: pip install requests -i https://pypi.douban.com/simple/
在这里会出现很多种情况,比如:
这种一般都是开启了代理模式导致的,我们需要把代理关掉,一下是具体操作:
点击设置进入设置页面
输入: 代理 - 选择 - 代理服务器设置
在这里把 手动设置代理 关闭
然后再次来执行:
问题不大,这表示的是你的pip要更新一下了,我们将单引号里面的内容复制粘贴一遍基本就没有啥问题了


这个时候我们再来输入指令: pip list
来查看当前安装的库。

当你看到这个的时候就表示这个库下载完成了,编程搞起!
requests库的使用
这里羔羊用的是自带的IDLE编程,第一个站就选择经典的豆瓣top250
网址:https://movie.douban.com/top250
目标:获取当前网站页面
1、代码和运行结果

当你输入完并且解决掉自己打的错误代码和报错以后你就会看到一行这样的字

你点击他,选择确定,就会显示出来整个页面了

2、代码讲解
接下来我们来一行一行代码来进行复盘:
import requests#导入requests库
url = 'https://movie.douban.com/top250'#设置网址并且将其设定为一个变量url 相当于给这么长的网址起一个短点的名字headers= {``'user-agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.183 Safari/537.36'` }`
#将自己伪装成一个浏览器来进行访问,不然的话对方识别到你是一个python
这里我会给大家提供多个伪装的东西,来让大家选择:
| Chrome Win7: | Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1 |
|---|---|
| Firefox Win7: | Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0 |
| Safari Win7: |
Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50 |
| Opera Win7: |
Opera/9.80 (Windows NT 6.1; U; zh-cn) Presto/2.9.168 Version/11.50 |
| IE Win7+ie9: |
Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 2.0.50727; SLCC2; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.3; .NET4.0C; Tablet PC 2.0; .NET4.0E) |
| Win7+ie8: | Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; InfoPath.3) |
| WinXP+ie8: | Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; GTB7.0) |
| WinXP+ie7: | Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1) |
| WinXP+ie6: | Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1) |
| 傲游3.1.7在Win7+ie9,高速模式: | Mozilla/5.0 (Windows; U; Windows NT 6.1; ) AppleWebKit/534.12 (KHTML, like Gecko) Maxthon/3.0 Safari/534.12 |
| 傲游3.1.7在Win7+ie9,IE内核兼容模式: | Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.3; .NET4.0C; .NET4.0E) |
| 搜狗3.0在Win7+ie9,IE内核兼容模式: | Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.3; .NET4.0C; .NET4.0E; SE 2.X MetaSr 1.0) |
| 搜狗3.0在Win7+ie9,高速模式: | Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.3 (KHTML, like Gecko) Chrome/6.0.472.33 Safari/534.3 SE 2.X MetaSr 1.0 |
| 360浏览器3.0在Win7+ie9: | Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.3; .NET4.0C; .NET4.0E) |
| QQ浏览器6.9(11079)在Win7+ie9,极速模式: | Mozilla/5.0 (Windows NT 6.1) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/13.0.782.41 Safari/535.1 QQBrowser/6.9.11079.201 |
| QQ浏览器6.9(11079)在Win7+ie9,IE内核兼容模式: | Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.3; .NET4.0C; .NET4.0E) QQBrowser/6.9.11079.201 |
| 阿云浏览器Win7+ie9 | Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0) |
reponse = requests.get(url = url,headers = headers)#可以理解为去和网站沟通,告诉他你要访问的网站,你是什么浏览器,都写在这里,然后他就会去帮你访问。print(reponse.text)#以文本格式将你获取的网站内容打印出来