xpath解析是最常用且最高效便捷的一种解析方式。通用性最强的一种解析方式。
xpath解析原理:
1,实例化一个etree的对象,且需要将被解析的页面源码数据加载到该对象中。
2,调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获。
环境安装:
1,pip install lxml lxml是一种解析器
实例化etree对象: 导入:from lxml import etree
1,将本地的html文档中的源码数据加载到etree对象中:
etree.parse(本地存放html的路径和文件名)
2,可以将从互联网上获取的源码数据加载到该对象中
etree.HTML('从互联网上访问到的数据')
get_shuju = xxx.xpath('表达式1 I 表达式2') # 可以存在多个表达式有 I 号分割。
xxx.status_code:返回的是http状态码。
data={'username':'admin','password':'123456','code':1234}
post数据提交:xxx.requests.post(url=xxx,headers=headers,data=data) # 链接携带参数。
proxies:指定代理,用在 xxx.requests.get(url=xxx,headers=headers,data=data,proxies={"https":'http://49.87.236.166:30001')
session:作用:1,可以进行请求发送, 2,如果请求的过程中产生了cookie,则该cookie会被自动储存到session对象中。
用法:1,先创建一个session对象:session = requests.Session() 2,xxx = session.get() xxx = session.post() 一般用来保持登陆状态
代理ip小知识:透明:表示被访问的服务器知道该次请求使用的是代理ip,且知道你自己的真实ip。
匿名:表示被访问的服务器知道该次请求使用的是代理ip,但是不知道你自己的真实ip。
高度匿名:表示被访问的服务器不知道该次请求使用的是代理ip,更不会知道你真实的ip。