计算机管理系统:电脑网络技术记录本

Python

当前位置:首页 > 程序语言集合 > Python

python爬虫之xpath数据解析方式方法

xpath解析是最常用且最高效便捷的一种解析方式。通用性最强的一种解析方式。


 xpath解析原理:

             1,实例化一个etree的对象,且需要将被解析的页面源码数据加载到该对象中。

             2,调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获。


 环境安装:

        1,pip install lxml     lxml是一种解析器


 实例化etree对象: 导入:from lxml import etree

         1,将本地的html文档中的源码数据加载到etree对象中:

             etree.parse(本地存放html的路径和文件名)

         2,可以将从互联网上获取的源码数据加载到该对象中

             etree.HTML('从互联网上访问到的数据')


get_shuju = xxx.xpath('表达式1 I 表达式2')    # 可以存在多个表达式有  I 号分割。


xxx.status_code:返回的是http状态码。


                 data={'username':'admin','password':'123456','code':1234}

post数据提交:xxx.requests.post(url=xxx,headers=headers,data=data)      # 链接携带参数。


proxies:指定代理,用在 xxx.requests.get(url=xxx,headers=headers,data=data,proxies={"https":'http://49.87.236.166:30001')


session:作用:1,可以进行请求发送,   2,如果请求的过程中产生了cookie,则该cookie会被自动储存到session对象中。


  用法:1,先创建一个session对象:session = requests.Session()      2,xxx = session.get()         xxx = session.post()                 一般用来保持登陆状态


代理ip小知识:透明:表示被访问的服务器知道该次请求使用的是代理ip,且知道你自己的真实ip。

                 匿名:表示被访问的服务器知道该次请求使用的是代理ip,但是不知道你自己的真实ip。

              高度匿名:表示被访问的服务器不知道该次请求使用的是代理ip,更不会知道你真实的ip。

python爬虫之xpath数据解析方式方法

文章评论

表情

共 0 条评论,查看全部
  • 这篇文章还没有收到评论,赶紧来抢沙发吧~