2019-05-05 16:08:55 2102浏览
本篇文章扣丁学堂Python培训小编给读者们分享一下Python lxml解析HTML并用xpath获取元素的方法,文中有代码列出供小伙伴们参加学习,对Python开发感兴趣的小伙伴就随小编来了解一下吧,希望对大家有所帮助。
使用方法见注释
#-*- coding: UTF-8 -*-
from lxml import etree
source = u'''
<div><p class="p1" data-a="1">测试数据1</p>
<p class="p1" data-a="2">测试数据2</p>
<p class="p1" data-a="3" style="height:100px;">
<strong class="s">测试数据3</strong></p>
<p class="p1" data-a="4" width="200"><img src="1.jpg" class="img"/><br/>
图片</p>
'''
# 从字符串解析
page = etree.HTML(source)
# 元素列表
ps = page.xpath("//p")
for p in ps:
print u"属性:%s" % p.attrib
print u"文本:%s" % p.text
# 文本列表
ts = page.xpath("//p/text()")
for t in ts:
print t
# xpath定位
ls = page.xpath('//p[@class="p1"][last()]/img')
for l in ls:
print l.attrib
最后想要了解更多关于Python和人工智能方面内容的小伙伴,请关注扣丁学堂Python培训官网、微信等平台,扣丁学堂IT职业在线学习教育平台为您提供权威的Python开发环境搭建视频,Python培训后的前景无限,行业薪资和未来的发展会越来越好的,扣丁学堂老师精心推出的Python视频教程定能让你快速掌握Python从入门到精通开发实战技能。扣丁学堂Python技术交流群:279521237。
【关注微信公众号获取更多学习资料】 【扫码进入Python全栈开发免费公开课】