博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
BeautifulSoup_lxml解析
阅读量:6943 次
发布时间:2019-06-27

本文共 1204 字,大约阅读时间需要 4 分钟。

def parseHtml(html):    soup = BeautifulSoup(html, 'lxml')    # print(soup.prettify)格式化输出    # items = soup.find_all('div', attrs={'class': 'news-list-b'})    # items = soup.select('Tag')#CSS选择器    # items = soup.select('.class')属性    # items = soup.select('#id')ID    # items = soup.select('Tag[attr="属性值"]')标签+属性    # items = soup.select('.class Tag #id')空格表示子节点,组合使用    # items = soup.select('Tag').text取文本    # items = soup.select('Tag').get_text()取文本    # tag.get('className')取标签属性    # tag['className']取标签属性    # tag.attrs.get('className')取标签属性    items = soup.select('.news-list-b .list .item .title a')    for item in items:        yield item.get('href')#attrs字典取属性

CSS选择器 子串匹配 模糊匹配

soup = BeautifulSoup(html, 'lxml')trs = soup.select('#table_live tr[id*="tr1"]')#id包含“tr1”字符串的tr标签#soup.select('tag[attr="属性值"]') #标签+属性
tags = soup.select('li[id^="newsLi"]') #标签+属性,id属性以newsLi开头
tags = soup.select('li[id$="newsLi"]') #标签+属性,id属性以newsLi结尾
tags = soup.select('li[id*="newsLi"]') #标签+属性,id属性包含newsLi

 select带有空格的class

#div class=’content-list latest-content’#div class=’content-list hot-content’tags = soup.select('div.content-list.latest-content')

 

转载于:https://www.cnblogs.com/math98/p/8776898.html

你可能感兴趣的文章
我的Android进阶之旅------> Android在TextView中显示图片方法
查看>>
调整CodeIgniter错误报告级别
查看>>
ng-options 如何实现其中一项option禁选
查看>>
from语法导入
查看>>
linux 下的emoji在MariaDB中的字符集修改
查看>>
RMQ算法
查看>>
python连续爬取多个网页的图片分别保存到不同的文件夹
查看>>
了解url
查看>>
时间记录日志
查看>>
Node.js
查看>>
进程 线程通信方式(转载)
查看>>
在ios上,fixed定位因为input导致手机下面出现空白,视图变小
查看>>
hdu 1695(欧拉函数 容斥定理)
查看>>
mysql在表的某一位置增加一列、删除一列、修改列名
查看>>
计算机基础知识
查看>>
SpringMVC系列(九)自定义视图、重定向、转发
查看>>
PAT 1029 Median
查看>>
需要总结的知道
查看>>
python 从小白开始 - 字符串操作(不可修改)
查看>>
管理现有数据库-web系统
查看>>