网站首页 > 博客文章 正文
Python对于文本处理简单、直观。
任务:想返回一个网页的全部标题的文本行到一个文本文件。
在网页文件的源代码中,页面的标题都是用诸如<h4>……</h4>(后面的数字可以是1-6中任意数字)来标识的,要把这样的行提取出来,并将诸如<h4>或</h4>替换为空白,如果用文本的find()和replace()方法操作,则需要列举六种情况,但如果用正则表达式的findall()和sub()方法,则无需列举。
具体看代码:
import re temp = open('h4.txt','w',encoding="UTF-8") tag = re.compile(r'<h\d>')............# 可以直接写成tag = r'<h\d>' endtag = re.compile(r'</h\d>') with open('original.txt','rU',encoding="UTF-8") as f: ....for line in f.readlines():........ # 返回单行(段落)string ........#if line.startswith("h4"): ........#if line.find("h4") != -1:.... # 返回开始位置,否则返回-1 ........list1 = re.findall(tag,line) ........if list1!=[]: ............#str = line.replace("h4","") ............str = re.sub(tag,"",line) ............str = re.sub(endtag,"",str) ............temp.write(str) temp.close() # 也可以将文件内容做为一个字符串返回,利用以下正则表达式及查找返回一个列表: # res = r'<div>.*?</div>' # 使用非贪婪模式 print("finished!") import win32api win32api.ShellExecute(0,'open',"h4.txt",'','',1)
original.html中所有含有诸如<h4>……</h4>标签的文本行都提取到h4.txt文件中,并将这些html标签代码替换为空白。
-End-
猜你喜欢
- 2024-09-12 Excel正则表达式:提取出负数的操作方法
- 2024-09-12 Excel正则表达式:一键提取带1-2位的正数或负数
- 2024-09-12 第45讲 正则表达式(下)(正则表达式^用法)
- 2024-09-12 使用awk和正则表达式过滤文本或字符串 - 详细指南和示例
- 2024-09-12 Mysql使用concat函数或正则匹配来快速批量生成用于执行的sql语句
- 2024-09-12 正则精要:玩转JS正则表达式,也许只需这一篇(建议收藏)
- 2024-09-12 Max-Norm正则化在哪些场景下比L1或L2正则化更有优势
- 2024-09-12 正则表达式lookahead或lookbehind了解了,写代码就不用捉急了
- 2024-09-12 高效文本处理之查找替换|各类工具+正则表达式或通配符使用
- 2024-09-12 正则表达式实现与或非关系(正则表达式或者用法)
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- powershellfor (55)
- messagesource (56)
- aspose.pdf破解版 (56)
- promise.race (63)
- 2019cad序列号和密钥激活码 (62)
- window.performance (66)
- qt删除文件夹 (72)
- mysqlcaching_sha2_password (64)
- ubuntu升级gcc (58)
- nacos启动失败 (64)
- ssh-add (70)
- jwt漏洞 (58)
- macos14下载 (58)
- yarnnode (62)
- abstractqueuedsynchronizer (64)
- source~/.bashrc没有那个文件或目录 (65)
- springboot整合activiti工作流 (70)
- jmeter插件下载 (61)
- 抓包分析 (60)
- idea创建mavenweb项目 (65)
- vue回到顶部 (57)
- qcombobox样式表 (68)
- vue数组concat (56)
- tomcatundertow (58)
- pastemac (61)
本文暂时没有评论,来添加一个吧(●'◡'●)