网站首页 > 博客文章 正文
处理文本文档,是工作中的必备技能。我们需要分享它、编辑它、标记它、转换它、搜索它,还需要谨慎细心让自己不要弄错它。今天给大家分享几个开源免费的文本文档处理工具。
01 FileCodeBox
一个基于FastAPI+SQLite3开发的文本和文件分享的服务。
支持分享文件、口令提取文件等功能,无需注册即可完成文件提取。
你可以将文字、文件使用拖拽、粘贴或是点击上传的方式,放到该工具中,设置文件可保留天数,获取取件口令。
你可以将它当成一个文件快递柜,输入口令即可分享文本和文件内容。
02 doccano
一款开源的文本标记工具。提供文本分类、序列标记、情感分析、文本摘要等功能,帮助快速完成打标工作,支持中文和多人协作。
它可以为文本分类、序列标记和序列到序列任务提供注释功能。你可以为情绪分析、命名实体识别、文本摘要等创建标记数据。创建项目后,上传数据并开始注释,就能够在数小时内构建一个数据库。
03 pdf2docx
一款开源的PDF转Word转换服务,一个可以将PDF转换成docx文件的Python库。
该项目通过PyMuPDF库提取PDF文件中的数据,例如文本,图像和图纸等,然后采用python-docx库解析内容的布局、段落、图片、表格等,最后自动生成docx文件。
04 OCRmyPDF
一个可以把PDF文件变成可搜索文件的工具。它使用Tesseract OCR引擎,将PDF的内容识别成文本,然后给PDF文件增加OCR文本层。用以实现可搜索和复制PDF的内容,当前支持100多种语言。
支持从常规PDF生成可搜索的PDF/A文件;将OCR文本准确地放置在图像下方,以方便复制/粘贴;支持保持原始嵌入图像的精确分辨率等多种功能。
05 Pycorrector
不要认为自己的母语是中文,就不需要学习了,我们也可能会在中文上“犯错误”。
这是一个中文文本纠错工具,支持中文音似、形似(或变体字)、语法错误纠正等,python3开发。可用于中文拼音、笔画输入法的错误纠正。
依据语言模型检测错别字位置,通过拼音音似特征、笔画五笔编辑距离特征及语言模型困惑度特征纠正错别字。帮助解决在文本识别模型处理后,对识别结果中个别词汇错误进行纠错。
今天的文本文档处理工具就给大家分享到这里,希望在工作上帮助到你!
猜你喜欢
- 2024-09-15 探索开源宝藏:MinerU——文档处理的全能助手
- 2024-09-15 新致开源项目管理系统5:文档&周报&成本预算
- 2024-09-15 5个基于.Net Core值得推荐的CMS开源项目
- 2024-09-15 论文神器DocsGPT登顶GitHub热榜!多类型文档查询,支持中文
- 2024-09-15 【开源】类似百度文库的文库网站系统
- 2024-09-15 Github 2023-12-24 开源项目日报 Top10
- 2024-09-15 10.8K star!开源神器 Kotaemon:轻松构建你的专属文档问答系统
- 2024-09-15 接口文档解决方案!企业级的接口文档管理平台!
- 2024-09-15 不吹不黑!逛GitHub没看过这10个开源项目,绝对血亏
- 2024-09-15 文书档案管理系统软件哪个好?(什么是文书档案管理)
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- powershellfor (55)
- messagesource (56)
- aspose.pdf破解版 (56)
- promise.race (63)
- 2019cad序列号和密钥激活码 (62)
- window.performance (66)
- qt删除文件夹 (72)
- mysqlcaching_sha2_password (64)
- ubuntu升级gcc (58)
- nacos启动失败 (64)
- ssh-add (70)
- jwt漏洞 (58)
- macos14下载 (58)
- yarnnode (62)
- abstractqueuedsynchronizer (64)
- source~/.bashrc没有那个文件或目录 (65)
- springboot整合activiti工作流 (70)
- jmeter插件下载 (61)
- 抓包分析 (60)
- idea创建mavenweb项目 (65)
- vue回到顶部 (57)
- qcombobox样式表 (68)
- vue数组concat (56)
- tomcatundertow (58)
- pastemac (61)
本文暂时没有评论,来添加一个吧(●'◡'●)