-
-
Notifications
You must be signed in to change notification settings - Fork 10.9k
Open
Description
项目地址
https://github.com/alephpi/Texo
类别
人工智能
项目标题
Texo:一款纯前端的 LaTeX 公式识别工具
项目描述
Texo是一个公式识别模型,用于将公式图片转换为可编辑的LaTeX代码,提高理工科学生提高作笔记、写文章的效率。
Texo的特点是轻量、准确、快速。尽管LaTeX OCR已经有许多的成熟商业模型和开源模型,但是在线商软的订阅费对学生而言仍略显高昂,而免费账户在高峰期又需排队等待,而开源模型的部署又受限于本地算力、环境配置、模型体积、跨平台兼容性等等,使得新手小白望而却步。因此作为一名用户和新手开发者,我开发了Texo,它轻量而不失准确,同时把本地部署门槛降至最低。
Texo基于PaddleOCR的SOTA模型,在此基础上微调并蒸馏了一个参数量仅20M,全精度模型体积仅 80MB 的模型,随后我借助 Transformers.js 框架将导出的onnx模型运行在浏览器中。通过Web应用交付的模型,既省去了配置python环境的繁琐配置,又因推理完全调用本地算力,无需担心隐私通过api泄漏。最重要的是该模型兼顾了底模的识别准确率和轻量模型的推理效率,把对本地算力的需求降到最低,在没有GPU加持下也能达到商软调用API的响应速率和准确度。
作为开发者,该项目是一个很好的AI新手入门模型训练的练手项目,它集合了Pytorch,Lightning,Transformers,Hydra等目前最佳深度学习工具栈的工程化项目。
亮点
- 免费且开源
- 快速且轻量
- 可在消费级GPU上训练
- 代码工程化、可读性强
- 全流程展示:包含从数据清洗、模型转换、蒸馏、微调、推理、评估、部署的全流程
- 可在浏览器中运行
示例代码
可直接访问demo页面:https://texocr.netlify.app/截图或演示视频
2025.10.31.12.36.00.webm
zmrlft
Metadata
Metadata
Assignees
Labels
No labels