Skip to content

[开源自荐] Texo:一款纯前端的 LaTeX 公式识别工具 #3064

@alephpi

Description

@alephpi

项目地址

https://github.com/alephpi/Texo

类别

人工智能

项目标题

Texo:一款纯前端的 LaTeX 公式识别工具

项目描述

Texo是一个公式识别模型,用于将公式图片转换为可编辑的LaTeX代码,提高理工科学生提高作笔记、写文章的效率。

Texo的特点是轻量、准确、快速。尽管LaTeX OCR已经有许多的成熟商业模型和开源模型,但是在线商软的订阅费对学生而言仍略显高昂,而免费账户在高峰期又需排队等待,而开源模型的部署又受限于本地算力、环境配置、模型体积、跨平台兼容性等等,使得新手小白望而却步。因此作为一名用户和新手开发者,我开发了Texo,它轻量而不失准确,同时把本地部署门槛降至最低。

Texo基于PaddleOCR的SOTA模型,在此基础上微调并蒸馏了一个参数量仅20M,全精度模型体积仅 80MB 的模型,随后我借助 Transformers.js 框架将导出的onnx模型运行在浏览器中。通过Web应用交付的模型,既省去了配置python环境的繁琐配置,又因推理完全调用本地算力,无需担心隐私通过api泄漏。最重要的是该模型兼顾了底模的识别准确率和轻量模型的推理效率,把对本地算力的需求降到最低,在没有GPU加持下也能达到商软调用API的响应速率和准确度。

作为开发者,该项目是一个很好的AI新手入门模型训练的练手项目,它集合了Pytorch,Lightning,Transformers,Hydra等目前最佳深度学习工具栈的工程化项目。

亮点

  • 免费且开源
  • 快速且轻量
  • 可在消费级GPU上训练
  • 代码工程化、可读性强
  • 全流程展示:包含从数据清洗、模型转换、蒸馏、微调、推理、评估、部署的全流程
  • 可在浏览器中运行

示例代码

可直接访问demo页面:https://texocr.netlify.app/

截图或演示视频

2025.10.31.12.36.00.webm

Metadata

Metadata

Assignees

Labels

No labels
No labels

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions