PDF to Markdown Parser System

Características

Extracción de texto estructurado: Mantiene jerarquías, títulos, párrafos, listas
Extracción de imágenes: Detecta y guarda imágenes con referencias en Markdown * con bugs pero en proceso
Conversión de tablas: Convierte tablas a formato Markdown/CSV * algunos casos fallan
Fórmulas matemáticas: Detecta y convierte a LaTeX * salen muy mal, pero trabajando en eso
Formularios y encuestas: Detecta preguntas de selección múltiple
Procesamiento por páginas: Iteración progresiva con validaciones intermedias
Arquitectura multiagente: Sistema modular y extensible

Instalación

pip install -r requirements.txt

Configuración

Crea un archivo .env con tu API key de OpenAI:

OPENAI_API_KEY=tu_api_key_aqui

Uso

Procesamiento básico

from pparser import PDFProcessor

processor = PDFProcessor()
result = processor.process_pdf("documento.pdf", output_dir="output/")

Procesamiento en lote

from pparser import BatchProcessor

batch = BatchProcessor()
batch.process_directory("pdfs/", "outputs/")

Arquitectura

El sistema utiliza los siguientes agentes especializados:

TextExtractor: Extrae texto estructurado
ImageExtractor: Detecta y extrae imágenes
TableExtractor: Convierte tablas a Markdown/CSV
FormulaExtractor: Detecta y convierte fórmulas matemáticas
FormDetector: Identifica formularios y preguntas
StructureBuilder: Ensambla el Markdown final
QualityValidator: Verifica la calidad de la conversión

Estructura del proyecto

pparser/
├── agents/           # Agentes especializados
├── extractors/       # Módulos de extracción
├── utils/           # Utilidades y helpers
├── workflows/       # Flujos de LangGraph
└── processors/      # Procesadores principales

Flujo de procesamiento

Análisis inicial: Determina estructura del PDF
Extracción paralela: Cada agente procesa su especialidad
Consolidación: Ensambla todos los elementos
Validación: Verifica calidad y completitud
Generación: Crea Markdown final y assets

Formato de salida

output/
├── documento.md     # Markdown estructurado
├── images/          # Imágenes extraídas
├── tables/          # Tablas en CSV (opcional)
└── metadata.json    # Información del procesamiento

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
examples		examples
pparser		pparser
.gitignore		.gitignore
CLI_USAGE_GUIDE.md		CLI_USAGE_GUIDE.md
README.md		README.md
USAGE.md		USAGE.md
demo.py		demo.py
final_validation.py		final_validation.py
pyproject.toml		pyproject.toml
pytest.ini		pytest.ini
requirements.txt		requirements.txt
test_complete_system.py		test_complete_system.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

PDF to Markdown Parser System

Características

Instalación

Configuración

Uso

Procesamiento básico

Procesamiento en lote

Arquitectura

Estructura del proyecto

Flujo de procesamiento

Formato de salida

About

Uh oh!

Releases

Packages

Uh oh!

Languages

lexO-dat/pparser

Folders and files

Latest commit

History

Repository files navigation

PDF to Markdown Parser System

Características

Instalación

Configuración

Uso

Procesamiento básico

Procesamiento en lote

Arquitectura

Estructura del proyecto

Flujo de procesamiento

Formato de salida

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Languages

Packages