OLLAMA TRABAJA CON IA LOCAL

MIE, 10 / JUN / 2026

Este Informe USERS recorre el uso de Ollama, una herramienta de código abierto que permite ejecutar modelos de lenguaje directamente en la propia computadora. La idea central es procesar documentos privados sin enviarlos a servidores externos, manteniendo el control total sobre la información.

Auto: Víctor Ojeda

Instalar y elegir el modelo adecuado

La instalación de Ollama es directa en Windows, macOS y Linux. En este último, un script de una sola línea configura el servicio y detecta automáticamente los drivers de la placa de video. Una vez instalado, toda la interacción ocurre desde la terminal con comandos simples.

Antes de elegir un modelo conviene revisar la RAM disponible y si el equipo cuenta con una GPU con memoria dedicada. Con 8 GB de RAM ya es posible correr modelos chicos para tareas cotidianas.

La velocidad se mide en tokens por segundo (donde un token equivale aproximadamente a una palabra), a partir de diez, la experiencia resulta fluida. Modelos como Mistral 7B y Llama 3.1 8B ofrecen un buen balance entre calidad y consumo de recursos para la mayoría de los usos.

Un modelo local permite procesar consultas y documentos dentro de la propia computadora. No reemplaza a servicios propietarios como ChatGPT o Claude, pero puede resolver tareas similares en ciertos escenarios, con diferencias de tamaño, velocidad y calidad según el modelo y el hardware disponible.

Personalizar el asistente y usarlo sin terminal

El Modelfile es un archivo de configuración donde se fija el modelo base, el prompt de sistema y los parámetros de generación. Permite crear asistentes con comportamiento estable sin repetir instrucciones en cada conversación.

El Informe USERS desarrolla un caso completo: un asistente para revisar documentos legales, configurado con temperatura baja para priorizar la consistencia y reducir el riesgo de que el modelo incorpore información no presente en el texto.

Para quienes prefieren evitar la terminal, Open WebUI ofrece una interfaz de chat en el navegador que se conecta a Ollama mediante su API local. Instalada vía Docker, admite carga de archivos, historial de conversaciones y gestión de usuarios. Una computadora con buen hardware puede así funcionar como servidor privado de IA para toda una red de oficina.

Comparativa clara de modelos de IA según su uso: síntesis, razonamiento, código, conversación y eficiencia.

Automatizar con Python y construir un sistema RAG

Cuando Ollama corre como servicio, expone una API REST (interfaz que permite comunicación entre aplicaciones mediante HTTP) en el puerto 11434 de la máquina local. Desde Python es posible enviar textos al modelo, recibir respuestas y encadenarlos en flujos de trabajo más amplios.

El Informe USERS incluye scripts funcionales: uno genera resúmenes estructurados desde la línea de comandos; otro lee contratos en PDF, los divide en fragmentos y produce un informe con las cláusulas que requieren atención.

El tramo final presenta un sistema RAG (Retrieval-Augmented Generation, o generación aumentada por recuperación). En lugar de reentrenar el modelo, RAG indexa documentos propios mediante embeddings (representaciones numéricas del significado de un texto) y recupera los fragmentos pertinentes antes de cada respuesta. La búsqueda funciona por significado y no por coincidencia literal de palabras. El prompt obliga además al modelo a reconocer cuando el contexto no contiene la respuesta, en lugar de completar los vacíos con información inventada.

Salida generada por el lector de contratos. El resultado organiza las observaciones por sección y separa cláusulas riesgosas, puntos de atención y condiciones habituales.

Encuentra la versión completa de la publicación en la que se basa este resumen, con todos los detalles técnicos en RedUSERS PREMIUM

DESARROLLA CON CLAUDE CODE

El Informe USERS sigue de principio a fin el desarrollo de una aplicación web en PHP construida con Claude Code, la pestaña de programación dentro de la aplicación de escritorio de Anthropic. El recorrido muestra cómo la herramienta opera sobre archivos reales, qué decisiones toma por su cuenta y dónde la intervención humana sigue siendo indispensable.