🧠 Modelos de Inteligencia Artificial en Ollama

Ollama se ha consolidado como una solución práctica para ejecutar modelos de Inteligencia Artificial en local. En esta entrada exploramos los modelos de IA disponibles en Ollama, sus diferencias y cómo elegir el que mejor se adapta a cada necesidad.

[hide]

🔍 ¿Qué es Ollama?

Ollama permite ejecutar modelos de lenguaje desde el propio equipo del usuario. Sus principales ventajas:

🔒 Privacidad total: los datos permanecen en el dispositivo.
⚡ Baja latencia.
🛠️ Control completo sobre el uso de recursos.

⚙️ ¿Cómo instalar Ollama?

La instalación es directa en los sistemas más utilizados (Windows, macOS y Linux).

🖱️ Pasos básicos:

Accede a la web oficial y descarga el instalador para tu sistema.
Instala siguiendo el asistente.
Abre una terminal y ejecuta tu primer modelo:

ollama run gemma3:1b

Puedes reemplazar gemma3:1b por cualquier modelo disponible.

📊 ¿Qué significa que un modelo tenga “20B”, “120B”, etc.?

La “B” hace referencia a billones de parámetros (mil millones en la notación inglesa). Los parámetros son conexiones internas que el modelo usa para entender y generar texto. A mayor número:

📈 Más capacidad para comprender contexto.
✒️ Mayor coherencia y riqueza en el lenguaje.
🧱 Más exigencia de hardware y mayor latencia.

Tamaño modelo	Descripción técnica	Uso recomendado
1B – 4B	Modelos básicos, muy rápidos	Pruebas, tareas simples
8B – 12B	Intermedios y equilibrados	Redacción, resúmenes, diálogos
20B – 30B	Potentes y versátiles	Conversación fluida, análisis
60B – 120B+	Alta capacidad lingüística y lógica	Aplicaciones complejas

💻 ¿Qué son CUDA y ROCm?

Para modelos grandes, la GPU acelera drásticamente la ejecución. Las dos principales tecnologías son:

Tecnología	Desarrollador	Compatible con…	¿Qué hacen?
CUDA	NVIDIA	Tarjetas NVIDIA	Aceleración por hardware para IA
ROCm	AMD	Tarjetas AMD	Alternativa de aceleración para AMD

🧠 Con una GPU compatible y drivers instalados, Ollama las utilizará para mejorar el rendimiento.

🧬 Modelos disponibles en Ollama (Agosto 2025)

Los modelos se agrupan por familias y versiones, diferenciadas por tamaño de parámetros:

Familia	Modelo	Tamaño	Requisitos recomendados
gpt-oss	gpt-oss:20b	20B	CPU potente o GPU · ≥32 GB RAM
gpt-oss	gpt-oss:120b	120B	GPU de gama alta · ≥64 GB RAM
deepseek	deepseek-r1:8b	8B	CPU multinúcleo · ≥16 GB RAM
gemma3	gemma3:1b	1B	Portátiles básicos · ≥8 GB RAM
gemma3	gemma3:4b	4B	CPU moderna · ≥12 GB RAM
gemma3	gemma3:12b	12B	GPU media o CPU robusta · ≥24 GB RAM
gemma3	gemma3:27b	27B	GPU potente · ≥32 GB RAM
qwen3	qwen3:4b	4B	CPU moderna · ≥12 GB RAM
qwen3	qwen3:8b	8B	CPU avanzada · ≥16 GB RAM
qwen3	qwen3:30b	30B	GPU potente · ≥48 GB RAM

🖥️ La memoria RAM recomendada es clave para una experiencia fluida. Para modelos grandes, se sugiere GPU con aceleración (CUDA o ROCm).

🧠 Conociendo las familias de modelos

🧾 gpt-oss

Modelos de código abierto inspirados en GPT. Excelentes en generación de texto natural y razonamiento profundo.

Ventajas

Alta calidad en texto y coherencia
Buen rendimiento en tareas creativas y analíticas complejas

Desventajas

Requiere mucha RAM y en los modelos mayores, GPU
Tiempo de carga superior a otras familias

Versiones disponibles

Versión	Ventajas específicas	Requisitos	Tamaño aproximado
gpt-oss:20b	Buen balance rendimiento/calidad	32 GB RAM	~14 GB
gpt-oss:120b	Alto nivel de comprensión y contexto	64 GB RAM + GPU	~42 GB

Origen del modelo

Creador: OpenAI
Lanzamiento: Agosto de 2025
Licencia: Apache 2.0

🕵️‍♂️ deepseek

Optimizado para programación, análisis lógico y matemático. Ideal para entornos técnicos.

Ventajas

Precisión en código y razonamientos estructurados
Buen desempeño en tareas de desarrollo

Desventajas

Menor versatilidad en lenguaje natural o escritura libre
No hay versiones pequeñas para pruebas rápidas

Versiones disponibles

Versión	Fortalezas	Requisitos	Tamaño aproximado
deepseek-r1:8b	Buen rendimiento técnico	16 GB RAM	~5 GB

Origen del modelo

Creador: DeepSeek AI, fundada por Liang Wenfeng
Año: 2023
Enfoque: Razonamiento técnico y precisión matemática

⚡ gemma3

Modelos eficientes que funcionan bien en sistemas modestos y tareas generales.

Ventajas

Muy ligeros y rápidos
Ideales para ordenadores con poca RAM

Desventajas

Capacidad contextual limitada en versiones pequeñas
Calidad inferior en redacción avanzada o razonamientos complejos

Versiones disponibles

Versión	Características principales	Requisitos	Tamaño aproximado
gemma3:1b	Muy ligero y rápido	8 GB RAM	~1.6 GB
gemma3:4b	Equilibrio velocidad / calidad	12 GB RAM	~3.5 GB
gemma3:12b	Mejora en coherencia textual	24 GB RAM	~8.5 GB
gemma3:27b	Profundidad de análisis	32 GB RAM + GPU	~18 GB

Origen del modelo

Creador: Google DeepMind
Base tecnológica: Gemini
Diseñado para: Funcionamiento eficiente en dispositivos locales

🌐 qwen3

Versátiles para escritura, resúmenes, traducción y conversación. Buen rendimiento general.

Ventajas

Buena comprensión lingüística
Equilibrio entre calidad y velocidad en versiones medias

Desventajas

Las versiones grandes son exigentes en hardware
En escritura creativa profunda, puede ser menos potente que gpt-oss

Versiones disponibles

Versión	Características principales	Requisitos	Tamaño aproximado
qwen3:4b	Respuestas ágiles y eficientes	12 GB RAM	~3 GB
qwen3:8b	Mejor comprensión y contexto	16 GB RAM	~6 GB
qwen3:30b	Alta calidad y precisión lingüística	48 GB RAM + GPU	~21 GB

Origen del modelo

Creador: Alibaba Group – Proyecto Qwen
Licencia: Apache 2.0
Enfoque: Multilingüismo, resumen y redacción contextual

🧭 Recomendaciones por tipo de tarea

Tipo de tarea o uso	Modelo(s) recomendados	Justificación técnica
✍️ Redacción de textos informativos	qwen3:8b, gemma3:12b	Generan contenido claro, bien estructurado y con fluidez lingüística
📚 Escritura creativa (cuentos, diálogos)	gpt-oss:120b, qwen3:30b	Capacidad avanzada de contexto, estilo y coherencia narrativa
🧠 Generación de ideas / brainstorming	gpt-oss:20b, qwen3:8b	Buenos para generar múltiples enfoques sin perder naturalidad
🗣️ Chat conversacional tipo chatbot	qwen3:8b, gemma3:4b	Respuestas ágiles y naturales, buen control del tono conversacional
🧾 Resúmenes de texto	qwen3:4b, qwen3:8b	Buen manejo de compresión semántica y extracción de ideas principales
🌍 Traducción de idiomas	qwen3:30b, qwen3:8b	Dominan construcciones lingüísticas entre idiomas con precisión
🔍 Preguntas y respuestas complejas	gpt-oss:120b, deepseek-r1:8b	Procesan contexto largo y ofrecen razonamientos estructurados
🧮 Asistencia en programación	deepseek-r1:8b, gpt-oss:20b	Reconocen patrones lógicos y explican funciones de código con claridad
📊 Análisis de datos / consultas técnicas	deepseek-r1:8b, gemma3:12b	Capaces de realizar interpretaciones precisas y estructuradas
📈 Soporte en redacción SEO / marketing	qwen3:8b, gpt-oss:20b	Equilibran tono profesional con creatividad e impacto textual
📝 Escritura académica (ensayos, papers)	gpt-oss:120b, gemma3:27b	Buena estructura argumentativa, cohesión y citas implícitas
🎓 Aprendizaje autodidacta	gemma3:4b, qwen3:4b	Respuestas claras, velocidad de inferencia óptima para estudiar poco a poco
📄 Escritura de documentación técnica	deepseek-r1:8b, qwen3:8b	Precisión terminológica y claridad en instrucciones o manuales
⚙️ Automatización de flujos (uso con scripts o apps)	gemma3:1b, deepseek-r1:8b	Ligereza y buena respuesta estructurada para integraciones rápidas
🖼️ Generación de prompts para imágenes IA	gpt-oss:20b, qwen3:8b	Creatividad y estructura semántica para describir imágenes con precisión
📥 Gestión de tareas simples (listas, recordatorios)	gemma3:1b, qwen3:4b	Modelos rápidos con buen output para estructuras simples y funcionales
📣 Redacción de redes sociales	gemma3:4b, qwen3:8b	Buenos en tono, brevedad y adaptabilidad para diversos públicos
🔐 Generación de avisos legales / cláusulas	gpt-oss:120b, qwen3:30b	Precisión terminológica y respeto por estructuras legales
🤖 Creación de asistentes virtuales	qwen3:8b, gemma3:4b	Tiempo de respuesta rápido y adaptabilidad a múltiples dominios

⌨️ Comandos básicos de Ollama

Listar modelos disponibles localmente:

ollama list

Descargar un modelo:

ollama pull qwen3:8b

Ejecutar un modelo:

ollama run qwen3:8b

Detener una ejecución (en otra terminal):

ollama stop

🚀 Consejos de rendimiento y optimización

Cuantización (Q2/Q4/Q5): reduce consumo de memoria y acelera la inferencia, con ligera pérdida de calidad. Ideal para equipos sin GPU potente.
Ventana de contexto (context window): define cuántos tokens puede “recordar” el modelo. Valores más altos consumen más RAM; ajusta según la tarea.
Aceleración por GPU: si tu GPU lo permite, activa/usa CUDA o ROCm para multiplicar la velocidad en modelos medianos y grandes.
Parámetros de generación: ajusta temperatura y top_p para controlar creatividad vs. precisión.
Carga parcial en CPU/GPU: en modelos grandes, combinar CPU y GPU puede ser más estable que forzar todo en GPU con poca VRAM.

❓ FAQ breve

¿Puedo usar estos modelos sin GPU?

Sí, aunque los grandes funcionarán más lentos; se recomienda usar modelos de 1B a 8B.

¿Por qué un modelo grande no carga?

Normalmente por falta de RAM o VRAM; prueba una versión más ligera o cuantizada.

¿Se necesita Internet?

Solo para descargar modelos; después funcionan totalmente en local.

¿Se pueden usar en portátiles antiguos?

Sí, con modelos livianos como gemma3:1b o qwen3:4b, si tienes al menos 8 GB de RAM.

¿Gastan mucha batería?

Los modelos grandes sí, especialmente si usas CPU intensiva sin GPU.

¿Son gratuitos?

Todos los modelos que ofrece Ollama actualmente son de código abierto y gratuitos.

¿Hay riesgo de que los datos salgan del ordenador?

No, Ollama ejecuta los modelos totalmente en local sin enviar contenido fuera.

¿Puedo usarlos sin saber de IA?

Sí, basta con elegir el modelo adecuado y escribir instrucciones claras.

¿Puedo usar varios modelos en paralelo?

Sí, siempre que tengas suficiente RAM y núcleos de CPU libres. Pero en equipos modestos se recomienda usar uno a la vez.

¿Qué modelo es mejor para tareas creativas como escribir cuentos o diálogos?

Modelos como qwen3:30b o gpt-oss:120b ofrecen mayor coherencia narrativa y riqueza expresiva.

🔍 ¿Qué es Ollama?

⚙️ ¿Cómo instalar Ollama?

🖱️ Pasos básicos:

📊 ¿Qué significa que un modelo tenga “20B”, “120B”, etc.?

💻 ¿Qué son CUDA y ROCm?

🧬 Modelos disponibles en Ollama (Agosto 2025)

🧠 Conociendo las familias de modelos

🧾 gpt-oss

Ventajas

Desventajas

Versiones disponibles

Origen del modelo

🕵️‍♂️ deepseek

Ventajas

Desventajas

Versiones disponibles

Origen del modelo

⚡ gemma3

Ventajas

Desventajas

Versiones disponibles

🌐 qwen3

🧭 Recomendaciones por tipo de tarea

⌨️ Comandos básicos de Ollama

Listar modelos disponibles localmente:

Descargar un modelo:

Ejecutar un modelo:

Detener una ejecución (en otra terminal):

🚀 Consejos de rendimiento y optimización

❓ FAQ breve

¿Puedo usar estos modelos sin GPU?

¿Por qué un modelo grande no carga?

¿Se necesita Internet?

¿Se pueden usar en portátiles antiguos?

¿Gastan mucha batería?

¿Son gratuitos?

¿Hay riesgo de que los datos salgan del ordenador?

¿Puedo usarlos sin saber de IA?

¿Puedo usar varios modelos en paralelo?

¿Qué modelo es mejor para tareas creativas como escribir cuentos o diálogos?

Deja un comentario Cancelar respuesta