Ollama se ha consolidado como una solución práctica para ejecutar modelos de Inteligencia Artificial en local. En esta entrada exploramos los modelos de IA disponibles en Ollama, sus diferencias y cómo elegir el que mejor se adapta a cada necesidad.
- 🔍 ¿Qué es Ollama?
- ⚙️ ¿Cómo instalar Ollama?
- 📊 ¿Qué significa que un modelo tenga “20B”, “120B”, etc.?
- 💻 ¿Qué son CUDA y ROCm?
- 🧬 Modelos disponibles en Ollama (Agosto 2025)
- 🧠 Conociendo las familias de modelos
- 🧭 Recomendaciones por tipo de tarea
- ⌨️ Comandos básicos de Ollama
- 🚀 Consejos de rendimiento y optimización
- ❓ FAQ breve
🔍 ¿Qué es Ollama?
Ollama permite ejecutar modelos de lenguaje desde el propio equipo del usuario. Sus principales ventajas:
- 🔒 Privacidad total: los datos permanecen en el dispositivo.
- ⚡ Baja latencia.
- 🛠️ Control completo sobre el uso de recursos.
⚙️ ¿Cómo instalar Ollama?
La instalación es directa en los sistemas más utilizados (Windows, macOS y Linux).
🖱️ Pasos básicos:
- Accede a la web oficial y descarga el instalador para tu sistema.
- Instala siguiendo el asistente.
- Abre una terminal y ejecuta tu primer modelo:
ollama run gemma3:1b
Puedes reemplazar gemma3:1b
por cualquier modelo disponible.
📊 ¿Qué significa que un modelo tenga “20B”, “120B”, etc.?
La “B” hace referencia a billones de parámetros (mil millones en la notación inglesa). Los parámetros son conexiones internas que el modelo usa para entender y generar texto. A mayor número:
- 📈 Más capacidad para comprender contexto.
- ✒️ Mayor coherencia y riqueza en el lenguaje.
- 🧱 Más exigencia de hardware y mayor latencia.
Tamaño modelo | Descripción técnica | Uso recomendado |
---|---|---|
1B – 4B | Modelos básicos, muy rápidos | Pruebas, tareas simples |
8B – 12B | Intermedios y equilibrados | Redacción, resúmenes, diálogos |
20B – 30B | Potentes y versátiles | Conversación fluida, análisis |
60B – 120B+ | Alta capacidad lingüística y lógica | Aplicaciones complejas |
💻 ¿Qué son CUDA y ROCm?
Para modelos grandes, la GPU acelera drásticamente la ejecución. Las dos principales tecnologías son:
Tecnología | Desarrollador | Compatible con… | ¿Qué hacen? |
---|---|---|---|
CUDA | NVIDIA | Tarjetas NVIDIA | Aceleración por hardware para IA |
ROCm | AMD | Tarjetas AMD | Alternativa de aceleración para AMD |
🧠 Con una GPU compatible y drivers instalados, Ollama las utilizará para mejorar el rendimiento.
🧬 Modelos disponibles en Ollama (Agosto 2025)
Los modelos se agrupan por familias y versiones, diferenciadas por tamaño de parámetros:
Familia | Modelo | Tamaño | Requisitos recomendados |
---|---|---|---|
gpt-oss | gpt-oss:20b | 20B | CPU potente o GPU · ≥32 GB RAM |
gpt-oss | gpt-oss:120b | 120B | GPU de gama alta · ≥64 GB RAM |
deepseek | deepseek-r1:8b | 8B | CPU multinúcleo · ≥16 GB RAM |
gemma3 | gemma3:1b | 1B | Portátiles básicos · ≥8 GB RAM |
gemma3 | gemma3:4b | 4B | CPU moderna · ≥12 GB RAM |
gemma3 | gemma3:12b | 12B | GPU media o CPU robusta · ≥24 GB RAM |
gemma3 | gemma3:27b | 27B | GPU potente · ≥32 GB RAM |
qwen3 | qwen3:4b | 4B | CPU moderna · ≥12 GB RAM |
qwen3 | qwen3:8b | 8B | CPU avanzada · ≥16 GB RAM |
qwen3 | qwen3:30b | 30B | GPU potente · ≥48 GB RAM |
🖥️ La memoria RAM recomendada es clave para una experiencia fluida. Para modelos grandes, se sugiere GPU con aceleración (CUDA o ROCm).
🧠 Conociendo las familias de modelos
🧾 gpt-oss
Modelos de código abierto inspirados en GPT. Excelentes en generación de texto natural y razonamiento profundo.
Ventajas
- Alta calidad en texto y coherencia
- Buen rendimiento en tareas creativas y analíticas complejas
Desventajas
- Requiere mucha RAM y en los modelos mayores, GPU
- Tiempo de carga superior a otras familias
Versiones disponibles
Versión | Ventajas específicas | Requisitos | Tamaño aproximado |
---|---|---|---|
gpt-oss:20b | Buen balance rendimiento/calidad | 32 GB RAM | ~14 GB |
gpt-oss:120b | Alto nivel de comprensión y contexto | 64 GB RAM + GPU | ~42 GB |
Origen del modelo
- Creador: OpenAI
- Lanzamiento: Agosto de 2025
- Licencia: Apache 2.0
🕵️♂️ deepseek
Optimizado para programación, análisis lógico y matemático. Ideal para entornos técnicos.
Ventajas
- Precisión en código y razonamientos estructurados
- Buen desempeño en tareas de desarrollo
Desventajas
- Menor versatilidad en lenguaje natural o escritura libre
- No hay versiones pequeñas para pruebas rápidas
Versiones disponibles
Versión | Fortalezas | Requisitos | Tamaño aproximado |
---|---|---|---|
deepseek-r1:8b | Buen rendimiento técnico | 16 GB RAM | ~5 GB |
Origen del modelo
- Creador: DeepSeek AI, fundada por Liang Wenfeng
- Año: 2023
- Enfoque: Razonamiento técnico y precisión matemática
⚡ gemma3
Modelos eficientes que funcionan bien en sistemas modestos y tareas generales.
Ventajas
- Muy ligeros y rápidos
- Ideales para ordenadores con poca RAM
Desventajas
- Capacidad contextual limitada en versiones pequeñas
- Calidad inferior en redacción avanzada o razonamientos complejos
Versiones disponibles
Versión | Características principales | Requisitos | Tamaño aproximado |
---|---|---|---|
gemma3:1b | Muy ligero y rápido | 8 GB RAM | ~1.6 GB |
gemma3:4b | Equilibrio velocidad / calidad | 12 GB RAM | ~3.5 GB |
gemma3:12b | Mejora en coherencia textual | 24 GB RAM | ~8.5 GB |
gemma3:27b | Profundidad de análisis | 32 GB RAM + GPU | ~18 GB |
Origen del modelo
- Creador: Google DeepMind
- Base tecnológica: Gemini
- Diseñado para: Funcionamiento eficiente en dispositivos locales
🌐 qwen3
Versátiles para escritura, resúmenes, traducción y conversación. Buen rendimiento general.
Ventajas
- Buena comprensión lingüística
- Equilibrio entre calidad y velocidad en versiones medias
Desventajas
- Las versiones grandes son exigentes en hardware
- En escritura creativa profunda, puede ser menos potente que gpt-oss
Versiones disponibles
Versión | Características principales | Requisitos | Tamaño aproximado |
---|---|---|---|
qwen3:4b | Respuestas ágiles y eficientes | 12 GB RAM | ~3 GB |
qwen3:8b | Mejor comprensión y contexto | 16 GB RAM | ~6 GB |
qwen3:30b | Alta calidad y precisión lingüística | 48 GB RAM + GPU | ~21 GB |
Origen del modelo
- Creador: Alibaba Group – Proyecto Qwen
- Licencia: Apache 2.0
- Enfoque: Multilingüismo, resumen y redacción contextual
🧭 Recomendaciones por tipo de tarea
Tipo de tarea o uso | Modelo(s) recomendados | Justificación técnica |
---|---|---|
✍️ Redacción de textos informativos | qwen3:8b, gemma3:12b | Generan contenido claro, bien estructurado y con fluidez lingüística |
📚 Escritura creativa (cuentos, diálogos) | gpt-oss:120b, qwen3:30b | Capacidad avanzada de contexto, estilo y coherencia narrativa |
🧠 Generación de ideas / brainstorming | gpt-oss:20b, qwen3:8b | Buenos para generar múltiples enfoques sin perder naturalidad |
🗣️ Chat conversacional tipo chatbot | qwen3:8b, gemma3:4b | Respuestas ágiles y naturales, buen control del tono conversacional |
🧾 Resúmenes de texto | qwen3:4b, qwen3:8b | Buen manejo de compresión semántica y extracción de ideas principales |
🌍 Traducción de idiomas | qwen3:30b, qwen3:8b | Dominan construcciones lingüísticas entre idiomas con precisión |
🔍 Preguntas y respuestas complejas | gpt-oss:120b, deepseek-r1:8b | Procesan contexto largo y ofrecen razonamientos estructurados |
🧮 Asistencia en programación | deepseek-r1:8b, gpt-oss:20b | Reconocen patrones lógicos y explican funciones de código con claridad |
📊 Análisis de datos / consultas técnicas | deepseek-r1:8b, gemma3:12b | Capaces de realizar interpretaciones precisas y estructuradas |
📈 Soporte en redacción SEO / marketing | qwen3:8b, gpt-oss:20b | Equilibran tono profesional con creatividad e impacto textual |
📝 Escritura académica (ensayos, papers) | gpt-oss:120b, gemma3:27b | Buena estructura argumentativa, cohesión y citas implícitas |
🎓 Aprendizaje autodidacta | gemma3:4b, qwen3:4b | Respuestas claras, velocidad de inferencia óptima para estudiar poco a poco |
📄 Escritura de documentación técnica | deepseek-r1:8b, qwen3:8b | Precisión terminológica y claridad en instrucciones o manuales |
⚙️ Automatización de flujos (uso con scripts o apps) | gemma3:1b, deepseek-r1:8b | Ligereza y buena respuesta estructurada para integraciones rápidas |
🖼️ Generación de prompts para imágenes IA | gpt-oss:20b, qwen3:8b | Creatividad y estructura semántica para describir imágenes con precisión |
📥 Gestión de tareas simples (listas, recordatorios) | gemma3:1b, qwen3:4b | Modelos rápidos con buen output para estructuras simples y funcionales |
📣 Redacción de redes sociales | gemma3:4b, qwen3:8b | Buenos en tono, brevedad y adaptabilidad para diversos públicos |
🔐 Generación de avisos legales / cláusulas | gpt-oss:120b, qwen3:30b | Precisión terminológica y respeto por estructuras legales |
🤖 Creación de asistentes virtuales | qwen3:8b, gemma3:4b | Tiempo de respuesta rápido y adaptabilidad a múltiples dominios |
⌨️ Comandos básicos de Ollama
Listar modelos disponibles localmente:
ollama list
Descargar un modelo:
ollama pull qwen3:8b
Ejecutar un modelo:
ollama run qwen3:8b
Detener una ejecución (en otra terminal):
ollama stop
🚀 Consejos de rendimiento y optimización
- Cuantización (Q2/Q4/Q5): reduce consumo de memoria y acelera la inferencia, con ligera pérdida de calidad. Ideal para equipos sin GPU potente.
- Ventana de contexto (context window): define cuántos tokens puede “recordar” el modelo. Valores más altos consumen más RAM; ajusta según la tarea.
- Aceleración por GPU: si tu GPU lo permite, activa/usa CUDA o ROCm para multiplicar la velocidad en modelos medianos y grandes.
- Parámetros de generación: ajusta temperatura y top_p para controlar creatividad vs. precisión.
- Carga parcial en CPU/GPU: en modelos grandes, combinar CPU y GPU puede ser más estable que forzar todo en GPU con poca VRAM.
❓ FAQ breve
¿Puedo usar estos modelos sin GPU?
Sí, aunque los grandes funcionarán más lentos; se recomienda usar modelos de 1B a 8B.
¿Por qué un modelo grande no carga?
Normalmente por falta de RAM o VRAM; prueba una versión más ligera o cuantizada.
¿Se necesita Internet?
Solo para descargar modelos; después funcionan totalmente en local.
¿Se pueden usar en portátiles antiguos?
Sí, con modelos livianos como gemma3:1b o qwen3:4b, si tienes al menos 8 GB de RAM.
¿Gastan mucha batería?
Los modelos grandes sí, especialmente si usas CPU intensiva sin GPU.
¿Son gratuitos?
Todos los modelos que ofrece Ollama actualmente son de código abierto y gratuitos.
¿Hay riesgo de que los datos salgan del ordenador?
No, Ollama ejecuta los modelos totalmente en local sin enviar contenido fuera.
¿Puedo usarlos sin saber de IA?
Sí, basta con elegir el modelo adecuado y escribir instrucciones claras.
¿Puedo usar varios modelos en paralelo?
Sí, siempre que tengas suficiente RAM y núcleos de CPU libres. Pero en equipos modestos se recomienda usar uno a la vez.
¿Qué modelo es mejor para tareas creativas como escribir cuentos o diálogos?
Modelos como qwen3:30b o gpt-oss:120b ofrecen mayor coherencia narrativa y riqueza expresiva.