🧠 Modelos de Inteligencia Artificial en Ollama

Ollama se ha consolidado como una solución práctica para ejecutar modelos de Inteligencia Artificial en local. En esta entrada exploramos los modelos de IA disponibles en Ollama, sus diferencias y cómo elegir el que mejor se adapta a cada necesidad.

🔍 ¿Qué es Ollama?

Ollama permite ejecutar modelos de lenguaje desde el propio equipo del usuario. Sus principales ventajas:

  • 🔒 Privacidad total: los datos permanecen en el dispositivo.
  • Baja latencia.
  • 🛠️ Control completo sobre el uso de recursos.

⚙️ ¿Cómo instalar Ollama?

La instalación es directa en los sistemas más utilizados (Windows, macOS y Linux).

🖱️ Pasos básicos:

  1. Accede a la web oficial y descarga el instalador para tu sistema.
  2. Instala siguiendo el asistente.
  3. Abre una terminal y ejecuta tu primer modelo:
ollama run gemma3:1b

Puedes reemplazar gemma3:1b por cualquier modelo disponible.

📊 ¿Qué significa que un modelo tenga “20B”, “120B”, etc.?

La “B” hace referencia a billones de parámetros (mil millones en la notación inglesa). Los parámetros son conexiones internas que el modelo usa para entender y generar texto. A mayor número:

  • 📈 Más capacidad para comprender contexto.
  • ✒️ Mayor coherencia y riqueza en el lenguaje.
  • 🧱 Más exigencia de hardware y mayor latencia.
Tamaño modeloDescripción técnicaUso recomendado
1B – 4BModelos básicos, muy rápidosPruebas, tareas simples
8B – 12BIntermedios y equilibradosRedacción, resúmenes, diálogos
20B – 30BPotentes y versátilesConversación fluida, análisis
60B – 120B+Alta capacidad lingüística y lógicaAplicaciones complejas

💻 ¿Qué son CUDA y ROCm?

Para modelos grandes, la GPU acelera drásticamente la ejecución. Las dos principales tecnologías son:

TecnologíaDesarrolladorCompatible con…¿Qué hacen?
CUDANVIDIATarjetas NVIDIAAceleración por hardware para IA
ROCmAMDTarjetas AMDAlternativa de aceleración para AMD

🧠 Con una GPU compatible y drivers instalados, Ollama las utilizará para mejorar el rendimiento.

🧬 Modelos disponibles en Ollama (Agosto 2025)

Los modelos se agrupan por familias y versiones, diferenciadas por tamaño de parámetros:

FamiliaModeloTamañoRequisitos recomendados
gpt-ossgpt-oss:20b20BCPU potente o GPU · ≥32 GB RAM
gpt-ossgpt-oss:120b120BGPU de gama alta · ≥64 GB RAM
deepseekdeepseek-r1:8b8BCPU multinúcleo · ≥16 GB RAM
gemma3gemma3:1b1BPortátiles básicos · ≥8 GB RAM
gemma3gemma3:4b4BCPU moderna · ≥12 GB RAM
gemma3gemma3:12b12BGPU media o CPU robusta · ≥24 GB RAM
gemma3gemma3:27b27BGPU potente · ≥32 GB RAM
qwen3qwen3:4b4BCPU moderna · ≥12 GB RAM
qwen3qwen3:8b8BCPU avanzada · ≥16 GB RAM
qwen3qwen3:30b30BGPU potente · ≥48 GB RAM

🖥️ La memoria RAM recomendada es clave para una experiencia fluida. Para modelos grandes, se sugiere GPU con aceleración (CUDA o ROCm).

🧠 Conociendo las familias de modelos

🧾 gpt-oss

Modelos de código abierto inspirados en GPT. Excelentes en generación de texto natural y razonamiento profundo.

Ventajas

  • Alta calidad en texto y coherencia
  • Buen rendimiento en tareas creativas y analíticas complejas

Desventajas

  • Requiere mucha RAM y en los modelos mayores, GPU
  • Tiempo de carga superior a otras familias

Versiones disponibles

VersiónVentajas específicasRequisitosTamaño aproximado
gpt-oss:20bBuen balance rendimiento/calidad32 GB RAM~14 GB
gpt-oss:120bAlto nivel de comprensión y contexto64 GB RAM + GPU~42 GB

Origen del modelo

🕵️‍♂️ deepseek

Optimizado para programación, análisis lógico y matemático. Ideal para entornos técnicos.

Ventajas

  • Precisión en código y razonamientos estructurados
  • Buen desempeño en tareas de desarrollo

Desventajas

  • Menor versatilidad en lenguaje natural o escritura libre
  • No hay versiones pequeñas para pruebas rápidas

Versiones disponibles

VersiónFortalezasRequisitosTamaño aproximado
deepseek-r1:8bBuen rendimiento técnico16 GB RAM~5 GB

Origen del modelo

⚡ gemma3

Modelos eficientes que funcionan bien en sistemas modestos y tareas generales.

Ventajas

  • Muy ligeros y rápidos
  • Ideales para ordenadores con poca RAM

Desventajas

  • Capacidad contextual limitada en versiones pequeñas
  • Calidad inferior en redacción avanzada o razonamientos complejos

Versiones disponibles

VersiónCaracterísticas principalesRequisitosTamaño aproximado
gemma3:1bMuy ligero y rápido8 GB RAM~1.6 GB
gemma3:4bEquilibrio velocidad / calidad12 GB RAM~3.5 GB
gemma3:12bMejora en coherencia textual24 GB RAM~8.5 GB
gemma3:27bProfundidad de análisis32 GB RAM + GPU~18 GB

Origen del modelo

  • Creador: Google DeepMind
  • Base tecnológica: Gemini
  • Diseñado para: Funcionamiento eficiente en dispositivos locales

🌐 qwen3

Versátiles para escritura, resúmenes, traducción y conversación. Buen rendimiento general.

Ventajas

  • Buena comprensión lingüística
  • Equilibrio entre calidad y velocidad en versiones medias

Desventajas

  • Las versiones grandes son exigentes en hardware
  • En escritura creativa profunda, puede ser menos potente que gpt-oss

Versiones disponibles

VersiónCaracterísticas principalesRequisitosTamaño aproximado
qwen3:4bRespuestas ágiles y eficientes12 GB RAM~3 GB
qwen3:8bMejor comprensión y contexto16 GB RAM~6 GB
qwen3:30bAlta calidad y precisión lingüística48 GB RAM + GPU~21 GB

Origen del modelo

🧭 Recomendaciones por tipo de tarea

Tipo de tarea o usoModelo(s) recomendadosJustificación técnica
✍️ Redacción de textos informativosqwen3:8b, gemma3:12bGeneran contenido claro, bien estructurado y con fluidez lingüística
📚 Escritura creativa (cuentos, diálogos)gpt-oss:120b, qwen3:30bCapacidad avanzada de contexto, estilo y coherencia narrativa
🧠 Generación de ideas / brainstorminggpt-oss:20b, qwen3:8bBuenos para generar múltiples enfoques sin perder naturalidad
🗣️ Chat conversacional tipo chatbotqwen3:8b, gemma3:4bRespuestas ágiles y naturales, buen control del tono conversacional
🧾 Resúmenes de textoqwen3:4b, qwen3:8bBuen manejo de compresión semántica y extracción de ideas principales
🌍 Traducción de idiomasqwen3:30b, qwen3:8bDominan construcciones lingüísticas entre idiomas con precisión
🔍 Preguntas y respuestas complejasgpt-oss:120b, deepseek-r1:8bProcesan contexto largo y ofrecen razonamientos estructurados
🧮 Asistencia en programacióndeepseek-r1:8b, gpt-oss:20bReconocen patrones lógicos y explican funciones de código con claridad
📊 Análisis de datos / consultas técnicasdeepseek-r1:8b, gemma3:12bCapaces de realizar interpretaciones precisas y estructuradas
📈 Soporte en redacción SEO / marketingqwen3:8b, gpt-oss:20bEquilibran tono profesional con creatividad e impacto textual
📝 Escritura académica (ensayos, papers)gpt-oss:120b, gemma3:27bBuena estructura argumentativa, cohesión y citas implícitas
🎓 Aprendizaje autodidactagemma3:4b, qwen3:4bRespuestas claras, velocidad de inferencia óptima para estudiar poco a poco
📄 Escritura de documentación técnicadeepseek-r1:8b, qwen3:8bPrecisión terminológica y claridad en instrucciones o manuales
⚙️ Automatización de flujos (uso con scripts o apps)gemma3:1b, deepseek-r1:8bLigereza y buena respuesta estructurada para integraciones rápidas
🖼️ Generación de prompts para imágenes IAgpt-oss:20b, qwen3:8bCreatividad y estructura semántica para describir imágenes con precisión
📥 Gestión de tareas simples (listas, recordatorios)gemma3:1b, qwen3:4bModelos rápidos con buen output para estructuras simples y funcionales
📣 Redacción de redes socialesgemma3:4b, qwen3:8bBuenos en tono, brevedad y adaptabilidad para diversos públicos
🔐 Generación de avisos legales / cláusulasgpt-oss:120b, qwen3:30bPrecisión terminológica y respeto por estructuras legales
🤖 Creación de asistentes virtualesqwen3:8b, gemma3:4bTiempo de respuesta rápido y adaptabilidad a múltiples dominios

⌨️ Comandos básicos de Ollama

Listar modelos disponibles localmente:

ollama list

Descargar un modelo:

ollama pull qwen3:8b

Ejecutar un modelo:

ollama run qwen3:8b

Detener una ejecución (en otra terminal):

ollama stop

🚀 Consejos de rendimiento y optimización

  • Cuantización (Q2/Q4/Q5): reduce consumo de memoria y acelera la inferencia, con ligera pérdida de calidad. Ideal para equipos sin GPU potente.
  • Ventana de contexto (context window): define cuántos tokens puede “recordar” el modelo. Valores más altos consumen más RAM; ajusta según la tarea.
  • Aceleración por GPU: si tu GPU lo permite, activa/usa CUDA o ROCm para multiplicar la velocidad en modelos medianos y grandes.
  • Parámetros de generación: ajusta temperatura y top_p para controlar creatividad vs. precisión.
  • Carga parcial en CPU/GPU: en modelos grandes, combinar CPU y GPU puede ser más estable que forzar todo en GPU con poca VRAM.

❓ FAQ breve

¿Puedo usar estos modelos sin GPU?

¿Por qué un modelo grande no carga?

¿Se necesita Internet?

¿Se pueden usar en portátiles antiguos?

¿Gastan mucha batería?

¿Son gratuitos?

¿Hay riesgo de que los datos salgan del ordenador?

¿Puedo usarlos sin saber de IA?

¿Puedo usar varios modelos en paralelo?

¿Qué modelo es mejor para tareas creativas como escribir cuentos o diálogos?

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio