Artículo

Se corresponde con el capítulo 1 del curso de Hugging Face
🔗 ✨ Ver cuaderno en 🟠 Google Colab
La generación de texto es una de las tareas más fascinantes del procesamiento del lenguaje natural. Consiste en darle al modelo una indicación ó prompt, y dejar que complete automáticamente el resto del texto.
Funciona de forma similar al texto predictivo de tu móvil, pero usando modelos de lenguaje avanzados. Ten en cuenta que la generación incluye aleatoriedad, por lo que los resultados pueden variar en cada ejecución.
from transformers import pipeline
generator = pipeline("text-generation")
generator("In this course, we will teach you how to")
📈 El modelo por defecto (gpt2) genera texto en inglés, ya que fue entrenado con ese idioma.
Como resultado, obtenemos el siguiente diccionario:
[{'generated_text': 'In this course, we will teach you how to create a perfect custom app using JavaScript. With jQuery, jQuery allows you to create a plugin that is very similar to the official jQuery plugin. In this lesson you will learn to create a jQuery mobile website'}]
Para obtener buenos resultados en español, debes usar un modelo adaptado al idioma:
from transformers import pipeline
generator = pipeline(
"text-generation",
model="datificate/gpt2-small-spanish"
)
generator("En este curso aprenderás a programar redes neuronales.",
max_new_tokens=50)
⚠️ Si trabajas en CPU, usa modelos “small” o “base”, ya que los más grandes (Falcon, Mistral, BLOOM, LLaMA) requieren más memoria y capacidad de cómputo como GPUs.
Como resultado, obtenemos el siguiente diccionario:
[{'generated_text': 'En este curso aprenderás a programar redes neuronales. Los cursos son conducidos por un artista en la misma formación ya que estos se han ofrecido en las instalaciones de diversas instituciones.\n\nEl curso posee 12 objetivos. Los tres primeros son:\nLa fase más larga de cada curso es:\n\n\n'}]
Los resultados que verás con estos ejemplos son muy básicos, y eso es totalmente normal. Estamos usando modelos pequeños (como gpt2-small-spanish) y ejecutándolos en CPU, sin aceleración por GPU.
Estos modelos no tienen la capacidad ni el tamaño de un
GPT-4oGPT-5, por lo que sus textos pueden parecer incoherentes o incluso absurdos en ocasiones.
💡 Pero justo ahí está el valor de estos ejercicios: entender la mecánica interna, no obtener textos perfectos. Lo importante ahora es aprender cómo se genera el texto, no juzgar su calidad literaria.
⚙️ Si más adelante trabajas con modelos más grandes (como Falcon, Mistral o LLaMA), verás resultados mucho más naturales… pero también requerirán más memoria y potencia de cálculo.
💰 Y como consecuencia: más tiempo de cómputo, mayor consumo energético ⚡ y, en entornos reales, un coste económico más alto.
🌍 Ojo también a la huella de carbono que estos procesos generan: cada token cuesta energía, y los modelos grandes multiplican ese impacto.
GPT-2 y sus variantes.
GPT-Neo / GPT-J.
Falcon, Mistral, BLOOM, LLaMA (algunos necesitan GPU).
Ejemplos de modelos en español:
datificate/gpt2-small-spanish
DeepESP/gpt2-spanish
PlanTL-GOB-ES/gpt2-base-bne (entrenado con corpus de España)
cmarkea/gpt2-base-spanish
Una pipeline de generación de texto te permite pasar de un prompt a una idea completa, sin entrenamiento previo ni configuración avanzada.
🧠 Ideal para tareas de redacción automática, completado de frases o creación de ejemplos sintéticos.
Cambia el prompt y observa la variabilidad de las respuestas. Luego prueba con otro modelo (por ejemplo, PlanTL-GOB-ES/gpt2-base-bne) y analiza cómo el contexto lingüístico afecta la generación.
💡 Consejo: cuanto más específico el prompt, más coherente será la salida. Y si tu equipo se queda pequeño, puedes experimentar usando GPUs con créditos gratuitos o de pago, con `google colab, kaggle, etc...