🧠 Píldoras LLM #06 — Generación de texto

Pilodoras LLM 06

Se corresponde con el capítulo 1 del curso de Hugging Face

✍️ ¿Qué es la generación de texto?

La generación de texto es una de las tareas más fascinantes del procesamiento del lenguaje natural. Consiste en darle al modelo una indicación ó prompt, y dejar que complete automáticamente el resto del texto.

Funciona de forma similar al texto predictivo de tu móvil, pero usando modelos de lenguaje avanzados. Ten en cuenta que la generación incluye aleatoriedad, por lo que los resultados pueden variar en cada ejecución.

⚙️ Ejemplo práctico

from transformers import pipeline

generator = pipeline("text-generation")
generator("In this course, we will teach you how to")

📈 El modelo por defecto (gpt2) genera texto en inglés, ya que fue entrenado con ese idioma.

Como resultado, obtenemos el siguiente diccionario:

[{'generated_text': 'In this course, we will teach you how to create a perfect custom app using JavaScript. With jQuery, jQuery allows you to create a plugin that is very similar to the official jQuery plugin. In this lesson you will learn to create a jQuery mobile website'}]

🇪🇸 Generando texto en español

Para obtener buenos resultados en español, debes usar un modelo adaptado al idioma:

from transformers import pipeline

generator = pipeline(
    "text-generation",
    model="datificate/gpt2-small-spanish"
)

generator("En este curso aprenderás a programar redes neuronales.", 
          max_new_tokens=50)

⚠️ Si trabajas en CPU, usa modelos “small” o “base”, ya que los más grandes (Falcon, Mistral, BLOOM, LLaMA) requieren más memoria y capacidad de cómputo como GPUs.

Como resultado, obtenemos el siguiente diccionario:

[{'generated_text': 'En este curso aprenderás a programar redes neuronales. Los cursos son conducidos por un artista en la misma formación ya que estos se han ofrecido en las instalaciones de diversas instituciones.\n\nEl curso posee 12 objetivos. Los tres primeros son:\nLa fase más larga de cada curso es:\n\n\n'}]

⚠️ Tenlo en cuenta

Los resultados que verás con estos ejemplos son muy básicos, y eso es totalmente normal. Estamos usando modelos pequeños (como gpt2-small-spanish) y ejecutándolos en CPU, sin aceleración por GPU.

Estos modelos no tienen la capacidad ni el tamaño de un GPT-4 o GPT-5, por lo que sus textos pueden parecer incoherentes o incluso absurdos en ocasiones.

💡 Pero justo ahí está el valor de estos ejercicios: entender la mecánica interna, no obtener textos perfectos. Lo importante ahora es aprender cómo se genera el texto, no juzgar su calidad literaria.

⚙️ Si más adelante trabajas con modelos más grandes (como Falcon, Mistral o LLaMA), verás resultados mucho más naturales… pero también requerirán más memoria y potencia de cálculo.

💰 Y como consecuencia: más tiempo de cómputo, mayor consumo energético ⚡ y, en entornos reales, un coste económico más alto.

🌍 Ojo también a la huella de carbono que estos procesos generan: cada token cuesta energía, y los modelos grandes multiplican ese impacto.

📦 Modelos compatibles con text-generation

GPT-2 y sus variantes.
GPT-Neo / GPT-J.
Falcon, Mistral, BLOOM, LLaMA (algunos necesitan GPU).

Ejemplos de modelos en español:

datificate/gpt2-small-spanish
DeepESP/gpt2-spanish
PlanTL-GOB-ES/gpt2-base-bne (entrenado con corpus de España)
cmarkea/gpt2-base-spanish

🧩 En resumen

Una pipeline de generación de texto te permite pasar de un prompt a una idea completa, sin entrenamiento previo ni configuración avanzada.

🧠 Ideal para tareas de redacción automática, completado de frases o creación de ejemplos sintéticos.

🚀 Experimenta tú mismo

Cambia el prompt y observa la variabilidad de las respuestas. Luego prueba con otro modelo (por ejemplo, PlanTL-GOB-ES/gpt2-base-bne) y analiza cómo el contexto lingüístico afecta la generación.

💡 Consejo: cuanto más específico el prompt, más coherente será la salida. Y si tu equipo se queda pequeño, puedes experimentar usando GPUs con créditos gratuitos o de pago, con `google colab, kaggle, etc...

Entrada Anterior