Artículo

El dataset del Titanic es uno de los clásicos en machine learning: pequeño, interpretable y suficientemente estructurado como para experimentar con modelos lineales.
En este notebook he construido un baseline utilizando Regresión Logística, centrándome en un aspecto concreto: el efecto de la regularización en la complejidad del modelo.
El objetivo no era maximizar el score en Kaggle, sino entender qué está ocurriendo internamente cuando regularizamos, además de construir un "primer modelo mínimo viable" para ir iterando en mejores soluciones.
¿Por qué Regresión Logística? Porque resolveré con distintos algoritmos de machine learning en sucesivas entradas, para ilustrar distintos enfoques y aproximaciones al problema.
Tras el preprocesamiento inicial (One Hot Encoding, variables derivadas, etc.), el modelo contaba con un número considerable de características.
En datasets pequeños como Titanic (~800 muestras), esto introduce un riesgo claro:
Aquí es donde entra la regularización.
Entrenando una Regresión Logística con penalización L1 y un valor pequeño de C (regularización fuerte), el modelo redujo automáticamente el espacio de características hasta quedarse únicamente con tres variables activas:
Todos los demás coeficientes se redujeron exactamente a cero.
Este resultado es especialmente interesante porque demuestra que gran parte de las variables generadas inicialmente no aportaban señal robusta, sino complejidad adicional.
La regularización L1 actuó como un mecanismo automático de selección de variables.
A continuación entrené un modelo con penalización L2, utilizando únicamente esas tres variables seleccionadas.
A diferencia de L1, L2 no elimina coeficientes, sino que reduce su magnitud. Es un mecanismo más suave de control de complejidad.
Los resultados confirmaron algo relevante:
Al tratarse de una Regresión Logística, los coeficientes representan cambios en el log-odds de supervivencia.
La interpretación es coherente con el contexto histórico del Titanic:
Es interesante comprobar cómo un modelo lineal simple captura patrones históricos bien documentados.
Este ejercicio refuerza una idea fundamental en machine learning:
Más variables no implican necesariamente mejor modelo.
En problemas con pocas muestras, controlar la complejidad puede ser más importante que aumentar el número de características.
La regularización no es solo un término matemático; es una herramienta práctica para gestionar el equilibrio entre sesgo y varianza.
En el siguiente cuaderno abordaré la validación cruzada y la selección de hiper-parámetros para evaluar el modelo de forma más rigurosa.
Este primer baseline tenía un objetivo claro: entender cómo la regularización modifica la estructura del modelo.
🔗 Kaggle (English version): https://www.kaggle.com/code/jesusnieto/titanic-logisticregression-baseline
🔗 Colab (versión en español): https://colab.research.google.com/drive/1yhd8c2pdCf9GJ2VbSaWFhjgm1y2C_5A0