Artículo

Tras construir el primer baseline con Regresión Logística y regularización L1/L2, el siguiente paso natural es evaluar el modelo de forma más rigurosa.
En este nuevo notebook me he centrado en dos aspectos fundamentales del ciclo de modelado en machine learning:
El objetivo no es simplemente mejorar el score, sino entender cómo se comporta realmente el modelo cuando se enfrenta a distintos subconjuntos de datos.
Cuando entrenamos un modelo con un único split train/test, el resultado puede depender demasiado del azar: qué muestras concretas han quedado en cada partición.
La *validación cruzada (k-fold) aborda este problema repitiendo el entrenamiento varias veces sobre distintos subconjuntos del dataset.
Esto permite observar dos cosas clave:
Esta segunda métrica es especialmente importante: un modelo con buena media pero alta variabilidad puede ser inestable y generalizar mal.
En el notebook también analizo curvas de aprendizaje para entender cómo evoluciona el rendimiento del modelo a medida que aumentamos el tamaño del conjunto de entrenamiento.
Este tipo de gráfica permite detectar:
En el caso del Titanic, el modelo converge relativamente pronto: a partir de cierto número de muestras, añadir más datos no mejora significativamente el rendimiento.
Esto sugiere algo interesante: el límite del modelo no está en la cantidad de datos, sino en la capacidad del propio modelo o en las características utilizadas.
Una vez entendido el comportamiento del modelo, el siguiente paso es ajustar sus hiperparámetros.
Para ello utilizo GridSearchCV, que combina:
En este caso se exploran distintas configuraciones de:
De esta forma el modelo se evalúa bajo múltiples configuraciones antes de seleccionar la mejor.
Uno de los objetivos principales del ejercicio es visualizar cómo interactúan tres conceptos fundamentales en machine learning:
Las curvas de aprendizaje y los resultados de la validación cruzada permiten interpretar cuándo un modelo:
Este notebook refuerza una idea importante:
Evaluar bien un modelo es tan importante como entrenarlo.
La validación cruzada no solo sirve para medir rendimiento, sino para entender la estabilidad y la capacidad real de generalización del modelo.
🔗 Kaggle (English version) https://www.kaggle.com/code/jesusnieto/titanic-logisticregresession-cv-en
🔗 Colab (versión en español) https://colab.research.google.com/drive/13f82u3144UY2TcJ1vwKZF_PpFFHzOpmB