🚢Titanic + Perceptrón simple

Titanic Perceptrón Simple

Recientemente he publicado un nuevo cuaderno de computación donde afronto una posible solución para la construcción de un clasificador usando únicamente una neurona simple.

Entre las tres candidatas que podríamos haber escogido, selecciono el perceptrón por ser el algoritmo que mejor representa este tipo de enfoque.

👉 Puedes descargarlo y ejecutarlo directamente en Kaggle, versión en inglés:
https://www.kaggle.com/code/jesusnieto/titanic-perceptron-en
👉 También está disponible en Colab, versión en español:
https://colab.research.google.com/drive/1O3dMh64_3-HMnoQLHluIX6m5h4kD5zGq?usp=sharing

🔍 Contexto rápido

La competición del Titanic es uno de los problemas más icónicos en ciencia de datos: predecir qué pasajeros sobrevivieron a partir de variables como edad, clase o sexo.

Aunque es un dataset sencillo, sigue siendo una excelente puerta de entrada para entender cómo construir un pipeline completo de Machine Learning de principio a fin.

En este cuaderno lo abordaremos usando uno de los algoritmos más clásicos e icónicos del aprendizaje automático:

Perceptrón Simple

Recuerda:

Comparativa neuronal

⚙️ ¿Qué hay dentro del cuaderno?

Este notebook se ha diseñado, al igual que los anteriores, con la idea de crear un modelo base e ir iterando sucesivas optimizaciones basadas en el ajuste de diferentes parámetros y métricas.

Secciones:

Usaremos una neurona perceptrón
Modelo base
EDA
Ajuste de hiperparámetros del perceptrón
Selección del umbral o tipo de neurona mediante la métrica ROC-AUC
Modelos afinados
Conclusiones

🧠 ¿Qué no deberías perderte?

Hay una explicación breve de cómo llegamos desde una regresión lineal hasta el concepto de neurona para clasificación y regresión.
En el apartado de EDA, detecté un problema de data leakage gracias a la iteración y evolución de mis modelos sobre el mismo problema. Es algo que no había visto en cuadernos anteriores:
- Cuando usamos validación cruzada, los estadísticos de resumen se estaban calculando sobre todo el dataset, y no únicamente sobre cada fold de entrenamiento.
En el ajuste de hiperparámetros, he añadido nuevas gráficas para comparar rendimiento y aprendizaje en los parámetros más relevantes. Además, se introduce el concepto de épocas. Te muestro solo una de las gráficas:

Curva de aprendizaje Accuracy

En la selección del umbral de nuestra neurona, se muestra con detalle la curva de la métrica ROC-AUC. El objetivo es analizar por qué el perceptrón puede ser una opción adecuada frente a una neurona sigmoide en este contexto, no solo con palabras, sino también con datos.

Curva ROC-AUC

Si lo anterior te ha parecido poco, he añadido una nueva gráfica para comparar el rendimiento de los cientos de modelos generados al usar GridSearchCV y RandomizedSearchCV.

Aquí aparece un detalle interesante: gracias al análisis individual de parámetros, descubrimos que el valor escogido para el parámetro de regularización por ambos algoritmos de optimización ofrecía peor rendimiento que el valor que pude inferir mediante mi propia heurística.

💡 Conclusiones sinceras

Después de hacer mis primeros cuadernos, los cuales puedes consultar en el blog, he empezado a disfrutar de verdad con la creación y entrenamiento de modelos.

Creo que este es mi mejor cuaderno hasta la fecha, porque:

Aumenta el contenido de análisis: me centro más en observar, probar y comparar.
Reduce la explicación teórica: dejo de intentar defenderme de mí mismo para empezar a demostrarme que estoy avanzando.
Empieza a tomar forma como una receta de cocina sobre cómo comenzar el camino hacia un buen score a un coste razonable.

Si trabajas en IA o estás aprendiendo, creo que te puede resultar interesante 👇

👉 Puedes descargarlo y ejecutarlo directamente en Kaggle, versión en inglés:
https://www.kaggle.com/code/jesusnieto/titanic-perceptron-en
👉 También está disponible en Colab, versión en español:
https://colab.research.google.com/drive/1O3dMh64_3-HMnoQLHluIX6m5h4kD5zGq?usp=sharing

👉 Ábrelo, ejecútalo y ajústalo a tu manera.

Entrada Anterior