Artículo

Recientemente he publicado un nuevo cuaderno de computación donde afronto una posible solución para la construcción de un clasificador usando únicamente una neurona simple.
Entre las tres candidatas que podríamos haber escogido, selecciono el perceptrón por ser el algoritmo que mejor representa este tipo de enfoque.
👉 Puedes descargarlo y ejecutarlo directamente en Kaggle, versión en inglés:
https://www.kaggle.com/code/jesusnieto/titanic-perceptron-en
👉 También está disponible en Colab, versión en español:
https://colab.research.google.com/drive/1O3dMh64_3-HMnoQLHluIX6m5h4kD5zGq?usp=sharing
La competición del Titanic es uno de los problemas más icónicos en ciencia de datos: predecir qué pasajeros sobrevivieron a partir de variables como edad, clase o sexo.
Aunque es un dataset sencillo, sigue siendo una excelente puerta de entrada para entender cómo construir un pipeline completo de Machine Learning de principio a fin.
En este cuaderno lo abordaremos usando uno de los algoritmos más clásicos e icónicos del aprendizaje automático:
Recuerda:

Este notebook se ha diseñado, al igual que los anteriores, con la idea de crear un modelo base e ir iterando sucesivas optimizaciones basadas en el ajuste de diferentes parámetros y métricas.
Secciones:
Hay una explicación breve de cómo llegamos desde una regresión lineal hasta el concepto de neurona para clasificación y regresión.
En el apartado de EDA, detecté un problema de data leakage gracias a la iteración y evolución de mis modelos sobre el mismo problema. Es algo que no había visto en cuadernos anteriores:
En el ajuste de hiperparámetros, he añadido nuevas gráficas para comparar rendimiento y aprendizaje en los parámetros más relevantes. Además, se introduce el concepto de épocas. Te muestro solo una de las gráficas:


Si lo anterior te ha parecido poco, he añadido una nueva gráfica para comparar el rendimiento de los cientos de modelos generados al usar GridSearchCV y RandomizedSearchCV.
Aquí aparece un detalle interesante: gracias al análisis individual de parámetros, descubrimos que el valor escogido para el parámetro de regularización por ambos algoritmos de optimización ofrecía peor rendimiento que el valor que pude inferir mediante mi propia heurística.
Después de hacer mis primeros cuadernos, los cuales puedes consultar en el blog, he empezado a disfrutar de verdad con la creación y entrenamiento de modelos.
Creo que este es mi mejor cuaderno hasta la fecha, porque:
Si trabajas en IA o estás aprendiendo, creo que te puede resultar interesante 👇
👉 Puedes descargarlo y ejecutarlo directamente en Kaggle, versión en inglés:
https://www.kaggle.com/code/jesusnieto/titanic-perceptron-en
👉 También está disponible en Colab, versión en español:
https://colab.research.google.com/drive/1O3dMh64_3-HMnoQLHluIX6m5h4kD5zGq?usp=sharing
👉 Ábrelo, ejecútalo y ajústalo a tu manera.