Titanic Baseline

He publicado un nuevo cuaderno de computación donde trabajo uno de los datasets más conocidos en machine learning: el Titanic 🛳️

👉 Puedes descargarlo y ejecutarlo directamente en Kaggle (versión en inglés):
https://www.kaggle.com/code/jesusnieto/titanic-svm-baseline-en
👉 También disponible en Colab (versión en español):
https://colab.research.google.com/drive/1aCuozCgPXGeCTpu8B1DKz6DpXsOlgAwo?usp=sharing

🔍 Contexto rápido

La competición del Titanic es uno de los problemas más icónicos en ciencia de datos: predecir qué pasajeros sobrevivieron a partir de variables como edad, clase o sexo.

Aunque es un dataset sencillo, sigue siendo una excelente puerta de entrada para entender cómo construir un pipeline completo de ML de principio a fin.

⚙️ ¿Qué hay dentro del cuaderno?

Este notebook está diseñado como un baseline claro y reproducible, ideal para empezar a iterar:

🧹 Limpieza y preparación de datos (missing values, encoding…)
📊 Análisis rápido para entender las variables
🧠 Implementación de SVM (Support Vector Machine)
⚖️ Escalado de variables (clave en este tipo de modelos)
🧪 Evaluación del rendimiento
🧩 Estructura lista para extender con nuevas features o modelos

🧠 ¿Por qué SVM?

Porque sigue siendo un algoritmo muy potente para problemas de clasificación en datasets estructurados, especialmente cuando se combinan bien el escalado y la selección de variables.

No siempre es el modelo más popular hoy en día, pero entenderlo bien aporta mucha intuición sobre márgenes, separabilidad y generalización.

SVM funciona relativamente bien, dada su naturaleza, con datasets pequeños con alta dimensionalidad

Además, dado que mi objetivo es hacer un repaso didáctico sobre el mismo dataset "contra" las distintas técnicas de ML tradicional es un buen momento para tratarlo.

💡 Idea principal

No es solo “otro notebook del Titanic”.
Es una base limpia, directa y útil para:

iterar rápidamente
probar mejoras
o usarlo como plantilla en otros proyectos

🧪 Lo siguiente que viene

Ya tengo preparado un nuevo cuaderno (lo publicaré en breve) donde doy un paso más:

🔍 Optimización de hiperparámetros en SVM
⚙️ Búsqueda de combinaciones óptimas (Grid Search / Random Search)
📊 Curvas de validación y aprendizaje
📈 Mejora del rendimiento del modelo a partir del baseline

El enfoque será siendo formativo, no buscando el mejor score.

Si trabajas en IA o estás aprendiendo, creo que te puede resultar interesante 👇

👉 Puedes descargarlo y ejecutarlo directamente en Kaggle (versión en inglés):
https://www.kaggle.com/code/jesusnieto/titanic-svm-baseline-en
👉 También disponible en Colab (versión en español):
https://colab.research.google.com/drive/1aCuozCgPXGeCTpu8B1DKz6DpXsOlgAwo?usp=sharing

👉 Ábrelo, ejecútalo y ajústalo a tu manera

Entrada Anterior Siguiente Entrada

🚢Titanic + SVM baseline

🔍 Contexto rápido

⚙️ ¿Qué hay dentro del cuaderno?

🧠 ¿Por qué SVM?

💡 Idea principal

🧪 Lo siguiente que viene