🚢Titanic + SVM baseline

Titanic Baseline

He publicado un nuevo cuaderno de computación donde trabajo uno de los datasets más conocidos en machine learning: el Titanic 🛳️.

👉 Puedes descargarlo y ejecutarlo directamente en Kaggle (versión en inglés):
https://www.kaggle.com/code/jesusnieto/titanic-svm-baseline-en
👉 También disponible en Colab (versión en español):
https://colab.research.google.com/drive/1aCuozCgPXGeCTpu8B1DKz6DpXsOlgAwo?usp=sharing

🔍 Contexto rápido

La competición del Titanic es uno de los problemas más icónicos en ciencia de datos: predecir qué pasajeros sobrevivieron a partir de variables como edad, clase o sexo.

Aunque es un dataset sencillo, sigue siendo una excelente puerta de entrada para entender cómo construir un pipeline completo de ML de principio a fin.

⚙️ ¿Qué hay dentro del cuaderno?

Este notebook está diseñado como un baseline claro y reproducible, ideal para empezar a iterar:

🧹 Limpieza y preparación de datos (missing values, encoding…)
📊 Análisis rápido para entender las variables
🧠 Implementación de SVM (Support Vector Machine)
⚖️ Escalado de variables (clave en este tipo de modelos)
🧪 Evaluación del rendimiento
🧩 Estructura lista para extender con nuevas features o modelos

🧠 ¿Por qué SVM?

Porque sigue siendo un algoritmo muy potente para problemas de clasificación en datasets estructurados, especialmente cuando se combinan bien el escalado y la selección de variables.

No siempre es el modelo más popular hoy en día, pero entenderlo bien aporta mucha intuición sobre márgenes, separabilidad y generalización.

SVM funciona relativamente bien, dada su naturaleza, con datasets pequeños y con alta dimensionalidad.

Además, dado que mi objetivo es hacer un repaso didáctico sobre el mismo dataset contra las distintas técnicas de ML tradicional, es un buen momento para tratarlo.

💡 Idea principal

No es solo “otro notebook del Titanic”.
Es una base limpia, directa y útil para:

iterar rápidamente
probar mejoras
o usarlo como plantilla en otros proyectos

🧪 Lo siguiente que viene

Ya tengo preparado un nuevo cuaderno (lo publicaré en breve) donde doy un paso más:

🔍 Optimización de hiperparámetros en SVM
⚙️ Búsqueda de combinaciones óptimas (Grid Search / Random Search)
📊 Curvas de validación y aprendizaje
📈 Mejora del rendimiento del modelo a partir del baseline

El enfoque seguirá siendo formativo, no buscando el mejor score.

Si trabajas en IA o estás aprendiendo, creo que te puede resultar interesante 👇

👉 Puedes descargarlo y ejecutarlo directamente en Kaggle (versión en inglés):
https://www.kaggle.com/code/jesusnieto/titanic-svm-baseline-en
👉 También disponible en Colab (versión en español):
https://colab.research.google.com/drive/1aCuozCgPXGeCTpu8B1DKz6DpXsOlgAwo?usp=sharing

👉 Ábrelo, ejecútalo y ajústalo a tu manera.

Entrada Anterior Siguiente Entrada