Artículo

🚢Titanic + SVM baseline

Titanic Baseline

He publicado un nuevo cuaderno de computación donde trabajo uno de los datasets más conocidos en machine learning: el Titanic 🛳️.


🔍 Contexto rápido

La competición del Titanic es uno de los problemas más icónicos en ciencia de datos: predecir qué pasajeros sobrevivieron a partir de variables como edad, clase o sexo.

Aunque es un dataset sencillo, sigue siendo una excelente puerta de entrada para entender cómo construir un pipeline completo de ML de principio a fin.


⚙️ ¿Qué hay dentro del cuaderno?

Este notebook está diseñado como un baseline claro y reproducible, ideal para empezar a iterar:

  • 🧹 Limpieza y preparación de datos (missing values, encoding…)
  • 📊 Análisis rápido para entender las variables
  • 🧠 Implementación de SVM (Support Vector Machine)
  • ⚖️ Escalado de variables (clave en este tipo de modelos)
  • 🧪 Evaluación del rendimiento
  • 🧩 Estructura lista para extender con nuevas features o modelos

🧠 ¿Por qué SVM?

Porque sigue siendo un algoritmo muy potente para problemas de clasificación en datasets estructurados, especialmente cuando se combinan bien el escalado y la selección de variables.

No siempre es el modelo más popular hoy en día, pero entenderlo bien aporta mucha intuición sobre márgenes, separabilidad y generalización.

SVM funciona relativamente bien, dada su naturaleza, con datasets pequeños y con alta dimensionalidad.

Además, dado que mi objetivo es hacer un repaso didáctico sobre el mismo dataset contra las distintas técnicas de ML tradicional, es un buen momento para tratarlo.


💡 Idea principal

No es solo “otro notebook del Titanic”.
Es una base limpia, directa y útil para:

  • iterar rápidamente
  • probar mejoras
  • o usarlo como plantilla en otros proyectos

🧪 Lo siguiente que viene

Ya tengo preparado un nuevo cuaderno (lo publicaré en breve) donde doy un paso más:

  • 🔍 Optimización de hiperparámetros en SVM
  • ⚙️ Búsqueda de combinaciones óptimas (Grid Search / Random Search)
  • 📊 Curvas de validación y aprendizaje
  • 📈 Mejora del rendimiento del modelo a partir del baseline

El enfoque seguirá siendo formativo, no buscando el mejor score.


Si trabajas en IA o estás aprendiendo, creo que te puede resultar interesante 👇

👉 Ábrelo, ejecútalo y ajústalo a tu manera.

Entrada Anterior Siguiente Entrada