Carga el archivo CSV previamente limpiado y con columnas relevantes.
Quita columnas como el ID del cliente u otras que no aporten al análisis.
Convierte variables categóricas en variables numéricas (por ejemplo, con One-Hot Encoding).
Usa value_counts() para observar el desbalance entre clases.
Si hay desbalance, aplica técnicas como SMOTE, oversampling o undersampling.
Análisis de Correlación: Revisa la matriz de correlación para encontrar relaciones útiles.
Análisis Dirigido: Usa visualizaciones para ver cómo variables específicas influyen en la cancelación (ej. tiempo de contrato vs. cancelación).
Normaliza o estandariza solo si usarás modelos sensibles a la escala, como KNN, Regresión Logística o SVM.
Divide el dataset en entrenamiento y prueba (por ejemplo, 70/30 o 80/20).
Crea al menos dos modelos, uno que requiera normalización (KNN, Regresión Logística) y otro que no (Árbol de Decisión, Random Forest).
Usa métricas como:
- Exactitud
- Precisión
- Recall
- F1-score
- Matriz de confusión
Compara los modelos y analiza si hay overfitting o underfitting.
Según el modelo, analiza:
- Coeficientes (Regresión Logística, SVM)
- Importancia de características (Random Forest, XGBoost)
- Contribución a distancia o clasificación (KNN)
Factores que más influyeron en cancelación basado en sus variables, generar propuestas.