Telecom X - Parte II: Análisis de Datos

Carga el archivo CSV previamente limpiado y con columnas relevantes.

Quita columnas como el ID del cliente u otras que no aporten al análisis.

Convierte variables categóricas en variables numéricas (por ejemplo, con One-Hot Encoding).

Usa value_counts() para observar el desbalance entre clases.

Si hay desbalance, aplica técnicas como SMOTE, oversampling o undersampling.

Análisis de Correlación: Revisa la matriz de correlación para encontrar relaciones útiles.
Análisis Dirigido: Usa visualizaciones para ver cómo variables específicas influyen en la cancelación (ej. tiempo de contrato vs. cancelación).

Normaliza o estandariza solo si usarás modelos sensibles a la escala, como KNN, Regresión Logística o SVM.

Divide el dataset en entrenamiento y prueba (por ejemplo, 70/30 o 80/20).

Crea al menos dos modelos, uno que requiera normalización (KNN, Regresión Logística) y otro que no (Árbol de Decisión, Random Forest).

Usa métricas como:
- Exactitud
- Precisión
- Recall
- F1-score
- Matriz de confusión
Compara los modelos y analiza si hay overfitting o underfitting.

Según el modelo, analiza:
- Coeficientes (Regresión Logística, SVM)
- Importancia de características (Random Forest, XGBoost)
- Contribución a distancia o clasificación (KNN)

Factores que más influyeron en cancelación basado en sus variables, generar propuestas.