Switch to English
Loan Status Prediction

Loan Status Prediction

Es un proyecto de machine larning que predice el estado de pago de préstamos para evaluar el riesgo crediticio, utilizando un modelo basado en XGBoost y una aplicación en tiempo real con Streamlit.

PythonStreamlit

Este proyecto se centra en el desarrollo de un modelo predictivo para determinar si un préstamo será pagado en su totalidad o castigado (charged off).

Utilizando técnicas de Machine Learning y un conjunto de datos de Kaggle, se entrenó un modelo para ayudar a las instituciones financieras a evaluar el riesgo crediticio de los solicitantes de crédito.


Problema a Resolver

Las instituciones financieras enfrentan el desafío de identificar qué clientes pagarán sus préstamos y cuáles representan un alto riesgo de incumplimiento.

Objetivo: Construir un modelo que prediga si un préstamo será pagado o caerá en incumplimiento.

Impacto: Ayuda a reducir riesgos financieros, minimizar pérdidas y mejorar la toma de decisiones en la aprobación de créditos.


Datos Utilizados

Fuente: Dataset de Kaggle ("Credit_train.csv")

Variables Clave:

  • Puntaje de Crédito (Credit Score): Calificación crediticia del solicitante.
    • Ingreso Anual: Ingresos anuales del solicitante.
      • Deuda Mensual: Obligaciones financieras mensuales.
        • Años de Historial Crediticio: Tiempo de historial de crédito.
          • Número de cuentas abiertas, balance crediticio actual y crédito máximo abierto.
            • Propósito del préstamo y estado de propiedad de vivienda.

              Metodología Aplicada

              1. Exploración de Datos: Análisis estadístico y visualización de correlaciones.
                1. Preprocesamiento:
                  1. Manejo de valores faltantes y eliminación de duplicados.
                    • Codificación de variables categóricas (Label Encoding).
                      • Escalado de variables numéricas con StandardScaler.
                        • División de los datos en conjuntos de entrenamiento y validación.
                        • Entrenamiento de Modelos: Se probaron múltiples modelos de clasificación.
                          1. Selección del Mejor Modelo: Comparación basada en métricas de desempeño como Accuracy, F1 Score y AUC-ROC.
                            1. Despliegue del Modelo: Implementación usando Streamlit Cloud para interacción en tiempo real.

                              Modelos Evaluados

                              Se evaluaron los siguientes modelos de clasificación:

                              • XGBRFClassifier (Mejor modelo)
                                • Random Forest
                                  • Regresión Logística
                                    • Gradient Boosting
                                      • AdaBoost
                                        • SGDClassifier
                                          Image

                                          Desempeño del Mejor Modelo (XGBRFClassifier)

                                          Accuracy: 82.7%

                                          F1 Score: 0.89

                                          AUC-ROC: 0.64

                                          Tiempo de Inferencia: 32.3 ms

                                          Características más influyentes en la predicción:

                                          1. Puntaje de Crédito
                                            1. Ingreso Anual
                                              1. Años de Historial Crediticio

                                                Despliegue del Modelo

                                                Tecnologías utilizadas:

                                                • Google Colab para el desarrollo del modelo y exploración de datos.
                                                  • Streamlit para la interfaz interactiva.
                                                    • Joblib para guardar y cargar el modelo entrenado.
                                                      • GitHub + Streamlit Cloud para el despliegue en línea.

                                                        Hallazgos Clave

                                                        El puntaje de crédito y el ingreso tienen un impacto significativo en la aprobación del préstamo.

                                                        El XGBRFClassifier obtuvo el mejor desempeño gracias a su capacidad de combinar Gradient Boosting y Random Forest.

                                                        El tiempo de inferencia es crucial, ya que impacta directamente la velocidad en la toma de decisiones dentro de las instituciones financieras.


                                                        Conclusiones y Aprendizajes

                                                        Se construyó un modelo confiable para predecir el estado de pago de préstamos.

                                                        Se identificaron los factores clave que influyen en la clasificación crediticia.

                                                        El modelo fue optimizado para equilibrar precisión y velocidad de inferencia.

                                                        Se desplegó una aplicación interactiva y fácil de usar para realizar predicciones en tiempo real.