Identificación de variables asociadas a la desnutrición crónica infantil mediante CatBoost y LightGBM, región sierra, 2021–2023

dc.author.orcidhttps://orcid.org/0009-0007-0925-4620
dc.contributor.advisorLópez de Castilla Vásquez, Carlos
dc.contributor.authorHuarcaya Quinteros, Katja Joselyn
dc.date.accessioned2026-06-11T19:49:06Z
dc.date.available2026-06-11T19:49:06Z
dc.date.issued2026
dc.descriptionUniversidad Nacional Agraria La Molina. Facultad de Economía y Planificación. Departamento Académico de Estadística e Informática
dc.description.abstractEste Trabajo de Suficiencia Profesional (TSP) tuvo como objetivo identificar las variables predictoras más influyentes en la DCI en niños de 6 a 59 meses de edad, residentes en la región Sierra, utilizando información proveniente de la Encuesta Demográfica y de Salud Familiar (ENDES) durante el periodo 2021-2023. Para tal fin, se emplearon dos modelos avanzados de aprendizaje automático: Categorical Boosting (CatBoost) y Light Gradient Boosting Machine (LightGBM). Ambos modelos fueron evaluados mediante métricas de desempeño como precision, recall, f1-score y accuracy, así como mediante valores SHAP (SHapley Additive Explanations) para la interpretación de la importancia de las variables predictoras. Los resultados evidenciaron que el modelo LightGBM obtuvo un mejor desempeño en la detección de casos reales de desnutrición, con un recall de 0.70, lo que indica una mayor capacidad para identificar niños en riesgo, mientras que el modelo CatBoost presentó una mayor precisión (0.62), aunque con menor sensibilidad (0.20). Estas diferencias sugieren que, desde una perspectiva de salud pública, el modelo LightGBM resulta más adecuado para fortalecer los mecanismos de detección temprana de la desnutrición crónica infantil. El análisis de importancia de variables reveló que los factores más influyentes en la DCI fueron: el departamento de residencia, la talla de la madre, la talla al nacer, el nivel educativo materno, el nivel de anemia del menor y el grupo etario (especialmente de 6 a 23 meses). El presente estudio concluyó que los modelos basados en aprendizaje automático representan una herramienta valiosa para la identificación temprana de factores de riesgo y la focalización de políticas públicas, contribuyendo a la reducción sostenida de la DCI en la región Sierra.
dc.description.abstractThis professional proficiency thesis aimed to identify the most influential predictive variables of chronic childhood malnutrition (stunting) among children aged 6 to 59 months residing in the Sierra region of Peru, using data from the Demographic and Family Health Survey (ENDES) for the period 2021–2023. To achieve this objective, two advanced machine learning models were employed: Categorical Boosting (CatBoost) and Light Gradient Boosting Machine (LightGBM). Model performance was evaluated using standard classification metrics—precision, recall, F1-score, and accuracy—and further interpreted through SHapley Additive exPlanations (SHAP) values to assess predictor importance. Results showed that LightGBM achieved superior performance in identifying true cases of stunting, with a recall of 0.70, indicating a stronger capacity to detect at-risk children. In contrast, CatBoost exhibited higher precision (0.62) but markedly lower sensitivity (0.20). These findings suggest that, from a public health perspective, LightGBM is better suited to enhance early detection mechanisms for chronic childhood malnutrition. The SHAP-based variable importance analysis revealed that the most influential predictors were department of residence, maternal height, birth length, maternal education level, child’s anemia status, and age group—particularly children aged 6 to 23 months. This study concludes that machine learning–based models make an excellent instrument for the early identification of risk factors and the targeted implementation of public policies, thereby contributing to the sustained reduction of chronic childhood malnutrition in the Sierra region.
dc.formatapplication/pdf
dc.identifier.urihttps://hdl.handle.net/20.500.12996/7697
dc.language.isospa
dc.publisherUniversidad Nacional Agraria La Molina
dc.publisher.countryPE
dc.rightshttps://purl.org/coar/access_right/c_abf2
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/
dc.subjectDesnutrición crónica infantil
dc.subjectNiños
dc.subjectModelización
dc.subjectEstadística
dc.subjectInformática
dc.subjectSalud
dc.subject.ocdehttps://purl.org/pe-repo/ocde/ford#5.04.00
dc.titleIdentificación de variables asociadas a la desnutrición crónica infantil mediante CatBoost y LightGBM, región sierra, 2021–2023
dc.typehttp://purl.org/coar/resource_type/c_7a1f
dc.type.versionhttp://purl.org/coar/version/c_970fb48d4fbd8a85
renati.advisor.dni10149535
renati.advisor.orcidhttps://orcid.org/0000-0001-7724-5522
renati.author.dni47560424
renati.discipline542026
renati.jurorSoto Rodríguez, Iván Dennys
renati.jurorSotomayor Ruiz, Rino Nicanor
renati.jurorCoaquira Nina, Frida Rosa
renati.levelhttps://purl.org/pe-repo/renati/level#tituloProfesional
renati.typehttps://purl.org/pe-repo/renati/type#trabajoDeSuficienciaProfesional
thesis.degree.disciplineEstadística e Informática
thesis.degree.grantorUniversidad Nacional Agraria La Molina. Facultad de Economía y Planificación
thesis.degree.nameIngeniero Estadístico e Informático

Files

Original bundle

Now showing 1 - 3 of 3
Loading...
Thumbnail Image
Name:
huarcaya-quinteros-katja-joselyn.pdf
Size:
2.35 MB
Format:
Adobe Portable Document Format
Description:
Texto completo
Name:
turnitin.pdf
Size:
2.49 MB
Format:
Adobe Portable Document Format
Description:
Informe originalidad
Name:
autorizacion.pdf
Size:
312.03 KB
Format:
Adobe Portable Document Format
Description:
Autorización

License bundle

Now showing 1 - 1 of 1
Name:
license.txt
Size:
1.63 KB
Format:
Item-specific license agreed upon to submission
Description:

Collections