M-EST Tesis

Permanent URI for this collectionhttps://hdl.handle.net/20.500.12996/329

Browse

Recent Submissions

Now showing 1 - 20 of 27
  • ItemOpen Access
    Aplicación del modelo aditivo generalizado para predecir el precio de alquiler de departamentos en Lima y Callao
    Díaz Paredes, Sergio Pedro (2025, Universidad Nacional Agraria La Molina)
    La presente investigación tiene como propósito obtener un modelo apropiado para estimar el valor de alquiler de los departamentos en Lima y Callao utilizando datos de geolocalización; para ello se siguió como metodología una investigación de tipo cuantitativa, correlacional y explicativo, con diseño no experimental. La población estuvo constituida por los hogares que viven en departamentos alquilados que participaron en la Encuesta Nacional de Hogares (ENAHO). Los resultados mostraron un modelo lineal generalizado con un R2 ajustado de 0.371 y una desviación explicada en 45.7%, asimismo un modelo aditivo generalizado con un R2 ajustado de 0.581 y una desviación explicada en 64.1%, también un modelo geo aditivo generalizado con un R2 ajustado de 0.62 y una desviación explicada en 72.8%, además un modelo geo sin efecto suavizado con un R2 ajustado de 0.62 y una desviación explicada en 72.8%, también un modelo geo sin efecto distancia cero con un R2 ajustado de 0.622 y una desviación explicada en 72.8%; posterior a ello se analizaron las medidas de bondad de ajuste, mediante el cual se concluye que el modelo geo sin efecto distancia cero es el apropiado para estimar el valor de alquiler de los departamentos en Lima y Callao.
  • ItemOpen Access
    Pronóstico de la velocidad del viento entre 80-95 km sobre la costa peruana utilizando EM, VMD, LSTM y Optuna
    Mauricio Timaná, Christian (2025, Universidad Nacional Agraria La Molina)
    El análisis de la predicción del viento en la mesósfera y baja termósfera (MLT) es esencial para entender mejor las dinámicas atmosféricas sobre Lima y Piura. Esta tesis evalúa la aplicabilidad de un modelo híbrido que combina algoritmos de máxima verosimilitud (EM), descomposición modal variacional (VMD), redes neuronales Long Short-Term Memory (LSTM) y la herramienta de optimización de hiperparámetros Optuna, para la predicción de la velocidad del viento en la región MLT. El objetivo principal fue comprobar que estos algoritmos son apropiados para la predicción de 8 pasos, equivalentes a un día de datos. Los resultados muestran que el algoritmo EM es efectivo para la imputación de datos faltantes, preservando la distribución original de los datos, y VMD facilita una descomposición óptima de las series temporales. La integración de Optuna permitió seleccionar adecuadamente los hiperparámetros, lo que evitó el sobreajuste y mejoró las predicciones del modelo. Además, al compararlo con un modelo de persistencia, el modelo híbrido propuesto obtuvo mejores resultados en las métricas de RMSE y correlación, aunque el rendimiento disminuyó en los pasos de predicción más lejanos. Este estudio confirma la viabilidad de integrar los algoritmos EM, VMD, LSTM y el software Optuna en la predicción de la velocidad del viento en la región MLT, proporcionando una herramienta efectiva para el análisis atmosférico sobre Lima y Piura.
  • ItemOpen Access
    Evaluación de modelos para la clasificación de células infectadas con malaria mediante redes neuronales convolucionales Darknet y Resnet
    Castañón Vilca, Joaquín Antonio (2025, Universidad Nacional Agraria La Molina)
    Esta investigación aborda la problemática de diagnóstico de malaria, una enfermedad que afecta a más de 200 millones de personas anualmente, siendo más devastadora en áreas tropicales con recursos limitados. Para mejorar la eficiencia y exactitud del diagnóstico, se evaluaron los modelos de redes neuronales convolucionales DarkNet-19 y ResNet-50 para clasificar imágenes de células infectadas con malaria. Se entrenaron los modelos con una base de datos de 27,560 imágenes, incluyendo células infectadas y no infectadas. Se asignó el 80% de los datos para el entrenamiento y el 20% para la prueba, con un conjunto de validación adicional. Se desarrollaron modelos utilizando Keras: ResNet-50 mediante Transfer Learning y DarkNet-19 con arquitectura propia compuesta por capas Convolucionales, GlobalAveragePooling y Densas. Ambos modelos tienen una última capa densa de tamaño 2 para clasificación binaria en el contexto de imágenes de células infectadas con malaria. Como resultado, se obtuvo una exactitud del 95% para DarkNet-19 y del 93.9% para ResNet-50, mostrando una ligera ventaja de exactitud para DarkNet-19. Además, se observó que, bajo los mismos parámetros de entrenamiento, ResNet-50 mostró signos de posible overfitting, que se pudo mitigar mediante técnicas de regulación como Early Stopping y ReduceLROnPlateau.
  • ItemOpen Access
    Medición del impacto de variables socio económicas en el aprendizaje de alumnos del segundo grado de secundaria del Perú
    Figueroa Navarro, Enrique Gustavo (2025, Universidad Nacional Agraria La Molina)
    La presente investigación desarrolla el proceso de especificación, estimación y validación de modelos de regresión multinivel o de efectos mixtos, utilizando las más modernas bibliotecas de software estadístico R, para estimar los principales efectos e interacciones de variables socioeconómicas que influyen en el rendimiento en comprensión lectora, matemática y ciencias y tecnología de estudiantes de segundo grado de secundaria en el Perú. Utiliza los datos, recopilados por el Ministerio de Educación del Perú, en el marco de la Evaluación Muestral 2022 (EM 2022), un examen que se aplicó a 123.948 estudiantes pertenecientes a 2.733 colegios. Se han ajustado varios modelos, para finalmente seleccionar uno que explica razonablemente bien la fuerza de las variables: sexo, lengua materna, índice socioeconómico del alumno, zona donde se ubica y el tipo de gestión del colegio al que asiste el alumno.
  • ItemOpen Access
    Análisis de correlación canónica aplicado a rasgos funcionales y clima en bosques pre-montanos de la cuenca del río Perené
    Romero Carranza, Jordan Cristopher (2024, Universidad Nacional Agraria La Molina)
    Evaluar las características de las especies que dominan ecológicamente un bosque permite entender de forma más completa la interacción entre estas y su entorno, es por ello que resulta necesario aplicar técnicas estadísticas que analicen grupos de variables morfológicas y anatómicas correspondiente a hojas y madera, respectivamente. En el presente estudio se evaluaron los rasgos funcionales de las especies más dominantes (área basal mayor al 80%) de seis parcelas permanentes ubicadas en las provincias Chanchamayo y Satipo, las cuales presentaron diferencias en altitud, precipitación y temperatura. El patrón más evidente se encontró en las parcelas ubicadas a mayor altitud y menor temperatura mínima y máxima anual, se presentaron hojas con mayor espesor mediano y menor área foliar específica mediana. Mediante el análisis de conglomerados se formaron cuatro grupos, los dos primeros presentaron características típicas de especies con estrategias conservativas, mientras que los otros dos presentaron estrategias adquisitivas para el uso de los recursos. Se determinó que los bosques con menor temperatura presentaron una mayor cantidad de especies con estrategias conservativas. Con el uso del análisis de correlación canónica se determinó que existe una correlación estadísticamente significativa entre las variables de los conjuntos de rasgos funcionales de hojas y madera. Los rasgos funcionales de hojas más importantes fueron contenido de materia seca y área foliar transformada, mientras que en los rasgos funcionales de madera fueron densidad básica de rama y diámetro de vasos.
  • ItemOpen Access
    Integración de modelos ISSM-TAM para e-learning sostenible desde un enfoque estructural bayesiano
    Córdova Ayala, Diego Alonso (2024, Universidad Nacional Agraria La Molina)
    El presente estudio tuvo como propósito general explicar las relaciones entre las variables latentes y observables de un sistema e-learning orientado a mejorar el desempeño académico de los estudiantes, integrando para ello los modelos ISSM y TAM en el proceso de aprendizaje electrónico sostenible, mediante modelos de ecuaciones de enfoque clásico PLS SEM, CB-SEM y bayesiano B-SEM. Los datos fueron tomados de una encuesta dirigida a estudiantes en el ciclo académico 2023-II de la Universidad Nacional Agraria La Molina (UNALM), el instrumento consideró 40 ítems, y utilizó una escala de Likert del 1 al 5, dicho cuestionario obtuvo valores aceptables de confiabilidad y se obtuvo validez de contenido por juicio de expertos. La muestra estuvo conformada por 767 encuestados empleando el método de raíz cuadrada inversa. En primera instancia, se aplicó el enfoque PLS-SEM, que luego fue comprobado mediante modelo de covarianzas CB-SEM, con el método de estimación de máxima verosimilitud extendido robusto y luego, con estimación bayesiana (B-SEM), que continuó con el análisis de trayectorias de cada modelo estructural, estimando así las relaciones planteadas para desempeño académico, utilidad percibida, satisfacción del estudiante, uso del sistema e-learning, calidad del instructor, calidad del contenido del curso, calidad del sistema educativo, calidad del servicio de soporte, sistema técnico de calidad, aprendizaje autorregulado, por último, se realizó un evaluación comparativa de desempeño empleando los indicadores RMSEA, SRMR, CFI y TLI, entre el modelo CB-SEM y modelos SEM bayesianos a priori difusos; referencial de Bernardo, uniforme de Bayes-Laplace y a priori especifico informativo, siendo este último el que presentó mejor ajuste frente al enfoque CB-SEM y al resto de modelos bayesianos, de esta manera se logró satisfactoriamente construir y validar los modelos de medida y modelo estructural del sistema e-learning sostenible y el desempeño académico, así como validar sus relaciones causales desde la perspectiva bayesiana.
  • ItemOpen Access
    Modelos de elección discreta logit y datos sintéticos generados con el algoritmo rose aplicados a valorar un bien público
    Villar Morales, Gesabel (2023, Universidad Nacional Agraria La Molina)
    El proceso de estimación del valor económico de un bien público, como son los servicios ambientales o la defensa nacional, se basa en la teoría del bienestar. Uno de los métodos de valoración económica más conocidos es denominado valoración contingente. En su aplicación, los encuestados responden una pregunta sobre su disposición a pagar (DAP), que refleja la máxima cantidad de dinero que un individuo pagaría por obtener un bien público. Este valor se estima usando un modelo de regresión logística binaria. Sin embargo, esta técnica tiene una seria limitación relacionada con la posibilidad de obtener sesgo hipotético, debido a la falta de honestidad en las respuestas, lo que produce un desbalance en las observaciones de los grupos definidos por la variable dependiente que indica la respuesta a la propuesta de realizar un pago por el acceso a un bien público. Este desequilibrio produce problemas en las etapas de estimación y evaluación de la precisión del modelo de clasificación. Se utilizaron datos de valoración contingente del Bosque Reservado de la Universidad Nacional Agraria de la Selva (BRUNAS), ubicado a 1,5 km de la localidad de Tingo María en Huánuco, para los cuales se calculó la DAP utilizando diferentes modelos, con el objetivo de valorar un bien público mediante modelos de regresión logística binaria estimados con grupos balanceados utilizando el algoritmo ROSE. En el primer modelo se aplicó un método de selección de variables mediante el Criterio de Información de Akaike (AIC), teniendo en cuenta el conjunto de datos original con grupos no balanceados. El segundo modelo se estimó luego de aplicar el algoritmo ROSE, que permite obtener datos sintéticos para equilibrar los grupos y tener aproximadamente la misma cantidad de respuestas negativas y positivas. Después de aplicar el algoritmo ROSE, el modelo obtenido logró una estimación más realista de la DAP y de su error estándar lo que resultó en intervalos de confianza con menor amplitud en comparación con el modelo inicial.
  • ItemOpen Access
    Clasificación de la eficiencia del gasto público en las regiones del Perú aplicando conglomerados de series temporales, 2007 - 2019
    Romero Cuadros, Italo Brayan (2022, Universidad Nacional Agraria La Molina)
    Esta investigación tiene como objetivo de determinar los patrones de clasificación del desempeño del sector público mediante la técnica de análisis conglomerados de series de tiempo a las regiones del Perú para el periodo 2007 – 2019. El desarrollo se realizó con los indicadores creados bajo la metodología de la frontera de posibilidades de producción y se evaluó la asociación a través del tiempo con el método de distancia de deformación del tiempo. El indicador utilizado para decidir el número de los conglomerados fue el de Silueta y Calinski. Entre los resultados más importantes se encontró que se mantiene un patrón que predomina entre las regiones que mejor usan los recursos y obtienen resultados idóneos donde resalta Moquegua, Ica y Lima mientras que otro grupo que mantiene fuertes tendencias a ser ineficientes en comparación como Ayacucho y Huancavelica. Finalmente, se observó una predominancia en las regiones que subdivide entre dos conglomerados y se mantiene tanto sectorial y global.
  • ItemOpen Access
    Factores que determinan la calidad de servicio y su relación con la satisfacción estudiantil universitaria estatal utilizando ecuaciones estructurales
    Chumpitaz Ramos, Domingo Guzmán (2021, Universidad Nacional Agraria La Molina)
    Los Modelos de Ecuaciones Estructurales (SEM), es una extensión de varias técnicas multivariantes, entre ellas el Análisis Factorial, se ha utilizado casi en todos los campos de estudio, principalmente en el área de la educación, esta técnica nos proporciona un método directo para tratar múltiples relaciones de variables observables y no observables. El objetivo principal de la investigación fue determinar la relación entre la calidad de servicios con los factores que la determinan (tales como la seguridad, fiabilidad, empatía, aspectos tangibles y capacidad de respuesta); y la satisfacción estudiantil universitaria utilizando Modelos de Ecuaciones Estructurales (SEM). En la investigación se diseñó un cuestionario en base al instrumento de calidad de servicio SERVQUAL relacionado a un modelo estructural teórico del autor Lobos y Sepúlveda. Se hizo un análisis de fiabilidad del cuestionario, y con el análisis factorial exploratorio se demostró su validez. Luego, se recolectó información de 158 estudiantes del Área de Ciencias Económicas y de la Gestión de la UNMSM. Para desarrollar la investigación se aplicó el Análisis Factorial Confirmatorio (AFC) y Modelos de Ecuaciones Estructurales (SEM). En el modelo estructural inicial, los constructos empatía y fiabilidad no fueron significativos, entonces se reespecificó el modelo con los índices de modificación. En el modelo estructural 2, las variables observadas X5, X6 y X12 no fueron significativas en los constructos de fiabilidad y empatía, por lo tanto se retiraron del modelo. En el modelo estructural reespecificado 3, empatía no fue significativo, entonces no fue considerado en el siguiente modelo. En el modelo estructural final los constructos de seguridad, fiabilidad y aspectos tangibles fueron significativos con un nivel de significancia de 0.05. La calidad de servicio esperada tiene una relación directa con la satisfacción estudiantil y, los constructos de seguridad, fiabilidad y aspectos tangibles están relacionados positivamente con la calidad de servicio esperada.
  • ItemOpen Access
    Influencia de la violencia contra las mujeres en la productividad laboral de microempresas utilizando ecuaciones estructurales con mínimos cuadrados parciales
    Asencios Gonzalez, Zaida Beatriz (2019, Universidad Nacional Agraria La Molina)
    En la presente investigacion, se empleo Modelos de Ecuaciones Estructurales con Minimos Cuadrados Parciales (PLS-SEM por sus siglas en ingles), es una tecnica de segunda generacion que utiliza metodos estadisticos para el analisis simultaneo de relaciones complejas entre dos a mas constructos latentes. Se aplico PLS-SEM con el objetivo principal de comprender como o por que medios la violencia contra las mujeres en relaciones de pareja (VcM, constructo o variable independiente) afecta a la productividad laboral (constructo o variable dependiente) medido en terminos de ausentismo y presentismo, y la explicacion de esta relacion es por medio del dano a la salud mental y fisica (constructo o variable mediadora). Para ello, se entrevistaron a 357 duenas de microempresas formales en 10 departamentos del Peru y a 977 duenas de microempresas informales o formales con acceso a credito en Paraguay, se aplico un cuestionario estructurado cuyas preguntas estuvieron medidas en escala ordinal. En el modelo de media, los resultados del PLS-SEM muestran que tanto en Peru y Paraguay los tres constructos analizados son validos y confiables, fundamentados por la fiabilidad compuesta, las cargas de los indicadores, la varianza extraida media (AVE), las cargas cruzadas, el criterios de Fornell Larcker y el Heterorrasgo-Monorrasgo (HTMT). En cuanto al modelo estructural, tanto en Peru como en Paraguay los hallazgos proporcionan evidencia empirica de que el dano a la salud mental y fisica explica la relacion entre VcM y productividad laboral. Por consiguiente, la presente investigación posee implicancias por la confirmacion del efecto mediador, la aplicacion de esta tecnica en este tipo de tematica y el desarrollo del marco teorico y practico del PLS-SEM.
  • ItemOpen Access
    Aplicación de los modelos de ecuaciones estructurales a las empresas del sector artesanal peruano
    Chafloque Cespedes, María Raquel (2019, Universidad Nacional Agraria La Molina)
    Los Modelos de Ecuaciones Estructurales con Mínimos Cuadrados Parciales (PLS – SEM, por sus siglas en inglés), son un método de segunda generación, con gran aceptación en la actualidad en el mundo académico, en especial en el área de ciencias empresariales. Asimismo, el enfoque de esta técnica es más robusto y flexible al momento de utilizarlo en variables no observables. La presente investigación muestra una aplicación del PLS – SEM dentro del área de ciencias empresariales, en un sector económico donde no existe evidencia empírica cuando se habla de estrategias de marketing y desempeño empresarial. La investigación tuvo como objetivo determinar la relación entre la orientación de mercado, la innovación del producto y el desempeño de las empresas en el sector artesanal peruano - periodo 2018 mediante la aplicación del PLS-SEM. Se aplicó una encuesta estructurada a 301 microempresas del sector artesanal, específicamente las que están en el rubro comercial, siendo estas las principales intermediarias entre el consumidor final y el productor. Se encontró que la orientación de mercado y la innovación del producto explican el 34.3% del desempeño de la empresa; así mismo la orientación de mercado se relaciona positivamente a la innovación del producto, y esta última variable se relaciona positivamente al desempeño de la empresa. Se concluye que la técnica de PLS – SEM es adecuada para ser aplicada a investigaciones de ciencias empresariales. Finalmente, se recomienda que se incremente la evidencia empírica con el fin de fomentar el uso de esta técnica estadística de segunda generación.
  • ItemOpen Access
    Comparación del pronóstico de riesgo de crédito utilizando regresión binaria asimétrica cloglog y perceptrón multicapa
    Valdivia Carbajal, Manuel (2019, Universidad Nacional Agraria La Molina)
    Esta tesis toma como caso de estudio a una empresa de cosméticos reconocida de la ciudad de Lima, Perú. Para pronosticar el riesgo de crédito se analizaron dos modelos: la Regresión Binaria Asimétrica Cloglog y las Redes Neuronales Artificiales Perceptrón Multicapa. La selección de estos modelos surge a raíz de recientes estudios que revelan las ventajas de las técnicas de inteligencia artificial sobre los modelos estadísticos en cuanto a predicción por su alta capacidad de discernimiento de patrones. “La empresa” cuenta con un modelo de negocio llamado Red Binaria, esto quiere decir que se contrata vendedoras y éstas ofrecen productos a sus clientes a través de catálogos. Debido a que no se cuenta con información de los clientes finales, se midió la probabilidad de no pago a través de las vendedoras. La población de estudio estuvo conformada por las vendedoras de la empresa las cuales manejan una cartera de clientes de 51183 personas a julio del 2017. Los datos se trataron previamente considerando el análisis de valores atípicos a nivel univariado y multivariado, este último mediante el algoritmo de segmentación K-means. Concluido ello para realizar la clasificación de vendedoras en buenas y malas pagadoras se utilizó un modelo de Redes Neuronales Artificiales Perceptrón Multicapa con una sola capa intermedia y un modelo de regresión Binaria sobre el cual se eligió el enlace asimétrico Cloglog debido a la naturaleza de los datos. Los resultados mostraron un 0.846 y 0.809 de índice ROC en las muestras de entrenamiento, y un 0.762 y 0.733 de índice ROC en las muestras de testeo respectivamente para cada modelo. Finalmente, se concluye que la aplicación de la técnica de Redes Neuronales Perceptrón Multicapa define una mejor regla de discriminación que la Regresión Binaria Asimétrica Cloglog en el estudio de probabilidad de impago. Además, las Redes Neuronales presentan mejores indicadores de pronóstico.
  • ItemOpen Access
    Equiparaciòn de puntuaciones en el examen de admisión de la Universidad Nacional Agraria La Molina utilizando los métodos lineal y equipercentil
    Rado Huaringa, Joao Manuel (2019, Universidad Nacional Agraria La Molina)
    En esta investigación se realizó la aplicación de los métodos de equiparación lineal y equipercentil a los puntajes obtenidos de los postulantes a los exámenes de admisión 2016-I y 2016-II de la Universidad Nacional Agraria La Molina. El desarrollo se realizó en las seis áreas que se evalúan en el examen de admisión: Razonamiento Verbal, Razonamiento Matemático, Matemática, Física, Química y Biología. El indicador utilizado para comparar ambos métodos fue el error estándar de equiparación. Entre los resultados más importantes se encontró que el método de equiparación lineal tuvo un mejor ajuste que el método equipercentil. Respecto a la dificultad de los exámenes de admisión, se obtuvo que el examen 2016-II presentó una mayor dificultad que el examen 2016-I. Finalmente, en relación a las seis áreas evaluadas en los exámenes, fue Matemática la que presentó una mayor dificultad en el examen de admisión 2016-II que en el 2016-I.
  • ItemOpen Access
    Modelo de ecuación estructural explicativo del rendimiento académico de los estudiantes del curso de estadística general en la UNALM
    Salazar Vega, Rolando Jesús (2019, Universidad Nacional Agraria La Molina)
    El propósito principal de la investigación fue comprobar si el rendimiento académico de los estudiantes en el curso de Estadística General de la Universidad Nacional Agraria La Molina (UNALM) es explicado a través de un modelo propuesto de Ecuación Estructural de tres factores. El primero denominado “desempeño docente”, medido por las variables: planificación del curso, dominio del curso, métodos y recursos de instrucción, obligaciones docentes, método evaluativo, y motivación e interacción con los alumnos; el segundo llamado “autoconcepto”, medido por las variables: académico/laboral, social, emocional, familiar y físico y finalmente el tercero “rendimiento pasado”, medido a través del promedio ponderado acumulado. Los datos utilizados corresponden a las notas de los alumnos matriculados en el ciclo académico 2014-I en el curso de Estadística General, al promedio ponderado acumulado; y los valores se registraron en la escala de Likert de 1 al 10 de las encuestas de desempeño docente y autoconcepto. Estos dos instrumentos, cumplen con los requisitos de confiabilidad y validez al registrar en ambos casos indicadores por encima de los mínimos aceptables. El modelo de ecuación estructural propuesto fue reespecificado (mejorado) mediante la inclusión de una nueva relación de interdependencia, el rendimiento pasado como predictor del autoconcepto. Se verificó el ajuste del modelo de ecuación estructural reespecificado a través de los principales indicadores de ajuste absoluto e incremental. Entre los resultados más importantes de la investigación se verificó que el factor rendimiento pasado es el mejor predictor del factor rendimiento académico de los estudiantes en el curso de Estadística General y que los factores desempeño docente y rendimiento pasado explican al factor autoconcepto.
  • ItemOpen Access
    Uso de los modelos heterocedásticos con Bootstrap en el análisis del Índice General de la Bolsa de Valores de Lima
    Orosco Gavilán, Juan Carlos (2019, Universidad Nacional Agraria La Molina)
    La presente investigación es de naturaleza aplicada, y tiene el objetivo de analizar y evaluar la metodología Bootstrap en modelos heterocedásticos aplicados en la predicción del Índice General de la Bolsa de Valores de Lima (IGBVL), periodo 2010 - 2014. Se presenta sucintamente, los conceptos básicos de series temporales, los procesos seriales heterocedásticos, la metodología Bootstrap y sus aplicaciones a la inferencia estadística y a las series temporales, donde se presenta el algoritmo para procesos heterocedásticos GARCH propuesto por Pascual et al. (2006) y generalizados para los modelos EGARCH y TGARCH. Con los procedimientos mostrados fueron obtenidas las predicciones mediante la metodología paramétrica y metodología Bootstrap, que fueron comparados con valores reales y finalmente fueron evaluados los desempeños de ambas metodologías. Del estudio se obtuvo que los modelos que mejor ajustan a la serie son los modelos ARMA(1,1)-GARCH(1,1), ARMA(1,1)-EGARCH(1,1) y ARMA(1,1)-TGARCH(1,1) cada uno de ellos con el supuesto de distribución t de Student con 5 grados de libertad de los residuales, el estudio comparativo mostró que la aplicación de la metodología Bootstrap en la serie de los retornos del Índice General de la Bolsa de Valores de Lima, permite obtener intervalos de predicciones con mayores e iguales amplitudes en algunos horizontes hacia adelante en comparación con la metodología paramétrica, y también permitió construir con un buen desempeño los intervalos de predicción para las volatilidades, así siendo esta una alternativa para la construcción de intervalos de predicción en los modelos GARCH, EGARCH y TGARCH.
  • ItemOpen Access
    Clasificación de especies forestales maderables de la Amazonía Peruana aplicando análisis Clúster con algoritmo Clara
    Montenegro Muro, Rolando Antonio (2018, Universidad Nacional Agraria La Molina)
    El bosque amazónico cuenta con una gran variedad de especies arbóreas, la cual se estima en cuatro mil especies. Unas pocas especies amazónicas enfrentan la desaparición por la alta demanda de su madera. Para reducir la presión sobre las especies demandadas y promover el uso de nuevas especies es necesario conocer sus características tecnológicas, principalmente, las características físico mecánicas. Debido a la gran cantidad de propiedades que encierran dichas características, se propuso estudiar a las especies con técnicas multivariadas, específicamente a través del análisis de conglomerados. Ello con la finalidad de agruparlas en función a la similitud que tengan en sus propiedades físicas y mecánicas. Así, se pueden agrupar especies poco conocidas en el mercado con especies muy demandadas y sugerir potenciales usos. Para el estudio presente se utilizó el algoritmo CLARA (Clustering Large Applications), el cual es empleado en grandes conjuntos de datos. Para seleccionar el número de conglomerados óptimo se probó hacer de dos hasta diez grupos; luego se comparó el ancho de la silueta promedio y el índice de Dunn por grupo y se eligió el de valores más altos. Se encontró que con un ancho de la Silueta promedio de 0,339 el número óptimo de conglomerados es de dos. El número de conglomerados indicado coincide con el análisis realizado a partir del índice de Dunn, el cual alcanza su más alto valor en 0,1264 con dos clústeres. Los conglomerados tuvieron como medóides a Guarea subridiflora (“requia de altura”) y Retrophyllum tospigliosii (“ulcumano). El primer conglomerado se caracterizó por tener propiedades mecánicas y físicas altas, de acuerdo a lo establecido por Aróstegui et al (1986). Por otro lado, el conglomerado de medóide “ulcumano” se caracterizó por tener propiedades físico mecánicas bajas, a excepción del clivaje, el cual resultó ser medio.
  • ItemOpen Access
    Detección de datos multivariados atípicos con series finitas de Fourier
    Rubio Donet, Jorge Luis (2018, Universidad Nacional Agraria La Molina)
    La presencia de observaciones atípicas en un conjunto de datos es una de las causas que generan distorsiones en el análisis. La detección de dichas observaciones puede ayudar a una correcta evaluación de las tendencias en el comportamiento de los datos. Para el caso de datos multivariados se han desarrollado diversos métodos que permiten la detección de comportamientos atípicos, basados en métodos gráficos, y otros asumiendo una distribución normal multivariada. No obstante, en muchos casos el supuesto de normalidad multivariada no se cumple. El presente trabajo propone una prueba no paramétrica basada en la aplicación del método Bootstrap, utilizando como indicador de similitud a las distancias entre las representaciones obtenidas con series finitas de Fourier, propuesta por Andrews. El método propuesto permite detectar datos multivariados atípicos, combinando la significación estadística de la prueba Bootstrap y el análisis gráfico sugerido por Andrews, y que puede ser también aplicado a datos medidos en una escala ordinal. El método fue aplicado a cuatro conjuntos de datos, encontrando resultados satisfactorios en todos los casos.
  • ItemOpen Access
    Comparación del análisis discriminante no métrico, árboles de clasificación Chaid y la regresión logística multinormal
    Sucari Sucari, Ruben Elvis (2018, Universidad Nacional Agraria La Molina)
    En la presente tesis se desarrolló el método de clasificación llamado Análisis Discriminante No Métrico, y se comparó su desempeño con el Árbol de Clasificación CHAID y la Regresión Logística Multinomial, los cuales también son métodos que no necesitan la condición de normalidad multivariada, linealidad ni varianza homogénea para las variables independientes. Esta comparación de desempeño fue evaluado mediante la Validación Cruzada. Para la realización del estudio comparativo de estos clasificadores se utilizó conjuntos de datos que son proporcionados por la Universidad de California Irving (UCI). Se concluye que la Regresión Logística Multinomial tiene mejor desempeño en la clasificación de datos teniendo en cuenta la tasa de clasificación promedio y el tiempo de procesamiento
  • ItemOpen Access
    Predicción de fuga de clientes en una empresa de telefonía utilizando el algoritmo Adaboost desbalanceado y la regresión logística asimétrica
    Meza Rodríguez, Aldo Richard (2018, Universidad Nacional Agraria La Molina)
    La presente investigación tiene como propósito aplicar y comparar el modelo de regresión logística y el algoritmo Adaboost en datos desbalanceados, esto a efecto de predecir la fuga de clientes en una empresa del sector de telefonía móvil. El algoritmo Adaboost se sustenta en el aprendizaje adaptativo al entrenar clasificadores débiles combinándolos en conjunto para obtener un clasificador cuyo rendimiento sea fuerte. En cuanto a la regresión logística su modelamiento se realizó estrictamente desde una perspectiva de minería de datos, donde la clasificación es el objetivo y el rendimiento se evaluó en un conjunto de validación. Ambas técnicas se compararon mediante dos procedimientos, el primero mediante métodos de muestreo (sub-muestreo, sobre-muestreo y SMOTE) y el segundo modificando y/o ajustando el algoritmo o función. Al trabajar con datos desbalanceados la tasa de error de clasificación es ineficiente, por lo que las medidas de desempeño para elegir al mejor modelo fueron la precisión, el recall (sensibilidad), el F-measure, y como medida principal el AUC a través de curvas ROC. Al formar modelos logísticos con los métodos de muestreo, las medidas de desempeño arrojaron resultados similares, lo mismo pasó al formar modelos con el algoritmo Adaboost, sin embargo al comparar la regresión logística (AUC=0.86) con el algoritmo Adaboost (AUC =0.93), este último tuvo el mejor desempeño. En cuanto al ajuste a nivel de algoritmo o función, en la regresión logística se trabajó de dos maneras, el primero (Logit Asym) incluyendo en la FDA un valor Kappa (k) y el segundo (Power Logit) un valor Lambda (λ), en ambos modelos se identificaron los valores óptimos de k (0.02) y λ (2.5), en cuanto al algoritmo Adaboost (Adaboost Asym) se ajustó el peso de la clase minoritaria cuyo costo de clasificación fue errónea. La comparación de estos tres modelos ajustados dio como mayor rendimiento al algoritmo Adaboost. Finalmente se realizó la validación cruzada con 10 iteraciones para todos los modelos dando resultados similares al método de retención. Realizada todas las comparaciones y las medidas de desempeño se concluye que el modelo óptimo para la predicción de fuga de clientes en la empresa de telefonía es el algoritmo Adaboost
  • ItemOpen Access
    Identificación de conglomerados en el grado de coautorias formado por las instituciones peruanas con investigación en medicina indizada en Scopus
    Málaga Sabogal, Lucía (2017, Universidad Nacional Agraria La Molina)
    Este estudio halló los grupos de investigación conformados por las instituciones peruanas con investigación en medicina indizada en Scopus en base a las coautorías. La información se descargó de Scopus en formato no estandarizado y se utilizó aprendizaje supervisado con k-medias y un conjunto de datos de entrenamiento, para la identificación de las instituciones involucradas. El procesamiento de los datos se hizo con R. Las instituciones identificadas se clasificaron en ocho categorías: universidades, institutos públicos de investigación, clínicas y hospitales, organismos y dependencias del gobierno nacional, organismos y dependencias del gobierno local, empresas, organizaciones internacionales con filiales en Perú, instituciones privadas sin fines de lucro; y dos sectores: público y privado. Posteriormente se identificó los conglomerados existentes utilizando la metodología de particionamiento jerárquico aglomerativo propuesta por Moore, Clauset y Newman e implementada en el paquete igraph en R. Se halló que las instituciones del sector salud tienden a colaborar con sus símiles pero que no existe relación entre el tipo y sector de la institución y los patrones de colaboración para otras instituciones