EPL-EI Tesis
Permanent URI for this collectionhttps://hdl.handle.net/20.500.12996/151
Browse
Recent Submissions
Item Open Access Diseño de un sistema electronico para soportar las adquisiciones y contrataciones públicasPalomino Monteagudo, Cesar Augusto (2010, Universidad Nacional Agraria La Molina)El estado peruano invierte más de 6,000 millones de dólares americanos al año en las adquisiciones y contrataciones, inversión que se realiza a través de alrededor de 2, 730 entidades públicas contratantes, provenientes del gobierno central, regional y local o municipal, las mismas que se encuentran distribuidas a lo largo y ancho del Perú. Es importante señalar que cerca del 60% del presupuesto de contrataciones se encuentra en Lima y el resto se distribuye en las demás regiones del país. En países de la región el uso de estos sistemas electrónicos de contratación aunados a modalidades nuevas como son la Subasta Inversa Electrónica y las compras o contrataciones a través de un catálogo electrónico de productos (Electronic Market Place), han dado márgenes de ahorro en la contratación que oscilan entre el 5% y 1 0% de sus presupuestos, más allá de que estos sistemas eliminan la necesidad de publicar en los diarios de circulación nacional los avisos de convocatorias, prórrogas, fe de erratas, buenas pro y/o declaratorias de desierto. Si aplicamos estas tasas promedio de ahorro para nuestro país podríamos estar hablando de ahorros que oscilarían entre los 3 00 y 600 millones de dólares que bien pueden ser utilizados u orientados para cubrir necesidades en los campos de educación, salud o seguridad. En tal sentido, es necesario que el estado peruano cuente con un sistema electrónico basado en Internet, que le permita a las entidades públicas contratantes realizar los procesos de contratación de manera electrónica, dándole a los procesos de selección transparencia, eficiencia y efectividad, además facilitando la implementación de nuevas modalidades de contratación, como las mencionadas anteriormente y sobre todo permitiendo que se ejerza un control de la ciudadanía sin limitaciones, pues toda la información de los procesos de contratación sería de acceso universal y gratuito. Por esto, el Perú no puede darse el lujo de no contar con un medio que permita hacer más transparente, efectiva y eficiente la ejecución de dichos fondos. En tal sentido el desarrollo del Sistema Electrónico de Adquisiciones y Contrataciones del Estado (SEACE) es el medio que más se acerca a garantizar la calidad del gasto y/o inversión en las contrataciones públicas. La versión actual del SEACE hasta mediados del 2009 ya contaba con más de nueve mil usuarios del sector público provenientes de todas las entidades públicas del país, y alrededor de cien mil usuarios del sector privado. Recíbe diariamente más de un millón de hits y su base de datos esta cercana a los dos terabytes. Es importante desatacar que para su desarrollo se utilizó una combinación de herramientas proveniente del desarrollo estructurado y de la orientación a objetos, tales como son los Casos de Uso, modelo de dominio y diagramas de clases, entre otros. El objetivo de esta monografía es mostrar los resultados técnicos del análisis y diseño del sistema electrónico de adquisiciones y contratacines del estado. Debo resaltar que gracias a la capacidad técnica y profesional, a la entrega y al esfuerzo de un grupo de trabajo multidisciplinario, se consiguió gradualmente su implantación en todo el aparato público y en todo el país.Item Open Access Análisis de la eficiencia de los algoritmos de encriptación RSA, DES, IDEA y AESVargas Campos, Kanebo (2002, Universidad Nacional Agraria La Molina)La encriptación o codificación se ha convertido en la técnica más segura, potente y eficiente para obtener confidencialidad así como la integridad y la disponibilidad de la información. A grandes rasgos se entiende que mantener la información segura (o fiable) consiste básicamente en garantizar tres aspectos: confidencialidad, integridad y disponibilidad. La confidencialidad nos dice que la información ha de ser accedidos únicamente por las personas autorizados a el; la integridad significa que la información sólo pueden ser modificados por las personas autorizados, y la disponibilidad indica que la información permanecer accesibles a las personas autorizados. Las técnicas o algoritmos de encriptación caen en el campo de la criptografía "Ciencia o técnica que permite proteger la información por medio de la aplicación de un método de encriptación". La criptografía tiene como base fundamental la matemática específicamente la aritmética modular, ya que nos permite entender los sistemas de codificación que utilizan los algoritmos para dar seguridad a la información. Por otro lado el criptoanálisis; es el estudio de las técnicas dedicadas a la obtención a partir de un texto encriptado el texto claro sin la debida autorización; es decir, trata de romper los criptosistemas (permite encriptar los mensajes de tal forma que una persona no autorizada no pueda desencriptar el mensaje) para apoderarse de la información encriptada. Los métodos de criptoanálisis más interesantes por sus resultados son: El análisis diferencial y el análisis lineal. A su vez la criptografía se divide en criptografía simétrica y asimetría. La criptografía simétrica utiliza una misma llave tanto para la encriptación como la desencriptación de la información; las técnicas simétricas estudiadas son; DES, IDEA Y AES. La criptografía asimétrica utiliza dos llaves; estas que son dependientes, una se utiliza para la encriptación y la otra para la desencriptación; la técnica asimétrica estudiada es el RSA. Para obtener la eficacia de cada algoritmo de encriptación estudiados se debe considerar sus respectivos parámetros de análisis, considerando estos parámetros al momento de la encriptación, entonces se obtendrán mensajes fuertemente encriptados. El algoritmo DES codifica mensajes de 64 bits de longitud con una clave de 64 bits. El algoritmo IDEA, codifica mensajes de 64 bits de longitud con una clave de 128 bits. El algoritmo AES, es muy variado en cuanto a la longitud de mensaje como de clave; 128, 196 ,256 bits de longitud. En el presente trabajo de tesis luego analizar la eficiencia; el algoritmo simétrico que brinda mayor seguridad y es considerado más potente por los diferentes conceptos que se utilizan en su proceso es el algoritmo AES, pero a la vez es el más complejo. Para el algoritmo RSA, se recomienda una clave de 1024 bits de longitud para garantizar la seguridad.Item Open Access Sistema de recomendación para rubros de consumo en una entidad financiera usando KNN RecommenderAllende Quintana, Ebson David (2024, Universidad Nacional Agraria La Molina)El presente trabajo de suficiencia profesional de Estadística e Informática se desarrolló con la información de un banco del sistema financiero peruano, banco que se ubica en los primeros lugares por su alta participación en la colocación de créditos directos en el sistema financiero peruano. Los directores orientaron sus esfuerzos y estrategias a transformar digitalmente al banco, en el proceso de transformación digital, uno de los pilares es la personalización de la comunicación con los clientes, comunicación tanto de ofertas como de beneficios, con la transformación digital, el banco mejoró en la aceptación de sus campañas (mejores ratios de efectividad de campañas), en la satisfacción de sus clientes (mayor NPS - Net Promote Score) y en la bancarización de más peruanos (crecimiento del 10% respecto al año anterior). El banco se apoyó en el uso de una herramienta estadística que le permitió direccionar sus acciones comerciales y de comunicación de manera personalizada. El rol que se desempeñó en el banco tuvo la misión de crear la herramienta estadística capaz de personalizar la comunicación de beneficios del banco a sus clientes, para lograrlo se desarrollaron las siguientes tareas: relevamiento de la problemática del negocio con los directores del banco, diagnóstico de la situación del negocio, mapeo de las fuentes de datos disponibles y necesarias para el desarrollo de la herramienta estadística, estructuración de las fuentes de datos, entrenamiento y validación del algoritmo de personalización KNN Recommender, medición del impacto al negocio, presentación al negocio y acompañamiento en la implementación de la solución en los sistemas digitales del banco.Item Open Access Clasificación de datos textuales provenientes de un streaming aplicando el método de representación de texto TF-IDF en una Regresión LogísticaFlores Cáceres, Fiorella Alexandra (2024, Universidad Nacional Agraria La Molina)El presente trabajo de investigación tuvo como finalidad implementar un modelo de regresión logística utilizando datos textuales transformados mediante el método de representación de texto TF-IDF, con el objetivo de clasificar comentarios de docentes en streamings de orientación sobre la estrategia Aprendo en Casa realizados por el Ministerio de Educación. El procedimiento de análisis se dividió en pre-procesamiento de los datos, análisis exploratorio de los datos, aplicación del método de representación de texto TF-IDF, estimación y evaluación del modelo; y clasificación de nuevos comentarios. Para la etapa de pre-procesamiento se realizó la limpieza y estandarización de los datos textuales de los comentarios; mientras que en el análisis exploratorio se obtuvieron indicadores descriptivos de los comentarios de cada categoría utilizando n-gramas. En la aplicación del método de representación de texto TF-IDF se elaboró la matriz documento-término a partir de la muestra de entrenamiento y se utilizó la prueba Chi Cuadrado para la selección de variables. En la estimación del modelo de clasificación se obtuvo el modelo final ajustado con los datos de entrenamiento provenientes de la matriz documento-término. Para la evaluación del modelo se aplicó el método TF-IDF a la muestra de prueba, a fin de obtener su matriz documento-término para realizar la clasificación y hallar los resultados de las métricas de evaluación, donde se consiguió una exactitud de 0.81. Posteriormente, se evaluó el modelo de clasificación mediante el método K-Fold de Validación Cruzada y se clasificaron nuevos comentarios. En base a los resultados de la presente investigación se concluye que la implementación del modelo desarrollado es adecuada.Item Open Access Estimar el capital económico basado en riesgos con los métodos de agregación de matrices de correlación y cópulasRau Campos, Selena Ana (2024, Universidad Nacional Agraria La Molina)En 2019, la Superintendencia de Banca, Seguros y AFP (SBS) propuso un nuevo modelo de solvencia, específicamente de capital basado en riesgos, con el objetivo de mantener una adecuada solvencia en las empresas de seguros, garantizando así que cuenten con los recursos suficientes para afrontar escenarios extremos de pérdidas. Para el cálculo de los capitales, la SBS, en calidad de ente regulador, planteó una metodología de agregación mediante matriz de correlación; sin embargo, las compañías de seguros deberían analizar otras alternativas de agregación para el cálculo de capital. Una metodología ampliamente utilizada para este fin es la agregación por cópulas, la cual se aplicó en este análisis (específicamente, la t-cópula). En ambas metodologías, se necesitó estimar las reservas matemáticas best estimate, incluidas en el pasivo de los estados financieros de la compañía. El beneficio de diversificación al utilizar la metodología de agregación de matrices de correlación fue de aproximadamente USD 516 000, mientras que para la agregación por t-cópulas fue de aproximadamente USD 532 000. Con estos resultados, se puede concluir que, a pesar de haber utilizado los mismos parámetros, la agregación por t-cópula permite obtener un mayor beneficio de diversificación para la empresa, liberando capital y permitiendo su empleo en inversiones con una rentabilidad esperada más alta.Item Open Access Construcción de un modelo de score para la evaluación de clientes potenciales en una entidad financieraCarrasco Reyes, Alessandra Stefany (2024, Universidad Nacional Agraria La Molina)El riesgo de crédito se encuentra dentro de las principales preocupaciones de las entidades financieras, por ello mantener una adecuada gestión es de vital importancia. Como parte de las estrategias definidas por las entidades se hace uso de análisis y modelos estadísticos para la admisión de clientes, generación de campañas, monitoreo de la calidad de cartera de clientes, manteniendo su apetito de riesgo. En el presente trabajo se describe la construcción de un modelo de score, específicamente, para clientes potenciales de una campaña crediticia de una entidad financiera, utilizando modelos Random Forest para la selección de variables y ajustando un modelo de Regresión Logística para la predicción de clientes morosos y no morosos. Dicho modelo logró una mejora de 14 puntos porcentuales en el indicador de Kolgomorov Smirnov en comparación con el modelo anterior de score.Item Open Access Validación del modelo estimador de ingresos para la banca minoristaCalisaya Mallco, Kenia Nora (2024, Universidad Nacional Agraria La Molina)El presente trabajo de suficiencia profesional, describe la evaluación de los controles de calidad de datos, la metodología de cálculo aplicada y los procedimientos de implementación de la Calibración del Modelo Estimador de Ingresos para Dependientes + RCC de la Banca Minorista; con el fin mitigar un incorrecto uso de la metodología y mejorar los modelos; además de cumplir con las normas que exige la Política de Gestión de Riesgos basados en las mejores prácticas conforme lo exige la Norma Internacional para la Práctica Profesional de la Auditoría Interna. Para ello, se revisaron el adecuado funcionamiento de los controles de calidad, se realizó la réplica del modelo machine learning basado en árboles llamado XGBoost. Utilizando los softwares SQL, SAS y Rstudio. En ese sentido, se concluye que el modelo cumple con los estándares establecidos por las mejores prácticas, en auditoría de Validación a la implementación. Además, dicho modelo fue implementado de forma adecuada siguiendo los lineamientos definidos por las unidades del banco; sin embargo, en los procedimientos metodológicos de la implementación del modelo se encontraron deficiencias, los mismos que fueron comunicados y subsanados por las áreas o unidades correspondientes.Item Open Access Clasificación de clientes potenciales de un operador telefónico contactados por un call center utilizando regresión logística y adaboostingLuque Carbajal, Rosario Del Pilar (2024, Universidad Nacional Agraria La Molina)El presente trabajo monográfico busca demostrar que, para los datos empleados en la realización de la investigación, el algoritmo adaboosting presenta mejores resultados en la clasificación de clientes potenciales de un call center a diferencia de la regresión logística. Sin embargo, no se busca determinar que un algoritmo sea mejor que el otro, sino comprobar que, dada las características de las variables independientes, un algoritmo puede presentar mejores resultados y viceversa. Se utiliza una solución analítica avanzada que parte desde el análisis descriptivo de las variables, selección de variables, imputación de los datos y modelamiento predictivo, validación de los resultados en el tiempo; hasta la puesta en marcha a partir de los grupos de ejecución que permiten el despliegue y acción sobre los resultados obtenidos dado el trabajo desarrollado, exactitud del adaboosting 86% y exactitud de la regresión logística 78%.Item Open Access Segmentación de clientes digitales del ecommerce de una empresa del sector retail con algoritmos de análisis clusterCaycho Huamaní, Lucila Noemí (2024, Universidad Nacional Agraria La Molina)Las empresas del sector retail cuentan no solo con canales de venta física sino también con canales de venta digital que permiten llegar a cualquier usuario con conexión a internet de forma sencilla, segura y directa para cubrir alguna necesidad, ya sea de consumo, de educación, de entretenimiento, de salud, etc. La empresa del sector retail en la cual me baso en el presente documento no fue la excepción, ya que en el período posterior al COVID-19, tuvo que repotenciar su canal de venta digital (ecommerce) de forma ágil, para continuar siendo una de las empresas con mayor presencia en el mercado peruano. En la gerencia de Ecommerce, dentro de la dirección de Marketing, tenemos como objetivo principal brindar una excelente experiencia omnicanal de nuestros clientes, mediante la explotación de la información y experimentación constante. Nosotros consolidamos toda la información que recabamos de las plataformas de publicidad (como Facebook Ads, Google Ads, etc.), las plataformas de analítica digital (cómo Google Analytics, Hotjar, Google Optimize), las plataformas administradoras de activos digitales (cómo VTEX,), para convertirlos en insights que ayuden a la toma de decisiones. En el presente trabajo se presentará un proyecto que tiene como objetivo armar una estrategia de CRM en base a la identificación de segmentos de los clientes digitales de productos de consumo masivo mediante el uso de algoritmos estadísticos. En una primera fase se consideró todo el proceso ETL que permite disponibilizar los datos de manera limpia y ordenada para luego realizar el análisis de clusterización mediante el algoritmo K-Means en el software gratuito R. Se identificaron 3 segmentos de clientes, a los cuáles se les comunicaron beneficios y ofertas afines a sus preferencias, logrando aumentar las redenciones, así como las interacciones con los canales de comunicación.Item Open Access Predicción de ventas de departamentos en el distrito de Miraflores de una empresa inmobiliaria de lima utilizando el modelo de ensamble por mediasCruz Paredes, Gabriela Pilar (2024, Universidad Nacional Agraria La Molina)El mercado inmobiliario es un indicador de desarrollo importante en la economía de los países, cuyos principales factores que afectan a este mercado son los económicos y financieros, pero también los políticos pesan mucho, además de las condiciones propias de cada mercado. En el Perú, la situación del mercado inmobiliario fue afectado por la pandemia del COVID19 debido a la paralización de obras de construcción atrasando la entrega de los inmuebles, firmas de minutas con clientes, desembolsos crediticios y otros factores más, razones por la cual empresas del rubro inmobiliario empezaron a cambiar sus estrategias para llegar al cliente final. A pesar de la coyuntura, el mercado inmobiliario ha sido uno de los mercados resilientes, pues la necesidad de vivienda sigue siendo de importancia para las personas, sea para uso propio o para generar otros ingresos. En el presente trabajo se utilizó el modelo de ensamble de medias para estimar las futuras ventas de inmuebles dentro del distrito de Miraflores, el cual primero se usaron el Modelo ARIMA, Modelo de regresión lineal múltiple y por último la combinación de resultados de los modelos por la media simple. Con el método de ensamble por medias se obtuvo un valor de predicción del 85% para las ventas estimadas de departamentos en el distrito de Miraflores, el cual permitirá tomar decisiones en la empresa como continuar invirtiendo en mejorar sus sistemas de marketing, canales de ventas, inversión en terrenos, etc.Item Open Access Identificación de los hábitos de uso y actitudes hacia los productos para la belleza facialRomero Cuadros, Carlos Manuel (2023, Universidad Nacional Agraria La Molina)En el presente informe, que comprende el trabajo realizado en una empresa de investigación de mercados, parte de entender las actitudes y hábitos de las mujeres con respecto a la belleza en nuestra sociedad actual, el rol de los anuncios publicitarios y cómo éstos forman parte reforzando el estereotipo de la “mujer bella” y construye una imagen social a través del consumo de productos cosméticos y la práctica de hábitos que la ayudarán a mantenerse joven. Para poder responder a los objetivos planteados, y después de haber realizado todo el proceso de investigación de mercados, se obtuvieron los resultados aplicando principalmente técnicas estadísticas de tipo descriptivo que se citan en (3.2) Conceptos aplicados. Por otro lado, se describe los procedimientos realizados dentro de la empresa de investigación de mercados y se detalla el análisis y la contribución en las soluciones de las problemáticas y el nivel de beneficio obtenido.Item Open Access Predicción de renuncia voluntaria de colaboradores con perfil tecnológico de una entidad financiera utilizando regresión logística binariaRomero Montoya, Renzo Rubén (2023, Universidad Nacional Agraria La Molina)Las entidades financieras necesitan estar a la vanguardia de la tecnología para poder competir contra otras organizaciones del mismo rubro, por lo cual es fundamental no perder y retener a los colaboradores con perfiles tecnológicos, ya que ello significaría una gran pérdida de conocimientos y dinero, lo que pondría en riesgo la continuidad del negocio. Una forma de prever estas posibles pérdidas es mediante técnicas estadísticas como la regresión logística. En el presente trabajo de suficiencia profesional se describe la manera en la que se aplicó la regresión logística apoyándose en la metodología CRISP, para así obtener una clasificación correcta del 60% en la ocurrencia trimestral de la decisión de renunciar del colaborador con perfil tecnológico y reducir su indicador de rotación voluntaria trimestral hasta casi un 1.5%.Item Open Access Diseño e implementación de un sistema de información de gestión y administración de la clínica BilbaoCaceres Neira, Jack Paul (2023, Universidad Nacional Agraria La Molina)En los centros de salud ya sea hospitales, clínicas, postas médicas, etc. Existe gran afluencia de personas para distintos tipos de observaciones ya sea para sus controles de salud, si están accidentados, embarazos entre otros y así saber que si tendría algún tipo cuidado para que pueda mantener una salud estable. Se debe tener en cuenta que estas intervenciones generan datos que se deben archivar como “Historias clínicas” para las consultas de los diagnósticos que a los pacientes habríantenido en cada ingreso al centro de salud. Estos documentos se almacenaban en físico provocando así el uso de grandes almacenes, deterioro de las hojas con el paso del tiempoy consulta de estas generando el malestar de los médicos, administrativos e incluso de los pacientes al solicitar dichas historias. Actualmente las historias clínicas tienen un mejor tratamiento debido a que la tecnología ha evolucionado logrando así el uso sistematizado he incluso almacenado de una manera más sencilla que no se necesite dichos espacios que anteriormente se almacenaban. Esto está acompañado con una interfaz amigable y de manejo sencillo para digitar todos los datos necesarios y no solo el almacenamiento de historias clínicas, si no también aspectos del centro de salud como listado del personal, listado de los ambientes y otros. En este documento se presentará el cambio que la clínica Bilbao tuvo desde cómo se desarrollaba en los procesos internos de la clínica antes de la implementación del sistema y como esta mejoró en muchos aspectos para bien del centro de salud.Item Open Access Comparación de los modelos de regresión poisson y binomial negativo para datos de conteoGamboa Unsihuay, Jesús Eduardo (2013, Universidad Nacional Agraria La Molina)El objetivo de esta investigación es presentar y comparar modelos de regresión Poisson y Binomial Negativo, en el contexto de sobredispersión, desde su enfoque clásico, inflado en cero y hurdle, para lo cual, en base a la revisión de literatura, se propone una metodología de comparación que se resume en: análisis exploratorio, selección de variables para construir el modelo, interpretación de coeficientes estimados, indicadores de bondad de ajuste y la comparación entre los modelos haciendo uso de la prueba de Vuong y el AIC. En la primera aplicación se recolectaron variables sobre consumo de cigarros en alumnos ingresantes a la UNALM en el semestre 2012-I, siendo la variable respuesta el número de cigarros consumidos semanalmente. Los modelos con mejor ajuste fueron el modelo binomial negativo, Poisson inflado en cero y hurdle Poisson, mediante los cuales se determinó que el consumo regular de bebidas alcohólicas, el entorno de compañeros y la edad del ingresante son los principales factores de riesgo en el consumo de cigarros. En la segunda aplicación se consideró una data disponible en internet, acerca de la tasa de peces capturados en un lago estatal de Estados Unidos. Los modelos con mejor ajuste fueron los modelos binomial negativo clásico, inflado en cero y hurdle, los cuales indicaron que el número de acompañantes y acudir al lago en casa rodante incrementan la tasa de peces capturados por pescador. En base a los resultados se concluye que la sobredispersión está presente en ambas aplicaciones y el modelo Poisson no resulta adecuado en esos casos, sin embargo no se puede presentar un único mejor modelo alternativo sino que, en la práctica, debe optarse por aquel que brinde un buen ajuste con la menor cantidad de variables predictoras y además de ello, que permita interpretar los resultados según los objetivos del investigador.Item Open Access Aplicación del diseño muestral bietápico en la Encuesta Nacional a Instituciones Educativas – ENEDU 2021Ordóñez López, Ruby Emirida (2022, Universidad Nacional Agraria La Molina)El Instituto Nacional de Estadística e Informática viene realizando la Encuesta Nacional a Instituciones Educativas (ENEDU) en el Perú, desde los años 2009 – 2019 y 2021, con la finalidad de obtener información para estimar indicadores que permitan evaluar la aplicación del Programa Logros de Aprendizaje de los Estudiantes de la Educación Básica Regular (EBR), la cual se viene implementando en las instituciones educativas públicas en los niveles de inicial, primaria y secundaria, y servir de base para el diseño y orientación de políticas educativas que permitan el mejoramiento de los logros de aprendizaje. Los procesos utilizados para el diseño muestral constan de seis pasos: el primero fue la definición de la población, que son las instituciones educativas públicas escolarizadas de nivel inicial, primaria y secundaria de la Educación Básica Regular ubicadas en las 26 regiones del país. El segundo fue la identificación del marco muestral la cual fue dividido en 6 grandes estratos a nivel de área geográfica (urbana y rural) y de nivel educativo (inicial, primaria y secundaria). El tercero fue la determinación del método de muestreo para el estudio se realizó un muestreo bietápico, estratificado y de selección independiente en cada estrato. El cuarto fue la determinación del tamaño de muestra siendo un total de 11 279 instituciones educativas, por nivel educativo se tiene: en inicial 4 079, primaria 4 386 y secundaria 2 814 instituciones educativas. El quinto fue la selección del material de la muestra la cual consta de 2 etapas, en la primera etapa se seleccionaron instituciones educativas con un diseño muestral proporcional al tamaño (PPT) y sistemático, y en la segunda etapa la selección de secciones, área curricular y ambientes pedagógicos con un muestreo sistemático simple. El sexto paso es la decisión sobre el tratamiento más adecuado a la falta de respuesta por parte de las personas encuestadas, para ello se tiene que equilibrar la falta de respuesta ajustando las ponderaciones de la muestra.Item Open Access Segmentación de clientes potenciales del sector inmobiliario en Lima MetropolitanaPiedra Paravicino, Carlos Armando (2022, Universidad Nacional Agraria La Molina)Partiendo que, en los negocios el cambio es algo que se da en el día a día y no se puede utilizar siempre las mismas estrategias, esta sería la razón por la que el cliente cuyo negocio se centra en el rubro inmobiliario, presenta un estancamiento en el ritmo de ventas. El cliente consciente que su esquema comercial no le viene dando los resultados esperados, solicita a la empresa de investigación realizar un estudio de mercado, con el fin de conocer más a su cliente objetivo y establecer las estrategias de comunicación. El presente trabajo aborda el desarrollo de una metodología de segmentación de clientes potenciales cuyo denominador común es la búsqueda de una vivienda propia, la información es recogida a través de una encuesta en la cual se utilizan variables cuantitativas y cualitativas. Una vez recogida la información y contando con la base de respuestas se trabajó el análisis clúster, comparando con el algoritmo k-means y vecinos más cercanos, optando finalmente por el primer algoritmo. Para el procesamiento de datos y ejecución de la metodología se utilizó el software R. Finalmente, se eligieron cuatro agrupaciones las cuales permitieron ofrecer a los clientes una comunicación más a medida, lo cual otorgó una ventaja para los clientes que obtuvieron una oferta más acorde a sus necesidades.Item Open Access Mejora del indicador de retención en una universidad privada a partir de la clasificación de alumnos utilizando un modelo predictivoUribe Mostacero, Jean Pierre (2022, Universidad Nacional Agraria La Molina)La presente investigación tiene propósito predecir la deserción estudiantil de una universidad privada, aplicando dos técnicas de la minería de datos la regresión logística binaria y árbol de clasificación CART. Para el estudio se utilizó datos la base de datos de alumnos en los periodos 2019-2 con 32176 registros con datos relacionados a factores socio-demográfica, académicos y económicos. Se aplicó el balanceo de datos con la técnica de submuestreo a fin de mejorar la capacidad predictiva. El árbol de clasificación CART resultó con mayores valores para la exactitud, sensibilidad, especificidad y AUC de 73,8%, 97,3%, 50,3% y 73,8% respectivamente para predecir la deserción universitaria en comparación de la regresión logística binaria cuyos valores fueron 66,4%, 71,2%, 65,8% y 72,4% respectivamente. El árbol resultó identificó las variables más importantes: TAS_NOM_A, TAS_NOM_P, SEDE, TAS_ASI_A; con un tamaño de 13 nodos, con siete nodos terminales, de los cuales tres para predecir la clase SI y cuatro para la clase NO; así mismo, obtuvo cuatro reglas de decisión asociadas a la clase que no se matriculan.Item Open Access Factores determinantes en el peso del recién nacido de madres adolescentes en lima a través de la regresión logística multinomialTapia Alva, Juana Rafaela (2022, Universidad Nacional Agraria La Molina)Dentro de los problemas más determinantes en la salud pública en los países subdesarrollados es la mortalidad neonatal que se presenta en mayor frecuencia en los nacidos con bajo peso (BPN) y la desnutrición crónica. El presente trabajo tiene como objetivo principal identificar los factores que determinan el peso del recién nacido de madres adolescentes que han dado a luz en los establecimientos de salud que se encuentran en Lima a través de la regresión logística multinomial, técnica usada con frecuencia en el área de salud. El modelo considera una variable dependiente, el peso del recién nacido el cual es de naturaleza categórica con 3 clases o categorías: bajo peso; peso normal y macrosómico; y variables independientes cuantitativas y cualitativas. El modelo de regresión logístico determina como factores influyentes la duración del embarazo, la condición del parto (normal, cesárea u otro), el nivel educativo de la madre, el sexo del recién nacido, así como el número de abortos que tuvo la madre.Item Open Access Segmentación RFM de clientes de un programa de fidelización en una empresa retail con el algoritmo de análisis clúster PAMDiez Rios, Alonso Armando (2022, Universidad Nacional Agraria La Molina)Las empresas enfrentan el desafío de manejar gran cantidad de datos, aprovecharlos y transformarlos en información valiosa que generen insights relevantes para toma de decisiones y alinear la estrategia. Una de las técnicas más utilizadas ha sido el análisis de agrupamiento en biología, ingeniería, psicología, y otras disciplinas, pero donde habría resultado de mayor utilidad es en los negocios, específicamente en investigación de mercados, desde la segmentación de clientes, identificación de hábitos de compra y otros. Así, la empresa de retail de la que se trata en este trabajo, opera bajo un enfoque centrado en el cliente, por lo cual busca mayor entendimiento del mismo, aprovechando los datos que dispone. El área de Inteligencia de Negocios es responsable del tratamiento y análisis de datos, proponiendo una segmentación RFM con un análisis clúster, que permitió agrupar a un conjunto de clientes objetivo para la empresa, para entenderlos mejor y sirvió como insumo para el programa de fidelización que la empresa lanzó. El algoritmo aplicado para el agrupamiento fue el PAM, que consiste en un proceso de partición iterativo similar al algoritmo k-means, pero que utiliza como centroide la mediana y no la media, haciendo al PAM más robusto ante valores atípicos. El algoritmo se basa en minimizar la suma de las diferencias entre una observación y la mediana. El análisis y procesamiento de datos se realizó con el software R-Studio, y se obtuvieron 3 grupos que describen como se comportan transaccionalmente los clientes objetivo de la empresa. Los segmentos fueron denominados Vip (clientes Top), Plus (clientes intermedio) y Regular (de menor rendimiento), ordenados jerárquicamente. Estos segmentos le sirvieron a la empresa para entender el comportamiento de estos clientes, sentando las bases para el programa de fidelización.Item Open Access Selección de atributos por métodos de filtrado y wrapper para predecir la satisfacción de usuarios de saludAncajima Bohórquez, Edgar Fernando (2022, Universidad Nacional Agraria La Molina)Las técnicas de minería de datos (TMD) usadas para el aprendizaje supervisado, generalmente deben considerar un gran número de atributos en las bases de datos a ser analizadas, y muchos de estos atributos son irrelevantes y redundantes que pueden distorsionar el rendimiento y la funcionalidad de estas técnicas, y por lo tanto su capacidad predictiva. Las investigaciones sobre el tema de la selección de atributos, mencionan que, al seleccionar un número menor de atributos del conjunto total, puede traer una serie de ventajas: reducir la redundancia, eliminar el ruido, maximizar la relevancia de los atributos, disminuir costo computacional, aumentar la interpretación y mejorar la precisión del clasificador de aprendizaje supervisado. El objetivo es presentar los métodos de selección de atributos por filtrado y Wrapper que pueden ser aplicadas en las técnicas de minería de datos supervisadas para la tarea de clasificación, consiguiendo los mejores subconjuntos de atributos relevantes con las mayores tasas de precisión. Se aplican cuatro métricas para seleccionar los atributos por filtrado (Chi-Cuadrado, Ganancia de información, Razón de ganancia y Relief) y cuatro métodos por Wrapper (Best-First, Greedy forward, Greedy backward y Hill climbing) en la Encuesta Nacional de Satisfacción de Usuarios de Salud–2015. Los resultados aplicando cuatro TMD a cada uno de los diferentes subconjuntos de atributos seleccionados con los métodos de por filtrado y wrapper, mostraron con las mayores capacidades predictivas para predecir la satisfacción de los usuarios de la atención recibida de los servicios de salud, en el caso de la regresión logística binaria el método wrapper Best-First con 5 atributos y una precisión del 88,7%, el árbol de clasificación C5.0 con wrapper Greedy forward con 6 atributos y una precisión del 89,1%, la redes bayesianas Naive con wrapper Greedy backward con 16 atributos y una precisión del 88,3% y el multiclasificador random Forest con wrapper Greedy backard con 16 atributos y una precisión del 93,0%. Los mayores AUC para la regresión logística binaria fue con el método Greedy forward con 0,932, el árbol de clasificación C5.0 con Greedy forward con 0,891, la rede bayesianas Naive con wrapper Greedy forward con 0,9221 y el multiclasificador random Forest con Greedy backard con 0,941.