Clasificación de datos textuales provenientes de un streaming aplicando el método de representación de texto TF-IDF en una Regresión Logística

dc.contributor.advisorPorras Cerrón, Jaime Carlos
dc.contributor.authorFlores Cáceres, Fiorella Alexandra
dc.date.accessioned2024-07-24T16:29:14Z
dc.date.available2024-07-24T16:29:14Z
dc.date.issued2024
dc.descriptionUniversidad Nacional Agraria La Molina. Facultad de Economía y Planificación. Departamento Académico de Estadística e Informáticaes_PE
dc.description.abstractEl presente trabajo de investigación tuvo como finalidad implementar un modelo de regresión logística utilizando datos textuales transformados mediante el método de representación de texto TF-IDF, con el objetivo de clasificar comentarios de docentes en streamings de orientación sobre la estrategia Aprendo en Casa realizados por el Ministerio de Educación. El procedimiento de análisis se dividió en pre-procesamiento de los datos, análisis exploratorio de los datos, aplicación del método de representación de texto TF-IDF, estimación y evaluación del modelo; y clasificación de nuevos comentarios. Para la etapa de pre-procesamiento se realizó la limpieza y estandarización de los datos textuales de los comentarios; mientras que en el análisis exploratorio se obtuvieron indicadores descriptivos de los comentarios de cada categoría utilizando n-gramas. En la aplicación del método de representación de texto TF-IDF se elaboró la matriz documento-término a partir de la muestra de entrenamiento y se utilizó la prueba Chi Cuadrado para la selección de variables. En la estimación del modelo de clasificación se obtuvo el modelo final ajustado con los datos de entrenamiento provenientes de la matriz documento-término. Para la evaluación del modelo se aplicó el método TF-IDF a la muestra de prueba, a fin de obtener su matriz documento-término para realizar la clasificación y hallar los resultados de las métricas de evaluación, donde se consiguió una exactitud de 0.81. Posteriormente, se evaluó el modelo de clasificación mediante el método K-Fold de Validación Cruzada y se clasificaron nuevos comentarios. En base a los resultados de la presente investigación se concluye que la implementación del modelo desarrollado es adecuada.es_PE
dc.description.abstractThe purpose of this research work was to implement a logistic regression model using transformed textual data using the TF-IDF text representation method, with the aim of classifying teacher comments in guidance streamings on the “Aprendo en Casa” strategy carried out by the Ministry of Education. The analysis procedure was divided into data preprocessing, exploratory data analysis, application of the TF-IDF text representation method, model estimation and evaluation; and classification of new comments. For the preprocessing stage, the textual data of the comments were cleaned and standardized; while in the exploratory analysis, descriptive indicators of the comments of each category were obtained using n-grams. In the application of the TF-IDF text representation method, the document-term matrix was created from the training sample and the Chi-Square test was used for variable selection. In the estimation of the classification model, the final model adjusted with the training data from the document-term matrix was obtained. To evaluate the model, the TF-IDF method was applied to the test sample, in order to obtain its document-term matrix to perform the classification and find the results of the evaluation metrics, where an accuracy of 0.81 was achieved. Subsequently, the classification model was evaluated using the K-Fold Cross-Validation method and new comments were classified. Based on the results of this research, it is concluded that the implementation of the developed model is adequate.es_PE
dc.formatapplication/pdfes_PE
dc.identifier.urihttps://hdl.handle.net/20.500.12996/6638
dc.language.isospaes_PE
dc.publisherUniversidad Nacional Agraria La Molinaes_PE
dc.publisher.countryPEes_PE
dc.rightsinfo:eu-repo/semantics/openAccesses_PE
dc.rights.urihttps://creativecommons.org/licenses/by-nc/4.0/es_PE
dc.subjectTokenizaciónes_PE
dc.subject.ocdehttps://purl.org/pe-repo/ocde/ford#4.05.00es_PE
dc.titleClasificación de datos textuales provenientes de un streaming aplicando el método de representación de texto TF-IDF en una Regresión Logísticaes_PE
dc.typeinfo:eu-repo/semantics/bachelorThesises_PE
dc.type.versioninfo:eu-repo/semantics/publishedVersiones_PE
renati.advisor.dni07511794es_PE
renati.advisor.orcidhttps://orcid.org/0000-0001-9805-8785es_PE
renati.author.dni47596310es_PE
renati.discipline542026es_PE
renati.jurorValencia Chacón, Raphael Félix
renati.jurorSoto Rodríguez, Iván Dennys
renati.jurorMenacho Chiok, César Higinio
renati.levelhttps://purl.org/pe-repo/renati/level#tituloProfesionales_PE
renati.typehttps://purl.org/pe-repo/renati/type#tesises_PE
thesis.degree.disciplineEconomía y Planificaciónes_PE
thesis.degree.grantorUniversidad Nacional Agraria La Molina. Facultad de Economía y Planificaciónes_PE
thesis.degree.nameIngeniero Estadístico Informáticoes_PE

Files

Original bundle

Now showing 1 - 3 of 3
Loading...
Thumbnail Image
Name:
flores-caceres-fiorella-alexandra.pdf
Size:
4.65 MB
Format:
Adobe Portable Document Format
Description:
Texto completo
Name:
originalidad.pdf
Size:
18.18 MB
Format:
Adobe Portable Document Format
Description:
Informe originalidad
Name:
autorizacion.pdf
Size:
1.43 MB
Format:
Adobe Portable Document Format
Description:
Autorizacion

License bundle

Now showing 1 - 1 of 1
Name:
license.txt
Size:
1.63 KB
Format:
Item-specific license agreed upon to submission
Description:

Collections