Clasificación de datos textuales provenientes de un streaming aplicando el método de representación de texto TF-IDF en una Regresión Logística

dc.contributor.advisorPorras Cerrón, Jaime Carlos
dc.contributor.authorFlores Cáceres, Fiorella Alexandra
dc.date.accessioned2024-07-24T16:29:14Z
dc.date.available2024-07-24T16:29:14Z
dc.date.issued2024
dc.descriptionUniversidad Nacional Agraria La Molina. Facultad de Economía y Planificación. Departamento Académico de Estadística e Informática
dc.description.abstractEl presente trabajo de investigación tuvo como finalidad implementar un modelo de regresión logística utilizando datos textuales transformados mediante el método de representación de texto TF-IDF, con el objetivo de clasificar comentarios de docentes en streamings de orientación sobre la estrategia Aprendo en Casa realizados por el Ministerio de Educación. El procedimiento de análisis se dividió en pre-procesamiento de los datos, análisis exploratorio de los datos, aplicación del método de representación de texto TF-IDF, estimación y evaluación del modelo; y clasificación de nuevos comentarios. Para la etapa de pre-procesamiento se realizó la limpieza y estandarización de los datos textuales de los comentarios; mientras que en el análisis exploratorio se obtuvieron indicadores descriptivos de los comentarios de cada categoría utilizando n-gramas. En la aplicación del método de representación de texto TF-IDF se elaboró la matriz documento-término a partir de la muestra de entrenamiento y se utilizó la prueba Chi Cuadrado para la selección de variables. En la estimación del modelo de clasificación se obtuvo el modelo final ajustado con los datos de entrenamiento provenientes de la matriz documento-término. Para la evaluación del modelo se aplicó el método TF-IDF a la muestra de prueba, a fin de obtener su matriz documento-término para realizar la clasificación y hallar los resultados de las métricas de evaluación, donde se consiguió una exactitud de 0.81. Posteriormente, se evaluó el modelo de clasificación mediante el método K-Fold de Validación Cruzada y se clasificaron nuevos comentarios. En base a los resultados de la presente investigación se concluye que la implementación del modelo desarrollado es adecuada.
dc.description.abstractThe purpose of this research work was to implement a logistic regression model using transformed textual data using the TF-IDF text representation method, with the aim of classifying teacher comments in guidance streamings on the “Aprendo en Casa” strategy carried out by the Ministry of Education. The analysis procedure was divided into data preprocessing, exploratory data analysis, application of the TF-IDF text representation method, model estimation and evaluation; and classification of new comments. For the preprocessing stage, the textual data of the comments were cleaned and standardized; while in the exploratory analysis, descriptive indicators of the comments of each category were obtained using n-grams. In the application of the TF-IDF text representation method, the document-term matrix was created from the training sample and the Chi-Square test was used for variable selection. In the estimation of the classification model, the final model adjusted with the training data from the document-term matrix was obtained. To evaluate the model, the TF-IDF method was applied to the test sample, in order to obtain its document-term matrix to perform the classification and find the results of the evaluation metrics, where an accuracy of 0.81 was achieved. Subsequently, the classification model was evaluated using the K-Fold Cross-Validation method and new comments were classified. Based on the results of this research, it is concluded that the implementation of the developed model is adequate.
dc.formatapplication/pdf
dc.identifier.urihttps://hdl.handle.net/20.500.12996/6638
dc.language.isospa
dc.publisherUniversidad Nacional Agraria La Molina
dc.publisher.countryPE
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rights.urihttps://creativecommons.org/licenses/by-nc/4.0/
dc.subjectTokenización
dc.subject.ocdehttps://purl.org/pe-repo/ocde/ford#4.05.00
dc.titleClasificación de datos textuales provenientes de un streaming aplicando el método de representación de texto TF-IDF en una Regresión Logística
dc.typeinfo:eu-repo/semantics/bachelorThesis
dc.type.versioninfo:eu-repo/semantics/publishedVersion
renati.advisor.dni07511794
renati.advisor.orcidhttps://orcid.org/0000-0001-9805-8785
renati.author.dni47596310
renati.discipline542026
renati.jurorValencia Chacón, Raphael Félix
renati.jurorSoto Rodríguez, Iván Dennys
renati.jurorMenacho Chiok, César Higinio
renati.levelhttps://purl.org/pe-repo/renati/level#tituloProfesional
renati.typehttps://purl.org/pe-repo/renati/type#tesis
thesis.degree.disciplineEconomía y Planificación
thesis.degree.grantorUniversidad Nacional Agraria La Molina. Facultad de Economía y Planificación
thesis.degree.nameIngeniero Estadístico Informático

Files

Original bundle

Now showing 1 - 3 of 3
Loading...
Thumbnail Image
Name:
flores-caceres-fiorella-alexandra.pdf
Size:
4.65 MB
Format:
Adobe Portable Document Format
Description:
Texto completo
Name:
originalidad.pdf
Size:
18.18 MB
Format:
Adobe Portable Document Format
Description:
Informe originalidad
Name:
autorizacion.pdf
Size:
1.43 MB
Format:
Adobe Portable Document Format
Description:
Autorizacion

License bundle

Now showing 1 - 1 of 1
Name:
license.txt
Size:
1.63 KB
Format:
Item-specific license agreed upon to submission
Description:

Collections