Clasificación de datos textuales provenientes de un streaming aplicando el método de representación de texto TF-IDF en una Regresión Logística
Cargando...
Código QR
Autores
Flores Cáceres, Fiorella Alexandra
Resumen
El presente trabajo de investigación tuvo como finalidad implementar un modelo de regresión logística utilizando datos textuales transformados mediante el método de representación de texto TF-IDF, con el objetivo de clasificar comentarios de docentes en streamings de orientación sobre la estrategia Aprendo en Casa realizados por el Ministerio de Educación. El procedimiento de análisis se dividió en pre-procesamiento de los datos, análisis exploratorio de los datos, aplicación del método de representación de texto TF-IDF, estimación y evaluación del modelo; y clasificación de nuevos comentarios. Para la etapa de pre-procesamiento se realizó la limpieza y estandarización de los datos textuales de los comentarios; mientras que en el análisis exploratorio se obtuvieron indicadores descriptivos de los comentarios de cada categoría utilizando n-gramas. En la aplicación del método de representación de texto TF-IDF se elaboró la matriz documento-término a partir de la muestra de entrenamiento y se utilizó la prueba Chi Cuadrado para la selección de variables.
En la estimación del modelo de clasificación se obtuvo el modelo final ajustado con los datos de entrenamiento provenientes de la matriz documento-término. Para la evaluación del modelo se aplicó el método TF-IDF a la muestra de prueba, a fin de obtener su matriz documento-término para realizar la clasificación y hallar los resultados de las métricas de evaluación, donde se consiguió una exactitud de 0.81. Posteriormente, se evaluó el modelo de clasificación mediante el método K-Fold de Validación Cruzada y se clasificaron nuevos comentarios. En base a los resultados de la presente investigación se concluye que la implementación del modelo desarrollado es adecuada.
The purpose of this research work was to implement a logistic regression model using transformed textual data using the TF-IDF text representation method, with the aim of classifying teacher comments in guidance streamings on the “Aprendo en Casa” strategy carried out by the Ministry of Education. The analysis procedure was divided into data preprocessing, exploratory data analysis, application of the TF-IDF text representation method, model estimation and evaluation; and classification of new comments. For the preprocessing stage, the textual data of the comments were cleaned and standardized; while in the exploratory analysis, descriptive indicators of the comments of each category were obtained using n-grams. In the application of the TF-IDF text representation method, the document-term matrix was created from the training sample and the Chi-Square test was used for variable selection. In the estimation of the classification model, the final model adjusted with the training data from the document-term matrix was obtained. To evaluate the model, the TF-IDF method was applied to the test sample, in order to obtain its document-term matrix to perform the classification and find the results of the evaluation metrics, where an accuracy of 0.81 was achieved. Subsequently, the classification model was evaluated using the K-Fold Cross-Validation method and new comments were classified. Based on the results of this research, it is concluded that the implementation of the developed model is adequate.
The purpose of this research work was to implement a logistic regression model using transformed textual data using the TF-IDF text representation method, with the aim of classifying teacher comments in guidance streamings on the “Aprendo en Casa” strategy carried out by the Ministry of Education. The analysis procedure was divided into data preprocessing, exploratory data analysis, application of the TF-IDF text representation method, model estimation and evaluation; and classification of new comments. For the preprocessing stage, the textual data of the comments were cleaned and standardized; while in the exploratory analysis, descriptive indicators of the comments of each category were obtained using n-grams. In the application of the TF-IDF text representation method, the document-term matrix was created from the training sample and the Chi-Square test was used for variable selection. In the estimation of the classification model, the final model adjusted with the training data from the document-term matrix was obtained. To evaluate the model, the TF-IDF method was applied to the test sample, in order to obtain its document-term matrix to perform the classification and find the results of the evaluation metrics, where an accuracy of 0.81 was achieved. Subsequently, the classification model was evaluated using the K-Fold Cross-Validation method and new comments were classified. Based on the results of this research, it is concluded that the implementation of the developed model is adequate.
Descripción
Universidad Nacional Agraria La Molina. Facultad de Economía y Planificación. Departamento Académico de Estadística e Informática
Palabras clave
Tokenización
Citación
Fecha
2024
Colecciones
Seleccionar año de consulta:
Licencia de uso
Excepto si se señala otra cosa, la licencia del ítem se describe como info:eu-repo/semantics/openAccess