Predicción de la productividad por campaña del cultivo de arándano empleando variables biométricas y técnicas de aprendizaje automático

ItemOpen Access
Loading...
Thumbnail Image

Código QR

QR Code

Authors

Vasquez Velasco, Christian Richard Alberto

Contact Email

Abstract

La presente investigación fue realizada con el objetivo general de predecir la productividad por campaña del cultivo de arándano empleando datos biométricos y algoritmos de aprendizaje automático. Se empleó una investigación de nivel explicativo y diseño no experimental. Se utilizó los datos de una empresa agrícola productora de arándano ubicada en la región de La Libertad. La investigación planteó el uso de técnicas de aprendizaje automático para la predicción de la productividad por campaña del arándano, que consistió del uso de una partición inicial de datos por muestreo estratificado, validación cruzada por grupos en 20 folios e ingeniería de variables, que fue desarrollado con ayuda del programa estadístico R versión 4.4.2 y los paquetes tidyverse y tidymodels. Según los resultados, entre las variables más importantes, se registraron las semanas de cosecha y el número de ramas primarias terminales por planta. El mejor algoritmo de aprendizaje automático que permitió estimar la productividad de cada actividad de arándano utilizando las variables biométricas de la planta es el algoritmo Gradiente Boosting - XGBoost, que tiene el mejor balance o control de errores y mayor calidad predictiva.
This research was conducted with the general objective of predicting the productivity per season of blueberry crop using biometric data and machine learning algorithms. An explanatory level research and non-experimental design was used. Data from a blueberry producing agricultural company located in the region of La Libertad were used. The research proposed the use of machine learning techniques for the prediction of blueberry productivity per season, which consisted of the use of an initial data partition by stratified sampling, cross validation by groups in 20 folds and variable engineering, which was developed with the help of the statistical program R version 4.4.2 and the packages tidyverse and tidymodels. According to the results, among the most important variables, harvest weeks and the number of terminal primary branches per plant were recorded. The best machine learning algorithm that allowed estimating the productivity of each blueberry activity using the biometric variables of the plant is the Gradient Boosting algorithm - XGBoost, which has the best balance or error control and higher predictive quality.

Description

Universidad Nacional Agraria La Molina. Escuela de Posgrado. Maestría en Estadística Aplicada

Keywords

Arándano

Citation

Date

2025

Collections

Seleccionar año de consulta:

Licencia de uso

info:eu-repo/semantics/openAccess

Excepto si se señala otra cosa, la licencia del ítem se describe como info:eu-repo/semantics/openAccess