CatBoost: aprendizaje automático de conjunto para la analítica de los factores socioeconómicos que inciden en el rendimiento escolar
El rendimiento académico de los niños es una importante tarea para las escuelas y es de atracción desde el campo de la ciencia de datos que atiende esta problemática multifactorial con diversas técnicas de minería de datos sobre conjuntos de datos cada vez más completos que abordan factores socioeco...
Autores principales: | , , , |
---|---|
Formato: | Articulo |
Lenguaje: | Español |
Publicado: |
2024
|
Materias: | |
Acceso en línea: | http://sedici.unlp.edu.ar/handle/10915/168258 |
Aporte de: |
id |
I19-R120-10915-168258 |
---|---|
record_format |
dspace |
spelling |
I19-R120-10915-1682582024-08-01T20:05:10Z http://sedici.unlp.edu.ar/handle/10915/168258 CatBoost: aprendizaje automático de conjunto para la analítica de los factores socioeconómicos que inciden en el rendimiento escolar CatBoost: Ensemble machine learning for the analysis of socioeconomic factors that affect school performance Pincay-Ponce, Jorge Iván De Giusti, Armando Eduardo Sánchez-Andrade, Diana Alexandra Figueroa-Suárez, Juan Alberto 2024-06 2024-08-01T14:47:14Z es Ciencias Informáticas Aprendizaje automático CatBoost Shapley Rendimiento académico Métodos de ensamble Machine learning Academic performance Assembly methods El rendimiento académico de los niños es una importante tarea para las escuelas y es de atracción desde el campo de la ciencia de datos que atiende esta problemática multifactorial con diversas técnicas de minería de datos sobre conjuntos de datos cada vez más completos que abordan factores socioeconómicos como posibles condicionantes. Presentamos un método que mejora la Exactitud de la predicción del rendimiento escolar combinando la aplicación del modelo de aprendizaje automático en conjunto CatBoost con la explicación y mejora de la transparencia de la clasificación que efectúa, mediante la puntuación de las características con base en los valores SHAP (SHapley Additive exPlanations). Se dispone de cuatro tipos de promedios: Domina los aprendizajes requeridos (DAR), Alcanza los aprendizajes requeridos (AAR), Próximo a alcanzar los aprendizajes requeridos (PAAR) y No alcanza los aprendizajes requeridos (NAAR). Cómo los tipos de promedios PAAR y NAAR constituyen clases minoritarias fueron balanceados respecto de las clases mayoritarias DAR y AAR. Se alcanzó una Exactitud y Precisión del 91%. Las características de mayor impacto en la predicción son las habilidades sociales, la ocupación del padre, ingreso familiar, género, posible discapacidad, comportamiento, estructura familiar, número de hermanos, entre otros. The academic performance of children is an important task for schools and is attractive from the field of data science that addresses this multifactorial problem with various data mining techniques on increasingly complete data sets that address socioeconomic factors such as possible conditions. We present a method that improves the accuracy of the prediction of school performance by combining the application of the ensemble learning algorithms CatBoost with the explanation and improvement of the transparency of the classification that it performs, by scoring the characteristics based on the SHAP values. (Shapley Additive exPlanations). Four types of averages are available: Master the Learning Requirement (DAR), Meet the Learning Requirement (AAR), Close to Meeting the Learning Requirement (PAAR), and Not Meet the Learning Requirement (NAAR). How the PAAR and NAAR types of averages constitute minority classes were balanced with respect to the DAR and AAR majority classes. An accuracy and precision of 91% were achieved. The characteristics with the greatest impact on the prediction are social skills, the father's occupation, family income, gender, possible disability, behavior, family structure, and number of siblings, among others. Facultad de Informática Articulo Articulo http://creativecommons.org/licenses/by-nc/4.0/ Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0) application/pdf 31-39 |
institution |
Universidad Nacional de La Plata |
institution_str |
I-19 |
repository_str |
R-120 |
collection |
SEDICI (UNLP) |
language |
Español |
topic |
Ciencias Informáticas Aprendizaje automático CatBoost Shapley Rendimiento académico Métodos de ensamble Machine learning Academic performance Assembly methods |
spellingShingle |
Ciencias Informáticas Aprendizaje automático CatBoost Shapley Rendimiento académico Métodos de ensamble Machine learning Academic performance Assembly methods Pincay-Ponce, Jorge Iván De Giusti, Armando Eduardo Sánchez-Andrade, Diana Alexandra Figueroa-Suárez, Juan Alberto CatBoost: aprendizaje automático de conjunto para la analítica de los factores socioeconómicos que inciden en el rendimiento escolar |
topic_facet |
Ciencias Informáticas Aprendizaje automático CatBoost Shapley Rendimiento académico Métodos de ensamble Machine learning Academic performance Assembly methods |
description |
El rendimiento académico de los niños es una importante tarea para las escuelas y es de atracción desde el campo de la ciencia de datos que atiende esta problemática multifactorial con diversas técnicas de minería de datos sobre conjuntos de datos cada vez más completos que abordan factores socioeconómicos como posibles condicionantes. Presentamos un método que mejora la Exactitud de la predicción del rendimiento escolar combinando la aplicación del modelo de aprendizaje automático en conjunto CatBoost con la explicación y mejora de la transparencia de la clasificación que efectúa, mediante la puntuación de las características con base en los valores SHAP (SHapley Additive exPlanations). Se dispone de cuatro tipos de promedios: Domina los aprendizajes requeridos (DAR), Alcanza los aprendizajes requeridos (AAR), Próximo a alcanzar los aprendizajes requeridos (PAAR) y No alcanza los aprendizajes requeridos (NAAR). Cómo los tipos de promedios PAAR y NAAR constituyen clases minoritarias fueron balanceados respecto de las clases mayoritarias DAR y AAR. Se alcanzó una Exactitud y Precisión del 91%. Las características de mayor impacto en la predicción son las habilidades sociales, la ocupación del padre, ingreso familiar, género, posible discapacidad, comportamiento, estructura familiar, número de hermanos, entre otros. |
format |
Articulo Articulo |
author |
Pincay-Ponce, Jorge Iván De Giusti, Armando Eduardo Sánchez-Andrade, Diana Alexandra Figueroa-Suárez, Juan Alberto |
author_facet |
Pincay-Ponce, Jorge Iván De Giusti, Armando Eduardo Sánchez-Andrade, Diana Alexandra Figueroa-Suárez, Juan Alberto |
author_sort |
Pincay-Ponce, Jorge Iván |
title |
CatBoost: aprendizaje automático de conjunto para la analítica de los factores socioeconómicos que inciden en el rendimiento escolar |
title_short |
CatBoost: aprendizaje automático de conjunto para la analítica de los factores socioeconómicos que inciden en el rendimiento escolar |
title_full |
CatBoost: aprendizaje automático de conjunto para la analítica de los factores socioeconómicos que inciden en el rendimiento escolar |
title_fullStr |
CatBoost: aprendizaje automático de conjunto para la analítica de los factores socioeconómicos que inciden en el rendimiento escolar |
title_full_unstemmed |
CatBoost: aprendizaje automático de conjunto para la analítica de los factores socioeconómicos que inciden en el rendimiento escolar |
title_sort |
catboost: aprendizaje automático de conjunto para la analítica de los factores socioeconómicos que inciden en el rendimiento escolar |
publishDate |
2024 |
url |
http://sedici.unlp.edu.ar/handle/10915/168258 |
work_keys_str_mv |
AT pincayponcejorgeivan catboostaprendizajeautomaticodeconjuntoparalaanaliticadelosfactoressocioeconomicosqueincidenenelrendimientoescolar AT degiustiarmandoeduardo catboostaprendizajeautomaticodeconjuntoparalaanaliticadelosfactoressocioeconomicosqueincidenenelrendimientoescolar AT sanchezandradedianaalexandra catboostaprendizajeautomaticodeconjuntoparalaanaliticadelosfactoressocioeconomicosqueincidenenelrendimientoescolar AT figueroasuarezjuanalberto catboostaprendizajeautomaticodeconjuntoparalaanaliticadelosfactoressocioeconomicosqueincidenenelrendimientoescolar AT pincayponcejorgeivan catboostensemblemachinelearningfortheanalysisofsocioeconomicfactorsthataffectschoolperformance AT degiustiarmandoeduardo catboostensemblemachinelearningfortheanalysisofsocioeconomicfactorsthataffectschoolperformance AT sanchezandradedianaalexandra catboostensemblemachinelearningfortheanalysisofsocioeconomicfactorsthataffectschoolperformance AT figueroasuarezjuanalberto catboostensemblemachinelearningfortheanalysisofsocioeconomicfactorsthataffectschoolperformance |
_version_ |
1807223666610536448 |