Preparación de Datos para Aprendizaje Automático

La ciencia de datos es un conocimiento que entendemos tan bien que podemos enseñarlo a una computadora. Todo lo demás es arte" (Rosana, 2023). Mientras existan códigos que recreen un evento o datos que simulen el comportamiento de una situación, las computadoras estarán prestas aprender. El...

Descripción completa

Detalles Bibliográficos
Autor principal: Usuga, Iván
Otros Autores: González Rozada, Martín
Formato: Tesis de maestría acceptedVersion
Lenguaje:Español
Publicado: Universidad Torcuato Di Tella 2023
Materias:
glm
knn
roc
auc
Acceso en línea:https://repositorio.utdt.edu/handle/20.500.13098/12186
Aporte de:
id I57-R163-20.500.13098-12186
record_format dspace
spelling I57-R163-20.500.13098-121862023-12-07T07:00:36Z Preparación de Datos para Aprendizaje Automático Usuga, Iván González Rozada, Martín Datos Data Analysis Aprendizaje automático Machine Learning Procesamiento de datos Skimr wvplots hexbin vtreat Dataexplorer scales training_set test_set glm knn Random Forest xgboost roc auc La ciencia de datos es un conocimiento que entendemos tan bien que podemos enseñarlo a una computadora. Todo lo demás es arte" (Rosana, 2023). Mientras existan códigos que recreen un evento o datos que simulen el comportamiento de una situación, las computadoras estarán prestas aprender. El objetivo de este ensayo es generar ciertos procedimientos a tener en cuenta en la base de datos después de haber sido recolectada, de tal modo que los datos queden a punto para realizar análisis predictivos ya sea usando técnicas estadísticas convencionales o de aprendizaje automático. Ya que los datos son el elemento principal tanto para el análisis predictivo o la toma de decisiones es fundamental darle un manejo adecuado a la recopilación de datos relevantes, a la identificación de los datos faltantes o erróneos y a la transformación de los mismos en un formato adecuado para el procesamiento de los mismos, ya sea usando técnicas como regresiones lineales o modelos de aprendizaje automático. La ruta de trabajo a seguir consta de dos secciones. La primera parte correspondiente al manejo de los datos para verificar anomalías que se presentan durante el proceso de recopilación de la información, las cuales necesitan ser corregidas para darles un formato correcto y así dejarlas funcionales para usos posteriores. El dataset a usar para este fin se cargará desde el repositorio de la Universidad de California correspondiente al Censo de los Estados Unidos 2016 para constatar quienes de los encuestados no tienen seguro de salud. 2023-12-06T16:18:24Z 2023-12-06T16:18:24Z 2023 info:eu-repo/semantics/masterThesis info:ar-repo/semantics/tesis de maestría info:eu-repo/semantics/acceptedVersion https://repositorio.utdt.edu/handle/20.500.13098/12186 spa info:eu-repo/semantics/openAccess https://creativecommons.org/licenses/by-sa/2.5/ar/ 45 p. application/pdf application/pdf Universidad Torcuato Di Tella
institution Universidad Torcuato Di Tella
institution_str I-57
repository_str R-163
collection Repositorio Digital Universidad Torcuato Di Tella
language Español
orig_language_str_mv spa
topic Datos
Data Analysis
Aprendizaje automático
Machine Learning
Procesamiento de datos
Skimr
wvplots
hexbin
vtreat
Dataexplorer
scales
training_set
test_set
glm
knn
Random Forest
xgboost
roc
auc
spellingShingle Datos
Data Analysis
Aprendizaje automático
Machine Learning
Procesamiento de datos
Skimr
wvplots
hexbin
vtreat
Dataexplorer
scales
training_set
test_set
glm
knn
Random Forest
xgboost
roc
auc
Usuga, Iván
Preparación de Datos para Aprendizaje Automático
topic_facet Datos
Data Analysis
Aprendizaje automático
Machine Learning
Procesamiento de datos
Skimr
wvplots
hexbin
vtreat
Dataexplorer
scales
training_set
test_set
glm
knn
Random Forest
xgboost
roc
auc
description La ciencia de datos es un conocimiento que entendemos tan bien que podemos enseñarlo a una computadora. Todo lo demás es arte" (Rosana, 2023). Mientras existan códigos que recreen un evento o datos que simulen el comportamiento de una situación, las computadoras estarán prestas aprender. El objetivo de este ensayo es generar ciertos procedimientos a tener en cuenta en la base de datos después de haber sido recolectada, de tal modo que los datos queden a punto para realizar análisis predictivos ya sea usando técnicas estadísticas convencionales o de aprendizaje automático. Ya que los datos son el elemento principal tanto para el análisis predictivo o la toma de decisiones es fundamental darle un manejo adecuado a la recopilación de datos relevantes, a la identificación de los datos faltantes o erróneos y a la transformación de los mismos en un formato adecuado para el procesamiento de los mismos, ya sea usando técnicas como regresiones lineales o modelos de aprendizaje automático. La ruta de trabajo a seguir consta de dos secciones. La primera parte correspondiente al manejo de los datos para verificar anomalías que se presentan durante el proceso de recopilación de la información, las cuales necesitan ser corregidas para darles un formato correcto y así dejarlas funcionales para usos posteriores. El dataset a usar para este fin se cargará desde el repositorio de la Universidad de California correspondiente al Censo de los Estados Unidos 2016 para constatar quienes de los encuestados no tienen seguro de salud.
author2 González Rozada, Martín
author_facet González Rozada, Martín
Usuga, Iván
format Tesis de maestría
Tesis de maestría
acceptedVersion
author Usuga, Iván
author_sort Usuga, Iván
title Preparación de Datos para Aprendizaje Automático
title_short Preparación de Datos para Aprendizaje Automático
title_full Preparación de Datos para Aprendizaje Automático
title_fullStr Preparación de Datos para Aprendizaje Automático
title_full_unstemmed Preparación de Datos para Aprendizaje Automático
title_sort preparación de datos para aprendizaje automático
publisher Universidad Torcuato Di Tella
publishDate 2023
url https://repositorio.utdt.edu/handle/20.500.13098/12186
work_keys_str_mv AT usugaivan preparaciondedatosparaaprendizajeautomatico
_version_ 1808040543473631232