Estimación robusta para un modelo de reducción de la dimensión

Las técnicas no paramétricas son herramientas flexibles para poder estudiar la relación entre una variable aleatoria continua y un vector de covariables explicativas, pero para su aplicación requieren un número de observaciones que crece exponencialmente con la dimensión p del vector de covariables....

Descripción completa

Detalles Bibliográficos
Autor principal: Szretter Noste, María Eugenia
Otros Autores: Yohai, Víctor Jaime
Formato: Tesis doctoral publishedVersion
Lenguaje:Español
Publicado: Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales 2017
Materias:
Acceso en línea:https://hdl.handle.net/20.500.12110/tesis_n6322_SzretterNoste
Aporte de:
id tesis:tesis_n6322_SzretterNoste
record_format dspace
institution Universidad de Buenos Aires
institution_str I-28
repository_str R-134
collection Biblioteca Digital - Facultad de Ciencias Exactas y Naturales (UBA)
language Español
orig_language_str_mv spa
topic REDUCCION DE LA DIMENSION
PRINCIPAL FITTED COMPONENTS
ESTIMACION ROBUSTA
T-ESTIMADOR
REDUCCION SUFICIENTE
REGRESION INVERSA
SELECCION DE LA DIMENSION
DIMENSION REDUCTION
PRINCIPAL FITTED COMPONENTS
ROBUST ESTIMATION
T-ESTIMATOR
SUFFICIENT REDUCTION
INVERSE REGRESSION
DIMENSION SELECTION
spellingShingle REDUCCION DE LA DIMENSION
PRINCIPAL FITTED COMPONENTS
ESTIMACION ROBUSTA
T-ESTIMADOR
REDUCCION SUFICIENTE
REGRESION INVERSA
SELECCION DE LA DIMENSION
DIMENSION REDUCTION
PRINCIPAL FITTED COMPONENTS
ROBUST ESTIMATION
T-ESTIMATOR
SUFFICIENT REDUCTION
INVERSE REGRESSION
DIMENSION SELECTION
Szretter Noste, María Eugenia
Estimación robusta para un modelo de reducción de la dimensión
topic_facet REDUCCION DE LA DIMENSION
PRINCIPAL FITTED COMPONENTS
ESTIMACION ROBUSTA
T-ESTIMADOR
REDUCCION SUFICIENTE
REGRESION INVERSA
SELECCION DE LA DIMENSION
DIMENSION REDUCTION
PRINCIPAL FITTED COMPONENTS
ROBUST ESTIMATION
T-ESTIMATOR
SUFFICIENT REDUCTION
INVERSE REGRESSION
DIMENSION SELECTION
description Las técnicas no paramétricas son herramientas flexibles para poder estudiar la relación entre una variable aleatoria continua y un vector de covariables explicativas, pero para su aplicación requieren un número de observaciones que crece exponencialmente con la dimensión p del vector de covariables. Una manera de poder enfrentar la estimación no-paramétrica con una muestra de tamaño moderado y p grande, es obtener un número reducido de nuevas variables explicativas sin disminuir la información que ellas provean sobre la variable respuesta. Las diversas estrategias para encarar este problema se engloban en lo que se denomina reducción de la dimensión. Cook [2007] introduce el concepto de reducción suficiente, y el modelo de principal fitted components (PFC). Cook y Forzani [2008] calcula el estimador de máxima verosimilitud (MV) para el modelo PFC suponiendo que los errores tienen distribución normal multivariada. Sin embargo, cuando hay contaminación o la distribución de los errores no es normal multivariada, los estimadores de MV se ven muy afectados y por lo tanto en estos casos, pueden ser muy poco informativos. En esta tesis proponemos estimadores robustos de tipo τ para estimar el modelo PFC y por consiguiente para la correspondiente reducción suficiente. Estos estimadores están basados en una τ-escala (ver Yohai y Zamar [1988]). Definimos el τ-funcional de estimación del cual se derivan los τ-estimadores propuestos. Se demuestra que bajo condiciones generales estos estimadores son fuertemente consistentes. A partir de las ecuaciones de estimación se obtiene una expresión para los τ-estimadores similar a la de MV, excepto que las observaciones aparecen acompañadas por pesos que, a su vez, dependen de los parámetros. Esto sugiere un algoritmo iterativo natural para computar los τ . También se discute cómo obtener valores iniciales para este algoritmo. Un estudio de Monte Carlo permite comparar los τ -estimadores y los estimadores de MV bajo el modelo PFC y bajo contaminación por outliers. Los resultados de esta simulación muestran claras ventajas para los τ -estimadores. También se presenta una propuesta de selección de la dimensión del espacio de reducción basada en validación cruzada. Finalmente, ilustramos la aplicación del método con dos ejemplos de datos reales. Las demostraciones de los resultados se presentan en varios apéndices.
author2 Yohai, Víctor Jaime
author_facet Yohai, Víctor Jaime
Szretter Noste, María Eugenia
format Tesis doctoral
Tesis doctoral
publishedVersion
author Szretter Noste, María Eugenia
author_sort Szretter Noste, María Eugenia
title Estimación robusta para un modelo de reducción de la dimensión
title_short Estimación robusta para un modelo de reducción de la dimensión
title_full Estimación robusta para un modelo de reducción de la dimensión
title_fullStr Estimación robusta para un modelo de reducción de la dimensión
title_full_unstemmed Estimación robusta para un modelo de reducción de la dimensión
title_sort estimación robusta para un modelo de reducción de la dimensión
publisher Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
publishDate 2017
url https://hdl.handle.net/20.500.12110/tesis_n6322_SzretterNoste
work_keys_str_mv AT szretternostemariaeugenia estimacionrobustaparaunmodelodereducciondeladimension
AT szretternostemariaeugenia robustestimationforadimensionreductionmodel
_version_ 1831981214843535360
spelling tesis:tesis_n6322_SzretterNoste2025-03-31T21:43:29Z Estimación robusta para un modelo de reducción de la dimensión Robust estimation for a dimension reduction model Szretter Noste, María Eugenia Yohai, Víctor Jaime REDUCCION DE LA DIMENSION PRINCIPAL FITTED COMPONENTS ESTIMACION ROBUSTA T-ESTIMADOR REDUCCION SUFICIENTE REGRESION INVERSA SELECCION DE LA DIMENSION DIMENSION REDUCTION PRINCIPAL FITTED COMPONENTS ROBUST ESTIMATION T-ESTIMATOR SUFFICIENT REDUCTION INVERSE REGRESSION DIMENSION SELECTION Las técnicas no paramétricas son herramientas flexibles para poder estudiar la relación entre una variable aleatoria continua y un vector de covariables explicativas, pero para su aplicación requieren un número de observaciones que crece exponencialmente con la dimensión p del vector de covariables. Una manera de poder enfrentar la estimación no-paramétrica con una muestra de tamaño moderado y p grande, es obtener un número reducido de nuevas variables explicativas sin disminuir la información que ellas provean sobre la variable respuesta. Las diversas estrategias para encarar este problema se engloban en lo que se denomina reducción de la dimensión. Cook [2007] introduce el concepto de reducción suficiente, y el modelo de principal fitted components (PFC). Cook y Forzani [2008] calcula el estimador de máxima verosimilitud (MV) para el modelo PFC suponiendo que los errores tienen distribución normal multivariada. Sin embargo, cuando hay contaminación o la distribución de los errores no es normal multivariada, los estimadores de MV se ven muy afectados y por lo tanto en estos casos, pueden ser muy poco informativos. En esta tesis proponemos estimadores robustos de tipo τ para estimar el modelo PFC y por consiguiente para la correspondiente reducción suficiente. Estos estimadores están basados en una τ-escala (ver Yohai y Zamar [1988]). Definimos el τ-funcional de estimación del cual se derivan los τ-estimadores propuestos. Se demuestra que bajo condiciones generales estos estimadores son fuertemente consistentes. A partir de las ecuaciones de estimación se obtiene una expresión para los τ-estimadores similar a la de MV, excepto que las observaciones aparecen acompañadas por pesos que, a su vez, dependen de los parámetros. Esto sugiere un algoritmo iterativo natural para computar los τ . También se discute cómo obtener valores iniciales para este algoritmo. Un estudio de Monte Carlo permite comparar los τ -estimadores y los estimadores de MV bajo el modelo PFC y bajo contaminación por outliers. Los resultados de esta simulación muestran claras ventajas para los τ -estimadores. También se presenta una propuesta de selección de la dimensión del espacio de reducción basada en validación cruzada. Finalmente, ilustramos la aplicación del método con dos ejemplos de datos reales. Las demostraciones de los resultados se presentan en varios apéndices. Non-parametric estimating procedures are flexible tools to study the relationship between a continuous response and a vector of explanatory variables. However these methods require a number of observations that grows exponentially with the number of explanatory variables. One way to overcome this situation is to obtain a reduced number of new variables that contain the same information on the response than the original ones. Several strategies have been proposed to achieve this dimension reduction. Cook [2007] introduces the concept of suficient reduction and the principal fitted components (PFC) model. Cook and Forzani [2008] obtain the maximum likelihood (ML) for the PFC model assuming that the error distribution is multivariate normal. However these estimators may be much affected for outlier contamination or a non normal error distribution, and therefore, when this occurs, they may not be much informative. In this thesis we propose robust estimators for the parameters of the PFC model based on a τ -scale (see Yohai and Zamar [1988]), and therefore we provide robust estimators for the suficient reduction too. We define the τestimating functional that generate the τestimators for the PFC model. We prove that under general assumptions this τestimators are strongly consistent. We obtain the estimating equations that characterize the critical points of the τ-estimator. Using these equations we can express the τestimators as a weighted ML estimator where the weight for each observation depends on the parameters. This expression suggests a natural iterative algorithm to compute the τestimators. We also discuss how to obtain starting values for the parameters of the algorithm. We perform a simulation study to compare the τ and ML-estimators. The simulation results show that the τestimators compare favorably with respect to the ML-estimator. We also propose a procedure based on cross validation to choose the dimension of the suficient reduction. Finally,we illustrate the advantages of the proposed estimation procedure using two real datasets. The proofs of the main results can be found in several appendices. Fil: Szretter Noste, María Eugenia. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales 2017-10-06 info:eu-repo/semantics/doctoralThesis info:ar-repo/semantics/tesis doctoral info:eu-repo/semantics/publishedVersion application/pdf spa info:eu-repo/semantics/openAccess https://creativecommons.org/licenses/by-nc-sa/2.5/ar https://hdl.handle.net/20.500.12110/tesis_n6322_SzretterNoste