SEDAR: Detectando y recuperando fallos transitorios en aplicaciones de HPC
El manejo de fallos es una preocupación creciente en HPC; en el futuro, se esperan mayores variedades y tasas de errores, intervalos de detección más largos y fallos silenciosos. Se proyecta que, en sistemas de exa-escala, los errores ocurran varias veces al día y se propaguen para generar desde caí...
Autores principales: | , , , , , |
---|---|
Formato: | Objeto de conferencia |
Lenguaje: | Español |
Publicado: |
2019
|
Materias: | |
Acceso en línea: | http://sedici.unlp.edu.ar/handle/10915/90527 |
Aporte de: |
id |
I19-R120-10915-90527 |
---|---|
record_format |
dspace |
institution |
Universidad Nacional de La Plata |
institution_str |
I-19 |
repository_str |
R-120 |
collection |
SEDICI (UNLP) |
language |
Español |
topic |
Ciencias Informáticas Detección de fallos transitorios Recuperación automática Corrupción silenciosa de datos Aplicaciones de HPC Inyección de fallos |
spellingShingle |
Ciencias Informáticas Detección de fallos transitorios Recuperación automática Corrupción silenciosa de datos Aplicaciones de HPC Inyección de fallos Montezanti, Diego Miguel Rucci, Enzo Rexachs del Rosario, Dolores Luque Fadón, Emilio Naiouf, Marcelo De Giusti, Armando Eduardo SEDAR: Detectando y recuperando fallos transitorios en aplicaciones de HPC |
topic_facet |
Ciencias Informáticas Detección de fallos transitorios Recuperación automática Corrupción silenciosa de datos Aplicaciones de HPC Inyección de fallos |
description |
El manejo de fallos es una preocupación creciente en HPC; en el futuro, se esperan mayores variedades y tasas de errores, intervalos de detección más largos y fallos silenciosos. Se proyecta que, en sistemas de exa-escala, los errores ocurran varias veces al día y se propaguen para generar desde caídas de procesos hasta corrupciones de resultados debidas a fallos no detectados. En este trabajo se describe la utilización de SEDAR, una herramienta que permite detectar fallos transitorios en aplicaciones MPI, y recuperar automáticamente las ejecuciones, posibilitando su finalización con resultados fiables. La detección se basa en replicación de procesamiento y monitorización del envío de mensajes y del cómputo local, mientras que la recuperación se logra utilizando múltiples checkpoints de capa de sistema. El estudio del comportamiento de SEDAR en presencia de fallos, inyectados en distintos momentos durante la ejecución, permite evaluar su desempeño y caracterizar el overhead asociado a su utilización. Las posibilidades de configurar el modo de uso, adaptándolo a los requerimientos de cobertura y máximo overhead permitido de un sistema particular, hacen de SEDAR una metodología factible y viable para la tolerancia a fallos transitorios en sistemas de HPC. |
format |
Objeto de conferencia Objeto de conferencia |
author |
Montezanti, Diego Miguel Rucci, Enzo Rexachs del Rosario, Dolores Luque Fadón, Emilio Naiouf, Marcelo De Giusti, Armando Eduardo |
author_facet |
Montezanti, Diego Miguel Rucci, Enzo Rexachs del Rosario, Dolores Luque Fadón, Emilio Naiouf, Marcelo De Giusti, Armando Eduardo |
author_sort |
Montezanti, Diego Miguel |
title |
SEDAR: Detectando y recuperando fallos transitorios en aplicaciones de HPC |
title_short |
SEDAR: Detectando y recuperando fallos transitorios en aplicaciones de HPC |
title_full |
SEDAR: Detectando y recuperando fallos transitorios en aplicaciones de HPC |
title_fullStr |
SEDAR: Detectando y recuperando fallos transitorios en aplicaciones de HPC |
title_full_unstemmed |
SEDAR: Detectando y recuperando fallos transitorios en aplicaciones de HPC |
title_sort |
sedar: detectando y recuperando fallos transitorios en aplicaciones de hpc |
publishDate |
2019 |
url |
http://sedici.unlp.edu.ar/handle/10915/90527 |
work_keys_str_mv |
AT montezantidiegomiguel sedardetectandoyrecuperandofallostransitoriosenaplicacionesdehpc AT ruccienzo sedardetectandoyrecuperandofallostransitoriosenaplicacionesdehpc AT rexachsdelrosariodolores sedardetectandoyrecuperandofallostransitoriosenaplicacionesdehpc AT luquefadonemilio sedardetectandoyrecuperandofallostransitoriosenaplicacionesdehpc AT naioufmarcelo sedardetectandoyrecuperandofallostransitoriosenaplicacionesdehpc AT degiustiarmandoeduardo sedardetectandoyrecuperandofallostransitoriosenaplicacionesdehpc |
bdutipo_str |
Repositorios |
_version_ |
1764820490117971969 |