SEDAR: Detectando y recuperando fallos transitorios en aplicaciones de HPC

El manejo de fallos es una preocupación creciente en HPC; en el futuro, se esperan mayores variedades y tasas de errores, intervalos de detección más largos y fallos silenciosos. Se proyecta que, en sistemas de exa-escala, los errores ocurran varias veces al día y se propaguen para generar desde caí...

Descripción completa

Detalles Bibliográficos
Autores principales: Montezanti, Diego Miguel, Rucci, Enzo, Rexachs del Rosario, Dolores, Luque Fadón, Emilio, Naiouf, Marcelo, De Giusti, Armando Eduardo
Formato: Objeto de conferencia
Lenguaje:Español
Publicado: 2019
Materias:
Acceso en línea:http://sedici.unlp.edu.ar/handle/10915/90527
Aporte de:
id I19-R120-10915-90527
record_format dspace
institution Universidad Nacional de La Plata
institution_str I-19
repository_str R-120
collection SEDICI (UNLP)
language Español
topic Ciencias Informáticas
Detección de fallos transitorios
Recuperación automática
Corrupción silenciosa de datos
Aplicaciones de HPC
Inyección de fallos
spellingShingle Ciencias Informáticas
Detección de fallos transitorios
Recuperación automática
Corrupción silenciosa de datos
Aplicaciones de HPC
Inyección de fallos
Montezanti, Diego Miguel
Rucci, Enzo
Rexachs del Rosario, Dolores
Luque Fadón, Emilio
Naiouf, Marcelo
De Giusti, Armando Eduardo
SEDAR: Detectando y recuperando fallos transitorios en aplicaciones de HPC
topic_facet Ciencias Informáticas
Detección de fallos transitorios
Recuperación automática
Corrupción silenciosa de datos
Aplicaciones de HPC
Inyección de fallos
description El manejo de fallos es una preocupación creciente en HPC; en el futuro, se esperan mayores variedades y tasas de errores, intervalos de detección más largos y fallos silenciosos. Se proyecta que, en sistemas de exa-escala, los errores ocurran varias veces al día y se propaguen para generar desde caídas de procesos hasta corrupciones de resultados debidas a fallos no detectados. En este trabajo se describe la utilización de SEDAR, una herramienta que permite detectar fallos transitorios en aplicaciones MPI, y recuperar automáticamente las ejecuciones, posibilitando su finalización con resultados fiables. La detección se basa en replicación de procesamiento y monitorización del envío de mensajes y del cómputo local, mientras que la recuperación se logra utilizando múltiples checkpoints de capa de sistema. El estudio del comportamiento de SEDAR en presencia de fallos, inyectados en distintos momentos durante la ejecución, permite evaluar su desempeño y caracterizar el overhead asociado a su utilización. Las posibilidades de configurar el modo de uso, adaptándolo a los requerimientos de cobertura y máximo overhead permitido de un sistema particular, hacen de SEDAR una metodología factible y viable para la tolerancia a fallos transitorios en sistemas de HPC.
format Objeto de conferencia
Objeto de conferencia
author Montezanti, Diego Miguel
Rucci, Enzo
Rexachs del Rosario, Dolores
Luque Fadón, Emilio
Naiouf, Marcelo
De Giusti, Armando Eduardo
author_facet Montezanti, Diego Miguel
Rucci, Enzo
Rexachs del Rosario, Dolores
Luque Fadón, Emilio
Naiouf, Marcelo
De Giusti, Armando Eduardo
author_sort Montezanti, Diego Miguel
title SEDAR: Detectando y recuperando fallos transitorios en aplicaciones de HPC
title_short SEDAR: Detectando y recuperando fallos transitorios en aplicaciones de HPC
title_full SEDAR: Detectando y recuperando fallos transitorios en aplicaciones de HPC
title_fullStr SEDAR: Detectando y recuperando fallos transitorios en aplicaciones de HPC
title_full_unstemmed SEDAR: Detectando y recuperando fallos transitorios en aplicaciones de HPC
title_sort sedar: detectando y recuperando fallos transitorios en aplicaciones de hpc
publishDate 2019
url http://sedici.unlp.edu.ar/handle/10915/90527
work_keys_str_mv AT montezantidiegomiguel sedardetectandoyrecuperandofallostransitoriosenaplicacionesdehpc
AT ruccienzo sedardetectandoyrecuperandofallostransitoriosenaplicacionesdehpc
AT rexachsdelrosariodolores sedardetectandoyrecuperandofallostransitoriosenaplicacionesdehpc
AT luquefadonemilio sedardetectandoyrecuperandofallostransitoriosenaplicacionesdehpc
AT naioufmarcelo sedardetectandoyrecuperandofallostransitoriosenaplicacionesdehpc
AT degiustiarmandoeduardo sedardetectandoyrecuperandofallostransitoriosenaplicacionesdehpc
bdutipo_str Repositorios
_version_ 1764820490117971969