Caracterización de una estrategia de detección de fallos transitorios en HPC

El manejo de fallos es una preocupación creciente en HPC; en el futuro, se esperan mayores variedades y tasas de errores, intervalos de detección más largos y fallos silenciosos. Se proyecta que, en sistemas de exa-escala, los errores ocurran varias veces al día y se propaguen para generar desde caí...

Descripción completa

Guardado en:
Detalles Bibliográficos
Autores principales: Montezanti, Diego Miguel, Rexachs del Rosario, Dolores, Rucci, Enzo, Luque, Emilio, Naiouf, Marcelo, De Giusti, Armando Eduardo
Formato: Objeto de conferencia
Lenguaje:Español
Publicado: 2015
Materias:
HPC
Acceso en línea:http://sedici.unlp.edu.ar/handle/10915/50189
Aporte de:
id I19-R120-10915-50189
record_format dspace
institution Universidad Nacional de La Plata
institution_str I-19
repository_str R-120
collection SEDICI (UNLP)
language Español
topic Ciencias Informáticas
Fault tolerance
corrupción silenciosa de datos
Parallel
HPC
inyección de fallos
Applications
spellingShingle Ciencias Informáticas
Fault tolerance
corrupción silenciosa de datos
Parallel
HPC
inyección de fallos
Applications
Montezanti, Diego Miguel
Rexachs del Rosario, Dolores
Rucci, Enzo
Luque, Emilio
Naiouf, Marcelo
De Giusti, Armando Eduardo
Caracterización de una estrategia de detección de fallos transitorios en HPC
topic_facet Ciencias Informáticas
Fault tolerance
corrupción silenciosa de datos
Parallel
HPC
inyección de fallos
Applications
description El manejo de fallos es una preocupación creciente en HPC; en el futuro, se esperan mayores variedades y tasas de errores, intervalos de detección más largos y fallos silenciosos. Se proyecta que, en sistemas de exa-escala, los errores ocurran varias veces al día y se propaguen para generar desde caídas de procesos hasta corrupciones de resultados, con fallos no detectados en aplicaciones que siguen operando. En este trabajo se estudia una metodología de detección de fallos transitorios (SMCV) en aplicaciones MPI basada en replicación de software, asumiendo que la corrupción en los datos se manifiesta produciendo mensajes diferentes entre réplicas. SMCV permite obtener ejecuciones fiables con resultados correctos o, en su defecto, conducir al sistema a una parada segura. Se presenta una caracterización completa, definiendo formalmente el comportamiento frente a fallos y validándolo experimentalmente para mostrar la eficacia y viabilidad para detectar fallos transitorios en sistemas de HPC.
format Objeto de conferencia
Objeto de conferencia
author Montezanti, Diego Miguel
Rexachs del Rosario, Dolores
Rucci, Enzo
Luque, Emilio
Naiouf, Marcelo
De Giusti, Armando Eduardo
author_facet Montezanti, Diego Miguel
Rexachs del Rosario, Dolores
Rucci, Enzo
Luque, Emilio
Naiouf, Marcelo
De Giusti, Armando Eduardo
author_sort Montezanti, Diego Miguel
title Caracterización de una estrategia de detección de fallos transitorios en HPC
title_short Caracterización de una estrategia de detección de fallos transitorios en HPC
title_full Caracterización de una estrategia de detección de fallos transitorios en HPC
title_fullStr Caracterización de una estrategia de detección de fallos transitorios en HPC
title_full_unstemmed Caracterización de una estrategia de detección de fallos transitorios en HPC
title_sort caracterización de una estrategia de detección de fallos transitorios en hpc
publishDate 2015
url http://sedici.unlp.edu.ar/handle/10915/50189
work_keys_str_mv AT montezantidiegomiguel caracterizaciondeunaestrategiadedetecciondefallostransitoriosenhpc
AT rexachsdelrosariodolores caracterizaciondeunaestrategiadedetecciondefallostransitoriosenhpc
AT ruccienzo caracterizaciondeunaestrategiadedetecciondefallostransitoriosenhpc
AT luqueemilio caracterizaciondeunaestrategiadedetecciondefallostransitoriosenhpc
AT naioufmarcelo caracterizaciondeunaestrategiadedetecciondefallostransitoriosenhpc
AT degiustiarmandoeduardo caracterizaciondeunaestrategiadedetecciondefallostransitoriosenhpc
bdutipo_str Repositorios
_version_ 1764820475563737092