Caracterización de una estrategia de detección de fallos transitorios en HPC

El manejo de fallos es una preocupación creciente en HPC; en el futuro, se esperan mayores variedades y tasas de errores, intervalos de detección más largos y fallos silenciosos. Se proyecta que, en sistemas de exa-escala, los errores ocurran varias veces al día y se propaguen para generar desde caí...

Descripción completa

Guardado en:

Detalles Bibliográficos
Autores principales:	Montezanti, Diego Miguel, Rexachs del Rosario, Dolores, Rucci, Enzo, Luque, Emilio, Naiouf, Marcelo, De Giusti, Armando Eduardo
Formato:	Objeto de conferencia
Lenguaje:	Español
Publicado:	2015
Materias:	Ciencias Informáticas Fault tolerance corrupción silenciosa de datos Parallel HPC inyección de fallos Applications
Acceso en línea:	http://sedici.unlp.edu.ar/handle/10915/50189
Aporte de:	SEDICI (UNLP) de Universidad Nacional de La Plata

id	I19-R120-10915-50189
record_format	dspace
institution	Universidad Nacional de La Plata
institution_str	I-19
repository_str	R-120
collection	SEDICI (UNLP)
language	Español
topic	Ciencias Informáticas Fault tolerance corrupción silenciosa de datos Parallel HPC inyección de fallos Applications
spellingShingle	Ciencias Informáticas Fault tolerance corrupción silenciosa de datos Parallel HPC inyección de fallos Applications Montezanti, Diego Miguel Rexachs del Rosario, Dolores Rucci, Enzo Luque, Emilio Naiouf, Marcelo De Giusti, Armando Eduardo Caracterización de una estrategia de detección de fallos transitorios en HPC
topic_facet	Ciencias Informáticas Fault tolerance corrupción silenciosa de datos Parallel HPC inyección de fallos Applications
description	El manejo de fallos es una preocupación creciente en HPC; en el futuro, se esperan mayores variedades y tasas de errores, intervalos de detección más largos y fallos silenciosos. Se proyecta que, en sistemas de exa-escala, los errores ocurran varias veces al día y se propaguen para generar desde caídas de procesos hasta corrupciones de resultados, con fallos no detectados en aplicaciones que siguen operando. En este trabajo se estudia una metodología de detección de fallos transitorios (SMCV) en aplicaciones MPI basada en replicación de software, asumiendo que la corrupción en los datos se manifiesta produciendo mensajes diferentes entre réplicas. SMCV permite obtener ejecuciones fiables con resultados correctos o, en su defecto, conducir al sistema a una parada segura. Se presenta una caracterización completa, definiendo formalmente el comportamiento frente a fallos y validándolo experimentalmente para mostrar la eficacia y viabilidad para detectar fallos transitorios en sistemas de HPC.
format	Objeto de conferencia Objeto de conferencia
author	Montezanti, Diego Miguel Rexachs del Rosario, Dolores Rucci, Enzo Luque, Emilio Naiouf, Marcelo De Giusti, Armando Eduardo
author_facet	Montezanti, Diego Miguel Rexachs del Rosario, Dolores Rucci, Enzo Luque, Emilio Naiouf, Marcelo De Giusti, Armando Eduardo
author_sort	Montezanti, Diego Miguel
title	Caracterización de una estrategia de detección de fallos transitorios en HPC
title_short	Caracterización de una estrategia de detección de fallos transitorios en HPC
title_full	Caracterización de una estrategia de detección de fallos transitorios en HPC
title_fullStr	Caracterización de una estrategia de detección de fallos transitorios en HPC
title_full_unstemmed	Caracterización de una estrategia de detección de fallos transitorios en HPC
title_sort	caracterización de una estrategia de detección de fallos transitorios en hpc
publishDate	2015
url	http://sedici.unlp.edu.ar/handle/10915/50189
work_keys_str_mv	AT montezantidiegomiguel caracterizaciondeunaestrategiadedetecciondefallostransitoriosenhpc AT rexachsdelrosariodolores caracterizaciondeunaestrategiadedetecciondefallostransitoriosenhpc AT ruccienzo caracterizaciondeunaestrategiadedetecciondefallostransitoriosenhpc AT luqueemilio caracterizaciondeunaestrategiadedetecciondefallostransitoriosenhpc AT naioufmarcelo caracterizaciondeunaestrategiadedetecciondefallostransitoriosenhpc AT degiustiarmandoeduardo caracterizaciondeunaestrategiadedetecciondefallostransitoriosenhpc
bdutipo_str	Repositorios
_version_	1764820475563737092

Caracterización de una estrategia de detección de fallos transitorios en HPC

Ejemplares similares