Caracterización de una estrategia de detección de fallos transitorios en HPC
El manejo de fallos es una preocupación creciente en HPC; en el futuro, se esperan mayores variedades y tasas de errores, intervalos de detección más largos y fallos silenciosos. Se proyecta que, en sistemas de exa-escala, los errores ocurran varias veces al día y se propaguen para generar desde caí...
Guardado en:
| Autores principales: | , , , , , |
|---|---|
| Formato: | Objeto de conferencia |
| Lenguaje: | Español |
| Publicado: |
2015
|
| Materias: | |
| Acceso en línea: | http://sedici.unlp.edu.ar/handle/10915/50189 |
| Aporte de: |
| id |
I19-R120-10915-50189 |
|---|---|
| record_format |
dspace |
| institution |
Universidad Nacional de La Plata |
| institution_str |
I-19 |
| repository_str |
R-120 |
| collection |
SEDICI (UNLP) |
| language |
Español |
| topic |
Ciencias Informáticas Fault tolerance corrupción silenciosa de datos Parallel HPC inyección de fallos Applications |
| spellingShingle |
Ciencias Informáticas Fault tolerance corrupción silenciosa de datos Parallel HPC inyección de fallos Applications Montezanti, Diego Miguel Rexachs del Rosario, Dolores Rucci, Enzo Luque, Emilio Naiouf, Marcelo De Giusti, Armando Eduardo Caracterización de una estrategia de detección de fallos transitorios en HPC |
| topic_facet |
Ciencias Informáticas Fault tolerance corrupción silenciosa de datos Parallel HPC inyección de fallos Applications |
| description |
El manejo de fallos es una preocupación creciente en HPC; en el futuro, se esperan mayores variedades y tasas de errores, intervalos de detección más largos y fallos silenciosos. Se proyecta que, en sistemas de exa-escala, los errores ocurran varias veces al día y se propaguen para generar desde caídas de procesos hasta corrupciones de resultados, con fallos no detectados en aplicaciones que siguen operando. En este trabajo se estudia una metodología de detección de fallos transitorios (SMCV) en aplicaciones MPI basada en replicación de software, asumiendo que la corrupción en los datos se manifiesta produciendo mensajes diferentes entre réplicas. SMCV permite obtener ejecuciones fiables con resultados correctos o, en su defecto, conducir al sistema a una parada segura. Se presenta una caracterización completa, definiendo formalmente el comportamiento frente a fallos y validándolo experimentalmente para mostrar la eficacia y viabilidad para detectar fallos transitorios en sistemas de HPC. |
| format |
Objeto de conferencia Objeto de conferencia |
| author |
Montezanti, Diego Miguel Rexachs del Rosario, Dolores Rucci, Enzo Luque, Emilio Naiouf, Marcelo De Giusti, Armando Eduardo |
| author_facet |
Montezanti, Diego Miguel Rexachs del Rosario, Dolores Rucci, Enzo Luque, Emilio Naiouf, Marcelo De Giusti, Armando Eduardo |
| author_sort |
Montezanti, Diego Miguel |
| title |
Caracterización de una estrategia de detección de fallos transitorios en HPC |
| title_short |
Caracterización de una estrategia de detección de fallos transitorios en HPC |
| title_full |
Caracterización de una estrategia de detección de fallos transitorios en HPC |
| title_fullStr |
Caracterización de una estrategia de detección de fallos transitorios en HPC |
| title_full_unstemmed |
Caracterización de una estrategia de detección de fallos transitorios en HPC |
| title_sort |
caracterización de una estrategia de detección de fallos transitorios en hpc |
| publishDate |
2015 |
| url |
http://sedici.unlp.edu.ar/handle/10915/50189 |
| work_keys_str_mv |
AT montezantidiegomiguel caracterizaciondeunaestrategiadedetecciondefallostransitoriosenhpc AT rexachsdelrosariodolores caracterizaciondeunaestrategiadedetecciondefallostransitoriosenhpc AT ruccienzo caracterizaciondeunaestrategiadedetecciondefallostransitoriosenhpc AT luqueemilio caracterizaciondeunaestrategiadedetecciondefallostransitoriosenhpc AT naioufmarcelo caracterizaciondeunaestrategiadedetecciondefallostransitoriosenhpc AT degiustiarmandoeduardo caracterizaciondeunaestrategiadedetecciondefallostransitoriosenhpc |
| bdutipo_str |
Repositorios |
| _version_ |
1764820475563737092 |