Fidelidad de S.M.A.R.T.

Señores de nuevo el SuperMicro haciendo de las suyas, esta vez con problemas más complejos y desesperantes. Reemplazamos la tarjeta de red por una D-Link PCi-Express con chipset Realtek y ha funcionado de maravilla (la transferencia de red), después de un tiempo nos encontramos con otra clase de errores esta vez venían por parte del RAID SATA, nos toco desactivarlo y sacarlo físicamente para poder acomodar los discos adentro y los conectamos vía SATA directamente a la MOBO, pero el dichoso servidor no estaba totalmente contento al respecto, luego de un tiempo empezó a manifestar errores al cargar; esta vez relacionados con el CPU “2008-06-15T04:25:58.134710+10:00 fiction kernel:BUG: soft lockup – CPU#1 stuck for 10s!”.

Buscando en la red conseguimos un parámetro especifico “NO_HZ=y” para pasárselo al kernel como medio paliativo a que siguiese su funcionamiento mientras los altos jefes se deciden por adquirir 2 servidores nuevos.

Hasta ahora ha funcionado bien, pero el nuevo problema es S.M.A.R.T. y un HD nuevo de 320 GB donde está instalado el sistema operativo y donde se guardan los perfiles móviles de los 70 usuarios que se loguean a diario. En lo que va de mañana hemos realizado tests de superficie, respaldo de datos y verificaciones con smartctl, hdparm, fsck, etc. y solo los errores se presentan en el informe de S.M.A.R.T.

Rebuscando un poco en Google encontré un estudio donde se examinan las variables involucradas en la falla de discos actuales, donde en pocas palabras definen a la información que emite SMART en 50% fidedigna. Según nuestro informe el disco solo tiene 24 Horas de vida disponible, raro, tiene un mes obligándonos a presionar F1 para continuar el boot y todavía no muestra señales de cansancio (el disco tiene aprox. 122 días de uso).

Informe SMART

Ideas?…

Anuncios