A veces los servicios de soporte de las grandes marcas de hardware me pueden sacar de quicio. Os explico lo que me pasó hace unos días.

En mi empresa tenemos servidores básicamente de tres empresas: para la parte Windows-Intel tenemos servidores IBM y HP, y para los servidores de Sap ERP tenemos servidores Sun. Todos están en contrato de soporte 24x7x4, esto quiere decir, si se estropean en cualquier momento del día, los 7 días de la semana, en 4 horas tenemos que tener respuesta de algún técnico de soporte para intentar solucionar lo antes posible el problema. Este nivel de soporte es necesario, ya que la empresa tiene representación en zonas del mundo con husos horarios muy diferentes, como USA y China, además de Europa. El nivel de soporte es muy elevado, y muy caro, porque nos ha de asegurar la continuidad de nuestros sistemas en producción.

Si me preguntáis si realmente todos los servidores han de tener este nivel de soporte, os diría que quizás no todos, pero así duermo más tranquilo pensado que ante cualquier problema, habrá alguien al otro lado. Y además como el coste de ese mantenimiento para tres años lo incluyo en el precio de compra, se amortiza como parte del servidor, o sea que el importe se reparte en varios años.

Hace algunos días empezamos a tener problemas con unos de los servidores, el que tiene un servidor de bussines intelligence, el Sap BW. La verdad es que era un error curioso, nosotros tenemos las copias de backup en cinta centralizadas en una librería con auto cargador de 16 cintas, y hacemos backup de todos los servidores allí, utilizando una red Ethernet Gigabit. Utilizamos Veritas Backup Exec como software de copia. Las copias se hacen en dos fases, se copian todos los datos de todos los servidores en las cintas, y luego se verifican estas copias. Bueno, ese servidor empezó a tener errores en la verificación de las copias de seguridad, él solo, ninguno más.

Era un error raro, porque el servidor funcionaba bien, los traspasos del BW se hacían correctamente, no había errores en los registros del sistema ni en las pruebas de hardware, no habíamos instalado nada nuevo, ni tan solo actualizaciones de Windows… Digamos que a estas alturas de mi carrera ya voy teniendo experiencia, y aunque algo me decía que el problema era de hardware, yo sabía que si llamaba a HP para explicarles el problema ellos dirían que era de software y se desentenderían del problema, así que nos lanzamos a probar el servidor a fondo.

Lo primero que hicimos es comprobar si la hora que se hacía el backup había algún otro proceso ejecutándose en el servidor. Los servidores Sap BW tienen un sistema de trabajos en fondo que permiten hacer precálculos de los datos para que a la hora de acceder sea más rápido. No se estaba haciendo nada nuevo. Después cambiamos el orden en el que los servidores copiaban en la cinta para descartar que fuera un error de cintas, este servidor se copiaba el último, y pasó a copiarse el primero. El error continuaba, ficheros con errores.

La prioridad principal de mi equipo es mantener la empresa funcionando, y para eso hay que mantener los servidores en funcionamiento. Los backups son muy importantes, punto. Intentamos restaurar uno de los backups erróneos, y no dejaba. Problema. Necesitamos backup de este servidor. Entonces intentamos hacer una copia contra disco hacia otro servidor para al menos tener algo, y mira, que sorpresa, a la mitad más o menos Windows nos obsequió con una pantalla azul !!!! Eso empezó a asegurar mis sospechas de que error era hardware, y las apuntó hacia la tarjeta de red, ya que el error daba en el ndis.sys, controlador de Ethernet. Cuando se le metía mucha marcha a la controladora de red, se bloqueaba. Supongo que los errores de verificación eran porque la tarjeta introducía errores en los paquetes que pasaban por ella.

Para acabar de confirmar el tema, enchufamos un disco USB al servidor y lanzamos un backup sobre ese disco. Perfecto, funcionó, ya teníamos una copia, y eso nos confirmaba casi con un 100% de acierto mi intuición de fallo de hardware con la controladora de red.

Entonces, y solo entonces, llamamos a HP para abrir una avería. Hablamos con el Call Center y nos dieron un número de caso. Al poco rato nos llamó un técnico de HP que nos pidió que pasásemos unos test a la máquina, que por supuesto dieron correctos, ya que esos tests no miraban nada de la tarjeta Ethernet. Me hicieron enviar también los logs del sistema operativo. Ya habían pasado tres horas. En el mail que les envió con los logs les doy todas las explicaciones de las pruebas que habíamos hecho antes de abrir la avería, para que viesen que no somos el típico cliente que cuando se le activa el salvapantallas ya está llamando a soporte.

Nos vuelven a llamar de HP, nos dicen que se han mirado todos los logs, y que no ven nada raro, por lo que sospechan que el problema es de software. Aquí ya me empiezo a cabrear un poco, ¿pero cómo me podéis decir eso viendo las pruebas que hemos hecho? ¿Cómo podéis decir que el problema es del backup cuando el del disco USB ha funcionado bien? Pero lo mejor es el siguiente paso, ¡¡¡¡hemos de reinstalar el sistema operativo para ver si eso soluciona el problema!!!! Aquí el cabreo ya es superior. Esta gente no sabe lo que significa instalar un servidor de Sap BW, Oracle como base de datos, con los vínculos con los servidores Sap ERP, todos los drivers…

Por aquí no paso, yo sé que es hardware, y ni se me pasa por la cabeza reinstalar todo el servidor. Entiendo que esta gente de HP tiene un protocolo que cumplir, y que hasta que yo no haga lo que me han dicho no darán la avería como de hardware. Aquí tenemos la mentira piadosa, hablo con Raul, mi amigo y comercial de HP, y decidimos que ni por asomo voy a hacer nada, y les voy a decir a los de HP que he hecho lo que me han mandado y que sigue sin funcionar. Les diré que he sacado un disco hot spare de otro servidor, lo he pinchado en esa máquina, he instalado Windows Server 2003 con los drivers correspondientes, y sigue fallando, y en vista de eso he dejado los discos originales y por favor, les pido que de una vez que cambien la placa base del servidor.

Pero lo mejor del caso es que al poco rato recibo un correo de HP conforme dan la avería como cerrada porque ellos me han dado ya la solución. Aquí ya me salía humo de las orejas. La verdad es que cuando me hacen enfadar, soy terrible, y creo que tenía razón enfadándome. Mi siguiente llamada a soporte de HP fue de aquellas que hacen época. A las 2 horas teníamos la placa base en la empresa, y un técnico vino a las 9 de la noche a hacer el cambio.

Esto me recuerda al doctor House, que dice que los pacientes siempre mienten. Bueno, los informáticos también mentimos a veces, pero es por una buena causa. Y ya sabéis, no dudéis en dejaros llevar por vuestra intuición en caso de averías, y si hace falta mentir a soporte, no tengáis cargos de conciencia. Ahora tenemos un portátil que nos hace el tonto, y el protocolo de HP ha sido el mismo, pruebas de hardware, y luego reinstalación del SO. ¿Creéis de verdad qué lo vamos a hacer?

Anuncios