Identificar un disco Failed en una NetApp

Estimados lectores,

En este nuevo artículo vamos a ver cómo identificar un disco Failed en una NetApp usando la línea de comandos. Cuando se produce un fallo de disco en una cabina de discos NetApp normalmente el disco averiado se ilumina de forma permanente así como el chasis de la controladora que lo posee (una alarma de sistema). De esta forma podemos detectar visualmente tanto la alarma del chasis que generalmente es un símbolo de exclamación ! como el disco averiado, ambos con luz naranja. Continuar leyendo “Identificar un disco Failed en una NetApp”

Como forzar un fallo de disco en NetApp

Estimados lectores,

Hoy voy a escribir sobre como forzar un fallo de disco en NetApp, o mejor dicho un pre-fallo que es la operación que realmente hace la cabina. Aunque a priori suene un poco “raro” necesitar un fallo de disco quiero aprovechar la ocasión para exponer un caso real donde me ha sido necesario. El escenario cuenta con un par HA formado por FAS3140 donde están instaladas las míticas DS14mk4, con discos FC de 450Gb, y las más modernas DS4243 con discos SAS de 600Gb. Una de las controladoras cuenta con un agregado formado por los discos FC de 450, aggr0, y con otro agregado, aggr1, formado por los SAS de 600. Estos agregados están configurados ambos en RAID-DP y todos los discos de la controladora están bajo el Pool0 donde encontramos un par de discos de Spare: uno de FC 450Gb y otro SAS de 600Gb. Continuar leyendo “Como forzar un fallo de disco en NetApp”

La importancia de los Raid Groups

En esta nueva entrada destacaremos la importancia de los Raid Groups de las cabinas NetApp. Los que estéis acostumbrados a trabajar con estas cabinas ya sea en vuestras instalaciones o en clientes externos estaréis conmigo que el tema del espacio es siempre un gran debate: yo he comprado 3 Teras y solo me quedan 1.5, había comprado 8 discos y solo me quedan 6 para datos, … Seguramente os suene mucho y tengáis un amplio repertorio de quejas varias.

Veamos, NetApp recomienda que los Raid Groups estén configurados en RAID-DP por su seguridad y buen rendimiento. Normalmente esto está bien aceptado aunque “duela” al principio en instalaciones con pocos discos: si instalamos una FAS2040 con el chasis lleno de discos y sin bandejas adicionales normalmente daremos 6 a cada controladora de los cuales 2 serán paridad y 1 de spare por lo que de 12 se quedan 6 para datos. Esto es el 50% del espacio “perdido”.

Cuando vamos necesitando espacio adicional en nuestro sistema de almacenamiento debemos tener en cuenta algunos factores:

1) Si se requiere el máximo del espacio disponible, de momento descartando configuraciones como RAID 4 o NO SPARE, en el caso de discos SAS deberíamos configurar el Raid Size a 28. Para discos SATA normalmente es 20. De esta forma se “pierden” solo 2 discos de paridad más el disco de spare que, como sabemos, es global para todos los RGs del agregado.

2) Si el rendimiento es prioritario entonces deberemos configurar los RGs con prudencia: sabemos que la distribución de los datos entre RGs  se hace a través de un RAID-0 global entre todos ellos. Por tanto es sumamente importante que el tamaño de todos los RGs sea idéntico puesto que en el caso de tener diferencias la velocidad de acceso quedará limitada al RG más pequeño:

RG0: 10 discos SAS RAID-DP

RG1: 10 discos SAS RAID-DP

RG2: 7 discos SAS RAID-DP

Si lo comparamos con vehículos, por ejemplo, podríamos decir que RG0 y RG1 tienen una velocidad punta de 150 kms/h mientras que RG2 va a 120 kms/h. La pregunta es, ¿a qué velocidad se accederá a los datos? A 120 kms/h.

3) Si se desconoce la prioridad de rendimiento o espacio igualmente deberemos tener en cuenta el tamaño de los RGs: si añadimos discos a un agregado sin consultar la configuración del Raid Size nos podemos encontrar con un pequeño desastre. Imaginemos que nuestra controladora tiene 12 discos con RG0 de 11 en RAID-DP más 1 de SPARE y la configuración del Raid Size está por defecto, generalmente 16 discos. Si hemos adquirido 8 discos y no tenemos en cuenta este punto podemos encontrarnos con un agregado formado por RG0 de 16 y RG1 de 3 discos. Sin darnos cuenta hemos sacrificado 2 discos (los 2 de paridad del nuevo RG1) y tenemos un problema de rendimiento.

Por norma general en cualquier decisión de diseño para la escalabilidad de nuestro sistema de almacenamiento NetApp el concepto Raid Size debería ser tomando como un punto clave. Un error de cálculo nos puede producir un impacto muy negativo tanto en términos de espacio necesario como en rendimiento.

Como resumen podríamos definir los siguientes puntos:

1) No es recomendable tener RGs muy grandes por su impacto en la reconstrucción

2) Los RGs que forman parte de un mismo agregado deberían tener el mismo número de discos para que el acceso a los datos sea eficiente

3) El tamaño de los RGs se puede modificar al alza pero no a la baja

4) Cuando se asigna un nuevo disco se puede indicar a qué RG queremos que pertenezca con el comando aggr add “aggr0” –g “RG1” –d #disco. De esta forma controlamos exactamente la ubicación del disco dentro de nuestro agregado.


Licencia de Creative Commons

This Post by David Solé Pérez is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License

Pagina Principal

Disk Bad Label Version

Este error, en general poco frecuente, se puede dar cuando añadimos discos de reemplazo en nuestras controladoras NetApp. Con el paso del tiempo los discos se degradan y se tienen que reemplazar por otros nuevos mediante el procedimiento habitual: el disco fallido se remueve de la cabina, se sustituye por el nuevo, se asigna a la controladora donde estaba el otro quedando éste como SPARE y se añade al agregado si es necesario (si sólo es un disco normalmente se quedará como SPARE).

Durante el proceso de cambio en el momento de lanzar el comando de asignación disk assign #nombre_disco puede que la controladora indique el error siguiente:

… [raid.assim.disk.badlabelversion:error]: Disk 3a.03.0 Shelf 3 Bay 0 X has raid label with version (11), which is not within the currently supported range (5 – 10). Please contact NetApp Global Services.
… [raid.config.disk.bad.label.version:error]: Disk 3a.03.0 Shelf 3 Bay 0 X has an unsupported label version.
… [callhome.dsk.label.v:CRITICAL]: Call home for DISK BAD LABEL VERSION

Para corregir el problema podemos seguir este procedimiento:

1) Entrar en modo avanzado mediante el comando priv set diag o con priv set advanced

2) Lanzar el comando disk unfail -s 3a.03.0 (este es el nombre del disco del ejemplo)

3) Asignar nuevamente el disco con disk assign 3a.03.0

El disco estará disponible como SPARE. Si es un caso de sustitución de más de 1 disco y es necesario añadirlo al agregado, al venir de unfail, la controladora hará un cero de éste antes de introducirlo en el agregado.


Licencia de Creative Commons

This Post by David Solé Pérez is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License

Pagina Principal