Failover Cluster – CSV travando, eventos 129 e 153

 

Olá Pessoal

Recentemente, enfrentei uma situação onde o volume CSV do cluster estava online, entretando apresentando travamento durante a tentativa de acesso.

Durante a reprodução do problema, identificamos uma série de ocorrências dos eventos 129 e 153 nos logs de sistema, conforme pode ser visto logo abaixo:

—————————————————————————————————————–

03/16/2017 07:03:23 PM   Aviso         teste1.lab 153     disk                                N/A                N/A                               A operação de ES no endereço de bloco lógico 7 para o Disco 2 foi repetida.

03/16/2017 07:03:31 PM   Aviso         teste1.lab 129     LSI_SAS2                            N/A                N/A                               Redefinir para dispositivo, \Device\RaidPort0, emitido.

03/16/2017 07:03:34 PM   Aviso       teste1.lab 153     disk                                N/A                N/A                               A operação de ES no endereço de bloco lógico 7 para o Disco 2 foi repetida.

03/16/2017 07:06:04 PM   Aviso         teste1.lab 153     disk                                N/A                N/A                               A operação de ES no endereço de bloco lógico 7 para o Disco 8 foi repetida.

03/16/2017 07:06:57 PM   Aviso         teste1.lab 129     LSI_SAS2                            N/A                N/A                               Redefinir para dispositivo, \Device\RaidPort0, emitido.

03/16/2017 07:07:01 PM   Aviso         teste1.lab 153     disk                                N/A                N/A                               A operação de ES no endereço de bloco lógico 7 para o Disco 8 foi repetida.

03/16/2017 07:07:17 PM   Aviso         teste1.lab 153     disk                                N/A                N/A                               A operação de ES no endereço de bloco lógico 7 para o Disco 4 foi repetida.

03/16/2017 07:07:18 PM   Aviso         teste1.lab 153     disk                                N/A                N/A                               A operação de ES no endereço de bloco lógico 7 para o Disco 3 foi repetida.

03/16/2017 07:08:11 PM   Aviso         teste1.lab 129     LSI_SAS2                            N/A                N/A                               Redefinir para dispositivo, \Device\RaidPort0, emitido.

03/16/2017 07:08:11 PM   Aviso         teste1.lab 129     LSI_SAS2                            N/A                N/A                               Redefinir para dispositivo, \Device\RaidPort0, emitido.

03/16/2017 07:08:56 PM   Aviso         teste1.lab 153     disk                                N/A                N/A                               A operação de ES no endereço de bloco lógico 7 para o Disco 11 foi repetida.

 ——————————————————————————————————————

 Conforme descrito nos artigo Understanding Storage Timeouts and Event 129 Errors, e Interpreting Event 153  estes eventos ocorrem devido ao esgotamento do tempo limite de espera de uma solicitação de I/O a partir do storport e miniport, geralmente resultante de LUNs não responsivas ou solicitações de I/O afetadas pela estrutura de comunicação com storage.

 O evento ID 129 é gerado a partir do timeout identificado pelo port driver (STORPORT) que se trata do último componente gerenciado pelo Sistema Operacional que manipula I/O antes de sua entrega a estrutura de storage envolvida (MINIPORT).

O evento seguinte, 153, é resultado também do timeout a partir do MINIPORT, sendo este o primeiro componente da esturtura de storage a manipular uma solicitação de I/O (IRP).

Ambos os eventos acima estão relacionados a time-out a partir da estrutura de storage, resultando em impacto nas operacionais executadas a partir do sistema operacional que dependem do retorno da storage, como é o caso do acesso as unidades CSV. O diagrama a seguir ilustra a Storage Stack de uma maneira simplificada:

 Resultado de imagem para storage stack

Desta forma, envolvi imediatamente o vendor de storage, que prontamente me indicou a atualização dos drivers da placa de rede que eu estava utilizando para comunicação com meu storage iSCSI. Após aplicar a atualização do driver broadcom para uma versão mais recente, não houveram novas recorrências do problema!

 

No sentido de manter meu servidor mais resiliente, aproveitei a oportunidade e apliquei as últimas atualizações do Windows server 20012 R2, e garanti que todas as atualizações abaixo estão aplicadas:

Hotfixes e atualizações recomendadas para clusters de failover com base em Windows Server 2012 R2

Isso ai pessoal!

 

Marcado com , , , , ,

Deixe uma resposta

%d blogueiros gostam disto: