O HD do oráculo foi pro saco

Hoje por volta do meio-dia (bem perto da hora do backup), todos no escritório sentiram o acesso ao servidor, que tem o nome de oráculo, um pouco mais lerdo. Perguntei a todo mundo se alguém tinha se metido num loop infinito, consultas excessivas no banco de dados, qualquer coisa… e ninguém deu certeza. Perguntei de novo… e nada.

Então comecei a fazer algo: Um ssh no servidor, na esperança que um ps -aux fosse me mostrar o processo que estava consumindo muito recurso.

Conexão recusada

Mas o ssh não funcionou, retornando uma mensagem de erro do próprio ssh. Perguntei ao Valdeci o porquê, ele me disse que às vezes o ssh poderia recusar quando a máquina estivesse muito ocupada… 1 e 2 minutos depois, nada ainda. Então foi a hora de ligar o monitor no servidor e ver qual era o problema. Nada funcionava. Dedo-off nele.

Desparafusamos o case e praticamente dava para fritar um bife em cima do HD. Procuramos por uma máquina fotográfica para capturar a cena do Valdeci segurando o servidor perto do ar-condicionado… mas ninguém tinha.

Nunca mais deu boot

Religamos o servidor, carregou o LILO, mas começaram a aparecer mensagens estranhas, subindo pela tela, uma variação de reiserfs_read_inode2: i/o failure occurred trying to find stat data. Google para ajuda, algumas mensagens em listas de discussões do desenvolvimento do kernel, uma menção no site do ReiserFS… no FAQ deles achei o problema:

Bad Sectors

Não quis acreditar, mas era possível que o HD tivesse ido pro espaço. E tudo que eu fiz só confirmava o problema. O comando reiserfsck –check /dev/hda2 não rodava… reiserfsck –fix-fixable /dev/hda2 informava que o Superblock estava mal da pernas… reiserfsck –rebuild-sb /dev/hda2 também não rodava…. reiserfsck –rebuild-tree /dev/hda2 também não… 🙁

O que salvamos

Depois de nos certificarmos que havíamos tentado tudo que era possível (além dos comandos acima exploramos variações do fsck, entre outros), a solução foi carregar o Kurumin, montar o HD detonado, e explorar ele.

Não conseguíamos acessar o diretório de fontes de sistema, mas os /home/s sim. Compactamos um a um e copiamos pra rede. Os fontes foram salvos porque o backup é feito em outro HD, que sobreviveu heroicamente. Foi só, também pelo Kurumin, montar ele e copiar os arquivos.

Tempo perdido na brincadeira: 7 horas. Arquivos perdidos: Não se sabe… mas foram apenas os novos ou modificados desde o último backup, um período de apenas 4 horas. É ruim perder coisas, e podemos melhorar nossos procedimentos (que o diga o Jonas), mas até que para o primeiro caso de pânico e necessidade de recuperar o backup da empresa, não foi tão mal.

Bem… é aquela história, se a vida te dá ovos, faça um omelete. 🙂


Posted

in

by

Tags:

Comments

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.