André P. Muga

Interfice errorem, diligere errantem

Falhas em discos rigidos

Em 2007, o Google publicou na conferência “Proceedings of the 5th USENIX Conference on File and Storage Technologies (FAST’07)” um artigo muito elucidativo sobre falhas de disco. Os dados foram obtidos das suas quintas de servidores com uma população de 100.000 discos o que permite recolher métricas com algum peso em termos estatísticos.

Tendo eu alguma cota parte de gestor de sistema, este artigo captou o meu interesso e partilho aqui um resumo deste.

 

O Google tem perto de 100.000 discos rígidos, muitos destes PATA e SATA, os mesmos que utilizamos no nossos computadores pessoais e um facto que sobressai é que temos agora melhores discos para uso “caseiro” do que para uso profissional (FC e SCSI). O artigo apresenta resultados surpreendentes em cinco áreas:

  • A viabilidade do MTBF dos fabricantes
  • A inutilidade da estatística do SMART
  • Carga e tempo de vida do dispositivo relacionados com falhas
  • Temperatura relacionado com falhas

 

A viabilidades do MTBF dos fabricantes

MTBF, Mean Time Between Failure, é uma medida estatística que indica tempo médio entre falhas. Quando um fabricante especifica  300.000 MTBF, isto significa que temos uma probabilidade de falha de 50% antes das 300.000 horas.  Se formos positivos, significa que temos 50% do disco não falhar antes durante 34 anos e 4 meses (300.000/365 dias/24 horas). Quando irá falhar? esta métrica nada diz sobre o assunto. Num ambiente ideal, se tivermos 600.000 discos, poderíamos contar com uma falha por hora. No entanto o bom senso diz que o número de falha irá aumentar quando mais perto da média estivermos. O google AFR, Anunal Failure Rate, apresenta um cenário diferente.

 

Vou continuar esta análise depois de explicar como são obtidas as métricas dos fabricantes.

 

MTBF definido pelos fabricantes

Não é viável testar um dispositivo de forma “real”. Teoricamente falando seriam preciso mais de 68 anos para poder concluir que o MTBF é de 34 anos ao tentar replicar discos como uso “normal”. Dito isso, a estatística fornece ferramentas para acelerar o processo da seguinte forma. Os fabricantes, na fase de concepção/testes, pegam em muitos discos e dão lhes um uso intensivo até estes falharem. Com base no uso intensivo dado e no uso padrão esperado para os discos, é conseguido uma projecção no tempo de como os equipamentos irão comportar-se. Este teste acelerado é usado tanto na informática como também na aeroespacial, electrodomésticos como no sector automóvel. O problema é que estes testes não representam realmente as condições reais submetidas aos equipamentos:

 

Since failures are sometimes the result of a combination of components (i.e., a particular drive with a particular controller or cable, etc), . . . a good number of drives . . . could be still considered operational in a different test harness. We have observed . . . situations where a drive tester consistently “green lights” a unit that invariably fails in the field.
 

Utilidade do SMART

O SMART é uma interface presente nos discos que recolha, analise e tenta prever falhas no disco rígido. É muito útil para verificar, por exemplo, a temperatura. O SMART recolha e cria um registo de erros internos occoridos. No entanto, o SMART foca-se em falhas mecânicas e não electrónicas, como por exemplo falha de alimentação de um circuito interno. Como tal, muitas falhas não são analisadas. Pelos dados recolhidos no Google, 36% das avarias não foram identificadas pelo SMART o que torna este inútil para previsão de falha. Continua útil porque permite detectar algumas falhas mas não devemos depender exclusivamente dele. No entanto o Google consegui fazer uma correlação entre falhas detectadas no SMART e falha no equipamento nos seguintes parâmetros:

  • scan errors
  • reallocation count
  • offline reallocation
  • probational count

Uma correlação obtida é, depois da primeira falha de scan, é 39 vezes mais provável de um disco falhar nos próximos 60 dias do que um disco em perfeitas condições.

 

Excesso de carga = Tempo de vida reduzida?

Seria lógico esperar que com uma maior carga de trabalho os discos tenderiam para ter um tempo de vida reduzido. Mas nos resultados obtidos não é isso que se verifica.

After the first year, the AFR of high utilization drives is at most moderately higher than that of low utilization drives. The three-year group in fact appears to have the opposite of the expected behavior, with low utilization drives having slightly higher failure rates than high ulization ones.

 Carga de utilização e AFR

Os resultados são bem claros, os primeiros meses são cruciais quando há excesso de carga. Com o passar do tempo, os discos com excesso de carga tendem normalizar e ter apenas uma taxa moderadamente superior.

 

Temperatura e falhas

O bom senso diz que quando mais quente … pior. Os fabricantes dão uma gama de operações entre 0º e 60º C e normalmente temos os discos por volta dos 35ºC (+/-5 ºC). No entanto os valores obtidos mostram que é o dobro pior ter discos arrefecidos abaixo dos 20ºC do que acima dos 50ºC.

Aqui tenho que admitir que fiquei surpreendido. Isto acaba por ser uma boa notícia aos datacenters e aos gestores de servidores já que ficam com mais espaço de manobra em relação as instalações.

 

Notas finais:

Não tentar ter um sistema ultra gelado mas sim apenas manter  um ambiente normal e controlado (35ºC +-5ºC).

Quando se tem uma drive com carga excessiva, tomar cuidado nos primeiros  6 meses.

Realizar backups regulares e quando houver indícios de erros no SMART, mudar para um novo disco.

Mais respostas.

Na sequencia de “Respostas em exames universitários…” temos mais e melhor. Agora começo a ficar preocupado.

APM

1) Galileu (1564-1642) foi condenado à morte porque foi o 1º a fazer a
terra andar à volta.

2) Um braço de mar é um pedaço de mar em forma de braço.

3) O exemplo do Titanic serve para demonstrar a agressividade dos
icebergs.

4) Os 4 pontos cardeais são a direita, a esquerda, em baixo e em cima.

5) A França tem 60 milhões de habitantes entre os quais muitos animais.

6) A 2ª guerra mundial foi um período de paz e de prosperidade para a
Alemanha.

7) A 11 de Novembro, ao comemorar-se o Armistício da 1ª guerra mundial,
o presidente condecora os pais do soldado desconhecido.

8 ) Na guerra de 1914 a 1918, os soldados morriam várias vezes, primeiro
por causa das bombas, e depois porque lhes davam lama para comer.

9) Os rios correm sempre no sentido da água.

10) Um quadrado é um rectângulo que tem um ângulo direito em todos os
lados.

11) Um quadrado é um rectângulo um pouco mais curto.

12) O zero é o único número que permite contar até 1.

13) Um septuagenário é um losango de 7 lados.

14) Todos os números pares podem dividir-se por zero.

15) Uma linha recta torna-se curva quando vira.

16) Um compasso utiliza-se para medir os ângulos do círculo.

17) Uma raiz quadrada é uma raiz com 4 ângulos iguais.

18 ) Os chineses utilizam as suas bolas para fazer contas.

19) Para fazer uma divisão, é preciso multiplicar uma subtracção .

20) O álcool permite tornar a água potável.

21) Uma tonelada pesa pelo menos 100 Kg, se ela for pesada.

22) O desembarque na Normandia teve lugar nas praias de Inglaterra.

23) A primeira guerra mundial fez uma dezena de mortos mas só do lado
alemão.

24) As bombas atómicas são inofensivas quando servem para fabricar
electricidade.

25) Se não se estragassem, as máquinas não seriam humanas.

26) Um relógio divide-se em 12 fusos horários de igual intensidade.

27) Arquimedes foi o 1º a provar que uma banheira podia flutuar.

28 ) A datação com o carbono 14 permite saber se alguém morreu na
guerra.

29) No cinema mudo, os actores falavam com palavras que escreviam por
baixo dos filmes.

30) O cinema era uma energia ainda desconhecida no século XIX.

31) Um litro de água a 20ºC + um litro de água a 20ºC = 2 litros de
água a 40ºC.

32) Os agricultores, nem sempre foram pessoas coléricas que queimavam
pneus e batatas.

33) Uma língua morta é uma língua que só é falada pelos mortos.

34) Victor Hugo escrevia livros para os pobres miseráveis.

35) Em todos os quadros pintados vê-se bem que Napoleão escondia a sua
grande barriga com a mão.

36) A gramática não serve para nada porque é muito difícil de perceber.

37) Napoleão é sobrinho do seu avô.

38 ) Antes da guilhotina, os condenados à morte eram executados na
cadeira eléctrica.

39) A guerra dos 100 anos durou de 1914 a 1918.

40) Uma biblioteca é como um cemitério para os livros velhos.

41) Nero servia-se dos cristãos para fazer lâmpadas, ateando-lhes fogo.

42) A leitura permite ao homem tornar-se míope…

43) Os latinos falavam o grego antigo.

44) A leitura é feita para aqueles que não gostam de escrever.

45) O livro de bolso foi inventado por Gutenberg.

Proteger uma directoria com password – Ficheiro .htaccess

O ficheiro .htaccess indica ao servidor web apache que a directoria onde este se encontra possui autenticação. Depois de configurado o directório temos um segundo passo que é criar os utilizadores que poderão aceder a directoria.

1 – Criar/alterar na directoria pretendida o ficheiro .htaccess com o seguinte conteúdo:

AuthUserFile /private/.htpasswd 
AuthName "Who are you?" 
AuthType "Basic" 
require valid-user

Nota: A directoria /private deve estar fora do site para não correr risco de ser acessível. No caso do CPanel é public_html, no caso do Plesk httpdocs.

2 – Para criar um novo login/password:

htpasswd -c /private/.htpasswd username

Será pedido uma password. A opção  -c  indica que deve criar no ficheiro esse novo utilizador.

APM

Beautiful World

O meu primeiro tema para o wordpress.

Previsão

Faça já o download.  É gratuito, para todos usar….

 APM

Business Bullshit Bingo

Dorme durante as reuniões de trabalho?
Tédio durante as conferências, seminários e colóquios?

Joga o Business Bullshit Bingo.

Imprima o quadro abaixo antes de começar a reunião, seminário, conferência, etc.
Sempre que ouvir uma expressão contida no seu cartão, marque a mesma com um (X).
Quando completar uma linha, coluna ou diagonal, grite ” BULLSHIT“!

Jogador Nº 1  
Core Agrerar Clientes Projecto Rendimento
Qualidade pró-activo Follow up Resultados Lucros
Mercado Optimização Mentalidade benefício Foco
Efectivamente Paradigma Implementação Custos Redução
Jogador Nº 2  
Core Follow up Implementação Mentalidade Sinergia
Foco Efectivamente Parceiros Projecto pró-activo
Clientes Custos Rendimento Resultados Agrerar
Lucros Qualidade benefício Estratégia Mercado
Jogador Nº 3  
Core Mercado Follow up Business Rendimento
Resultados Sistema pró-activo Lucros Mentalidade
Agrerar Clientes benefício Paradigma Efectivamente
Optimização Projecto Qualidade Implementação Custos
Jogador Nº 4  
Core Follow up Mentalidade Implementação Parceiros
Custos Rendimento Agrerar Mercado Qualidade
Foco benefício Estratégia Resultados Business
Projecto Efectivamente Optimização Sistema Sinergia

As reuniões nunca mais serão as mesmas… 

APM 

PS: Para mais jogadores, ou mais cartões, veja o gerador de cartões em Business Bullshit Bingo