Uma falha em HDDs ou SSDs pode causar indisponibilidade e perda de dados. Veja como usar o smartctl para prever falhas, acompanhar desgaste e manter sua infraestrutura confiável.
O Linux oferece uma ferramenta poderosa e gratuita para monitorar discos: o smartctl, parte do pacote smartmontools. A seguir, você verá o essencial para instalar, executar testes e interpretar métricas em HDDs e SSDs.
O que é o S.M.A.R.T.?
O S.M.A.R.T. (Self-Monitoring, Analysis and Reporting Technology) registra métricas internas de desempenho, erros e desgaste. Na prática, funciona como uma “caixa-preta” do disco, ajudando a:
- Detectar falhas iminentes;
- Estimar a vida útil do dispositivo;
- Planejar trocas preventivas antes da pane.
Como instalar o Smartmontools
# Debian/Ubuntu
sudo apt install smartmontools -y
# Red Hat / Oracle Linux / CentOS
sudo yum install smartmontools -y
# Fedora
sudo dnf install smartmontools -y
Comandos essenciais do smartctl
1) Identificar informações do disco
smartctl -i /dev/sda
2) Verificar status geral de saúde
smartctl -H /dev/sda
3) Listar todos os atributos S.M.A.R.T.
smartctl -A /dev/sda
4) Executar testes de diagnóstico
Teste curto (alguns minutos):
smartctl -t short /dev/sda
Teste longo (pode levar horas):
smartctl -t long /dev/sda
Após a conclusão, consulte os resultados:
smartctl -l selftest /dev/sda
HDDs vs SSDs: o que monitorar?
Embora a ferramenta seja a mesma, os indicadores mudam entre discos mecânicos e eletrônicos.
Categoria | HDD (mecânicos) | SSD (SATA/NVMe) |
---|---|---|
Setores defeituosos | Reallocated_Sector_Ct – setores remapeados |
Não aplicável |
Setores instáveis | Current_Pending_Sector |
Não aplicável |
Erros de leitura | Raw_Read_Error_Rate |
Pode aparecer, mas não é crítico |
Temperatura | Temperature_Celsius |
Temperature |
Horas de uso | Power_On_Hours |
Power_On_Hours |
Ciclos de energia | Start_Stop_Count |
Power_Cycle_Count |
Vida útil | — | Wear_Leveling_Count , Media_Wearout_Indicator , Percentage Used (NVMe) |
Dados gravados | — | Total_LBAs_Written (SATA) / Data Units Written (NVMe) |
Percentage Used
. Próximo de 100%, planeje a substituição.
Diferenças práticas na análise
- HDDs: foco em
Reallocated_Sector_Ct
eCurrent_Pending_Sector
. Aumento constante indica deterioração física. - SSDs SATA: priorize indicadores de desgaste (
Wear_Leveling_Count
,Media_Wearout_Indicator
) e dados gravados. - SSDs NVMe:
Percentage Used
oferece visão clara da vida útil consumida.
Boas práticas de monitoramento
- Automatize verificações periódicas: use
cron
para rodar osmartctl
e registrar logs. - Integre com seu NOC: Zabbix, Nagios ou Prometheus para alertas e histórico.
- Defina thresholds: ex.: alerta em HDD quando
Reallocated_Sector_Ct > 10
; em SSD quandoPercentage Used > 80%
. - Troca preventiva: discos são itens de desgaste; substitua antes da falha total.
Conclusão
O smartctl
é essencial para garantir segurança, disponibilidade e performance.
Com monitoramento proativo, você reduz riscos e custos de indisponibilidade.
Na Freestore IT Services, aplicamos monitoramento contínuo e práticas recomendadas para manter ambientes de clientes confiáveis e seguros.