Uma falha da OVH paralisou a internet. “Somente aqueles que nunca confiam totalmente estão adequadamente protegidos”

Uma falha da OVH paralisou a internet. "Somente aqueles que nunca confiam totalmente estão adequadamente protegidos" 1

Até aquele fracasso paralisou boa parte da internet, principalmente na Europa, ocorreu na manhã de quinta-feira. Muitos sites e sites ficaram iníveis, e um caso comum foi a incapacidade de enviar e receber e-mails, bem como usar serviços de Internet.

Rapidamente descobriu-se que esses serviços e plataformas foram afetados pela falha, que utilizam os serviços de alojamento da OVH, um dos mais conhecidos fornecedores deste tipo de soluções na região.

O acidente atingiu a maior parte do dia e a OVH informou sobre o progresso da restauração de todos os sistemas nas redes sociais de forma contínua.

Uma falha da OVH paralisou a internet. "Somente aqueles que nunca confiam totalmente estão adequadamente protegidos" 2

Por fim, os fornecedores conseguiram, na noite de quinta-feira, restabelecer a disponibilidade da maioria dos sites e serviços que utilizam o alojamento OVH.

A Wirtualnemedia.pl pediu à OVH que explicasse as razões da maior falha de internet dos últimos anos. Octave Klaba, CEO da OVH, forneceu respostas detalhadas numa extensa mensagem enviada à nossa redacção.

– Esta manhã houve um incidente na rede de fibra óptica que conecta nosso data center Roubaix (RBX) ao 6 de 33 pontos de troca de tráfego internacional (oPs) incluídos em nossa rede backbone: Paris (TH2 e GSW), Frankfurt (FRA), Amsterdã (AMS), Londres (LDN) e Bruxelas (BRU) – explica Octave Klaba. – O data center RBX é conectado via 6 fibras ópticas para 6 Pontos PoP: 2x RBX <> BRU, 2x RBX <> LDN, 2x RBX <> Paris (1x RBX <> TH2 e 1x RBX <> GSW). Esses links levam a um sistema de nós de rede que nos dão 80 comprimentos de onda por 100 Gbps em cada fibra.

Como explica o responsável da OVH para cada banda de 100G conectada a roteadores, a empresa usa 2 faixas ópticasque são geograficamente distintos. Em caso de interrupção da fibra, como durante obras de terraplenagem, o sistema é reconfigurado em 50 ms e todos os links permanecem ativos.

– Usamos largura de banda para conectar Roubaix a PoPs 4, 4TBps, ou seja, 44 links, 100G cada: 12x 100G para Paris, 8x100G para Londres, 2x100G para Bruxelas, 8x100G para Amsterdã, 10x100G para Frankfurt, 2x100G para o data center Graveline (GRA) e 2x100G para o data center de Estrasburgo – descreve Klaba . – CERCA DE 8: 01 de repente todos os links de 100G de 44 conexões perdidas disponíveis. Considerando o sistema de redundância que implementamos, o problema não poderia ser causado pela interseção de todos eles 6 fibras ópticas simultaneamente. Não foi possível executar o diagnóstico remotamente porque a interface de gerenciamento não estava disponível. Então tivemos que intervir na sala de roteamento, diretamente no dispositivo de rede – desconectou os cabos de rede para reiniciar o sistema e finalmente executar diagnósticos com o fornecedor do dispositivo de rede. As tentativas de reiniciar os dispositivos levaram muito tempo, cada dispositivo levou de 10 a 12 minutos para reiniciar. Este é o principal fator responsável pela duração da falha. Todos os cartões transponder que usamos: ncs2k-400g-lk9, ncs2k-200g-cklc entraram no modo “standby”. Isso acontece quando a configuração é perdida. Então, restauramos a configuração anterior do backup, graças ao qual o sistema reconfigurou todos os cartões transponder.

Klaba explica que a comunicação com os roteadores foi restabelecida e a conexão RBX com os seis PoPs foi restabelecida foi restabelecido às 10h34.

– O motivo da falha é erro de software em dispositivos de rede – revela o CEO da OVH. – O banco de dados de configuração é registrado três vezes e copiado para duas placas de monitoramento. Apesar de todas essas salvaguardas, a base desapareceu. Continuaremos a trabalhar com o fabricante do hardware para encontrar a causa do problema e corrigir o bug do software o mais rápido possível. Não retiramos a confiança que depositamos no fornecedor do equipamento, mesmo que este tipo de erro seja particularmente crítico. A disponibilidade necessária é um problema de design que abrange todos os casos, incluindo situações em que tudo dá errado. O Modo da OVH precisa de ser desenvolvido em todos os nossos projetos.

DENTROSegundo Klaba, bugs de software podem existir, mas falhas que afetam os clientes da empresa não.

– É evidente que existe uma lacuna por parte da OVH, pois apesar dos investimentos significativos na rede, fibra ótica e tecnologia, acabamos de sofrer uma interrupção de serviço de duas horas em toda a nossa infraestrutura em Roubaix, ite Klaba. – Uma solução é criar 2 sistemas de nós de fibra óptica em vez de um. Isso significa que existem dois bancos de dados e, se a configuração for perdida, apenas um sistema falhará. Se 50 por cento. connect a por um dos sistemas, perderíamos 50% hoje. eficiência, não 100%. conexões. Este é um dos projetos que iniciamos há um mês, os dispositivos já foram encomendados e estamos aguardando sua entrega nos próximos dias. Dentro de duas semanas, poderemos iniciar o trabalho de configuração e migração. Dado o incidente de hoje, este projeto torna-se nossa prioridade absoluta em relação a toda a nossa infraestrutura, todos os data centers e pontos de presença (PoP).

Klaba destaca que no setor de provedores de soluções em nuvem apenas aqueles que nunca confiam totalmente estão adequadamente protegidos.

“A qualidade do serviço é consequência de dois elementos: todos os incidentes devido ao desenho de infraestruturas e falhas devido a deficiências com as quais aprendemos”, afirma o presidente da OVH. – O incidente de hoje nos leva a aumentar ainda mais a fasquia para que possamos atingir um nível de risco próximo de zero. Lamentamos profundamente a interrupção no serviço em andamento hoje 2 Tempo. 33 minutos nas instalações de Roubaix. Nos próximos dias, os clientes que sofreram os efeitos negativos da falha receberão um e-mail referente às nossas obrigações de SLA – informa Klaba.