Por Alessandro Feitosa Jr e Paula Salati, g1


Falha no WhatsApp, Facebook e Instagram foi causada por problema de configuração — Foto: Arte g1/Juan Silva e Amanda Paes

Uma falha nas configurações da rede interna do WhatsApp, Facebook e Instagram causou uma das panes mais longas de suas histórias na última segunda-feira (4). O ponto central da falha estava nos roteadores de backbone.

A empresa disse que o problema ocorreu durante uma manutenção de rotina e que suas ferramentas não interromperam um comando errado. Isso deixou os servidores dos aplicativos sem comunicação com a internet.

A tradução do termo em inglês "backbone" (espinha dorsal) pode ajudar a entender: são ligações centrais em um sistema com várias conexões (veja no infográfico acima). No caso do Facebook, há servidores espalhados ao redor do mundo que são gerenciados por esse backbone.

LEIA MAIS

"São dezenas de milhares de quilômetros de cabos de fibra óptica atravessando o globo e ligando todos os nossos data centers", disse Santosh Janardhan, vice-presidente de infraestrutura da rede social.

Os aplicativos ficaram fora do ar por cerca de 6 horas no mundo todo e fez com que bilhões de pessoas ficassem sem acesso.

Entenda em detalhes a pane:

O que aconteceu?

O Facebook disse que “alterações de configuração nos roteadores de backbone que coordenam o tráfego de rede entre nossos data centers causaram problemas que interromperam a comunicação”.

Em outras palavras, os sistemas do Facebook (que incluem o WhatsApp e o Instagram) deixaram de “conversar” com a internet no geral. Por isso, quando alguém tentava acessar esses serviços, recebia mensagens de erro ou simplesmente não conseguia carregar os apps.

A rede social disse ainda que o problema não teve a ver com ataque hacker e que não há indícios de vazamentos ou comprometimento dos dados das pessoas durante a instabilidade.

A origem esteve numa manutenção corriqueira. O time de infraestrutura do Facebook emitiu um comando para avaliar a disponibilidade da capacidade da rede da empresa e derrubou todas as conexões por um excesso de demanda.

O Facebook disse que seus sistemas são projetados para lidar com tarefas como essas, mas um erro em uma ferramenta impediu que ela interrompesse o comando.

Com o backbone comprometido, os sites da empresa foram retirados da rota do chamado “Border Gateway Protocol”, ou BGP, pois o sistema determinou que a conexão com a internet não estaria correta (saiba mais sobre BGP abaixo).

Por que os erros 'DNS' e '500/5XX' apareciam nas páginas?

Quando as pessoas tentavam entrar no endereço de qualquer um dos 3 aplicativos, surgia a mensagem "DNS_PROBE_FINISHED_NXDOMAIN", o que levou muitas pessoas a especularem que a pane foi causada por um "erro de DNS".

O "erro de DNS" estava relacionado com a retirada do Facebook do BGP. O DNS é a "agenda de contatos" da internet. É ele que registra os números (endereços de IP) associados aos "nomes de domínio" (como "globo.com").

A internet só funciona com números, então essa "agenda" cumpre o objetivo de permitir consultas (chamadas de "resoluções de domínio") para que qualquer pessoa possa saber o número de IP do site que pretende acessar. Se acontece uma falha, o acesso à página fica indisponível porque não é possível encontrar o caminho certo para chegar nela.

"Se a gente fosse fazer uma analogia com a telefonia, é como se você fosse telefonar para o número do Facebook e desse que esse número não foi encontrado", explica Thiago Ayub, diretor de tecnologia da Sage Networks.

Se os DNS é a agenda de contatos, o BGP é o sistema de navegação – o que decide qual rota a rede deve pegar para que a informação chegue corretamente.

Sem as rotas BGP para a rede do Facebook, os próprios servidores do Facebook ficaram inalcançáveis – incluindo o WhatsApp e o Instagram.

Para algumas pessoas que tentaram acessar Facebook, Instagram e WhatsApp, apareceu um "Erro 500" ou "Erro 5XX". Esse tipo de mensagem geralmente indica uma dificuldade do computador do usuário se comunicar com o servidor do site ou aplicativo.

"Toda a família de erro que começa com 500 (de 500 a 599) significa que houve um erro interno no servidor. Ou seja, com você usuário, seu navegador, seu smartphone, está tudo certo. O problema não é do seu lado. O problema é do outro lado do modem, do outro lado do nosso celular, que é o servidor", indica Ayub.

O que é backbone?

O nome "backbone" é esquisito, mas a tradução do termo em inglês (espinha dorsal) pode ajudar a entender: são ligações centrais em um sistema com várias conexões.

“Assim como todo mundo tem um roteador em casa, o Facebook tem milhares de roteadores espalhados pelo mundo que ligam os servidores internos da empresa com a internet. E houve um erro de configuração nos roteadores”, explica Ayub.

“Backbone é um conjunto de roteadores interligados entre si espalhados pelo mundo. Na medida, em que cometemos um erro configuração significa que todos os roteadores dele deixaram de acessar a internet”, completou.

Entenda 4 pontos sobre a queda dos aplicativos:

Pane global: entenda 4 pontos sobre a queda do WhatsApp, Facebook e Instagram

Pane global: entenda 4 pontos sobre a queda do WhatsApp, Facebook e Instagram

Veja também

Mais lidas

Mais do G1
Deseja receber as notícias mais importantes em tempo real? Ative as notificações do G1!