Google e YouTube down: ecco il perché dei disservizi

Google e Youtube down disservizi

Google e Youtube down disservizi

Esattamente una settimana fa abbiamo assistito ad un evento più unico che raro: Google e Youtube hanno subito down e disservizi in maniera generalizzata. Tutti i servizi di Big G sono risultati impossibili da utilizzare per un’ora, con conseguenti difficoltà per tutti gli utenti e le aziende.

7 giorni dopo Google rivela il motivo dietro i disservizi del 14 e 15 Dicembre, che hanno causato problemi anche per la didattica a distanza. I servizi Google Classrooom e Meet, usati ampiamente dalle scuole, sono stati inutilizzabili per quasi un’ora.

Google e YouTube down: le cause dei disservizi

Google ha innanzitutto rassicurato gli utenti spiegando che non si è trattato di un attacco hacker. Negli stessi giorni, infatti, si era verificato un cyberattacco alle aziende governative statunitensi che aveva interessato anche Microsoft. L’azienda di Mountain View invece sembrerebbe non essere stata colpita. Dietro i disservizi di Google e YouTube c’è invece il nuovo sistema di archiviazione. La migrazione è iniziata a Ottobre, ma lunedì scorso si è verificato un errore che ha causato il down dei servizi Google. In un report sull’infrastruttura Google Cloud l’azienda spiega le motivazioni dei disservizi, iniziati alle 12:46 e finiti alle 13:33 (ora italiana).

La presenza di un bug sul sistema di gestione della memoria ha causato la diminuzione della capacità di accesso allo spazio di archiviazione, portandola a 0. Ciò ha impedito la corretta autenticazione degli utenti, che non sono riusciti ad entrare nei servizi. Google utilizza User ID Service per memorizzare gli identificatori univoci degli account, gestendo i token OAuth per l’autenticazione. Se il tentativo di accesso ha dei dati obsoleti il servizio impedisce il login. Quando sono state attivate le nuove regole per il servizio e si è quindi presentato il bug, l’accesso in scrittura si è bloccato (a causa della memoria posta a 0). Di conseguenza il controllo dell’obsolescenza dei dati per le operazioni di lettura è risultato positivo per tutti gli accessi, impedendo l’autenticazione degli utenti.

Alcuni utenti si sono divertiti a cambiare i messaggi di errore di Meet durante il down di Google e YouTube.
Alcuni utenti si sono divertiti a cambiare i messaggi di errore di Meet durante il down di Google e YouTube.

Anche il giorno successivo si sono verificati problemi con la posta, impedendo a molti utenti di inviare email. Il malfunzionamento si è verificato durante la notte, quindi non ha impattato eccessivamente il lavoro, almeno in Italia, e la durata è stata molto più breve. In questo caso l’errore era sempre legato alla migrazione dei sistemi Google, ma ha colpito il server SMTP di GMail.

L’impatto dei disservizi

I servizi di Google non sono riusciti a verificare la corretta autenticazione delle richieste degli utenti, mostrando quindi errori di caricamento della pagina e impedendo di effettuare il login alle diverse funzionalità. I servizi più colpiti sono stati tutti quelli di Google Workspace Services, ovvero Gmail, Calendar, Meet, Docs e Drive. Anche la Google Cloud Platform ha subito grandi disservizi, che hanno impattato la Cloud Console, il Cloud Storage, BigQuery e Kubernetes Engine.

La mappa del down di Google in tutto il mondo. Credits: Andrea Galazzi
La mappa del down di Google in tutto il mondo. Credits: Andrea Galazzi

Nel primo caso le app hanno interrotto completamente il servizio per tutti gli utenti. La ripresa è avvenuta intorno alle 14:00, ma alcuni utenti hanno avuto problemi fino alle 14:30, a causa del grande traffico registrato subito dopo il recovery dei servizi. Un po’ meglio, ma non troppo, per i servizi della piattaforma Cloud: il Cloud Storage ha registrato solo il 15% di richieste fallite, e il Kubernetes Engine solo il 4%. Peggio per i servizi di BigQuery: il 75% delle richieste è andato in errore, e anche il Cloud Networking ha registrato un’alta percentuale di fallimento.

Il problema è stato prontamente risolto e Google è all’opera per potenziare i propri sistemi e velocizzare la risposta agli errori. L’azienda ha infatti confermato che, dopo un’attenta indagine dell’incidente, saranno prese tutte le misure necessarie per prevenire e arginare un eventuale futuro problema.