Het netwerkbedrijf Cloudflare heeft een ingrijpend herstelplan gepresenteerd na twee grote storingen die het wereldwijde internetverkeer verstoorden. Onder de naam Code Orange: Fail Small zet het bedrijf alle andere werkzaamheden op pauze om de stabiliteit en weerbaarheid van zijn netwerk te verbeteren.
Op 18 november en 5 december 2025 werd het netwerk van Cloudflare getroffen door ernstige incidenten. Door deze storingen waren wereldwijd duizenden websites en applicaties tijdelijk onbereikbaar of gaven zij foutmeldingen. Uit intern onderzoek bleek dat beide incidenten werden veroorzaakt door foutieve configuratie-updates die vrijwel gelijktijdig over het hele netwerk werden uitgerold.
Met het uitroepen van Code Orange geeft Cloudflare aan dat de situatie als kritiek is aangemerkt. Binnen het bedrijf betekent dit dat productontwikkeling en nieuwe functionaliteiten tijdelijk worden stilgelegd. Alle teams richten zich op het verkleinen van risico’s in het netwerk. Het Fail Small-principe moet ervoor zorgen dat fouten, menselijk of technisch, beperkt blijven tot een klein deel van het netwerk en zich niet meer wereldwijd kunnen verspreiden.
Het herstelplan bestaat uit drie technische maatregelen. Allereerst wordt de uitrol van configuratiewijzigingen aangepast. Waar dergelijke wijzigingen eerder in één keer wereldwijd actief werden, moeten ze voortaan stapsgewijs en op kleine schaal worden getest voordat ze breder worden doorgevoerd. Daarnaast wil Cloudflare de foutafhandeling verbeteren. Systemen moeten bij een foutieve instelling automatisch terugvallen op veilige standaardconfiguraties, in plaats van verkeer volledig te blokkeren. Tot slot pakt het bedrijf zogeheten circulaire afhankelijkheden aan. Tijdens de recente storingen bleek dat beheerders soms geen toegang hadden tot essentiële systemen, omdat beveiligings- en beheertools afhankelijk waren van hetzelfde netwerk dat was uitgevallen. Deze afhankelijkheden worden doorbroken om noodtoegang mogelijk te maken.
In een toelichting erkent het bedrijf dat de snelheid waarmee configuraties wereldwijd kunnen worden aangepast, normaal een voordeel, in deze gevallen juist tot grootschalige uitval heeft geleid. Volgens Cloudflare wordt daarom prioriteit gegeven aan beheersbaarheid boven snelheid.
Dane Knecht, verantwoordelijk voor engineering, geeft aan dat het bedrijf verantwoordelijkheid neemt voor de impact van de storingen op klanten en internetgebruikers. Cloudflare verwacht dat de belangrijkste verbeteringen uiterlijk aan het einde van het eerste kwartaal van 2026 zijn doorgevoerd. Met deze maatregelen wil het bedrijf het vertrouwen in de betrouwbaarheid van zijn infrastructuur herstellen.


