發布時間:2025-12-01 18:37:32 來源:柳煙花霧網 作者:熱點
亞馬遜云業務AWS經歷了一場嚴重故障,上千受影時潛損失導致全球眾多大型網站癱瘓。網站務年
當地時間10月20日下午3點左右,響亞亞馬遜AWS發布公告稱,馬遜美元已解決了當天持續了約15小時的云服服務故障問題,“所有AWS服務均恢復正常運行”。最嚴重宕不過,或超部分服務(例如AWS Config、百億Redshift和Connect)仍有積壓的上千受影時潛損失消息,將在接下來的網站務年數小時內處理完畢。
目前,響亞AWS尚未給出詳細的馬遜美元故障原因報告。根據Synergy Research Group的云服數據,作為全球規模最大的最嚴重宕云服務巨頭之一,AWS占有全球云服務市場份額的或超30%以上,在世界各地設有數據中心。
故障觸發原因:核心節點出現DNS解析故障
此次故障由數據庫網絡故障引發,影響了全球成百上千個網站和應用程序。20日當天,美西時間凌晨12點左右,AWS的核心節點之一美國東部1區(US-EAST-1)首先報告出現“顯著的錯誤率和延遲”現象。該節點位于美國弗吉尼亞州北部,是最早啟用、規模最大的主要節點,許多全球服務默認部署于此。
最早一批受到嚴重影響的網站和應用程序包括亞馬遜、聊天軟件Snapchat和Facebook,以及熱門游戲Fortnite和學習平臺Canvas等等。根據公告,AWS在20日當天凌晨12時26分確認,故障的觸發原因是“區域性DynamoDB(AWS旗下云原生數據庫)服務端點的DNS解析問題”。
DNS(域名系統)是一種將網址轉換為IP地址的系統,這也就意味著,客戶端無法把DynamoDB的域名以正常的速度解析成正確的IP地址,從而導致了后續一連串服務故障。在凌晨2時24分,AWS解決了美國東部1區DynamoDB的DNS問題,各項服務開始恢復。
然而,就在大家以為問題得到解決時,第二波故障開始出現。AWS發現,其依賴于DynamoDB的虛擬機服務EC2的內部子系統也出現了問題,導致無法正常啟動EC2實例,而AWS的多個服務也受其影響出現了網絡連接問題。
在恢復過程中,AWS對啟動EC2實例等操作進行了限流,直到當天下午3時01分,所有AWS服務才恢復正常運行。
根據網絡故障追蹤網站Downdetector的統計,金融服務公司Venmo和Robinhood、加密貨幣交易所Coinbase、蘋果公司的音樂和電視產品、AI公司Perplexity、視頻網站Zoom、索尼游戲平臺PlayStation、美國聯合航空等網站或應用都在當天經歷了服務中斷,而英國政府網站Gov.uk和英國稅務海關總署也遇到了問題。在故障發生后的短短兩小時內,僅美國地區的相關投訴量便突破2萬條。
專家:全球網絡對幾大云巨頭的依賴程度越來越深
分析指出,此次宕機事件凸顯了全球互聯網基礎設施的脆弱性。
根據互聯網性能監控公司Catchpoint的估算,AWS此次服務中斷造成的經濟損失將至少達到數十億美元。Catchpoint的CEO Mehdi Daoudi指出,如果將本次宕機的后續影響、公司停業損失和“數百萬名無法進行工作的員工的生產力損失”都考慮在其中,累計損失金額將會是數百億美元乃至千億美元。
咨詢公司Duckbill的首席云計算經濟學家Corey Quinn表示,此次事故可能是AWS自2021年12月發生重大中斷以來最嚴重的一次:“問題在于,這次到底算不算那種‘大規模災難’,還是由于我們的系統之間更加緊密相連、對亞馬遜的依賴更深,所以造成的影響看起來更大?”
這讓人聯想起去年7月時,網絡安全公司CrowdStrike造成的微軟大規模藍屏事件。那次大規模宕機事件因CrowdStrike公司升級安全軟件而引發,影響了全球大約850萬臺安裝微軟Windows操作系統的設備。
網絡安全公司NymVPN的首席數字官Rob Jardin表示,AWS的本次宕機事件似乎并非由網絡攻擊引起,更可能是由于“亞馬遜某個主要數據中心出現技術故障”所致:“當系統過載或網絡中的關鍵組件宕機時,就可能出現這種問題。由于大量網站和應用程序都依賴AWS,影響往往會迅速蔓延。”
美國圣母大學(University of Notre Dame)門多薩商學院的信息技術教授Mike Chapple也強調,問題并非出在數據庫本身,而是域名解析系統:“這次事件提醒我們,整個世界對亞馬遜、微軟和谷歌這少數幾家大型云服務商的依賴有多深。當一家主要的云廠商‘打噴嚏’時,整個互聯網都會感冒。”
或許是事故讓市場重新認識到了AWS的重要性,20日當天,亞馬遜(Nasdaq:AMZN)股價漲1.61%收于每股216.48美元,總市值2.31萬億美元。
澎湃新聞記者 胡含嫣
相關文章