photo credit by thecyberexpress.com
CrowdStrike 紅色獵鷹墜落
紅色獵鷹是國際知名資安公司CrowdStike Falcon 的代表標誌,不過在7/29 因為其軟體更新作業造成所有用戶的Windows系統當機事件,引發一起全球性的大事故。由於受到這起事件影響的CrowdStrike用戶涵蓋多個行業,受害的當機電腦數量高達850萬台,其中有多數的受害主機是屬於高敏感的服務系統,所以CrodStrike事件所引爆的衝擊與傷害甚為嚴重,遠超過任何一場的資安攻擊事故或IT癱瘓事件。
事件情節令人聯想到一部非常精彩的電影:黑鷹計劃(Black Hawk Down),這部上映於2001年的電影是從真實發生的事件改編,由於某個小事端的失控進而開始連鎖反應,而在後續的發展情況就如同桶了馬蜂窩,讓即使是裝備訓練最精良的美軍特戰隊也遭受莫大的傷害跟損失。這個事件在日後也成為一個教科書級別的學習案例,從中檢討在一連串已經發生的錯誤該如何避免跟降低損失,而我們是否也能從CrowdStrike這場全球大當機事件中學習哪些寶貴的經驗?
灰犀牛效應:可預見的威脅
CrowdStrike事件雖然是場另類的資通安全事故,但卻是一場可預見的「灰犀牛效應」。灰犀牛效應是指「顯而易見且高機率發生,卻被視而不見的既存威脅」,雖然許多目光指向「軟體更新」所導致,不過在現今備受關注的軟體供應鏈安全議題中,軟體更新是必要且重要的項目。
事實上,每個企業IT管理人員都深知軟體更新動作是存在風險機率的,因為只要有變動(Changes)就很難預測控制會有哪些意外出現,只是CrowdStrike事件捅了一個影響全球性的大婁子。
說到底,資安防護系統也是企業資訊系統的一種類型,不論是軟體、硬體、或服務都存在發生系統故障停擺的可能性。但是,資安防護系統為了確保其安全防護的有效性,所以在更新的項目及頻率會高於一般系統,相對地發生意外的機率也會比較高。比如CrowdStrike 此次的更新也是為了功能強化,卻意外造成載體Windows系統故障的情況,同樣情況也會在其他的作業系統跟不同廠牌的資安產品遭遇到。比如,今年4月CrowdStrike也曾造成Linux系統當機(只是沒上報)、在今年7月份的Windows安全更新也造成BitLocker加密功能出問題而進入藍色當機畫面,類似的案例相當多。
隨著近幾年已經有太多起跟「軟體供應鏈安全」相關的事件發生,比如有核彈級漏洞之稱的Log4Shell問題,因此我們對於「軟體更新」不僅無法置之不理,甚至強度還會不斷提升,尤其是對於資安系統的更新要求,換句話說未來會再次出現CrowdStrike事件的機率也會增加,我們更需要思考資安系統故障的應對之道。
資安系統故障:「防護空窗期」風險
當資安防護系統發生故障時,您是否該視為資安事故看待嗎?根據我國資通安全法的定義:資通安全事件是指系統、服務或網路狀態經鑑別而顯示可能有違反資通安全政策或保護措施失效之狀態發生,影響資通系統機能運作,構成資通安全政策之威脅。所以,CrowdStrike雖然不是資安事件或網路攻擊所導致,但仍建議將它視為「資通安全事件」來思考研究。
當資安防護系統發生故障時的情況會比一般情況更為特別,因為企業可能會因此陷入「防護空窗期」,事件警戒層級會從「系統故障」提升到「安全威脅」。而防護空窗期所面臨的風險概分以下:
資安曝險:對於事件的受害單位來說,無疑是對外暴露所採用的防護系統是那種產品或技術,這對於犯罪者的前置準備工作省下不少時間,比如趁著此刻的防護空窗期展開行動、或是等日後入侵時規避偵測,都有助於犯案成功率提升。
防護空窗:任何的資安系統從故障失效到復原的期間也就是「防護空窗期」,相當於赤裸的狀態,空窗期越久則遭遇威脅機率就更高。此外,即使具有網路防火牆及IPS等其他防護的保障也別掉以輕心,小心駛得得萬年船。
復原失效:在資安事故應變處理(IR)中,復原是其中一項的處理程序,不過當資安系統本身的復原程序則必須更加小心謹慎。尤其在根本原因及解決方法還沒有獲得確認之前的冒險行動,將會讓企業的安全陷入二次危機。
社交欺騙:當事件發生及訊息傳開之時,網路上往往會隨即出現許多包裝好的不法軟體工具、及假冒原廠支援服務的詐騙郵件。當企業面對資安系統故障時勢必希望盡快尋求處理方法,此時也正是社交釣魚欺騙的絕佳時刻,尤其在缺乏備援的資安防護下就無法過濾防禦。
企業營運持續需要「資安可靠度」
資安是維護企業營運持續的關鍵要素之一,主要是防止非法惡意的入侵破壞,所以在部署規劃上多半會著重於「防護」,不過在CrowdStrike事件則提醒世人:資安系統也是「系統」,資安防護系統的可靠度也倍顯重要。
資安防護系統也是企業眾多系統的其中之一,同樣存在任何系統會有的風險與脆弱面,就像是醫生也是人所以同樣會生病的道理一樣。所以企業也應該用相同的條件來評量資產的風險性,包括:單點故障風險、軟體安全風險、供應商鎖定風險、持續營運中斷風險。而CrowdStrike事件無疑是為全世界做了一場大規模的災害演練示範,證實這些風險不是假設性的,當資安防護系統失去可靠度將造成企業重大經濟損失和聲譽損害,影響程度並不亞於企業營運系統停擺的狀況。
事發當時的CrowdStrike軟體及微軟Windows系統之間產生了一種相互影響的閉環困境,但是會造成Windows系統當機問題的「過敏原」不只是CrowdStrike軟體,各種軟體也會採到這次引爆事件的技術方法。只是在事件發生的話,受害單位會選擇哪些作法來應對處理?我們從CrowdStrike受害單位的做法歸納如下:
等待:等待正確或可靠的解決做法,不過這是用時間來換取的,端看單位對於營運復原時間目標(RTO)。
完全復原:這是將作業系統及已安裝的應用軟體都全部復原,例如快照、映射、或磁碟備份。但是也因為「問題軟體」也在其中,造成無法正常復原。
系統復原:只復原Windows作業系統環境,如果有包含Windows修補更新的環境是更好的方式。不過有些單位選擇不安裝問題軟體,此時就看是否有替代選擇。
移除:例如Tesla公司及SpaceX公司的執行長-馬斯克,選擇將CrowdStrike全面刪除。有部分用戶則採取先將問題軟體“服務停用 (Disable)”的方式,不過同樣會面臨是否有替代方案的問題。
求助:直接尋求MSSP或MDR資安服務公司的服務模式,這是一個比較快速有效率的方式,可優先針對關鍵的營運系統提供必要的資安防護。不過在遭遇緊急臨時的狀況下,如果沒有已知的備援方案,則會面臨評估選擇、決策批准、及部署進駐等過程。
由於多數的Windows系統做為企業重要營運使用,所以「可靠度」就相對重要,而在此次事件更凸顯出「資安可靠度」的必要性。在實務上,要確保資安可靠度的做法不只是做好備份跟還原,而是要考量更多層面包括:替代的備援方案、管理的複雜性、系統兼容問題、成本問題、以及技術要求問題等,而這些考量也產生了資安防護服務的異質備援需要。
資安防護服務的「異質備援」
iThome「CrowdStrike大當機的省思,臺灣大型醫院學到這2件事」 的報導為受害單位的現身說法:經歷7月19日大當機事件,臺灣一家大型醫院除了自我警惕、更版流程要更嚴謹外,也開始評估雙備援機制的原主機和備援主機,是否應採用不同廠商的防護服務,以免廠商出事、備援主機仍無法作業。
2021年,由紐約時報資深記者Nicole Perlroth所撰寫的《零時差攻擊》一書揭露網路資安攻擊的威脅程度遠超乎想像,任何一種資安系統或技術都存在「被破防」的可能性,事實上在最近幾年來的資安事件中也獲得驗證,尤其是沒有被看顧維護的資安系統更容易失效,所以在早年就已經有不斷有「資安防護服務的異質備援」概念出現。
異質的資安防護在某些敏感單位是採行已久的做法,比如同時部署不同品牌的雙防護系統,或是每年改換一套資安系統的做法,目的是避免被駭客摸透、或出現盲點,但是如此的做法需要付出的代價也高。不過隨著新技術演進,其實新一代的MSSP及MDR服務已經可以提供更容易取得的合適做法,尤其是最近興起的「資安即服務 (Cybersecurity as a Service)」模式非常適用於多數的企業組織。
由於資安即服務是將資安防護所需要「防護工具+專人監控+專家經驗」的整體服務融合,能夠讓企業用戶不用擔憂太多的籌備困擾,所以在作為「雙防護設計」或「異質備援設計」來說都很合適。再次以CrowdStrike事件為例,雖然當機事故是不可避免,但是用戶在面對事故緊急處理上可以先復原Windows系統後,快速配置另一套資安防護系統來確保安全性,並且能依循NIST CSF五大功能的「識別、保護、偵測、反應、復原」起到防護的完整性,做好環境盤點與加強監控偵測。
分散風險的必要性
近年來,因爲資安勒索攻擊及地緣政治的因素考量,其中都會涉及到關鍵概念為「異質、異地」,例如在「避風港計畫」或是「零信任概念」,目的都是為了如何分散風險;比如說這次是CrowdStrike資安軟體造成當機事件,假設下次是某個備份軟體系統發生意外,是否會讓您也失去可用的最後手段?
「做好資安防護」決不是一個最終目標,而是一個持續的過程;資安的各項工作都是持續的過程,所以資安防護的構思上必須不斷地在各個案例與經驗中堆疊發展,評估出合適的方法並且能快速迭代填補。
延伸閱讀
參考資料
Comments