ระบบ IT ของสำนักงานสรรพากรออสเตรเลียหลายแห่งใช้งานไม่ได้เป็นเวลาหลายวันหลังจากเกิดความผิดพลาดครั้งใหญ่ ซึ่งเห็นได้ชัดว่าเกิดจากปัญหากับเซิร์ฟเวอร์จัดเก็บข้อมูลขนาดใหญ่ ระบบออนไลน์ของ ATO รวมถึงเว็บไซต์สาธารณะและพอร์ทัลสำหรับตัวแทนจัดเก็บภาษี ล่มเป็นเวลาหลายวัน ในขณะที่เขียน ATO รายงานว่าบริการส่วนใหญ่ใช้งานได้แล้ว แต่อาจมีการชะลอตัว นอกจากนี้ยังมีรายงานว่าข้อมูลมากถึงหนึ่งเพตะไบต์ได้รับผลกระทบจากความผิดพลาด ATO ได้รายงานว่าไม่มีข้อมูลผู้เสีย
ภาษีสูญหายแม้ว่าจะไม่ชัดเจนว่าข้อมูลภายในใดสูญหายหรือไม่
ตามรายงานของ ATO และสื่อ การหยุดทำงานของระบบเกิดจากความล้มเหลวในเครือ ข่ายพื้นที่เก็บข้อมูล 3PAR StoreServe (SAN) ที่สร้างโดย Hewlett Packard Enterprise (HPE)
สนับสนุนการทำข่าวที่เป็นกลางด้วยการวิจัย
อุปกรณ์เหล่านี้ประกอบด้วยชั้นวางที่เต็มไปด้วยฮาร์ดดิสก์และ/หรืออุปกรณ์จัดเก็บข้อมูลโซลิดสเตตเพื่อจัดเก็บข้อมูลในระดับที่ใหญ่โต และอินเทอร์เฟซเครือข่ายที่รวดเร็วเพื่อให้ข้อมูลนั้นไปยัง “เซิร์ฟเวอร์แอปพลิเคชัน” ต่างๆ ที่จัดเตรียมระบบออนไลน์ของ ATO
มีรายงานว่าหน่วยสองหน่วยที่ซื้อโดย ATO สามารถจัดเก็บข้อมูลได้สูงสุดเพตะไบต์ ซึ่งก็คือ 1,000 เทราไบต์หรือ 1 ล้านกิกะไบต์ต่อหน่วย พวกเขาจะมีราคาหลายแสนดอลลาร์
แม้ว่าอุปกรณ์เหล่านี้จะมีราคาสูง แต่ก็ช่วยให้เจ้าหน้าที่ไอทีสามารถจัดสรรพื้นที่จัดเก็บข้อมูลได้อย่างมีประสิทธิภาพและยืดหยุ่นไปยังที่ที่จำเป็น ดังนั้น (ในทางทฤษฎี) จึงสามารถปรับปรุงความน่าเชื่อถือได้
การให้ความไว้วางใจในการดำเนินงานด้านไอทีขององค์กรขนาดใหญ่อย่าง ATO ให้กับเซิร์ฟเวอร์สตอเรจเพียงเครื่องเดียวนั้นต้องการความมั่นใจในระดับสูงว่าเซิร์ฟเวอร์จะทำงานได้อย่างน่าเชื่อถือ ด้วยเหตุนี้ ความซ้ำซ้อนหลายระดับจึงรวมอยู่ในระบบจัดเก็บข้อมูลประเภทนี้
เพื่อเป็นการป้องกันขั้นแรกจากความล้มเหลวของดิสก์เดี่ยว (หรืออุปกรณ์จัดเก็บข้อมูลโซลิดสเตต) ข้อมูลจะถูก “มิเรอร์” ในดิสก์จริงหลายตัว หากระบบการตรวจสอบตรวจพบความล้มเหลว การดำเนินการอาจถอยกลับจากข้อมูลที่มิเรอร์ สามารถเปลี่ยนดิสก์ที่ผิดพลาดและกู้คืนมิเรอร์ทั้งหมดได้โดยไม่ขัดจังหวะการทำงานของผู้ใช้ ระบบระดับไฮเอนด์เช่นนี้ยังรวม
ความซ้ำซ้อนไว้ในอุปกรณ์อิเล็กทรอนิกส์ของคอนโทรลเลอร์ด้วย
อย่างไรก็ตาม หากเกิดความล้มเหลวของฮาร์ดแวร์ที่สำคัญ เช่น ไฟดับที่ไม่ครอบคลุมโดยแหล่งจ่ายไฟสำรอง ระบบดังกล่าวจำนวนมากจะมีความซ้ำซ้อนในระดับที่สอง เนื้อหาทั้งหมดของ SAN จะถูก “มิเรอร์” ไปยังระบบที่สอง ซึ่งมักจะอยู่ในตำแหน่งทางกายภาพอื่น และระบบจะสลับไปยังการสำรองข้อมูลโดยอัตโนมัติ
จากข้อมูลของ iTnewsความซ้ำซ้อนทั้งหมดนี้เกิดจากธรรมชาติของปัญหา: ข้อมูลที่เสียหายถูกเขียนไปยัง SAN ด้วยเหตุผลบางประการ จากนั้นข้อมูลที่เสียหายนี้จะถูกมิเรอร์ไปยัง SAN สำรอง
ในสถานการณ์นี้ ความซ้ำซ้อนทั้งหมดภายในและระหว่าง SAN ไม่สามารถช่วยได้ เนื่องจากข้อมูลที่ไม่ถูกต้องถูกทำซ้ำทั่วทั้งระบบ นี่คือเหตุผลว่าทำไมการเก็บสแน็ปช็อตสำรองข้อมูลแบบดั้งเดิม – สำเนาของข้อมูลตามที่เคยมีอยู่ในระบบ – จึงมีความสำคัญมาก โดยไม่คำนึงถึงการมิเรอร์จำนวนเท่าใดก็ตาม
ATO ดูเหมือนจะมีการสำรองข้อมูลที่เก็บไว้อย่างครอบคลุม อย่างไรก็ตาม การคืนค่าทั้งหมดและคืนค่า SAN กลับสู่การกำหนดค่าการปฏิบัติงานนั้นต้องทำด้วยตนเอง ไม่น่าแปลกใจที่การดำเนินการนี้ใช้เวลาหลายวันจึงจะเสร็จสมบูรณ์
การประเมินการตอบสนองของ ATO
แม้ว่าจะดึงดูดให้เกิดความล้มเหลวด้านไอทีของรัฐบาลในวงกว้างการประเมินอย่างยุติธรรมควรคำนึงถึงธรรมชาติของความล้มเหลวและการตอบสนองของ ATO
ประการแรก ปรากฏว่า ATO เอาใจใส่หนึ่งในบทเรียนสำคัญจากการล่มสลายของเว็บไซต์ Census และสื่อสารสิ่งที่เกิดขึ้นต่อสาธารณชนอย่างมีประสิทธิภาพ ตอบสนองต่อความล้มเหลวด้วยการให้ข้อมูลอัปเดตบนโซเชียลมีเดียและข้อมูลที่ครอบคลุมมากขึ้นในส่วนที่ใช้งานได้ของเว็บไซต์
ประการที่สอง ดูเหมือนว่ากลยุทธ์การสำรองข้อมูลนั้นเพียงพอที่จะทำให้ระบบทั้งหมดสำรองข้อมูลและทำงานโดยไม่สูญเสียข้อมูล แม้ว่าระบบจัดเก็บข้อมูลหลักจะล้มเหลวในกรณีเลวร้ายที่สุดก็ตาม
หากสามารถวิจารณ์การตอบสนองต่อเหตุการณ์ได้ อาจสามารถกู้คืนบริการได้เร็วกว่ามากหากกระบวนการดังกล่าวเป็นแบบอัตโนมัติมากขึ้น อย่างไรก็ตาม ดูเหมือนจะเป็นเหตุการณ์ที่ผิดปกติอย่างมาก
การกู้คืนข้อมูลแอปพลิเคชันหนึ่งชุดเนื่องจากความเสียหายที่เกิดจากแอปพลิเคชันเองเป็นสถานการณ์ที่พบได้บ่อย การกู้คืนชุดข้อมูลต่างๆ จำนวนมากเนื่องจากข้อบกพร่องที่เห็นได้ชัดในเซิร์ฟเวอร์ที่เก็บข้อมูลนั้นหายากมาก
นอกจากนี้ แม้ว่าจะมีเพียงไม่กี่คนที่เคยเห็น SAN แบบนี้ก็เป็นอุปกรณ์ทั่วไปในศูนย์ข้อมูล พวกเขาให้บริการพื้นที่เก็บข้อมูลระดับต่ำทั่วไปและคาดว่าจะให้บริการที่เชื่อถือได้สูง
แท้จริงแล้ว HPE ทำการตลาดระบบสตอเรจสำหรับองค์กรด้วย “ การรับประกันความพร้อมในการทำงาน 99.9999% ” ซึ่งกำหนดให้อุปกรณ์ไม่ทำงานเป็นเวลาไม่เกิน 30 วินาทีต่อปี
ในช่วงสองสามวันที่ผ่านมา เจ้าหน้าที่ไอทีของสำนักงานภาษีออสเตรเลียอาจนอนไม่หลับมาสองสามคืน มีแนวโน้มว่าวิศวกรของ HPE จะต้องพยายามอีกสักเล็กน้อยเพื่อทำความเข้าใจว่าเหตุใดระบบจัดเก็บข้อมูลขององค์กรจึงล้มเหลวอย่างครอบคลุม