Maalesef uygulamanın ne olduğunun en altına inemeyebiliriz, ancak bu olaydan bir miktar değer elde etmek için referans cevap oluşturmak istedim. Bu VMware ve sanal katman yönetim merkezidir. Birçok yönetici ayrılmıştır ve hızlı bir şekilde konuk veya depolama alanına erişemez ve bu onlar içindir :)
http://support.seagate.com/kbimg/flash/laptop/Laptop.swf , @MosheKatz'ın bulduğu gerçek bir uygulamaya en yakın eşleşme gibi görünüyor.
Bu gelecekte olursa, soruşturma şu şekilde yapılmalıdır:
- Tüm VM'lerin çökmediğini ancak bazılarının çöktüğünü fark ettiniz. Bunun bir depolama sorunundan kaynaklandığından şüpheleniyorsunuz (genellikle en olası neden olduğu için)
- İlk önce ortak bir faktörü izole etmeye çalışın. Tüm çökmüş VM'ler aynı veri deposunu paylaşıyor mu? Bu durumda, ama bazı Makineler tamam, bu yüzden bariz donanım sorunlarını dışladık.
- Ortak bir faktör (zaman, fonksiyon vb.) Olup olmadığını görmek için tüm bozuk VM'leri kontrol edin. Bu durumda yoktu.
Diğer olağandışı olayları kontrol edin. Burada bir şey bayrak kaldırdı:
- NFS depolama alanı ince bir şekilde desteklendi (dizi düzeyinde). Bu, örn. 200 GB, ESXi ana bilgisayarlarına sunulur, aslında yalnızca 100 GB kullanılabilir. Ancak sadece dizi bu bilgiye sahiptir. Bulduğumuz şey, disk alanı bittiği için birkaç VM'nin duraklatıldığıydı. Bu temel neden olsa da, yumruk eylemimiz arka uçta daha fazla depolama alanı ayırmak ve bunu bir sorun olarak kaldırmaktı.
Bu çözüldükten sonra (basit bir kullanıcı arayüzü değişikliği) ve duraklatılmış VM'ler başarıyla yeniden başlatıldığında, orijinal sayıya geri döndük. Sanal diskleri bozuk VM'lerden çalışan bir VM'ye bağladık ve disklerde bölüm tablosu olmadığını gördük. Kullanılabilir bir hex görüntüleyici yoktu, bu yüzden disklerin artık boş olduğunu varsaymak zorunda kaldık.
İzleme sistemi henüz yanıt vermeyen yeni bir VM'yi uyarmıştır. VM'nin bir yükünün disk alanı sorunu nedeniyle yanıt vermeden önce birkaç dakika geçirmesi nedeniyle bu harikaydı, bu nedenle bu yeni VM'nin hızlı bir şekilde bulunması gerçeği iyi izleme yönetiminin bir işaretiydi.
Bir konsol açtık ve konuğu kontrol ettik ve yukarıdaki ekran görüntüsünü gördük.
- Bu aşamada, programın tanımlanıp tanımlanamayacağını görmek için sunucu hatası sohbet odasına gittim; depolama iş arkadaşım, alanımızdan hiçbir depolama işlemi olmadığından emin olmak için tüm sanal katman günlüklerini ve olaylarını kontrol etti.
- Yapmamız gereken VM'yi askıya almak, askıya alma dosyasının yazılmasına izin vermek ve çalışan programın tanımlanıp tanımlanamayacağını görmek için dökümü analiz etmekti. VM'yi çekirdek PDF VMware KB'ye askıya alma
Günün sonunda, yukarıdaki gibi bir misafir içinde Sanal altyapı araçlarının raporlamayacağını biliyorduk. ISO'ya bağlı ve VM'ye karşı hiçbir olay günlüğe kaydedilmediğini görebiliyorduk. VM'nin "sert güç çevrimi" olmadığını, sadece yumuşak bir yeniden başlatma olduğunu görebiliyorduk (bu, altta yatan altyapı için görünmez). Biz zaten karar vermişti gibi depolama tarafı olmadığını biliyorduk. Belirli VM'lerde birkaç saat boyunca otomatikleştirildiğinden şüphelendik. Konsolun neden Disk Wipe olduğunu bildirdiği için kötü niyetli olmadığını tahmin ettik :)
Sonuç, kullanıcı tarafından başlatılan bir disk temizleme sonucudur. Soruşturmam ilerledikçe, ama umarım faydalı bulmuşsundur.
Öğrenilen dersler:
- Geri yüklemelerinizi yedekleyin ve test edin
- Tüm kullanıcıların, özellikle yönetici kullanıcıların, ince bir ortamda çalıştıklarını bildiğinden emin olun ve disk diski yazma gibi herhangi bir şeyden kaçınmalıdır (örn.
- İyi bir izleme sistemine sahip olun.
- Ve benim için yeni bir tane: Herhangi bir büyük sanal ortamda, tanılama araçları yüklü olarak VM'ye hazır, hatta kapalı bir araç bulundurun; performans, ağ depolama. Bu mevcut olsaydı, gerçekten boş olup olmadığını veya sadece bir mbr eksik olduğunu görmek için hasarlı disk üzerine bir onaltılık döküm monte edebilir ve gerçekleştirebilirdik. Ayrıca 1 ile yazılmış olup olmadığını da görmüş olabilir.