Sahip olduğunuz sistem yöneticisi kazalarının eğlenceli hikayelerini arıyorum. CEO’nun e-postasını silmek, yanlış sabit sürücüyü biçimlendirmek vb.
Kendi hikayemi cevap olarak ekleyeceğim.
Sahip olduğunuz sistem yöneticisi kazalarının eğlenceli hikayelerini arıyorum. CEO’nun e-postasını silmek, yanlış sabit sürücüyü biçimlendirmek vb.
Kendi hikayemi cevap olarak ekleyeceğim.
Yanıtlar:
Linux "killall" komutu (belirtilen adla eşleşen tüm işlemleri öldürür, zombileri durdurmak için yararlıdır) ve solaris "killall" komutu (tüm işlemleri öldürür ve sistemi durdurur, üretim sunucusunu durdurmak için yararlıdır) arasındaki farkı keşfetmekten keyif aldım. yoğun saatlerin ortasında ve tüm çalışma arkadaşlarınızın bir hafta boyunca size gülmelerini sağlama).
hostname -f
Linux'ta Linux'ta tam etki alanı adını yazdırır. Solaris'te, ana bilgisayar adını olarak ayarlar -f
.
O zamanlar Netscape'in ürünü olan kurumsal web vekilimizden sorumluydum. Yönetici formlarında dolaşırken (web tabanlı bir arayüzdeydi), Kullanıcı Veritabanını Sil demişti . Sorun değil, diye düşündüm. Bakalım, ona çarptığımda bana sunduğu seçeneklerin neler olduğunu görelim. Hiçbir seçenek yoksa, elbette bir onay istemi olacaktır.
Evet, onay yok. Seçenek yok. Başka kullanıcı yok.
Bu yüzden, Bay Solaris Sysadmin'e gitti ve "O kutuyu doldurmadım" diye cevap verdiği kasetten geri yükleme konusunda çaresiz kalmam gerektiğini söyledi.
“Ah, tekrar gel,” dedi.
“Bu kutuyu yedeklemiyorum. Yedekleme rotasyonuna eklenecek şeyler listemde var, ancak henüz bu noktaya gelmedim.”
İnternethaber.com "Bu sunucu yaklaşık 8 aydır üretimde!" Çığlık attım.
omuz silkti , diye yanıtladı. "Üzgünüm."
Yıllar önce çalıştığım şirketin, NT 4.0 Server'larını her gece bir Jaz sürücüye (yüksek kapasiteli bir zip diski gibi) yedekleyen bir müşterisi vardı .
Gecede planlanmış bir iş olarak çalışan bir toplu iş dosyası oluşturduk. Her sabah sürücüden geçen gece diski toplarlardı ve akşam gitmeden önce sıradaki bir sonraki diski yerleştirirlerdi.
Her neyse, toplu iş dosyası böyle bir şeye benziyordu (Jaz sürücüsü F: sürücüsüydü ...)
@echo off
F:
deltree /y *.*
xcopy <important files> F:
Her neyse, bir gece diski yerleştirmeyi unuttular. F: sürücüsündeki değişiklik başarısız oldu (sürücüde disk yok) ve toplu iş dosyası çalışmaya devam etti. Toplu iş dosyası için varsayılan çalışma dizini? C :. İlk defa bir yedekleme rutini gördüm, yedeklediği sunucuyu imha ettim.
O gün sysadminning (ve istisnalarla başa çıkma) hakkında bir şeyler öğrendim.
Jim.
PS: Düzeltme? "deltree / y F: \ *. *".
root @ dbhost # find / -name çekirdeği -exec rm -f {} \;
Ben: "Giremiyor musunuz? Tamam. DB adı nedir?"
Cu: "Çekirdek"
Ben: "Ah."
Herkesin hikayesini "genç / yeşilken" bir daha asla yapamayacakları gibi nitelendirmesini seviyorum. Kazalar, en deneyimli profesyonellerin bile başına gelebilir.
Benim en kötü anım o kadar kötü ki hala düşünerek çarpıntı alıyorum ...
Üzerinde üretim verisi olan bir SAN vardı. Şirket için kritik. Benim "mentor" bir disk alanı boşaltmak için bir bölüm genişletmeye karar verdi. Bunun nereye gittiğini görebiliyor musun? SAN yazılımının bunu canlı olarak yapabileceğini, üretim saatlerinde ve hiç kimsenin farketmeyeceğini söyledi. Alarm zilleri çalmaya başlamalıydı, ancak dikkat çekiciydi. Problemsiz "daha önce defalarca" yaptığını söyledi. Ama işte sorun - "Emin misin?" Yazan düğmeyi tıklattı! Şirkette yeniyken, bu adamın neden bahsettiğini bildiğini sanıyordum. Büyük hata. İyi haber şu ki LUN uzadı. Kötü haber şuydu ... iyi, Windows kutusundaki diske yazma hataları görmeye başladığımda kötü haberlerin olduğunu biliyordum.
Kahverengi pantolon giydiğim için memnunum.
Öğle yemeğinde 1TB verinin neden kaybolduğunu açıklamamız gerekiyordu. Bu gerçekten, gerçekten kötü bir gündü.
Bu aslında iyi bir ilke - şüphelendiğiniz bir şeyi yapmadan önce, bir şeyler ters giderse yönetime açıklamak zorunda olduğunuzu hayal edin. Yaptıklarını açıklamak için iyi bir cevap düşünemiyorsan, yapma.
Nagios, bir çalışma saatinin kritik olmayan bir sunucuya bağlanamadığını söylemeye başladığında bir sabah bize ping attı. Tamam, sunucu odasına git. Eski bir sunucu, '02'de satın alınan bir Dell 1650 ve 1650'lerin donanım sorunları yaşadığını biliyorduk. PFY, güç düğmesini bıçaklar. Hiçbir şey değil. Tekrar vurun ve BMC'nin hata korumasını geçersiz kılan 'gücü açmak' için beş saniye basılı tutun, çünkü bir DRAC olmadan BMC günlüklerini kasaya güç vermeden incelemenin yolu yoktur.
Makine POST'u başlatır ve ardından tekrar ölür. Üstünde duruyorum ve "Duman kokuyorum." Sunucuyu rayların üzerinden çekiyoruz ve güç kaynaklarından biri ısınıyor, bu yüzden PFY çekiyor ve kutuyu tekrar kapatmak üzere. "Hayır, bu güç kaynağı dumanı değil, anakart dumanı" diyorum.
Davayı tekrar açıp yanan kokunun kaynağını ararız. Bir indüktör bobini ve bir kondansatörün anakart üzerindeki voltaj regülatörünü patlatacağı ve erimiş bakır ve kondansatörün her tarafa sıçradığı, bir sürü şeyi kısalttığı ve temelde büyük bir karışıklık yarattığı ortaya çıktı.
Benim için en kötüsü, yanmış bir anakartın kokusu ile yanmış bir güç kaynağı arasındaki farkı anlayacak kadar donanım kullandığımı tanımaktı.
Üç gün önce (ciddi olarak) Windows Server 2008 dosya sunucusuna Service Pack 2 yükleyerek uzaktan bir okul sunucusuna giriş yaptım.
Öğretmenlerin yıl sonu rapor kartlarını bitirmek için giriş yapamadığı gece geç saatlerde gerekli yeniden başlatmayı planlamaya karar verdim. Gibi bir şey yazdım:
23:59 "kapatma -r -t 0"
... iyi çalışmış olabilir.
Ama sonra ikinci kendimi tahmin ettim. 'Kapama' sözdizimim doğru mu? Kullanım yardımını yazarak görüntülemeye çalıştım.
kapatma / saat
... ve anında RDP bağlantımı kaybettim. Panik, ben sözdizimi için Google'ı vurdum. Hızlı bir arama, Server 2008'in kapatma sürümünün (tahmin edebileceğiniz gibi) makineyi hazırda bekleme durumuna geçiren bir / h anahtarı içerdiğini gösterdi.
Öğretmenler, üzerinde çalıştıkları rapor kartlarını artık açamadıklarını veya saklayamadıklarını bildirmek için birkaç dakika içinde beni aramaya başladılar. Dışarıda olduğumdan ve sunucu odasının kilitli kaldığından, doğrudan okul müdürünü aramak zorunda kaldım ve makineyi tekrar çalıştırma sürecinde onu yürümek zorunda kaldım.
Bugün herkese bir özür biçimi olarak ev yapımı kurabiyeler getirdim.
/?
ilkini deneyin !
man shutdown
. Biliyorum sorunlara sebep olmayacağım man
!
Daha önceki bir işte, şirkete giren, çıkan veya kalan her bir posta parçasını kaydeden ve arşivleyen büyük bir homegrown sistemimiz vardı.
Posta kutunuzun tamamını mı kaybettiniz? Sorun değil! Birinin size bir hafta / ay / yıl önce gönderdiği bir posta parçası mı arıyorsunuz, ancak kimin gönderdiğini veya konunun ne olduğunu hatırlayamıyor musunuz? Sorun değil! Sadece şubattan her şeyi özel bir klasöre teslim edeceğiz.
Bir noktada, şirketin CEO'su ile bir rakip ile bir iç satış elemanı arasındaki şüphe altındaki postaları izlemesi gerekiyordu. Bu yüzden her gece koşturan bir senaryo hazırladık ve önceki günden CEO'ya ilgili postaları gönderdik. Sorun değil!
Yaklaşık bir ay sonra çift artı acil bir problemin sözcüğü yüksek seviyeden geldi. CEO, OTHERCOMPANY $ 'a gönderilen postaların listesini okurken, bununla karşılaştı:
To: somebody@$OTHERCOMPANY
From: CEO
Subject: CEO has read your message (subject line here)
Doğal olarak, CEO önemli bir kişi ve hepsinden öte, Outlook'taki tüm "Okuma Makbuzlarını Gönder" iletişim kutularını tıklamak için çok meşguldü ve müşterisini hepsini gönderecek şekilde yapılandırmıştı. İzleme filtresinin yakaladığı mesajlardan birinde bir makbuz talebi belirlendi. Tahmin et ne yaptı? Kesinlikle 'gizli' izleme izini mahvetti.
Bir sonraki görevimiz: CEO'dan o şirkete giden okuma makbuzlarını engellemek için posta filtresine kurallar eklemek. Evet, en kolay yoluydu. :)
Ahhh, benimki yaklaşık 10 yıl önceydi, hala ayaklarımı ıslatıyordum. Tüm programcıların bilgisayarlarına yedek batarya takma neşesi yaşadım. Ayrıca, yazılımın elektrik kesintisi konusunda uyarılmasını ve uygun şekilde kapatılmasını istediler.
Bu yüzden bilgisayarımda kursu ilk önce her şeyi test etmek ve hepsinin çalıştığından emin olmak için kurdum. Bu yüzden güç kablosunu çıkardım ve ekranımda mesaj belirdi. msgstr "harici güç kesildi, sistem kapanmaya başladı".
Ben de düşündüm, Hey serin, işe yaradı. Ancak bazı garip nedenlerden dolayı, hatırlamıyorum bile, bu mesajı bir ağ mesajı olarak gönderdi, böylece şirketteki 200+ bilgisayarın hepsi bu mesajı aldı;
Evet, kitlesel ucube hakkında konuşun !!
Bir süre kafamı o yerde tuttum!
Makine Adı hizmetini, IP adresini ve kök şifresini sıfırlamak için genellikle Solaris makinelerinde "sys-unconfig" komutunu kullanırdım. Bir kullanıcı sistemindeydim ve bina kurulum sunucusunda oturum açtım ve bir şey buldum (root olarak), sonra başka bir makineye giriş yaptığımı unutmuştum (açıklayıcı olmayan "#" istemi) "sys-unconfig" komutunu çalıştırdım.
# sys-unconfig
WARNING
This program will unconfigure your system. It will cause it
to revert to a "blank" system - it will not have a name or know
about other systems or networks.
This program will also halt the system.
Do you want to continue (y/n) ? y
Connection closed
#
Bu "bağlantı kapatıldı" mesajı yavaşça paniğe döndü ... bu komutu çalıştırdığımda hangi makineye giriş yaptım.
Bunun en kötü yanı, çalışanlarımın bana verdiği zor zaman değildi, aynı şeyi bir ay sonra yaptım.
Ben çok iyi bir tane var. Kuşkusuz, bir sysadmin olarak benim zamanımdan önceydi, ama yine de teknoloji ile ilgiliydi, ben de ekleyeceğimi düşündüm.
O zamanlar USAF için uydu / genişbant teknolojisi olarak çalışıyordum. Geçenlerde teknik okuldan mezun olduktan sonra, kendimi Güney Kore'de konuşlanmış olarak buldum. İstasyona geldikten kısa bir süre sonra, bir süredir orada olan ve aslında bazı gerçek dünyalar (yani “üretim”) ekipmanı üzerinde çalışan "büyük adamlar" ile güneye doğru seyahat etme fırsatı doğdu.
Mürettebatla yere düştüm ve istekli bir genç teknoloji olarak, LIVE askeri ses ve veri trafiğini geçen gerçek bir ekipman parçasını elime alma ihtimalim oldukça heyecanlandı.
Beni yavaşça başlatmak için bana bir el uzattılar, önleyici bakım bölümüne döndü ve birkaç büyük dijital çoklayıcıyla dolu dört raf yönünde beni gösterdi. Ekipman yeterince kolaydı, teknoloji okulunda aynı ekipmanı kullanıyorduk.
El kitabının ilk sayfası; "Dikey çoklayıcıya güç verin. Her iki arka anahtarı da AÇIK konuma çevirin ve ekipmanın çalışmasını bekleyin, ardından testlere başlayın." Ben baktım ve zaten güç vardı APPLIED!
Kesinlikle bir quandary içindeydim. Nasıl devam edeceğimi bilmeden, elimden gelenin en iyisini yaptım, “Ummmm.
Bana baktı ve güldü, "Hayır, hayır, sorun değil. Kontrol listesinin bu bölümünü görmezden gelebilirsiniz." Sonra, yüzümdeki ifadeyi fark ettiğinde, (okulda ASLA ders aldığımızdan beri, HİÇ bir kontrol listesinin herhangi bir bölümünü görmezden geliyordu, ve eğer birisinin yapması halinde kesin bir ölüm ve yıkımdı) onun üzerine ciddi bir bakış attı. yüz ve dedi ki, "SADECE bu kısmı görmezden gel! Mektuba geri kalanını takip et!"
Dürüst olmak gerekirse, çok adımlı PM talimatlarını okudum, istiridye gibi mutlu ve böyle bir düşük rütbeli (akıllı olsa da) teknolojinin bu önemli işi yapmasına izin vermekten gurur duyuyorlar.
Bu devasa çoklayıcılar üzerindeki beşinci ve altıncı koruyucu bakım kontrol listesi arasında bir yerlerde, etrafımda artan bir aktivite seviyesi fark etmeye başladım. Telefonlar çalıyordu, insanlar hızla hareket ediyordu. İlginç bakışlar değiş tokuş edildi.
Sonunda, beni aşağı indiren üst düzey teknolojilerden birinin başkanlığında bir grup insan bana ulaştı.
“Hey! Veri trafiğinde BÜYÜK kesintileri görüyoruz ve üzerinde çalıştığınız raflara giden yolu izole ettik / takip ettik! Herhangi bir tuhaflık görüyor musunuz ..”
(Bu noktada, PM'leri gerçekleştirdiğim ilk multiplexer grubuna doğru ilerleyen sorun gidericilerden biri tarafından kesildi.)
"HOLY NUTS! Onlar kapandı! Onları çeviriyor!”
Kısacası, el kitabındaki ilk adımı aceleyle koştuklarını izledim, "Her iki arka düğmeyi de AÇIK konuma çevirin ..." Üst düzey teknoloji tamamlandığında, bana geldi ve inanılmaz bir şekilde ne düşündüğümü sordu , kritik ekipman parçalarını kapatarak.
Zekamdan korktum, ona takip ettiğim kontrol listesini verdim, ALL'de sapmadığıma yemin ettim. Bunu söylediğim gibi, mektuba göre.
Bir süre sonra güldü ve sorunun nerede olduğunu belirtti.
Kılavuzda, koruyucu bakım kontrol listesindeki NİHAİ adım şuydu:
"Son prob okumasını kaydedin, ön paneli silin, tüm toz ve parçacıkları temizleyin, ardından her iki arka güç anahtarını KAPALI konumuna çevirin."
:)
Bu tür bir sysadmin kazası .. sysadmins zaman zaman çok sayıda makineyi fiziksel olarak A noktasından B noktasına çekmek zorunda kaldığı sürece (burada A ve B, asansörsüz bir binada her zaman birkaç merdivenle ayrılır). Günün ilerleyen saatlerinde, bodrum yükleme seviyesinden üç uçuşu bir mola için durdum, biri aşağıya inerken sohbet etmek için açtım, açık merdiven boşluğunun iç tırabzanına sürdüğüm tam boyutlu kuleyi destekledim ve ... peki, tahmin etmiştin ki ... ... bu konudaki tutkum hafifçe düştü. Düzensiz bir şekilde kuyudan aşağıya düştü ve tabana ulaştığında, er ... onun işlevine göre değil! Kurtarılabilir toplam parçalar: iki çubuk RAM, bir disket sürücü ve bir ISDN kartı (Tanrı Hermstedt mühendislik çalışanlarını korusun!). Her şey ya çatladı,
Tanrı'nın lütfuyla, hiç kimse altında yürürken, neyse ki benim için patronumun ilk olduğu için işimi sürdürmem gerekiyordu. Bir saat kadar olsa bile çok hasta hissettim.
Ahlaki: yerçekimi her zaman kazanır!
Birisi için bir sistemi yeniden yüklüyordum ve manuel yedekleme işlemi sırasında ona "Kullandığınız başka programlarınız var mı?" Sorusunu sordum. ve "Bilgisayarda yaptığınız başka önemli bir şey var mı?"
SEVERAL kere "hayır" dedi.
İkna edildim ve sürücüyü biçimlendirdim.
Yaklaşık 30 dakika sonra "aman tanrım" dedi ve iki elini de başına koydu.
Özel bir programda 10 yıldan fazla bir süredir kitap senaryosu üzerinde çalıştığı ortaya çıktı. Bu, programlar kullanıcı verilerini kendi program dosyaları dizinine kaydetmek için kullanıldığında geri döndü.
Whhhhooooops.
Bana kızmadı, ama ayık bir duygu oldu.
Benim kişisel favorim aslında benim değil ve bundan çok memnunum. Buraya bir göz atın.
Bu benim başıma gelmedi ama…
Müşteri tarafından sağlanan Linux makinelerinde çalışan bir yazılım üreten bir şirkette çalışıyordum. Esasen makineleri 'devralırız', onları tamamen teknik özelliklere göre yapılandırır ve tüm yönetim ve izlemeyi yapardık. Temel olarak, yüzlerce müşteriye binlerce sunucuyu yöneten 10-15 sistem yöneticisinden oluşan bir ekibiz. Hatalar meydana geldi.
Ekibimizden biri sunucuda bazı sorunlar buldu (bir yedekleme, inanıyorum) ve üzerinde fsck çalıştırması gerektiğine karar verdi. İlgili tüm hizmetleri durdurdu, sistemin son zamanlarda yedeklerinin alındığından emin olduktan sonra fsck'i çalıştırdı, ancak dosya sisteminin monte edildiğinden şikayet etti. Uzak olduğumuzdan ve uzaktan erişimimiz olmadığı için (DRAC, ILO, vb.) Fsck'i yapamadı, ama eğer dikkatli olursanız, dosya sistemi monte edildiğinde yapmanın güvenli olduğundan emindi.
Kök bölümünde fsck çalıştırarak, tahmin edilebilir sonuçlarla kendini denemeye karar verdi - kök bölümünü bozdu ve daha fazla önyükleme yapamadı.
Kafası karışıp gitti ve takım liderimizle konuştu. Lider, bunu yapamayacağınızdan oldukça emin olduğunu söyledi ve ekip üyesi 'Yapabildiğinizden emin olun!' Dedi, liderin klavyesini aldı ve yapabileceğini gösterdi. Hangi tamamen HIS kök bölümünü bozdu.
Sonuç? Takım üyesinin testleri sayesinde müşteri verileri kaybedilmedi. İki günlük çalışan verimliliği kaybedildi, ancak bu, müşterinin makinesindeki verilerden çok daha düşüktü. Ve kayıt için? Fsck'i takılı bir sürücüde çalıştırabilir, ancak yalnızca verileri doğrulamak için kullanabilirsiniz. Tamir etmek için değil. Takım üyesinin hatası buydu.
-
Kendi hikayemi eklemek için aynı şirkette çalışıyordum ve bir kullanıcı şifresini sıfırlamaya çalışıyordum. Sistemimiz, eski parola kodlarını izlememe ve parolayı çoğaltmanıza izin vermeyi reddettiği için gerekli parolayı ayarlamama izin vermedi. Mekanizma basitti: şifrenizi veritabanındaki en son karmaşayla doğruladı.
(Kayıt için eski şifre olması gerekiyordu, çünkü ortak bir hesaptı ve herkesin yeni şifrenin pratik olmadığını bildiğinden emin olmak için)
Sadece kullanıcıların veritabanına girmeye karar verdim ve eski kayıtları kullanması için yeni kayıtları sildim. Hepsi sadece SQL (Sybase'in eski bir versiyonunu kullanıyor), bu yüzden kolay. İlk önce kayıtları bulmalıydım:
SELECT * FROM users_passwords WHERE username='someuser';
Saklamak istediği eski kaydı buldum; önünde iki tane daha vardı. Zeki olmaya ve eski kayıtlardan daha yeni olanları silmeye karar verdim. Sonuç kümesine bakıldığında, veritabanında eski parolanın ID # 28, yenilerin de #several bin (çok meşgul sistem) olduğunu gördüm. Bu kadar basit, tüm eski sıralar> 28 idi, o yüzden:
DELETE FROM users_passwords WHERE id > 28;
Bazı basit satır budaması yapmaktan ve '212.500 satırın etkilendiğini' görmekten daha kötü bir şey yoktur. Neyse ki, iki ana veritabanı sunucumuz vardı (kullanıcı kimliği ile), ancak Sybase (en azından sürümümüz) otomatik çoğaltmayı desteklemediği için eski kayıtları otomatik olarak silmiyordu. Users_passwords tablosundan bir dökümü almak ve yeniden içe aktarmak önemsiz bir konuydu. Yine de oldukça büyük bir 'oh f ** k!' an.
Favorilerimden bir başkası:
Bir sistemi ve yerel bir lazer yazıcıyı bir sistemde kurarken, ikisini de bilgisayarın KGK'sına bağlamak için parlak bir fikrim var. Hiç bir masaüstü UPS'e bağlıyken yerel bir lazer yazıcıya yazdırmayı denediniz mi? Bilmiyorsan, bütün amperleri çekme eğilimindedir ... Bilgisayarı yeniden başlatır ... Ve baskı işi bitmez ...!
Hiç arama gelsin : ' Ne zaman yazdırsam, bilgisayarımı yeniden başlatıyor ve yazdırmıyor !!! '?
Posta ile gönder
JFV
Müşterilerin canlı kullanıcı veritabanında, WHERE cümlesi olmadan DELETE deyimi.
kill 1
Kök olarak yazılmıştır . init
ve bütün çocukları öldü. Ve bütün çocukları. vb, vb.
Yazmak istediğim şeydi kill %1
Yaptıklarımı farkettikten sonra, bir BÜYÜK yün balya ayırma makinesinin kontrol paneline koştum ve acil durdurma düğmesine bastım. Bu, onu kontrol eden yazılımı öldürdüğüm için makinenin kendisini parçalara ayırmasını engelledi.
Elektrik kesintisinin ortasındaydık ve UPS'in yapılandırılmış yükünün% 112'sinde çalıştığını gördük. Bu, o sırada jeneratör üzerinde çalıştığımız için çok fazla bir sorun değildi.
Bu yüzden, UPS üzerindeki güç kullanımını azaltmak için yedek güç kabloları çekerek dolaştık (biri diğerinden çok daha büyüktü). Sunucu odasını çalıştıran ağ anahtarına ulaştık (bu, müşterinin başka bir sunucu odasındaki sunuculara bakacak şekilde, şirket için tüm dahili sunuculara sahip sunucu odasıydı). Anahtar, içinde üç güç kaynağı bulunan büyük bir kurumsal sınıf anahtarıydı. Sarf malzemeleri N + 1 idi, bu yüzden anahtarı çalıştırmak için sadece iki kişiye ihtiyacımız vardı.
Bir kablo seçtik ve çıkardık. Maalesef bizim için diğer ikisi, yüke takılı olan iki güç kaynağına yüklerken derhal patlayan tek bir güç şeridine takıldı. Sysadmin daha sonra panikledi ve üçüncü kabloyu prize taktı. Anahtar, tüm yükü tek bir güç kaynağına yükleyerek anahtar ateşlemeye çalıştı. Güç kaynağının kapatılması yerine, yüzümden 12 santim olmayan bir kıvılcım yağmuru patladı ve beni sunucuların rafına geri atlattı.
İçgüdüsel olarak yan tarafa zıplamaya çalıştım, ama ne yazık ki solumda bir duvar vardı, ve iki sağım 6'4 inç büyüklüğünde bir tesis adamıydı. Biraz onun üstüne atlamayı başardım ya da muhtemelen onun üzerinden sıçradı. Compaq raflarının (ince gözenekli ön yüze sahip olanlar) rafa bir bütün koymadan ve tesis elemanına dokunmadan.
Kariyerimin bir noktasında çalıştığım şirkette yasal bir soruşturma başlattığımızda, tüm e-postaların aksi belirtilinceye kadar "bu gün" den ileri tutulmasını talep etti. Değişim ortamımızın her gün tam yedeklemesini (yaklaşık 1TB) saklamadan yaklaşık bir yıl sonra alanımız tükenmeye başladı.
Değişim yöneticileri, e-postanın yalnızca her 8. kopyasında saklanmamızı önerdi. Bunu yapmak için, döviz veritabanlarının değerinin bir gününü geri almalarını, ihtiyaç duydukları e-postayı (araştırma için işaretlenen belirli kişiler) çıkarmalarını ve yeniden arşivlemelerini sağladık. Bunu, tüm yedeklemelerimiz için her 8. günde bir e-posta için yaptılar. 8. gün seçildi, çünkü değişim "silinen öğelerin" veritabanında 8 gün boyunca tutulduğu bir parametre setine sahipti.
Her arşivi bitirdikten sonra geri dönüp arşivlediklerinden daha eski olan yedekleri silerdim.
TSM'nin bunu yapmanın kolay bir yolu yoktur, bu nedenle nesneleri yedekleme veritabanından el ile silmeniz gerekir.
Bir tarihten daha eski olan tüm yedeklemeleri, bugün ile söz konusu tarih arasındaki farkı kullanarak bir tarih hesaplama yoluyla silecek bir komut dosyası yazdım. Bir gün, yaklaşık bir ay süren yedeklemeyi silmek zorunda kaldım, tarih hesaplaması yaptığım zaman yazım hatası yaptım ve tarihi 6/10/2007 yerine 7/10/2007 olarak girdim ve komut dosyasını koştum. Kazayla çok önemli bir davanın parçası olan fazladan bir aylık veriyi sildim.
Ondan sonra, verileri silmek istediğinizi onaylamak için komut dosyasına bazı adımlar ekledim ve size ne sileceğini göstereceğim ...
Neyse ki, korumak için çok çalıştığımız verilerin hiçbirini kullanmadılar ve hala işim var.
Uzun bir günden veya performanstan sonra devasa bir ana bilgisayar izleme ve ayarlama (tüm bekleme yedek sitelerinin gerçekten yeniden başlatıldığını ve tamamen senkronize edildiğini kabul etmeden önce birkaç saat süren canavarları biliyorsunuz) -p şimdi dizüstü bilgisayar istemime girdim, kapağı kapattım, seri kabloyu ana bilgisayardan çekti, hoş bir soğuk bardak lager beklentisiyle.
Birdenbire dizüstü bilgisayarım hala X'i gösterirken aniden ana bilgisayardan aşağı doğru dönmenin sağır edici sesini duydum.
Makinenin tekrar çevrimiçi hale gelmesini beklerken ACPI'mi dizüstü bilgisayarımda çalıştıracak zamanım olmasına karar verdim, bu yüzden asla dizüstü bilgisayarımı kapatmaya cazip gelmeyeceğim.
Bu kaza olmadı ... ama bahsetmeye değer:
Yeni bir devre üzerinde bant genişliği testleri yapmak için yoğun olarak kullanılan bir veri merkezine gönderildi. Demarc oda / IDF'ye gittim, test yönlendiricimin raflarından birinde bir nokta buldum, bağlantılarımı kurdum ve testlere başladım. Ne yazık ki, üretim içi sınır yönlendiricisini yalnızca bir sonraki rafta (neredeyse aynı seviyede) olmadığından değil, aynı zamanda test yönlendiricimle aynı marka ve modelde olduğunu fark etmedim.
Test yapıldığında, güç düğmesini kapalı konuma getirmeye başladım (... yavaş çekimde hayal et ...) ve yemin ederim, tıpkı basınç uyguladığım gibi, yönlendiricimin üzerinde olduğumda bana göre kapatmak üretimde olandı. Kalbim durdu ve ben neredeyse ... şey, hayal gücünüzü kullanın.
Veri merkezinin MDF'sini ürkütücü ve solgun görünümlü bıraktım, ama aynı zamanda hala bir işim olmasına sevindim!
Birinin hesabını yanlışlıkla sildim, isimlerini silmek istediğim ile karıştırdım. Opps
İşin güzel yanı, ne olduğunu asla bilmiyorlardı. Giriş yapamadıkları bir arama geldi, kuruş, sildiğim hesaptan düştü.
Telefondayken, hesaplarını hızla yeniden oluşturdum, eski posta kutularını yeniden ekledim (Neyse ki Exchange posta kutularını hemen silmez) ve eski kullanıcı dosyalarına geri çekti.
Daha sonra, onlar için sıfırladığım şifrelerini unuttukları için onları suçladım :)
Yanlışlıkla Gentoo Linux kutuma tar.gz dosyasını yükledim ve dosyaları her yere bıraktı. Bu, o zamanlar 1999, 19 civarında olmuş olmalı (aşağıdaki yorum için teşekkürler)
Benim olduğum gibi inek olduğum için, her bir dosyayı elden geçirme çalışmalarından kendimi çıkarmaya karar verdim.
Bu yüzden denedim:
tar - list evilevilpackage.tar.gz | xargs rm -rf
Tar'ın programın kullandığı tüm dizinleri, '' / usr, / var, / etc '' dizilerini ve gerçekten istemediğim birkaçını da listelediğini fark etmem çok uzun sürmedi.
CTRL-C! CTRL-C! CTRL-C! Çok geç! Her şey bitti, zamanı tekrar yükleyin. Neyse ki kutuda önemli bir şey yoktu.
Eski hayatımın ufacık bir parçası olarak şirketin dosya sunucusunu, bir netware 4.11 kutusunu yönetmiştim. Neredeyse hiç bir girişe ihtiyacı yoktu, ama yaptıysa, uzak bir konsol penceresi açtınız.
Ben her zaman DOS kullanıyordum, işim bitince doğal olarak "Çıkış" yazardım. Netware için "exit", işletim sistemini kapatma komutudur. Neyse ki, önce sunucuya "Aşağı" yazmazsanız kapanmanıza izin vermez. (Ağa / istemcilere kullanılamıyor) Yani konsolda "Çıkış" yazdığınızda, yararlı bir şekilde "İlk yazmalısınız" diyor Aşağı "Çıkmadan önce"
Bana 1 defa kaç kere sordum: konsol oturumunda "exit" ve 2: Kasten "Down" yazıp ardından "Exit" yazarak "yapmaya çalıştığım şeyi" bitirebileyim "
Ve sonra telefon çalmaya başlar .....
LOL
Olmamış başka bir hikaye (phew):
Her gün bir teyp sürücüsüne dini olarak artımlı yedeklemeler yapıyorduk.
Başkasına gönderilecek verileri içeren bir kaset yazdık. 'Kasetini okuyamıyoruz' dediler. Aslında, biz de yapamayız. Veya aslında herhangi bir kaset.
Başka bir teyp sürücüsü satın aldık ve takana kadar nefesimizi tuttuk.
Hikayeden çıkarılacak ders. Daima yedeklerinizi test ettiğinizden emin olun.
En son çalıştığım yerde, iş arkadaşımın çocukları sunucu odasındaydı (neden? Ben hiçbir fikrim yok!).
Sunuculardan uzakta olduklarından emin oldu ve 5 yaşındaki çocuğuna hiçbir sunucuya dokunmaması gerektiğini ve özellikle de güç anahtarlarından hiçbirine dokunmaması gerektiğini söyledi.
Aslında, onları tam kapının yanında tutuyordu ... (bunun nereye gittiğini görebiliyor musun ...?)
Çocuk hiçbir şekilde sunucunun güç düğmelerine dokunmadı ... Hayır, bunu açıklamak tamamen kolay olurdu. Bunun yerine kapının yanındaki BÜYÜK KIRMIZI DÜĞMEYE çarptı ... GİRİŞ SUNUCU ODASINA gücü kesen düğme !!!
Telefon hatları hemen Exchange, Dosya Sunucuları, vb. Neden mevcut olmadığını merak etmeye başladı ... BT'ye CEO'yu anlatmaya çalıştığınızı hayal edin!
-JFV
Bir zamanlar APC UPS izleme yazılımı ile kavga ettim. Küçük bir şirket olarak, birkaç küçük ish UPS'imiz vardı ve onları izlemek için çeşitli sunucular kurulmuştu. Sunucuların çoğu Linux idi, ancak birkaçı Windows kullanıyordu ve bu yüzden kullanılanlardı çünkü APC yazılımı yalnızca Windows'du.
Bununla birlikte, APC yazılımı, konuştuğu UPS'in PC'yi de çalıştırdığını varsaymak için kodlanmıştı! Bu sunucu için durum böyle değildi, fakat durduğunu söylemek için çok geç olduğunu keşfettim. Ayrıca maalesef, lider programcı şirketin ürününü bir ortağa gösteriyordu - aynı web üzerinde çalışan bir web tabanlı uygulama, APC yazılımının kapanmasını istemedim ...
Yeni bir sysadmin'e Service Manager uygulaması turu veriyordum. "Bu hizmeti durdurmanız gerekirse, bu düğmeyi tıklarsınız, ancak gün boyunca asla yapmamalısınız" dedim. Fare tuşunun ne kadar hassas olduğuna asla inanmazsın!
İki dakika sonra servis tekrar başladı ve kimse fark etmedi.
Bir rafın arkasına sıkışmış bir kule sunucusuna takılıp aşağı indiğimde ana Cisco yönlendiricinin arkasındaki kafama çarptı. Böylece, güç kablolarının Catalyst 6500'ün önündeki güç kaynaklarına gerçekte ne kadar gevşek oturduğunu ortaya çıkardı .
Evet. Artık sunucu odasındaki bir kancayı taktık. Üzerinde adım var.