Üretim sistemi düştüğünde nasıl serin kalırsınız? [kapalı]


26

Bu çoğumuzun başına geldi ...

Bir gün işe geliyorsun. Her şey normal gözüküyor - güneş parlıyor, kuşlar cıvıl cıvıldı, ancak size çalışma yolunda Matrix'teki dejà vu kedisini hatırlatan birkaç garip şey olduğunu fark ediyorsunuz.

Ofise giriyorsunuz ve bir sürü telefon çalıyor - ancak yeni bir satış promosyonu yapıyor olabilirler. Üzerinizde dolaşan kara bir bulut gördüğünüzde yerleşirsiniz.

Birkaç dakika sürer, ama bulutun senin patronun olduğunu biliyorsun. Genelde her sabah "Soooo Peeeeter, TCP / IP raporlarına ne dersiniz?" Rutin, ama bugün sıradan davranışlarla ilgili her şeyi unuttu ve kabaca kişisel alanını istila etti. "Günaydın" yok, sadece bir kaçış, hırıltılar ve küfürler. Size siber dişli bir kaplandan uzaklaşmaya çalışan bir serseriyi hatırlatıyor, hepsi sıkı bir topta sıkıştırılmış korku ve panik. Dünden beri yarattığı yeni dili deşifre etmeye çalışıyorsunuz ve bir gecede kötü bir şey olduğunu anlamaya başlıyorsunuz - üretim sistemi çöktü.

Şimdi, sisteminiz genellikle müşteriler tarafından 9-5 arasındaki normal çalışma saatleri içinde kullanılır, ancak herhangi bir nedenle sinyalinizle ilgili herhangi bir uyarı alamadınız (30 yaşın altındaki kişiler için - bir sinyal sesi yalnızca çalabilecek bir cep telefonu gibiydi) sana kim bip ettiğini söyle). Bir dahaki sefere şarj etmek için hatırlamanız gerekir.

Öyleyse şimdi saat 08:45 ve sistem saat 9'da kurulmalı. Her 10 saniyede bir, patronunuz size başka bir müşterinin sisteme girmekte sorun yaşadığını bildiren başka bir lanet verir. Ayrıca, birkaç hesap yöneticisi şimdi patronlarının gerçekten GERÇEKTEN gerçekten acı çektiğini anlamasını sağlamaya çalışan patronun üzerinde durmaktadır.

Herkes sistemi en kısa sürede kurmanıza bağlı ve aynı zamanda sizi sürekli rahatsız ederek ilerlemenizi engelliyor.

Böyle bir durumda nasıl serin kalırsın?


34
Adım Bir: programmers.stackexchange'te 300 kelimelik bir gönderi oluşturun.
kubi

8
Şu anda olduğunu söylemiyorum. Kontrol etmeme izin ver ...
Mag20

1
Bu, geliştiricilere özgü bir sorun mu? Eğer sorumlu olduğunuz bir şey çalışmıyorsa, o "şeyin" ne olduğuna bakmaksızın baskıyla başa çıkmanız gerekir.
ChrisF

1
Kendi tecrübelerime göre, çok az sayıda yazılım evi, irili ufaklı felaket kurtarma tatbikatları yaptığını gördüm. Bunu patronuna koyardım. Eğer bir şey yapıyorsanız, ne olacağını biliyorsunuz ve tepki süreleri için bir fikir edinebileceğinizi biliyorsunuz. Ayrıca, herhangi bir işlemin otomatikleştirilip gerçekleştirilemeyeceğini de değerlendirebilirsiniz. Gücü kaybedersen ne olur? Ofiste yangın başlarsa, tesis dışında bir yeriniz var mı? Sunucularınız evde mi yoksa dışarıda mı vb. Barındırılıyor mu?
Issız Gezegen

3
Bu, TheDailyWTF! 'Daki ​​bir girişin başlangıcı gibi görünüyor.
Grant Palin

Yanıtlar:


43

Bu durumda, patronunuzdan diğer herkesi sizden uzak tutarak size yardım etmesini isteyin (bu, başka bir yerde yapması gereken bir şeydir).

Tekrar çalıştırıp çalıştırdığınızda, patronunuzdan, bunun tekrar olmasını önlemek için prosedürleri değerlendirmek ve kurmak üzere bir toplantı isteyin.


1
+1. Afet kurtarma tatbikatları, tepkileri ve tepki sürelerini ölçmek için iyi bir yoldur. Yazıklar olsun, yeterince yapıldığını görmüyorum.
Issız Gezegen,

@DP, ama bunu yapamayız çünkü bu, tatbikat devam ederken insanların ve ekipmanların gerçek acil durumlar için uygun olmadığı anlamına gelir (evet, bu tartışmayı bir kereden fazla duydum). Tabii ki, eğer yeterince insan ve ekipman varsa, bir takımı bir sette eğitebilir, diğerini görevdeyken ...
jwenting

(jwenting yangın alarmında olduğu gibi ses çıkarır).

9

Yapılacak ilk şey, dikkat dağıtıcı şeyleri olabildiğince kibarca ortadan kaldırmak. Hiç kimse kulağınıza giren ve müşterileriniz için ne kadar kötü olduğu konusunda çalışamaz. Elbette, patronunuz bir manyak ise, söylenenden daha kolaydır, ancak durum buysa, yine de başka bir iş bulmayı düşünebilirsiniz.

Ardından hatanın neden olduğu gerçek kayıp hakkında hızlı bir değerlendirme yapın ve (eğer varsa) hızla nasıl azaltılabileceğini. Biraz pratik yaparak, bir eylem planı oluşturmanız gereken günlük dosyalarını da hızlı bir şekilde kontrol edebilirsiniz.

Sorun karmaşıksa, en ağır kısmına odaklanın. Eyleme atlanmadan önce iki veya üç adım ileri düşünün. Ayrıca, harekete geçmeden önce herhangi bir plandan nasıl vazgeçileceğini bildiğinizden emin olun.

Ve en önemli şey: Panik yapmayın!


7

Bu gibi durumlar endüstriyel kontrol sistemlerinde yaygındır. Gecenin ortasında üretim hattı düşüyor, şirket genellikle dakikada yüzlerce, hatta binlerce dolar kaybediyor ve sorunu çözmek için size bakıyorlar. Sen öyle halledersin:

  1. Onlara bildiklerini açıkla
  2. Neyi bilmediğinizi açıklayın (ancak sorunu çözmek için bilmeniz gerekenler)
  3. Ne bilmediğinizi nasıl öğreneceğinizi açıklayın
  4. Onlara ne kadar süreceği konusunda bir tahminde bulun (bir aralık kullanın)
  5. Planınızı izlemeye odaklanırken etrafınızdaki her şeyi görmezden gelin

6

İlk şey, defalarca felaket kurtarma işlemini uygulamış olmaktır (insanlar omzunuzun üzerinde durmadan), böylece ne yapılacağını öğrenmek için SO ile ilgili sorulara başvurmak zorunda kalmadan sorunu teşhis etmek ve çözmek için tam olarak hangi adımları atmanız gerektiğini bilirsiniz. İyileşme becerilerinize güven duyduğunuzda, baskı ve stres çok daha düşüktür.

İkincisi, çalışırken saçlarınızı insanlardan çıkarmaktır. Patronun patronuna birlikte gidebileceği bir şey istiyor. Onlara ne yapmak istediğinize ve ne kadar süreceklerine dair bazı bilgiler verin ve ardından özellikle söylediğinizden çok daha uzun sürecek bir şey bulursanız düzenli ilerleme raporları verin. Evet, ilerleme raporlarının düzeltilmesi zaman almaz, ancak uçan patronlar ve kullanıcılar daha da fazla zaman alır. Ben, her zaman ilerleme raporları için gidiyorum. Onları güncel tutacağınızdan emin olduklarında, işinizi daha fazla yapmak ve sizi daha fazla yalnız bırakmak için size güveneceklerdir.

Kullanıcılar bir süre engellenecekse, o zaman bu bir seçenekse web sitesine bir e-posta gönderin veya sitenin bakım için kapalı olduğunu ve ne zaman denemeleri gerektiğini söyleyin. (Bu muhtemelen patronunuza saçınızdan uzak durması için yapacak birini bulması için verebileceğiniz bir görevdir.) İnsanlar, birileri sorun üzerinde çalıştığını bildiklerinde giriş yapamadıkları için daha az huyludurlar. İşler düzeldiğinde, bir e-posta gönderirseniz, sabit olduğunu söylemek için aynı gruba e-posta gönderin. İnsanların bunu kaç kez unuttuğunu söyleyemem ve kullanıcılar hala yapabildiklerinde giriş yapamadıklarını düşünüyor. Amaç, sadece işleri düzeltmek değil, insanların sistemle tekrar çalışmasını sağlamak.

Derin nefes alın (derin nefesler sakinleşir) ve soruna dalın. Yapmanız gereken şeyleri bir yere yazmanız iyidir, çünkü acil durumlarda bazen beyin sinaskoplarınız bilgileri bu kadar çabuk almazlar. Aptalca bir mırıltı gibi görünmek istemezsin: "Bir kütüğümüz olduğunu biliyorum, cehennem nerede?"

Üretim sistemlerini desteklediğiniz bir işte çalışıyorsanız, genel olarak acil durumlarda iyi tepki veren bir kişi olmak en iyisidir. Bunu gerçekten öğrenebileceğinden emin değilim. Önünüzde ata binen biri yere düşerse (hayatımdan rastgele olmayan bir örnek) ve yerde kanıyorsa, orada ağzı açık duran duran kişi misiniz ambulansı kim çağırır, kanamaya basınç bandajı koyar ve atı yakalaması için birini yönlendirir? Birinci türden bir insansanız, belki de bu sizin için doğru iş kolu değildir.


2

Onlara bunun bir yedekleme sunucusuna ihtiyaç duymanızın iyi bir nedeni olduğunu ve birincisi bozulursa derhal devreye alınabilecek birincil sunucuyla aynı çalışan ikinci bir sunucuyu kastediyorum.


Bir yedekleme sunucusunun açık olduğunu ve birincil sunucu ile aynı sorunu yaşadığını gördüm. Donanım maliyetini iki katına çıkardı, yapılandırma maliyetine ekledi ve toplam masraf kaybıydı. Yüksek kullanılabilirlikli bir iş yapıyorsanız, emin olun, ancak donanımınızı soruna göre boyutlandırmanız gerekir.
Scott Whitlock

birincil sistemle aynı hatadan etkilenen yedekleme sisteminin bir (aşırı) örneği Ariane 5 Flight 501'dir
Andre Holzner

2

Yarattığınız bir sorun için size kızgın olan insanlarla her taraftan kuşatılmış olmanız yeterince kötü, ancak yaratmadığınız bir sorunun iki katı daha kötü. Müvekkilimin kötü bir şekilde yapılandırdığı bir defadan daha fazla başıma geldi; bu, hatanın müşteri ile iletişim kurduğu anlamına gelir (hatanın dinlemediği için müşteri olup olmadığı veya pazarlamacının iyi açıklamadığı için asla bilemezsiniz).

Berbat olduklarını nasıl açıklarsın? Asla kolay bir iş değildir, özellikle patronunuz boynunuzu solurken, müşterinin daima haklı olduğunu varsaymaktan daha iyisini bilmiyordur.

Peki böyle bir durumda nasıl serin kalırsınız? Patronunuza kibarca, işe ne kadar erken giderseniz, bu sorun ne kadar çabuk çözüleceğini hatırlatır.


1

Bu olayı (iş için) ne kadar değerli olduğumu gösterme fırsatı olarak görerek, üretim sisteminin mümkün olan en kısa sürede tekrar çalışmasını sağlayarak (09: 00'dan önce değilse ;-)).

Açıkçası, umarım ilk etapta kırmadım ;-)


1
  • sh_t olur
  • bir soruna bir çözüm olmalı
  • Dünyadaki biri çözümü biliyorsa, onlardan biri olabilirim.
  • Eğer bir çözüm yoksa, panik yardımcı olmuyor
  • tekrar, sh_t olur

0

Eh, kesinlikle patronunuza sorun çözüldüğünde ona geri döneceğinizi sorun; Bu tür durumlarda yönetim genellikle, en kısa sürede çözülmesini sağlamak için diğer insanları da dahil eder, sonra da "endişeli" kişiyle daha sonra düzeltir. iş gelince müşteri genellikle kraldır !!


0

Bunun gibi durumlar beni daha fazla motive eden her şey için tam bir dokümantasyon ve her türlü durumla başa çıkma planım için beni motive ediyor.

Her olası problemi tahmin edemesek bile, arkamıza dönüp daha hazırlıklı, düzenli ve belgelenmiş olarak çalışabiliriz.


1
Dokümantasyon kullanarak bir üretim problemini (yani sistem arızasını) hiç çözmedim.
Marcie

1
Hayır, ancak özellikler, tablo tanımları, sunucu ayarları gibi bir şeye bakmanız gerekiyorsa, belgelendirilmesi gerekir.
crosenblum

0

B52G bombardıman uçaklarında bakım yapmak için 8 yıl geçirdim. Bu benim için her şeyi perspektif içine sokuyor.

Aşağı üretim sistemi önemlidir, ancak milyonlarca veya milyarlarca insanı öldürmeyecektir.

Neyin yanlış olduğunu bul, nedenini bul, düzelt. Önemli olanlarla açık iletişim kurun ve onları bilgilendirin. Patronunuza ne yaptığınızı ve ne zaman onu ne zaman güncelleyebileceğinizi söyleyin, mesajlar ve konuşmalardaki "henüz düzeltildi mi" durumunun devam etmesini önleyebilirsiniz.

ölüm sonrası bir adım at ve gelecekte bu tür olayların etkilerinin nasıl önlenip sınırlandırılacağını çöz.

Telefondaysanız, cep telefonunda bitmiş bir pil ya da bip sesi bulunması son derece profesyonelce olabilir. Bu, genel senaryoyu oluşturuyor, ancak eğer bu benim için çalışan bir insanın başına geldiyse, ciddi bir tartışma olacaktı ve tekrarlanırsa, artık benim için çalışmayacaklardı. Evet ben hardas'ım.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.