Çalışma ortamında doğru istatistikler yapmak mı?


20

Bu sorunun nereye ait olduğundan emin değilim: Çapraz Onaylı veya İşyeri. Ama sorum belirsiz bir şekilde istatistiklerle ilgili.

Bu soru (ya da sanırım sorular) bir "veri bilimi stajyeri" olarak çalışmam sırasında ortaya çıktı. Bu lineer regresyon modelini yapıyordum ve kalan arsaları inceliyordum. Heteroskedastisite belirtisi gördüm. Heteroskedastisitenin güven aralığı ve t-testi gibi birçok test istatistiğini bozduğunu hatırlıyorum. Bu yüzden üniversitede öğrendiklerimi takip ederek en az kare ağırlıklı kullandım. Müdürüm bunu gördü ve bana bunu yapmamamı tavsiye etti çünkü “işleri karmaşık hale getirdim”, bu benim için çok inandırıcı bir neden değildi.

Başka bir örnek "açıklayıcı bir değişkenin p değeri önemsiz olduğundan kaldırılması" olacaktır. Bu tavsiye, mantıklı bir bakış açısından mantıklı değildir. Öğrendiklerime göre, önemsiz p-değeri farklı nedenlerden kaynaklanabilir: şans, yanlış modeli kullanma, varsayımları ihlal etme vb.

Yine başka bir örnek, modelimi değerlendirmek için k-kat çapraz doğrulamayı kullandım. Sonuca göre , den çok daha iyi . Ancak model 1 için daha düşük bir ve bunun nedeni kesişme ile ilgili . Yine de amirim daha yüksek R ^ 2 olduğu için model 2'yi tercih ediyor gibi görünüyor . Onun nedenleri ( R ^ 2 gibi sağlam ya da çapraz doğrulama istatistiksel öğrenme değil, makine öğrenme yaklaşımıdır) fikrimi değiştirecek kadar ikna edici görünmüyor.CVmodel1CVmodel2R2R2R2

Üniversiteden yeni mezun olan biri olarak kafam çok karıştı. Gerçek dünya sorunlarını çözmek için doğru istatistikleri uygulama konusunda çok tutkuluyum, ancak aşağıdakilerden hangisinin doğru olduğunu bilmiyorum:

  1. Kendi başıma öğrendiğim istatistikler yanlış, bu yüzden sadece hata yapıyorum.
  2. Şirketlerde teorik istatistikler ile yapı modelleri arasında büyük fark vardır. Ve istatistik teorisi doğru olmasına rağmen, insanlar bunu takip etmiyor.
  3. Yönetici istatistikleri doğru şekilde kullanmıyor.

17.04.2017 Güncellemesi: Doktora yapmaya karar verdim. istatistiklerde. Cevabınız için hepinize teşekkür ederim.



Bu tartışma da alakalı olabilir . Pratikte, bazen verilerinizin bazı gerekli varsayımları (örneğin, bağımlı değişkenlerdeki Naive Bayes) ihlal ettiği ve yine de ilginç sonuçlara sahip olduğu modelleri kullanabilirsiniz. Ancak, o zaman çizdiğiniz sonuçlara çok dikkat etmelisiniz ve asıl sorun budur: çoğu insan sonuç aldığınız sürece sonuçlarınızın anlamını umursamıyor. Yayımla veya yok ol ...
gaborous

1
"Haklısınız ve o yanlış" cevapları muhtemelen doğrudur ve davanız için geçerlidir. Her neyse, bazen cevabın "yanlış ama onun yanlış yolu onun amaçları için işe yarayabileceğine dikkat edin - belki de iş yürütmenin istatistiksel olmayan amaçları için doğru yoldan daha iyi çalışır". Bence bu sadece istatistiklerle değil, her türlü bilimsel bilgi ile oluyor. Belki SE Workplace'de size istatistiksel olmayan örnekler verebilirler.
Pere

3
@Aksakal: OP'nin istatistiksel olarak tanımladığı şeyden daha doğrudur. Kişisel fıkra, sadece bir fıkra. A / B testinin sadece 30 örnekle yapılacağı bir işe girdiğimi söyleyerek karşı çıkabilirim; temel güç hesaplamalarının gösterilmesi, takımın örnek boyutları ve karar verme konusundaki tüm zihniyetini değiştirdi. OP'nin sorusuna dönersek, açıklanan şeyin OP'nin amirinin yanlış bir çağrı yaptığı anlamına gelmediğini kabul ediyorum. İş iş akışları onlarla ilişkili belirli bir
atalete

1
@ usεr11852, yorumum bir ranttı :) ama bir anlamı var, diye düşünüyor: Alanda yeni olan biri için, bir patronun daha iyi bildiğini varsaymak daha güvenlidir. tecrübesi ile bu varsayımı gevşetebilir, belki kendi görüşüne daha fazla ve patronuna daha az ağırlık verebilir. stajyer için kendi görüşündeki ağırlık SIFIR'a yakın olmalıdır.
Aksakal

Yanıtlar:


12

Özetle, haklısın ve o yanlış. Veri analizinin trajedisi, birçok insanın bunu yapmasıdır, ancak kısmen az sayıda insan bunu kısmen veri analizinde zayıf bir eğitim ve kısmen ilgisizlik nedeniyle iyi yapar. Yazar listesinde bir istatistikçi veya makine öğrenimi uzmanı bulunmayan yayınlanmış araştırma makalelerinin çoğuna eleştirel bir göz atın ve -değerlerini sıfır hipotezinin doğru olma olasılığı olarak yorumlamak gibi temel hataları hızlı bir şekilde tespit edersiniz. .p

Bence yapılacak tek şey, bu tür bir durumla karşı karşıya kaldığında, yanlış uygulama ile ilgili neyin yanlış olduğunu bir veya iki örnekle dikkatlice açıklamaktır.


3
Cevap için teşekkürler. Sanırım bir "sonraki adım sorusu", aslında doğru istatistikleri yapan herhangi bir iş var mı? Veri biliminin günümüzde çok popüler olduğunu anlıyorum, ama bir şekilde birçok "veri bilimcisinin" doğru istatistikleri yapmakla ilgilenmediği
izlenimini edindim

1
@Misakov Bence bu gerçekten kişiye veya organizasyona bağlı. Ancak "veri bilimi", "analitik" ve "iş zekası" gibi terimler kırmızı bayraklardır. Ve bir iş görüşmesinde onlarla da görüştüğünüzü unutmayın. Bu sadece sizi yapmaz. İşlerin nasıl yapıldığına dair ayrıntılı sorular sormak iyi görünüyor; veri analizi konusunda ne kadar ciddi olduklarını görmenizi sağlar.
Kodiologist

@Misakov Gerçekten doğru istatistikleri yapmak istiyorsanız muhtemelen akademiye gitmeniz gerekir. Endüstriyel kullanımın büyük çoğunluğu (yukarıdaki cevabıma bakın) yanlış olacaktır.
Mooks

@Kodiologist: Bence bu konuda hafif bir " doğru " yaklaşım alıyorsunuz ve OP'ye sadece endüstri istatistiklerine karşı önyargısını onaylayarak yardımcı olmuyorsunuz. Ayrıca, doğrudan karar verdikten sonra üst düzey bir üyeyle çelişme fikri ("Daha yüksek ile git "R,2 ) biraz naif ... İşletmenin hala var olduğu göz önüne alındığında, yöneticinin kararları çok yanlış değil ve aşırı basitleştirme Bazı kuralların çalışmaları bağlamında çok felaketli olmayabilir. Yeni insanlar (OP gibi) tekneye gelir ve ekip gelişir; evrim bir Wiener süreci, bir Lévy uçuşu değil!
usεr11852 diyor Reinstate Monic

1
@ usεr11852 İyi (örn. sivri saçlı olmayan) bir yönetici, çalışanlardan bildiklerinden daha iyi bildiklerinde erteleyecektir. "İşletmenin hala var olduğu göz önüne alındığında, yöneticinin kararları o kadar da yanlış değil " - Yarış hızlı değil.
Kodiologist

11

Kodiolog haklı - haklısın, yanılıyor. Ancak ne yazık ki bu karşılaştığınızdan daha yaygın bir yer problemidir. Aslında nispeten iyi performans gösteren bir sektördesiniz .

Örneğin, şu anda ürünlerle ilgili spesifikasyonların ayarlanması gereken bir alanda çalışıyorum. Bu neredeyse her zaman ürünleri / süreçleri bazı yollarla izleyerek ve araçları ve standart sapmaları kaydederek yapılır - daha sonra iyi eskimebirn+3*σ .

Şimdi, bu güven aralığının onlara gerçekten neye ihtiyaç duyduklarını söylememesi (bunun için bir tolerans aralığına ihtiyaçları var) dışında, bu, maksimum veya minimum değerin yakınında (ancak aralığın kazandığı yerlerde) körü körüne yapılır. t aslında bu değerleri aşmaz). Excel ihtiyaç duyduklarını hesaplayacağı için (evet, Excel dedim), parametrenin normal dağılıma yakın bir yerde olmayacak olmasına rağmen özelliklerini buna göre ayarlarlar. Bu kişilere temel istatistikler öğretildi, ancak qq grafikleri veya benzeri değil. En büyük sorunlardan biri, uygun olmayan şekilde kullanıldığında bile istatistiklerin size bir sayı vermesidir - bu yüzden çoğu insan ne zaman yaptıklarını bilmez.

Başka bir deyişle, endüstrilerin büyük çoğunluğunda, ürünlerin büyük çoğunluğuna ilişkin özellikler saçmalıktır.

İstatistikleri körü körüne takip eden insanların anlamadan en kötü örneklerinden biri, otomotiv endüstrisinde Cpk kullanımıdır. Bir şirket tedarikçileriyle bir ürünü tartışmak için yaklaşık bir yıl harcadı, çünkü tedarikçinin ürünlerini mümkün olmayan bir seviyeye kadar kontrol edebileceğini düşündüler. Bir parametreye yalnızca maksimum bir spesifikasyon (minimum değil) koyuyorlardı ve iddialarını haklı çıkarmak için Cpk kullandılar - hesaplamalarının (teorik bir minimum seviye ayarlamak için kullanıldığında - kontrol edilmemiş olmasını istemediklerine) işaret edene kadar ) büyük bir negatif değer ima etti. Bu, asla 0'dan daha az gidemeyen bir parametrede Cpk normal kabul eder, işlem normal verilere yakın bir yerde vermedi. Bunu batırmak uzun zaman aldı. Tüm bunlar zaman ve para kaybına neden oldu çünkü insanlar Ne hesapladıklarını anlamadı - ve fark edilmeseydi çok daha kötü olabilirdi. Bu, otomotiv endüstrisinde neden düzenli hatırlamaların olduğuna katkıda bulunan bir faktör olabilir!

Ben, kendim, bir bilim geçmişinden geliyorum ve açıkçası, bilim ve mühendislikte öğretim istatistikleri şok edici derecede yetersiz. Şu anda kullanmam gereken şeylerin çoğunu hiç duymamıştım - hepsi kendi kendine öğretildi ve şimdi bile bilgimde (uygun bir istatistikçiye kıyasla) büyük boşluklar var. Bu nedenle, istatistiği kötüye kullanan insanlara yalvarmıyorum (muhtemelen hala düzenli olarak yapıyorum), bu zayıf bir eğitim.

Yani, orijinal sorunuza geri dönmek, gerçekten kolay değil. Kodiolog'un bunları doğru bir şekilde kullanması için bunları nazikçe açıklamaya çalışma önerisini kabul ediyorum. Ancak , buna fazladan bir uyarı eklerim ve kariyeriniz uğruna savaşlarınızı akıllıca seçmenizi öneririm.

Bu talihsiz bir durum ama herkesin en iyi istatistikleri her seferinde yapmasını sağlayamayacağınız bir gerçek. Son genel sonuç için gerçekten önemli olduğunda bunları düzeltmeyi seçin (bu bazen işleri iki farklı şekilde kontrol etmek anlamına gelir). "Yanlış" yöntemini kullanmanın aynı sonuçlara yol açabileceği zamanlar vardır (örneğin, modeliniz 1,2 örneği). Çok fazla insanı çok sık düzeltmekten kaçının.

Bunun entelektüel olarak sinir bozucu olduğunu ve dünyanın farklı şekilde çalışması gerektiğini biliyorum - ne yazık ki çalışmıyor. Bir dereceye kadar savaşlarınızı meslektaşlarınızın bireysel kişiliklerine göre değerlendirmeyi öğrenmelisiniz. (Kariyer) hedefiniz, seçici bir kişi her zaman onları düzeltmeye çalışan değil, gerçekten yardıma ihtiyaç duyduklarında gittikleri uzman olmaktır. Ve aslında, eğer o kişi olursanız, muhtemelen insanların doğru şekilde dinlemelerini ve yapmasını sağlayan en başarılı olan yerdir. İyi şanslar.


Excel, büyük olasılıkla en yaygın kullanılan veri analiz yazılımıdır. " Evet, dedim! " Sözüne gerek yok. Birisi akademi dışına çıkmadığı sürece (ve belki de büyük ilaç) orijinal ifadenize dikkat etmezdi. (Güzel cevap, +1)
usεr11852 diyor ki Reinstate Monic

1
En yaygın kullanılanı ve bence bu benim asıl amacım. Excel'in veri analizi için büyük eksiklikleri vardır. Yaptığınız şey Excel'de yapılıyorsa, tüm hesaplamaları kendiniz manuel olarak girmediğiniz sürece gerçekten veri analizi diyemezsiniz. Elektronik tablo olarak Excel'e karşı hiçbir şey yok, ancak en iyi ihtimalle ilkel bir veri analiz aracı. Ama insanlar daha iyisini bilmiyorlar, çünkü daha iyi öğretilmiyorlar. Bir istatistik geçmişinden gelmiyorum, ancak daha iyi grafikler yapmak için R'den bahsettiğim için şanslıydım ve tesadüfen beni daha iyi istatistiklere yönlendirdi.
Mooks

Diyerek şöyle devam etti: "Kodiolog'un bunları doğru istatistikleri kullanması için nazikçe açıklamaya çalışma önerisine katılıyorum." - Tanık olmak istiyorum. İşverenine nasıl iş yapılacağını açıklayan bir stajyer.
Aksakal

1
Bu yardımcı olacaktır, # 9'u kontrol edin. Her zaman bu tür listelerde gelen ortak bir tavsiye. İşyerinde ilk 100 gün: bir şeyleri değiştirmeyi önermeyin, önce insanların neden işleri yaptıkları gibi yaptığını anlayın, çoğu zaman geçerli bir neden vardır. Kendinizi aptal yerine koyacaksınız ve bunun yeni adamlarla tekrar tekrar olduğunu gördüm. Kapa çeneni ve birkaç ay boyunca gözlemle
Aksakal

@Aksakal Söyledikleriniz kesinlikle mantıklı. Durumumda biraz "cesur" davranıyorum çünkü esasen stajyer olduğum ve kısa süre sonra terk edeceğimi biliyorum.
3x89g2

3

Açıklanan şey biraz kötü bir deneyim gibi görünüyor. Bununla birlikte, kişinin kendi eğitim geçmişini ya da amirinin / yöneticisinin istatistiksel muhakemesini derhal sorgulamasına neden olan bir şey olmamalıdır.

R,2Gelecekte bir yerde asimtotik davranıştan ziyade iş, fazla bir şey ifade etmez. İnsanlar kabul etmeye isteksiz olacaklar; neden her şey (biraz) çalışırken değişmek için enerji harcayayım ki? Yöneticiniz işletme açısından yanlış olmayabilir. Bölümünüzün istatistiksel ve ticari kararlarından sorumludur; bu karar mutlaka her zaman çakışmaz ve büyük olasılıkla kısa vadeli çıktılarla çakışmaz (zaman kısıtlamaları endüstri veri analizinde çok önemli bir faktördür).

Benim tavsiyem (istatistiksel) silahlarınıza bağlı kalmak, ancak insanların ne yaptığına açık olmak, yeni istatistiksel uygulamalardan ayrılabilecek insanlara karşı sabırlı olmak ve istendiğinde tavsiye / fikir sunmak , daha kalın bir cilt büyütmek ve ortamınızdan öğrenmek. Doğru şeyleri yapıyorsanız, bu yavaşça gösterecektir, insanlar fikrinizi isteyecektir, çünkü mevcut iş akışlarının olmadığı yerlerde çözümler sunabileceğinizi fark edeceklerdir. Son olarak, evet, eğer makul bir süre sonra (en az birkaç ay), devalüe edildiğinizi ve saygısız olduğunuzu hissediyorsanız, sadece devam edin.

Artık endüstride olduğunuzu ve arkanıza yaslanamayacağınızı ve İstatistik eğitiminizi bilemenize gerek olmadığını düşündüğünüzü söylemeye gerek yok. Öngörülü modelleme, regresyon stratejileri, kümeleme algoritmaları gelişmeye devam ediyor. Örneğin, Gauss Süreçleri Regresyonunun endüstriyel bir ortamda kullanılması 10 yıl önce bilimkurguya yakındı; şimdi denemek için hazır bir şey gibi görülebilir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.