Çeşitli kitlelere gelişmiş istatistikler sunma stratejileri


26

Ağırlıklı olarak tıp, sosyal bilimler ve eğitim gibi alanlarda istatistikçilerle çalışıyorum.

Lisansüstü öğrencilere danışmanlık yapıp, makaleleri araştırmama yardım etmekte veya dergileri inceleyen makaleleri gözden geçirsem de, genellikle birisinin (müşteri, yazar, tez komitesi, dergi editörü) tamamen tanınmış olduğu zaman göreceli olarak iyi bilinen bir teknik kullanmak istediği problemi yaşıyorum. uygun olmadığında veya daha iyi olduğunda daha az bilinen yöntemler vardır. Genellikle, alternatif tekniği açıklayacağım ancak daha sonra "herkesin başka bir yolla yaptığı" söylenecek.

Başkalarının bu tür zorluklarla nasıl başa çıkacaklarıyla ilgileniyorum

EKLENEN

@MichaelChernick bazı hikayeleri paylaşabileceğimi önerdi, ben de

Şu anda önceki bir kağıdı kopyalayan ve yardım edip etmediğini görmek için bağımsız bir değişken ekleyen bir kişiyle çalışıyorum. Önceki yazı, açıkçası, korkunç. Bağımlı verileri bağımsızmışlar gibi ele alır; muazzam bir şekilde üst üste geliyor ve başka problemler de var. Yine de (müvekkilim) daha önce tez yazdı ve sadece derecesini elde etmekle kalmadı, aynı zamanda araştırmaya övgüde bulundu.

Çoğu zaman insanları değişkenleri dikotomlaştırmamaya ikna etmeye çalıştım. Bu tıpta çok sık ortaya çıkıyor. Sabırsızlıkla doğum ağırlığının düşük ve normal olarak (genellikle 2.500 g'de) dicohotomizing (diyelim) 2.499 g bebeğe sadece 1.400 g gibi davranmak anlamına geldiğini; 2,501 gram bebeğe oldukça farklı davranılıyor. Klinisyen benimle bunun aptalca olduğunu kabul ediyor. Sonra böyle yapmayı söylüyor.

Komitesini küme analizinde ısrar eden uzun zaman önce mezun bir öğrenci müşterim vardı . Öğrenci metodu anlamadı, metot faydalı soruları cevaplamadı, ancak komitenin istediği şey buydu.

Tüm istatistiksel grafik alanı, birçoğu için, "bu kadar dede budur" için yeterli olan bir alandır.

Sonra sadece düğmelere basacak gibi görünen insanlar var. Tüm bir anketi alan ve faktörü analiz eden bir sunumu (yardım ettiğim biri tarafından değil!) Hatırlıyorum. İçerdiği değişkenlerden biri kimlik numarasıydı!

Oy.


6
Peter, Meta bu site hakkında sorularınız için . "Topluluk Wiki" statüsü hakkında düşündüğünüzden şüpheleniyorum, bu, nesnel olarak en iyi cevaba sahip olması muhtemel olmayan faydalı ve ilginç sorular için (ya da hiç cevap vermek için işbirliğine dayalı çabalara ihtiyaç duyması muhtemel olan) yararlıdır. Buna göre, önerinizi bir CW talebi olarak yorumladım ve uygulamaya koydum.
whuber

1
Dikotomizasyon ile ilgili kısa bir not: Aslında bunun "biraz istatistik" bilen insanlardan yanlış yerleştirilmiş bir sezgi olduğunu düşünüyorum. Bahsettiğiniz alanlarda karar vermeyle ilgili olarak çok fazla analiz yapılması gerektiğini düşünürdüm (örneğin, hastalık X veya Y için tedaviye başlamalı mıyım?). Bu dikhotomus - ve genellikle faydalı bir ikiliktir. Eğer çok az sayıda değişkeniniz varsa, o zaman uygun bir karar analizi veya hipotez testi bunu taklit edebilir - "x> 10 seçenek 1 alırsa, aksi takdirde seçenek 2 alır" yapabiliriz.
olasılık olasılığı

1
Ayrıca, bir bilgisayara erişiminiz yoksa, iki değişkenli değişkenlere dayanan bir analizi hatırlamak çok kolaydır.
Olasılık

2
Psikolojide insanlar sık ​​sık dikotomize oluyor veya nicelleşiyorlar çünkü regresyon değil ANOVA kullanıyorlar. Bu beni deli ediyor. Vanderbilt istatistiklerinde bir yerlerde wiki biostat.mc.vanderbilt.edu/wiki/Main , dikotomizasyon ile yapılan korkunç hasarın mükemmel bir kanıtı . Ama maalesef onu bulamıyorum. Zaten orada olduğunu düşünüyorum. Şansım varken Evernoted olmalıydı
Chris Beeley

2
Sigorta endüstrisindeki sınırlı deneyimimden, belirli bir öngörücü model geliştirildikten sonra, kendi ömrüne sahip olduğunu ve model haline geldikten sonra bile yıllarca kopyalanmaya devam edeceğini (belki de güncellenmiş katsayılarla) devam edeceğini gördüm. modası geçmiş. Örneğin, sağlık sigortası poliçesi faiz oranlarını belirleyen eski bir modeli yenilemek önemli bir şey çünkü bazı insanların oranları aniden yükselebilir, yeni modelin düzenleyici kurumlar vb. İçin haklı gösterilmesi gerekecek.
RobertF

Yanıtlar:


16

Bu aldatıcı bir soru!

İlk olarak, bunun neden olduğu hakkında bazı düşünceler. İstatistiği geniş ölçüde kullanan (veya en azından gerekir ) bir alanda çalışıyorum , ancak çoğu uygulayıcı istatistik uzmanı değil. Sonuç olarak, bir çok kişi "Excel'in t-test fonksiyonuna bir vektör koydum ve bu sayı düştü. Bu yüzden makalem istatistiklerle destekleniyor."

Bunun gerçekleşmesinin ana nedeni, istatistik bilgisi eksikliğinin en baştan başlaması. Gözden geçirenleriniz ve tez komiteniz istatistiksel teknikler konusunda güncel değilse, "sıradışı" olan herhangi bir şeyin kullanılmasını haklı göstermeniz gerekir. Örneğin, bir tezde, dağıtım şeklini göstermek için kutu grafikleri yerine keman grafikleri kullanmayı seçtim. Bu tekniğin kullanılması tezi kapsamlı belgeler yanı sıra benim savunmasında bir uzatılmış tartışma gerekli tüm metinde açıklamaları ve kaynak materyal başvurular hem rağmen, komite üyelerinin bu tuhaf arsa ne anlama geldiğini bilmek istedim . Daha önce sadece daha az gösteren bir kutu arsa kullanmış mıydım? bu durumda bilgi ve izleyiciyi kolayca dağıtıp aldatabileceği şekli hakkında çok modlu ise) hiç kimse bir şey söylemezdi ve savunmam daha kolay olurdu.

Mesele şu ki, istatistik dışı alanlarda uygulayıcılar zor bir seçim ile karşı karşıya kalıyorlar: Yükselişlerimizden hiçbirinin ilgilenmediği bir grup çalışmayı gerektiren doğru yöntemleri okuyabilir ve kullanabiliriz ; ya da sadece akışa devam edebiliriz, kağıtlarımız ve tezlerimizin üzerine lastik damga basabilir ve yanlış kullanmaya devam edebiliriz. geleneksel yöntemler .

Şimdi sorunuzu cevaplamak için:

Bence iyi bir yaklaşım, doğru teknikleri kullanamamanın sonuçlarını vurgulamaktır. Bu şunları içerebilir:

  • Alanında birinin zayıf çıkarımın sonuçlarını nasıl yaşadığına dair gerçek bir dünya örneği vermek. Bu, bazı alanlarda diğerlerinden daha kolaydır. Kariyerlerin zarar gördüğü örnekler özellikle iyidir.

  • Yanlış analiz yapmanın sizi, sonuçlarınızın gerçek dünyaya aktarma ihtimalinin çok düşük olduğu ve zarar verebilecek bir durumda bırakabileceğini açıklamak (örneğin benim sistemimde, AI sistem prototipiniz istatistiksel olarak rekabetten daha iyi görünüyorsa, ama aslında Aynı şekilde, önümüzdeki 6 ay boyunca tam bir uygulama oluşturmak için harcama yapmak gerçekten kötü bir fikir.

  • Kullanıcılara çok zaman kazandıracak teknikleri seçin. Teknikleri açıklamak için biriktirdikleri birikimi daha yukarılara harcamak için yeterli zaman.


1
İyi tartışma ve iyi cevap +1.
Michael R. Chernick

İyi puanlar @John
Peter

1
Sonuçları belirtmek için +1. İnsanların daha iyi yöntemlere geçmesini sağlamak için harikalar yaratabilir.
Leo,

9

Bir psikologun bakış açısından sadece çok az istatistiksel karmaşıklığa sahip olarak konuşma: Yöntemi tanıtırken, araçları da tanıtın. Alanımdaki araştırmacıların çoğuna yeni ve harika bir yöntem hakkında uzun bir hikaye anlatırsanız, bütün zamanı punchline'ın "ve tek yapmanız gereken diferansiyel hesabınızı tazelemek ve sonra iki tane ayırmaktan endişeleneceklerdir." hafta eğitim kursu! " (veya "ve 2000 dolarlık bir istatistik paketi satın alın!" veya "ve 5000 satırlık Python ve R kodu uyarlayın!"). Zaten kullandıkları istatistik paketinde ya da anlaşılır bir GUI'ye sahip bir serbest yazılım parçası içinde mevcut olan bir yöntemin bir uygulaması varsa ve bunu bir veya iki gün içinde hızlandırmak için istekli olabilirlerse de bir deneme.

Bu yaklaşımın içten ve bilim dışı görünebileceğinin farkındayım, ancak insanların hibe ve yayınlar için endişelendiğinde düşmeleri kolaydır ve işlerini sürdürmelerine yardımcı olacak büyük miktarda matematik öğrenmeyi görmezler.


2
@octem Araştırmacı, işbirliğinin bu bölümünü yapacak istatistikçilere güvenemedi. Araştırmacı neden araca ihtiyaç duyuyor? Bunu doktorla masaları tersine çevirmeyi seviyorum. Bu ameliyatın nasıl yapılacağı konusunda bana hızlı bir eğitim verirsem, nasıl devam edeceğimi ve senin için yapacağımı söylesem, ne hissederdi? Şok ve dsimay olduğunu düşünüyorum ve ehliyetsiz bir mewdicine alıştırmam yasak. Bu muhtemelen iyi bir şey. Fakat istatistikçi eşit saygıyı hak etmiyor. Neden ona aleti verebileceğimi ve eğitim eksikliği ile uğraşmadığını söylememi bekliyorsun.
Michael R. Chernick

2
Sosyal psikolojide, bir istatistikçiye sahip olmak normal değildir (çünkü bir istatistikçiye ödeme yapmak için yeterli kaynağa sahip olmak normal değildir). Şimdi halk sağlığı / sağlık psikolojisindeyim. Büyük hibeler genellikle bir istatistikçinin maaşını içerir, ancak çalışmalarımızın çoğu PI için maaş bile alamayacağımız cimri küçük pilot bağışlar üzerinde yapılır. Geldiğim bakış açısı ... çoğu projenin eğitimli bir istatistikçiyi kapsadığı bir alandaysanız, o zaman bu tür bir direnişin makul olmayacağına katılıyorum.
octern

1
@ octem Yanıtınız için teşekkürler. Sadece analoji ile takip etmek için. ABD'de kürtajın yasa dışı olduğu ve bazı kadınların diğer ülkelere gittiği ya da steril koşullar ve büyük sağlık riskleri olmadan yasadışı olarak arka odaya girdiği bir zaman vardı. Harika bir benzetme gibi görünmeyebilir, ancak bir istatistikçi alamadığı için aşağılık bir iş yapmayı haklı çıkarabilir mi? Tıbbın bir ölüm kalım meselesi olduğunu biliyorum ama kötü bilimin de kötü sonuçları var? Verilerin yanlış kullanılması kötü ilaçların kullanılmasına yol açabilir çünkü güvenli olmayan bir ilaç kullanılmaması gerektiğinde kullanılır.
Michael R. Chernick

@MichaelChernick Bak, sosyal bilimlerde istatistiksel analizin durumundan da memnun değilim. Ancak soru, araştırmacıların yeni bir istatistiksel yaklaşımı benimsemelerini sağlamaktı ve ben istersek ister istemesek, geniş bir araştırmacı alt popülasyonuna uygun bir cevap veriyorum.
octern

1
@octem Yeterince adil ve sanırım bunu anladım. Soruyu sormadan önce size bir nezaket verdim. Araştırmacıların, ucuz yolun yolun bu olduğunu düşünmeye yönelik tutumu, benim sorguladığım şeydir, sorunu tanıdığınızı değil. Var ve orada seninle aynı fikirdeyim. Fakat her nasılsa uzun vadede, işimizin önemsiz olmadığına daha fazla saygı ve saygı göstermemiz gerektiğini düşünüyorum.
Michael R. Chernick

6

Bu güzel soru için teşekkürler Peter. Bir tıbbi araştırma kurumunda çalışıyorum ve tıbbi dergilerde araştırma yapan ve yayınlayan doktorlarla ilgileniyorum. Genelde makalelerini yayınlamakla “istatistikleri tamamen doğru yapmaktan” daha fazla ilgilenirler. Dolayısıyla, unamier bir teknik önerdiğimde benzer bir yazıya işaret edecek ve "bak bu şekilde yaptılar ve sonuçları yayınlandı" diyecekler.

Yayınlanan makalenin gerçekten kötü olduğu ve hata yaptığı zaman bir sorun var. Büyük bir üne sahip olmama rağmen tartışmak zor. Bazı doktorların büyük egoları var ve hemen hemen her şeyi öğrenebileceklerini düşünüyorlar. Böylece ısrarcı olmadıklarında ve ısrarcı olmadıklarında istatistikleri anladıklarını düşünüyorlar. Sinir bozucu olabilir. Testte ve Wilcoxon daha uygun olduğunda, onları bir Wilk Shapiro testi yapmalarına zorluyorum ve eğer normallik reddedilirse her iki yöntemi de ekliyoruz ve Wilcoxon'un neden daha iyi olduğunu açıklıyoruz. Bazen onları ikna edebilirim ve genellikle istatistikler için bana güvenirler, bu yüzden bir genel danışmanın sahip olabileceği biraz daha fazla bilgiye sahibim.

Ayrıca onlar için Kaplan-Meier eğrilerini yaptığım bir durumla karşılaştım ve log sıra testini kullandık, ancak Wilcoxon farklı bir sonuç verdi. Karar vermek benim için zordu ve bu gibi durumlarda her iki yöntemi sunmanın ve neden farklı olduklarını açıklamanın en iyi yol olduğunu düşünüyorum. Aynısı hayatta kalma eğrisi için Peto vs Greenwood'un güven aralıklarını kullanmak için de geçerli. Cox oranı tehlikesi varsayımını açıklamak zor olabilir ve genellikle olasılık oranlarını ve göreceli riski yanlış yorumlarlar.

Basit bir cevap yok. Burada kardiyoloji konusunda en iyi tıbbi araştırmacılardan biri olan patronum vardı ve bazen dergiler için hakemlik yapıyordu. Teşhisi ele alan ve AUC'yi önlem olarak kullanan bir makaleye bakıyordu. Daha önce hiç AUC eğrisi görmemişti ve geçerli olup olmadığını düşünmem için bana geldi. Şüpheleri vardı. Uygun olduğu ortaya çıktı ve elimden geldiğince ona açıkladım.

Biyoistatistik üzerine hekimler için ders vermeye çalıştım ve halk sağlığı okullarında biyoistatistik dersleri aldım. 2002'de sağlık bilimleri uzmanları için kurucu yazar olarak bir epidemiyolog ile tanışma kursunu diğerlerinden daha iyi yapmaya ve bir kitap üretmeye çalışıyorum. Wiley şimdi ikinci baskı yapmamı istiyor. 2011'de, meşgul MD'lerin yeniden değerlendirmek ve referans vermek için zaman harcayabilecekleri sadece özleri örtmeye çalıştığım daha kısa bir kitap yayınladım. Ben böyle başa çıkıyorum. Belki hikayelerini bizimle paylaşabilirsin.


Bunlar iyi puanlar @Michael. Bazı hikayeler ekleyeceğim
Peter Flom - Reinstate Monica

1
@ PeterFlom Çok benzer deneyimlerimiz olabileceğini düşünüyorum. Diğer insanların cevaplarında başka çok iyi cevaplar aldığınızı düşünüyorum.
Michael R. Chernick

6

günlük(x); x(1,2)? 


Kariyerim boyunca birçok disiplinlerarası araştırma yapıyorum ve çeşitli zamanlarda madde bağımlılığı araştırmacıları, epidemiyologlar, biyologlar, kriminologlar ve hekimlerle yakın çalışmamı sağladı. Bu genellikle normal "konserve" yaklaşımların çeşitli nedenlerle başarısız olacağı verilerin analizini içermektedir (örneğin, önyargılı örnekleme ve kümelenmiş, boyuna ve / veya uzamsal olarak indekslenmiş verilerin bir kombinasyonu). Ayrıca birkaç yıl boyunca çok çeşitli alanlardan insanlarla çalıştığım lisansüstü okulda yarı zamanlı olarak danışmanlık yaptım. Bu konuda çok düşünmek zorunda kaldım.

Tecrübelerime göre, en önemli şey normal konserve yaklaşımlarının neden uygun olmadığını ve kişinin “iyi bilim” yapma arzusuna hitap ettiğini açıklamak. Saygın hiçbir araştırmacı, uygunsuz istatistiksel analiz nedeniyle sonuçlarında açıkça yanıltıcı bir şey yayınlamak istemez. "Analizin doğru olup olmaması umurumda değil, sadece yayınlanmasını istiyorum" satırında bir şey söyleyen hiç kimseyle karşılaşmamıştım . mümkünse mesleki ilişkiyi sonlandırın. İstatistikçi olarak, ne hakkında konuştuğunu gerçekten bilen biri makaleyi okursa, zarar görebilecek şöhretimdir.

Ben belirli bir analiz uygunsuz olduğunu birisini ikna etmek zor olabilir itiraf, ama istatistikçiler gibi biz gerektiğini düşünüyorum : (a) "konserve" yaklaşımı ile ters gidebilir tam olarak ne bilmek gerekli bilgiye sahip (b) sahip bunu açıklamak yeteneği makul derecede anlaşılır bir yoldur. Bir istatistik veya matematik profesörü olarak çalışmadığınız sürece, işinizin bir kısmı istatistikçi olmayanlarla çalışmak olacaktır (ve bazen bir stat / matematik profesörü olsanız bile).

İlgili (a) istatistikçi bu bilgiye sahip değilse, neden konserve yaklaşım cesaret kırıcı onlar olurdu? Eğer istatistikçi “rastgele etki modelleri kullan” diyorsa, ancak bağımsızlığın bir sorun olduğunu kabul etmenin neden bir sorun olduğunu açıklayamıyorsa, o zaman müşteriye olduğu gibi dogmaya girmekten suçlu değiller mi? Herhangi bir istatistikçi, istatistikçi olsun olmasın, istatistiksel bir modelleme yaklaşımının sinsi eleştirilerini yapabilir çünkü kabul edelim - tüm modeller yanlış. Ancak, neyin yanlış gidebileceğini tam olarak bilmek uzmanlık gerektirir.

(B) ile ilgili olarak , neyin yanlış gidebileceğini gösteren grafik tasvirlerin en çok "eve vurmak" olduğunu gördüm. Örnekler:

  • x

  • y=xx(0,1)y=1x>1pxy

  • Diğer bir ortak durum (Peter tarafından da belirtilmiştir) bağımsızlığın kabul edilmesinin neden kötü bir fikir olduğunu açıklamaktır. Örneğin, pozitif otokorelasyonun tipik olarak daha "kümelenmiş" veriler üreteceğini ve varyansın bu nedenle düşük standartta olacağına dair bir komplo göstererek saf standart hataların neden bu kadar küçük olduğuna dair bir sezgiyi gösterebilirsiniz. Veya, bağımsızlığı kabul eden eğriye sahip verileri de çizebilir ve kümelenmelerin uyumu nasıl etkilediğini (örnek boyutunu etkili şekilde düşürerek) bağımsız verilerde bulunmayan bir şekilde görsel olarak görebilirsiniz.

Milyonlarca başka örnek daha var ama burada uzay / zaman kısıtlamaları ile çalışıyorum :) Resimler ne sebeple olursa olsun yapmıyorsa (örneğin, neden bir yaklaşımın güçlendiğini göstererek), o zaman simülasyon örnekleri de kullandığım bir seçenek. zamandan zamana.


3

Bazı rastgele düşünceler, çünkü bu karmaşık bir konudur ...

Büyük bir sorunun, çeşitli mesleki disiplinlerde ve mezun programlarda matematik eğitimi eksikliği olduğunu hissediyorum.

Matematiksel bir istatistik anlayışı olmadan, duruma göre uygulanacak bir sürü formül haline gelir.

Ayrıca, konuyu tam olarak anlayabilmek için profesörler, orijinal yazarların yaklaşımlarını yayınladıkları sırada karşılaştıkları orijinal problemlerden bahsetmelidir. Biri, konuyla ilgili binlerce kitap okumaktan daha fazlasını öğrenebilir.

İstatistikler, problemleri çözmek için bir araç kutusudur, fakat aynı zamanda bir sanattır ve diğer sanatlarla aynı meselelerle karşı karşıyadır. bir enstrümanı "çalmak" müzisyen olmaz.

Bir araçla nasıl ses çıkarılacağını öğrenebilir. Ancak yapabilmek

Ancak, kendilerini tek bir ritim, melodi ve uyum kavramı üzerinde çalışmadan müzisyen olarak gören insanları bulmak nadir değildir.

Aynı satırda, makaleleri yayınlamak için çoğu insanın bir formülün arkasındaki kavramları bilmesi ve anlaması gerekmez ... günümüzde bilim adamları sadece hangi tuşa basmaları gerektiğini ve ne zaman basılması gerektiğini bilmelidirler.

Yani bunun MD'lerin "ego" ile ilgisi yok. Bu, kültürel bir problemdir, eğitim, gelenek ve bilimsel topluluğun değerleri ile ilgili bir problemdir.

Bazı akademik gereklilikleri / politikaları yerine getirmek için binlerce, binlerce, binlerce yararsız makale ve kitabın yayınlandığı bir dönemde neler beklenebilir? Bir kişinin yayınladığı bir dönem, kalitesinden daha mı önemlidir?

Ana akım bilim adamları artık iyi bilim konusunda endişeli değiller. Onlar sayı kölesidir. Çağımızın idari hatalarından etkilenirler (ya da bulaşırlar) ...

Bu yüzden, benim açımdan, istatistikte iyi bir ders çalışılan yaklaşımın matematiksel, tarihi ve felsefi temelini içermeli, her zaman bir kaç yolu vurgulayabilmelidir. Tek bir problemi çözmek için almak.

Son olarak, eğer istatistik / olasılık profesörü olsaydım, ilk dersim / dersler aşağıdaki gibikarıştırma kartları veya yazı tura atarak . Bu seyirciyi dinlemek için doğru pozisyona getirecek ... muhtemelen.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.