Verileri görselleştirdikten sonra istatistiksel bir test yapmak - veri tarama?


31

Bu soruyu bir örnekle önereceğim.

Sürekli ve kategorik değişkenlerim olan Boston'daki konut fiyat veri seti gibi bir veri setimin olduğunu varsayalım. Burada, 1-10 arasında bir "kalite" değişkeni ve satış fiyatı var. Verileri "düşük", "orta" ve "yüksek" kaliteli evlere (keyfi) kalite için kesikler oluşturarak ayırabilirim. Ardından, bu grupları kullanarak satış fiyatlarının histogramlarını birbirine çizebilirim. Gibi:

konut kalitesi ve satış fiyatı

Burada "düşük" 3 , "yüksek" ise "kalite" puanında >7 . Şimdi üç grubun her biri için satış fiyatlarının bir dağıtımını yapıyoruz. Orta ve yüksek kaliteli evler için konum merkezinde bir fark olduğu açıktır. Şimdi, bunların hepsini yaptıktan sonra, "Hm. Merkezin merkezinde bir fark var gibi görünüyor! Neden araçlar üzerinde t-testi yapmıyorum?" Sonra, araçların hiçbir farkı olmadığı boş hipotezini doğru bir şekilde reddetmiş görünen bir p-değeri alıyorum.

Şimdi, veriyi çizinceye kadar bu hipotezi test etmek için aklımda hiçbir şey olmadığını varsayalım .

Bu veri araştırılıyor mu?

Düşündüğümde hala veri tarama var mı: "Hm, daha yüksek kalitede evler daha pahalı, çünkü daha önce bir evde yaşayan bir insanım. Verileri belirleyeceğim. Ah ha! Farklı görünüyor! Zaman t-testi yapmak için! "

Doğal olarak, bu hipotezi başlangıçtan itibaren test etmek amacıyla toplanan verilerin toplanması, veri tarama değildir. Ancak çoğu zaman bize verilen veri setleriyle çalışmak zorundadır ve “kalıpları aramaları” söylenir. Birisi, bu belirsiz görev göz önünde bulundurularak verilerin taranmasından nasıl kaçınır? Verileri test etmek için bekletme setleri oluştur? Görselleştirme, veriler tarafından önerilen bir hipotezi test etme fırsatı için gözetleme olarak sayılıyor mu?

Yanıtlar:


27

@ İngolifs'in cevabına karşı bir puan vermek / onunla kısaca anlaşmamak: evet, verilerinizi görselleştirmek önemlidir. Ancak analize karar vermeden önce görselleştirmek sizi Gelman ve Loken'in çatal yolların bahçesine yönlendirir . Bu, kısmen tarama amacı ile (GoFP tipik olarak iyi anlamlıdır) ve kısmen birden fazla analiz yapamayacağınız için veri tarama veya p kesmekle aynı değildir. Ama bir gözetleme biçimidir: En analiz verileri bağımlı, yanlış veya aşırı güven sonuçlara yol açabilir çünkü.

Bir şekilde, hedeflediğiniz analizin ne olduğunu belirlemelisiniz (örneğin, "kaliteli evlerin fiyatı daha yüksek olmalı") ve verilerinize bakmadan önce ( tahmin edicilerin değişkenlerine bakmak sorun değil) yazmalı (hatta resmi olarak önceden kayıt ettir) . avans, sadece cevap değişkenleri değil, fakat daha önce hiç bir fikriniz yoksa, hangi değişkenlerin prediktör olacağını ve hangilerinin yanıt olabileceğini bile bilmiyorsunuz); Verileriniz farklı veya ek analizler önerirse, yazdıklarınız hem başlangıçta ne yapmak istediğinizi hem de neyi (ve niçin) yaptığını belirtebilir.

Eğer gerçekten saf bir araştırma yapıyorsanız (yani, bir priori hipoteziniz yoksa, sadece verilerde ne olduğunu görmek istersiniz):

  • onay için bir örnek tutma hakkındaki düşünceleriniz iyidir.
    • Benim dünyamda (büyük veri kümeleriyle çalışmıyorum), örneklem sayısının düşük olması nedeniyle çözünürlük kaybı acı verici olurdu.
    • Verileriniz herhangi bir şekilde (coğrafi olarak, zaman serileri vb.) yapılandırılmışsa, bekleme örneğinizi seçerken biraz dikkatli olmanız gerekir. Veriler sanki alt örnekleme aşırı güvenceye yol açar (bkz . Ekoloji ve Evrim 2012'de Wenger ve Olden Yöntemleri bölümüne bakınız ), bu nedenle elinizdeki coğrafi birimleri seçmek isteyebilirsiniz (örneğin, bkz . Ekoloji ve Evrim 2015'te DJ Harris Yöntemleri )
  • tamamen keşifçi olduğunuzu kabul edebilirsiniz. İdeal olarak, p-değerlerini tamamen bu durumda kullanmaktan kaçınacaksınız, ancak en azından izleyicilerinize GoFP'de dolaştığınızı söylemek, p-değerlerini muazzam tuz taneleri ile alabileceklerini bilmelerini sağlıyor.

"Güvenli istatistiksel uygulamalar" için en sevdiğim referans, Harrell Regresyon Modelleme Stratejileridir (Springer); Çıkarımı, tahminin vs. araştırılması için en iyi uygulamaları kesin ve pratik bir şekilde düzenler.


4
Çok iyi koymak! Gelecekte insanları bu cevaba yönlendirmeyi bekliyorum.
Büyük38

Tam olarak aradığım tepki türü, teşekkür ederim. Bu cevabı cevap olarak kabul ettim. Güvenli istatistiksel uygulamaları öğreten herhangi bir kaynak biliyor musunuz? Belki de yayınladığınız (mükemmel) makalelerden daha geniş kapsamdadır
Marcel

Harika cevap (+1), ancak bunun veri taramadan farklı olduğunu kabul etmiyorum; niyet önemsiz - etki aynıdır.
Monica'yı

Aslında farklı snooping türleri arasındaki ayrımı sürdürmenin değerinde olduğunu düşünüyorum. Bu (1) birden fazla içerdiği için Tarama belki daha da ciddidir açık testleri yerine çok sayıda örtülü elde edilir koşullu / p <0.05 (ya da) kadar test devam testleri ve (2). Nitel etki kesinlikle aynıdır.
Ben Bolker

11

Verileri görselleştirmek, analizin vazgeçilmez bir parçasıdır ve yabancı bir veri setiyle yapmanız gereken ilk şeylerden biridir. Verilerin hızlı bir göz küresi sonraki adımlar atmak için bilgi verebilir. Aslında, grafiğe araçların farklı olduğunu göz önüne alarak açık bir şekilde açık olmalı ve bunu onaylamak için neden bir T-testinin gerekli olduğundan emin değilim - araçlar grafiğin kendisinin tüm kanıtları olacağı konusunda yeterince ayrılmış durumda. gerektirir.

Hızlı bir taramadan söyleyebildiğim kadarıyla veri tarama, belirli bir uyum düzeyini zorlamak için verilerle kasıtlı olarak çarpma işlemidir. Örnekler: Verileri bazı rasgele sayılarla karşılaştırmak, ancak bir dizi olumlu olanı elde edinceye kadar veya çok sayıda farklı regresyon türünü denemeden ve en iyi olanı seçmeden rastgele sayıları yeniden oluşturmakR,2

Sanırım burada daha derin bir soru var. Zen benzeri bir tarafsızlığı nasıl koruyorsunuz ve verilerle bilimsel bir şekilde çalışırken önyargılardan nasıl kaçınıyorsunuz? Cevap, sen değilsin. Aksine, zorunda değilsiniz. Önsezileri ve hipotezleri oluşturmak ve verinin ne anlama geldiğine dair zihinsel bir anlatı oluşturmak, tümüyle doğal ve kabul edilebilir, bunu yaptığınızın farkında olmanız ve çelişkili verilerle karşı karşıya kaldığınızda tüm bu hipotezleri yeniden gözden geçirmeye zihinsel olarak hazır olmanız şartıyla.


7
Testleri çalıştırmadan önce verilerin görselleştirilmesi bu özel durumda zararsız olabilir. Bununla birlikte, biri daha sonra bir başka boyutu ... ve diğerini ... görselleştirecek ve dağınık noktalara bakacak ... ve en kısa zamanda, biri yeterince açık görünen bir şey bulacak, böylece resmi bir test ve bir anlatı doğal olarak ortaya çıkacak. Oh evet, veri tarama kesinlikle kazayla kolayca yapabileceğiniz bir şeydir. Gelman’ın "Çatallar yolunun bahçesi" bölümüne bakın .
S. Kolassa - Monica'yı yeniden kurun
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.