Bu arsada


38

Aşağıdaki çizimde Y ve X arasındaki ilişki nedir ? Benim görüşüme göre olumsuz doğrusal bir ilişki var, ama çok fazla aykırı olduğumuz için ilişki çok zayıf. Haklı mıyım Saçılma noktalarını nasıl açıklayabileceğimizi öğrenmek istiyorum.

görüntü tanımını buraya girin


3
Nedir ? Nedir ? Hangi süreci aykırı ürettin? Gerçek ölçüm olmadığını düşündüren nedir? Teorisi nedir? XY
abaumann

4
Yorumun için teşekkürler. Ben sadece bu arsa bir kitapta görüyorum. Y bağımlı değişkendir ve X bağımsız değişkendir. Teori yok. x verilen Y ilişkisini göstermek için bir dağılım grafiği çizdi. Ve kitapta herhangi bir ilişki olup olmadığını soran bir soru var, Doğrusal mı yoksa doğrusal mı? Güçlü mü zayıf mı?
PSS

7
Bu tasseografide bir egzersizdir . Bu, günlük işlemciler arasında çok popüler ve teknik analiz diyorlar . Temel olarak, verinin doğası hakkında bir şey bilmeden sonuç verimsiz bir iştir
Aksakal

1
@chl, whuber 'a ödül aldığın için salla =)
Cam.Davidson.Pilon

3
@Aksakal İstatistik dili genellikle kelimenin tam anlamıyla "ilişkiyi" anlar: sayıların kümelerini tanımlar. Örneğin, bir korelasyon katsayısı bir ilişkiyi açıklar. Altta yatan değişkenler arasında doğası, doğası veya nedensel ilişkileri hakkında bir ima yoktur. "Açıklamak" ın genellikle daha derin bir anlamda anlaşıldığı konusunda hemfikirim, ancak sorular soruda çok fazla vurgulandığı için, "açıklamanın" anlamını çok fazla zorlamamanın adil olacağını düşünüyorum. Saçılma alanlarını tanımlamanın sadece çay-yaprak okuması olduğunu öne sürmek, IMHO.
whuber

Yanıtlar:


50

Soru birkaç kavramla ilgilidir: sadece bir dağılım grafiği biçiminde verilen verilerin nasıl değerlendirileceği, bir dağılım grafiğinin nasıl özetleneceği ve bir ilişkinin lineer görünüp görünmediği (ve ne ölçüde). Onları sırayla alalım.

Grafik verilerin değerlendirilmesi

Açıklayıcı veri analizi (EDA) prensiplerini kullanın. Bunlar (en azından başlangıçta kalem ve kağıt kullanımı için geliştirildiklerinde) basit, hesaplanması kolay, sağlam veri özetlerini vurgular. En basit özet türlerinden biri , "tipik" bir değeri tanımlayan orta değer gibi bir sayı kümesi içindeki konumlara dayanır . Ortaları grafiklerden güvenilir şekilde tahmin etmek kolaydır.

Saçılım grafikleri sayılar çiftleri sergiler. Her çiftin ilki (yatay eksende çizildiği gibi), ayrı ayrı özetleyebileceğimiz bir dizi tek sayı verir.

Bu belirli saçılma grafiğinde, y-değerleri neredeyse tamamen ayrı iki grup içinde yer almaktadır : üstte üstünde ve altta eşit veya daha düşük değerler . (Bu izlenim, keskin bir şekilde iki modlu olan, ancak bu aşamada çok fazla çalışacak olan y değerlerinin bir histogramını çizerek doğrulanır.) Ben saçılma noktasında şüphe etmeye şüpheci davet ediyorum. Bunu yaptığımda - saçılma grafiğindeki noktaların büyük yarıçaplı, gama düzeltmeli Gauss bulanıklığı (standart bir hızlı görüntü işleme sonucu) kullanarak şunu görüyorum:6060

Şekil 0

İki grup - üst ve alt - oldukça belirgindir. (Üst grup, alt gruptan çok daha hafiftir, çünkü daha az nokta içerir.)

Buna göre, y-değer gruplarını ayrı ayrı özetleyelim. Bunu iki grubun medyanlarına yatay çizgiler çizerek yapacağım. Verilerin izlenimini vurgulamak ve herhangi bir hesaplama yapmadığımızı göstermek için (a) eksenler ve kılavuz çizgileri gibi tüm süslemeleri kaldırdım ve (b) noktaları bulanıklaştırdım. Verilerdeki kalıplar hakkında çok az bilgi grafikte "çarpıtarak" kaybolur:

şekil

Benzer şekilde, x değerlerinin medyanlarını dikey çizgi parçalarıyla işaretlemeye çalıştım. Üst grupta (kırmızı çizgiler) - blokları sayarak - bu çizgilerin grubu hem yatay hem de dikey olarak iki eşit yarıya ayırdığını kontrol edebilirsiniz. Alt grupta (mavi çizgiler) sadece sayıları yapmadan pozisyonları görsel olarak hesapladım.

İlişkilerin Değerlendirilmesi: Regresyon

Kavşak noktaları, iki grubun merkezleridir. X ve y değerleri arasındaki ilişkinin mükemmel bir özeti, bu merkezi pozisyonları bildirmek olacaktır. Daha sonra bir kişi bu özeti, her bir grupta verinin ne kadarının merkezlerinin etrafına - sola ve sağa, yukarı ve aşağı - yayıldığının bir açıklamasıyla desteklemek isteyecektir. Kısacası, bunu burada yapmayacağım, ama çizdiğim çizgi parçalarının uzunluklarının (kabaca) her grubun genel yayılımlarını yansıttığına dikkat edin.

Sonunda, iki merkezi birbirine bağlayan bir kesik çizgi çizdim. Bu makul bir regresyon çizgisidir. Verilerin iyi bir açıklaması mı? Kesinlikle hayır: Verilerin bu satır etrafında nasıl yayıldığına bakın. Doğrusallığın bile kanıtı var mı? Bu çok ilgili çünkü doğrusal açıklama çok zayıf. Yine de, çünkü bu önümüzde bir soru, hadi ele alalım.

Doğrusallığın Değerlendirilmesi

Bir ilişki doğrusal zaman istatistiksel anlamda iki y değerleri, bir çizgi etrafında dengeli bir rasgele bir şekilde değişir ve x değeri bir çizgi (veya her ikisi) etrafında dengeli bir rasgele bir şekilde farklılık görülmektedir.

İlki burada böyle görünmüyor: y değerleri iki gruba düştüğü için, varyasyonları çizginin üstünde veya altında kabaca simetrik olarak dağılmış olması anlamında hiçbir zaman dengeli görünmeyecek . (Bu, verileri doğrusal bir regresyon paketine koyma ve x'e karşı y'ye uygun en küçük kareler yapma olasılığını hemen dışlar: cevaplar uygun olmaz.)

Peki ya x'deki değişim? Bu daha makul: Arsa üzerindeki her bir yükseklikte , noktalı çizginin etrafındaki noktaların yatay dağılımı oldukça dengelidir. Yayılmış bu dağılım içinde düşük yüksekliklerde biraz daha büyük (düşük y değerleri) gibi görünüyor, ama belki çok daha fazla nokta vardır en çünkü orada. (Ne kadar çok rastgele veriye sahipseniz, uç değerler de o kadar geniş olur.)

Dahası, yukarıdan aşağıya doğru tararken, regresyon çizgisi etrafındaki yatay saçılmanın kesinlikle dengesiz olduğu yerler yoktur: bu, doğrusal olmama kanıtı olur. (Peki, belki y = 50 civarında ya da öylesine çok büyük x değeri olabilir. Bu ince etki, verileri y = 60 değeri etrafında iki gruba ayırmak için daha fazla kanıt olarak görülebilir.)

Sonuçlar

Bunu gördük

  • X'i y'nin lineer bir işlevi ve bazı "güzel" rastgele varyasyonlar olarak görmek mantıklıdır.

  • Bu etmez olup x ve rastgele bir varyasyon doğrusal fonksiyonu olarak görünümü y mantıklı.

  • Bir regresyon çizgisi, verileri yüksek y değerlerine sahip bir gruba ve düşük y değerlerine sahip bir gruba ayırarak, her iki grubun merkezlerini medyanlar kullanarak bularak ve bu merkezleri birleştirerek tahmin edilebilir.

  • Sonuç olarak ortaya çıkan çizginin, aşağı doğru bir eğimi var, negatif doğrusal bir ilişki olduğunu gösteriyor.

  • Doğrusallıktan güçlü ayrılma yoktur.

  • Bununla birlikte, x-değerlerinin çizginin etrafındaki yayılımı hala büyük olduğundan (başlangıçtaki x-değerlerinin genel yayılımıyla karşılaştırıldığında), bu negatif doğrusal ilişkiyi "çok zayıf" olarak nitelendirmek zorunda kalacağız.

  • Verileri iki oval şekilli bulut oluşturmak olarak tanımlamak daha yararlı olabilir (biri 60'ın üzerinde y için ve diğeri düşük değerlerin için). Her bulutun içinde x ve y arasında çok az fark edilebilir ilişki vardır. Bulutların merkezleri yakındır (0,29, 90) ve (0,38, 30). Bulutların karşılaştırılabilir formaları vardır, ancak üst bulutun alt bulutundan daha az veri vardır (belki% 20 kadar).

Bu sonuçlardan ikisi, soruda yapılanları zayıf bir negatif ilişki olduğunu doğrulamaktadır. Diğerleri bu sonuçları desteklemekte ve desteklemektedir.

Soruya dayanmayan bir sonuç, “aykırı” olduğu iddiasıdır. Daha dikkatli bir inceleme (aşağıda belirtildiği gibi), geçerli olarak dışlandığı düşünülebilecek herhangi bir bireysel puanı veya hatta küçük puan gruplarını açamaz. Yeterince uzun bir analizden sonra, dikkatleri orta sağdaki iki noktaya ya da sol alt köşedeki bir noktaya dikkat çekebilir, ancak bunlar bile birinin verilerini değerlendirmesini çok dikkate almasa da değiştirmeyeceklerdir. uzaktaki.


Diğer Yönler

Çok daha fazlası söylenebilirdi. Sonraki adımlar, bu bulutların yayılımlarını değerlendirmek olacaktır. Her iki buluttaki x ve y arasındaki ilişkiler burada gösterilen tekniklerin aynısı kullanılarak ayrı ayrı değerlendirilebilir. Alt bulutun hafif asimetrisi (en küçük y değerinde daha fazla veri görünmektedir) değerlendirilebilir ve y değerleri yeniden ifade edilerek bile ayarlanabilir (bir karekök işe yarayabilir). Bu aşamada, dışarıdaki verileri aramak mantıklı olacaktır; çünkü bu noktada açıklama, tipik veri değerleri ve bunların spreadleri hakkındaki bilgileri içerecektir; aykırı değerler (tanım gereği) gözlenen yayılma miktarı açısından açıklanacak olan orta noktadan çok uzak olacaktır.

Oldukça nicel olan bu çalışmaların hiçbiri, veri gruplarının ortalarını bulmaktan ve onlarla bazı basit hesaplamalar yapmaktan çok daha fazlasını gerektirmez ve bu nedenle, veriler yalnızca grafik biçiminde mevcut olsa bile hızlı ve doğru bir şekilde yapılabilir. Burada bildirilen her sonuç - niceliksel değerler dahil - birkaç saniye içinde, bir grafiğin üzerine ışık işaretleri koymaya izin veren bir görüntüleme sistemi (basılı kopya ve kalem :-) gibi) kullanılarak kolayca bulunabilir.


4
Vay. Bu iki grubu ve ortaya çıkan çizgiyi hiç görmedim. Ve ben onu sorgularım.
rvl

4
@Russ, birisinin bu keşfi sorguladığını duyduğuma sevindim, çünkü hiçbir EDA benzersiz veya elverişli değildir. Gördüğümü görmenize yardımcı olacak başka bir resim ekledim. Sizleri eşit derecede veya daha asil ve kullanışlı bir tanımlayıcı olan bir cevap göndermeye davet ediyorum.
whuber

12
İnsanlar olarak, orada olmayanlar bile, kalıplar bulmaya olağanüstü meyilliyiz. Sanırım bunlardan biri gibi çarpık bir arsa elde etmenin oldukça mantıklı olduğunu düşünüyorum, bunlardan biri çarpık iki bağımsız RV ile. Bununla ilgili kanıtım yok ve teklif edebileceğim alternatif bir analizim yok - çok az veya hiç ilişki olmadığını söyleyenlerin dışında. Evet, çift modellik mevcut olabilir. Süreç daha fazla gözlemlenebilirse ne olduğunu görebiliriz. Ben sadece makul bir şekilde sahte kalıplara tepki verme eğilimimizin dikkatli ve bilinçli olmamız gerektiğini düşünüyorum.
rvl

4
@Russ Haklısın. Desenleri fazla okumaktan kaçınmak için tecrübe gerekir. Tecrübelerime göre, 150-200 puanla, y koordinatlarında ölçtüğüm güçlü çift-yüzlülüğü elde etmek rastgele zor. Bu tür deneyimler bugünlerde simülasyon yoluyla kolayca ve hızlı bir şekilde desteklenebilir: bir model gördüğünüzü düşündüğünüzde, (1) onu nicel olarak karakterize eder ve (2) daha basit bir alternatif hipoteze göre üretilen rastgele örneklerde onu arar. Desen çok fazla ortaya çıkarsa, görsel korteksinizi suçlayabilirsiniz, aksi halde bir şey bulmuş olabilirsiniz.
whuber

1
@Russ Teşekkürler. Bu tarif ettiğim kalıntı grafiği değildi - x ve y'nin rolleri tersine döndü. Ancak yine de bilgi vericidir. Heterosidalite en çarpıcı şey: aslında iki kümelenme hipotezine destek veriyormuş gibi görünüyor (bu da heteroscedastikliği ortadan kaldıracak). Unutma, ben bu hipotez hakkında çok azgınım. Buraya yazdığım her şey, verilerin dikkatli, sağlam bir şekilde tanımlanmasının özgün ruhundadır. Bu verilerin açıklaması olarak herhangi bir tek eğri, kaba ve belki de tatmin edici olmayacaktır.
whuber

31

Hadi biraz eğlenelim!

Her şeyden önce, ben alıntı verileri sizin grafikte kapatır.

Daha sonra, gri çizgili kesikli% 95 CI bantlarıyla aşağıdaki siyah regresyon çizgisini üretmek için daha yumuşak bir koşu bandı kullandım. Aşağıdaki grafik, verilerin yarısının pürüzsüzlüğünde bir açıklığı göstermektedir, ancak daha sıkı açıklıklar aynı veya daha fazla kesin olarak aynı ilişkiyi ortaya koymaktadır. civarında eğimdeki hafif değişim, doğrusal olmayan en küçük kareler regresyonu (kırmızı çizgi) olarak , eğiminin doğrusal menteşe fonksiyonu eklenerek doğrusal bir model kullanılarak yaklaştırılabilecek bir ilişki olduğunu göstermiştir :X=0.4X

Y=β0+βXX+βcmax(Xθ,0)+ε

Katsayı tahmini:

Y=50.937.7X26.74436max(X0.46,0)

Redoubtable whuber güçlü bir doğrusal ilişki olmadığını iddia ederken, menteşe terimi tarafından ima edilen çizgisinden sapmanın eğimi ile aynı sırada olduğunu, yani 37.7 saygısız bir şekilde doğrusal olmayan bir ilişki görmediğimizi kabul etmiyoruz (yani Evet, güçlü bir ilişki yok, ancak doğrusal olmayan terim, doğrusal olan kadar güçlüdür).Y=50.937.7XX

Verilerle oynama süresi

Yorum
(Sadece bağımlı değişken olarak ilgi duyduğunuzu varsaydım .) değerleri tarafından çok zayıf bir şekilde tahmin edilir (Düzeltilmiş- = 0,03). İlişkilenme yaklaşık olarak 0,46'da eğimde hafif bir düşüşle yaklaşık olarak lineerdir. Artıklar biraz sağa doğru eğimlidir, çünkü değeri üzerinde keskin bir alt sınır vardır . örneklem büyüklüğü göz önüne alındığında, normallik ihlallerine tolerans göstermeye meyilliyim . değerleri için daha fazla gözlem , eğimdeki değişimin gerçek olup olmadığını veya azalmış varyansının bir eseri olup olmadığını saptamaya yardımcı olacaktır.YYXR2YN=170X>0.5Y bu aralıkta.

İle güncelleme grafik:ln(Y)

(Kırmızı çizgi, X'deki basitçe ln (Y) 'nin regresyonudur.)

Russ Lenth'in önerisine göre grafik ile güncellendi.

Yorumlarda Russ Lenth şöyle yazdı: " ve yumuşatırsanız bunun devam edip etmediğini merak ediyorum . dağılımı doğru." karşı dönüşümü de, simetrik olarak dağılmış artıkları olan ve arasındaki çizgiye biraz daha iyi uyduğundan, bu oldukça iyi bir öneridir . Bununla birlikte, hem önerdiği hem de doğrusal çizgim, (dönüştürülmemiş) ve arasındaki düz bir çizgiyle tanımlanmayan bir ilişki tercihini paylaşır .logYXYlogYXYXlog(Y)XYX


1
Merak ediyorum acaba eğer ile düzgün bir yaparsanız merak ediyorum . dağılımı doğru şekilde eğiktir ve bence dağılımı daha simetrik kılan bir dönüşüm de ikonik sıfır dağılım grafiğine pek benzemez. logYXY
rvl

1
@Russ Bimodal dağılımların çarpık görünmesi ve kütük dönüşümleri önermesi klasiktir. Ancak buradaki y dağılımı gerçekten iki modludur ve bir kütük muhtemelen tekrar ifade etmenin yararlı bir yolu değildir. İki bileşen ayrıldığında, alt olan hala pozitif bir şekilde bükülür ve bir karekök, simetrik bir dağılım elde etmek için onu dönüştürmek için doğru miktarda bulunur. Karekök, üst grubun simetrisini önemli ölçüde etkilemez, bu da kökün iyi bir seçim olabileceğini gösterir. Ancak, bu ikiyüzlülüğü düzeltmez - ve buradaki herhangi bir pürüzsüzlükle ilgili problem burada yatmaktadır.
whuber

1
Alexis, cevaplarımızda ikimiz de "güçlü" ifadesini tanımsız şekillerde kullanmaktan suçluyuz. "Zayıf" demek istediğim anlam, bazı ifadelerimde ima edildi; bu, eğimin y değerindeki dağılımla karşılaştırıldığında küçük olduğunu göstermesi anlamına geliyordu. Analizinizin bu konuda farklı bir sonuca ulaştığını sanmıyorum. Dikkatli olmak gerektiğini hissettim, çünkü varsayımsal olarak y'nin karışım modeline hak edebileceğini kabul etmekle, üst grupta , x ve y arasında zayıf bir pozitif ilişki olduğu ve alt grupta ilişki olmadığı anlaşılıyor .
whuber

3
Alexis, Tukey'nin EDA kitabı onlarla dolu. Daha fazla teknik için (daha sofistike, matematiksel gerekçelerle) bkz. Hoaglin, Mosteller ve Tukey, Sağlam ve Açıklayıcı Veri Analizini Anlama .
whuber

2
@rivu manual. En fazla 10 ya da 15 dakika sürdü. Her noktayı ilk önce işaretçiyle yerleştirdikten sonra ok tuşlarını kullanarak tam olarak konumlandırın.
Alexis

21

İşte benim 2 ¢ 1.5 ¢. Bana göre en belirgin özellik, verilerin Y aralığının altında aniden durup 'toplanması' olması. İki (potansiyel) 'kümeyi' ve genel negatif ilişkiyi görüyorum, ancak en göze çarpan özellikler, (potansiyel) zemin etkisi ve üst, düşük yoğunluklu kümenin yalnızca X aralığının bir kısmı boyunca uzanması gerçeği.

'Kümeler' belli belirsiz iki değişkenli normal olduğundan, parametrik bir normal karışım modelini denemek ilginç olabilir. @Alexis'in verilerini kullanarak, üç kümenin BIC'yi optimize ettiğini buldum . Yüksek yoğunluklu 'zemin etkisi' üçüncü bir küme olarak seçildi. Kod aşağıdaki gibidir:

library(mclust)
dframe = read.table(url("http://doyenne.com/personal/files/data.csv"), header=T, sep=",")

mc = Mclust(dframe)
summary(mc)
# ----------------------------------------------------
#   Gaussian finite mixture model fitted by EM algorithm 
# ----------------------------------------------------
#   
#   Mclust VVI (diagonal, varying volume and shape) model with 3 components:
#   
#   log.likelihood   n df       BIC       ICL
#        -614.4713 170 14 -1300.844 -1338.715
# 
# Clustering table:
#  1  2  3 
# 72 72 26 

görüntü tanımını buraya girin

Şimdi, bundan ne çıkartacağız? Bunun Mclustsadece insan örüntü tanıma sisteminin ters gittiğini sanmıyorum . (Oysa saçılım grafiğini okumam iyi olabilir.) Öte yandan, bunun post-hoc olduğuna dair hiçbir soru yoktur . İlginç bir model olabileceğini düşündüğüm şeyi gördüm ve kontrol etmeye karar verdim. Algoritma bir şey buluyor, ancak daha sonra sadece orada olabileceğini düşündüğüm şeyi kontrol ettim, böylece baş parmağım kesinlikle ölçekte. Bazen olası vasiyet (whuber mükemmel cevap @ bkz buna karşı azaltmak için bir stratejidir burada ), ama nasıl böyle durumlarda böyle bir süreç hakkında gitmek için hiçbir fikrim yok. Sonuç olarak, bu sonuçları çok fazla tuzla alıyorum (Bu tür bir şeyi yeterince sık yaptım, birinin bütün bir çalkalayıcıyı özlemiş olması.). Bir dahaki görüşmemizde müvekkilim hakkında düşünmek ve tartışmak için bana bazı materyaller veriyor. Bu veriler nedir? Zemin etkisi olabileceğinin bir anlamı var mı? Farklı gruplar olabileceği mantıklı mıydı? Bunlar gerçek olsaydı ne kadar anlamlı / şaşırtıcı / ilginç / önemli olurdu? Bağımsız veriler mevcut mu / bu olanakları dürüst bir şekilde test etmeleri için uygun şekilde kullanabilir miyiz? Vb.


1
+1 Bir keşif analizinin doğal olarak ilginç sorulara neden olduğunu belirtmek için . Cevabımda bu noktayı daha fazla vurgulamak isterdim. Her ne kadar (bu noktada) gerçekte üç ayrı grubun olduğuna inanmak için şeyleri zorlayacağımı düşünmeme rağmen, küme sonuçları hala x ile y arasında negatif bir ilişki olduğunu ve bu ilişkiyi özetlediğini görmek için geçerli bir yol sunuyor . Otomatik kümelemenin ne kadarının genellikle yararlı bir keşif aracı olabileceğini merak ettim - sonuçları çok fazla okumaya teşvik etmememiz koşuluyla.
whuber

14

Baktıktan sonra ne gördüğümü açıklayayım:

Koşullu dağılımı konum ilgi Biz ise (görüleceği eğer genellikle ilgi odaklanır IV gibi DV), daha sonra da koşullu dağılımı bir üst grup bimodal belirir ( yaklaşık 70 ila 125 arasında, ortalama 100'ün biraz altında) ve daha düşük bir grup (0 ila yaklaşık 70 arasında, ortalama 30 civarında). Her modal grupta, ile ilişki neredeyse düzdür. (Aşağıdaki kırmızı ve mavi çizgilerin kabaca çizildiğini görün.yxyx0.5Y|xx

Sonra, bu iki grubun neresinde ya da daha az yoğunlaştığını bakarak, daha fazlasını söylemeye devam edebiliriz:X

İçin Üst grup genel ortalama yapar, tamamen yok düşer, ve 0.2 ile ilgili aşağıdaki alt grubu genel ortalamaları daha yüksek hale çok daha az yoğun üstünde daha uzundur.x>0.5x

Bu iki etki arasında, karşı azalırken , merkezde geniş, çoğunlukla düz bir bölge ile göründüğü için , ikisi arasında görünür bir negatif (ama doğrusal olmayan) bir ilişki meydana getirir. (Mor kesikli çizgiye bakın)E(Y|X=x)x

görüntü tanımını buraya girin

Hiç şüphe yok ki ve ne olduğunu bilmek önemli olacak , çünkü o zaman için koşullu dağılımın , menzilinin çoğunda iki ayda bir olabileceği daha açık olabilir (aslında, aslında iki grubun olduğu açıkça anlaşılabilir). dağılımlar, ) ' de görünür azalan ilişkiyi indükler .YXYXY|x

Bunu tamamen "gözle" incelemeye dayanarak gördüm. Basit bir görüntü işleme programı gibi bir şeyle uğraşırken (satırları çizdiğim gibi) biraz daha kesin sayılar bulmaya başlayabiliriz. Verileri sayısallaştırırsak (bu doğru bir araçla oldukça basittir, bazen doğru olması biraz sıkıcıysa), o zaman bu tür izlenimlerin daha karmaşık analizlerini yapabiliriz.

Bu tür bir keşif analizi bazı önemli sorulara yol açabilir (bazen veriye sahip olan kişiyi şaşırtan ancak sadece bir komplo gösterebilen kişiyi şaşırtan sorular), ancak modellerimizin bu denetimler tarafından seçilme boyutuna biraz dikkat etmeliyiz - eğer Bir arsa görünümü temelinde seçilen modelleri uyguluyoruz ve daha sonra bu modelleri aynı veriler üzerinde tahmin ediyoruz, daha resmi model seçimi ve aynı veriler üzerinde tahmin kullandığımız zaman karşılaştığımız sorunların birçoğu ile karşılaşma eğiliminde olacağız. [Bu, keşif analizinin önemini hiç reddetmek değildir - sadece nasıl yaptığımıza bakmadan bunu yapmanın sonuçlarına dikkat etmeliyiz . ]


Russ'un yorumlarına cevap:

[daha sonra düzenleyin: Açıklığa kavuşturmak için - Russ'ın genel bir önlem olarak aldığı eleştirilerine genel olarak katılıyorum ve gerçekten orada olduğundan daha fazla gördüğüm bazı olasılıklar var. Geri dönmeyi ve bunları genel olarak gözle tanımladığımız ve en kötüsünden kaçınmaya başlayabileceğimiz yollarla tanımladığımız sahte kalıplarla ilgili daha kapsamlı bir yorumda düzenlemeyi planlıyorum. Sanırım neden bu özel olayla ilgili olarak sadece sahte olmadığını düşündüğüm hakkında bir gerekçe de ekleyebileceğime inanıyorum (örneğin, bir regressogram veya 0 dereceli çekirdekten pürüzsüz, elbette, karşı test etmek için daha fazla veri yoksa) şimdiye kadar gidebilir; örneğin, örneğimizin temsili olmadığı durumlarda, yeniden örnekleme bile bizi sadece şu ana kadar elde eder.]

Sahte kalıpları görme eğiliminde olduğumuza tamamen katılıyorum; burada ve başka yerlerde sık sık yaptığım bir nokta.

Örneğin, kalan arsalara veya QQ parsellerine bakarken, durumun bilindiği bir yerde (ne olması gerektiği gibi ve varsayımların olmadığı yerlerde) ne kadar kalıp olması gerektiği hakkında net bir fikir edinmek için önermek görmezden geldi.

İşte bir QQ arsasının, arsanın ne kadar sıradışı olduğunu görmemiz için 24 varsayımın (varsayımları karşılayan) arasına yerleştirildiği bir örnek . Bu tür bir egzersiz önemlidir, çünkü çoğu basit gürültü olacak her küçük kıkırdağı yorumlayarak kendimizi kandırmaktan kaçınmamıza yardımcı olur.

Sık sık, bir noktayı birkaç noktayı kapsayacak şekilde değiştirebilirseniz, gürültüden başka bir şey tarafından oluşturulan bir gösterime güvenebileceğimizi belirtiyorum.

[Ancak, birkaç noktadan ziyade birçok noktadan anlaşıldığında, orada olmadığını korumak daha zor.]

Whuber yanıtında görüntüler Gauss bulanıklığı arsa içinde bimodalite aynı eğilimi almak gibi görünüyor, benim izlenimini destekler .Y

Kontrol edilecek daha fazla veriye sahip olmadığımız zaman, en azından gösterimin yeniden örneklemeden kurtulmaya meyilli olup olmadığına bakabiliriz (iki değişkenli dağıtımı önyükleme ve neredeyse her zaman hala var olup olmadığına bakın) veya gösterimin görünmemesi gereken diğer manipülasyonlara bakabiliriz. basit bir ses ise.

1) Görünen iki-benlikliliğin çarpıklıktan başka bir gürültüden fazlası olup olmadığını görmenin bir yolu - çekirdek yoğunluğu tahminde görünüyor mu? Çekirdek yoğunluğu tahminlerini çeşitli dönüşümler altında çizersek, hala görülebilir mi? Burada, varsayılan bant genişliğinin% 85'inde (nispeten küçük bir mod tanımlamaya çalıştığımızdan ve varsayılan bant genişliği bu görev için optimize edilmediğinden) daha büyük simetriye dönüştürüyorum:

görüntü tanımını buraya girin

Grafikleridir , ve . Dikey çizgiler , ve . İkiyüzlülük azalır, ancak yine de oldukça görünür. Orijinal KDE'de çok net olduğu için, orada olduğunu onaylıyor gibi görünüyor - ve ikinci ve üçüncü grafikler, dönüşüm için en azından biraz sağlam olduğunu gösteriyor.YYlog(Y)6868log(68)

2) İşte "gürültü" den daha fazlası olup olmadığını görmenin başka bir temel yolu:

1. Adım: Y üzerinde kümeleme yapın

görüntü tanımını buraya girin

Adım 2: iki gruba bölün ve iki grubu ayrı ayrı kümeleyin ve benzer olup olmadığına bakın. Eğer hiçbir şey olmazsa, iki yarıya da bu kadar bölünmüş olmaları beklenmemelidir.X

görüntü tanımını buraya girin

Noktalı noktalar önceki çizimdeki "hepsi bir arada" kümesinden farklı şekilde kümelenmiştir. Daha sonra biraz daha yapacağım, ama sanırım bu pozisyonun yanında yatay bir "bölünme" olabilir.

Bir regressogram veya Nadaraya-Watson tahmincisi deneyeceğim (her ikisi de regresyon fonksiyonunun yerel tahminleri olan ). Ben de henüz yaratmadım, ama nasıl gittiklerini göreceğiz. Muhtemelen çok az veri bulunan uçları dışlardım.E(Y|x)

3) Düzenleme: İşte regressogram, 0.1 genişlik bidonları için (daha önce önerdiğim gibi, en uçları hariç):

görüntü tanımını buraya girin

Bu tamamen, arsanın ilk izlenimiyle tutarlıdır; mantığımın doğru olduğunu kanıtlamaz, ancak sonuçlarım regressogram'ın yaptığı sonuçla aynı oldu.

Eğer arsada gördüklerim - ve sonuçta ortaya çıkan akıl yürütme - yanıltıcı olsaydı, muhtemelen böyle ayırt etmeyi başaramazdım .E(Y|x)

(Denenecek bir sonraki şey bir Nadayara-Watson tahmincisi olacaktır. O zaman, zamanımın yeniden örneklemenin nasıl geçtiğini görebilirim.)

4) Daha sonra düzenleme:

Nadarya-Watson, Gauss çekirdeği, bant genişliği 0.15:

görüntü tanımını buraya girin

Yine, bu şaşırtıcı bir şekilde ilk izlenimimle tutarlı. İşte on bootstrap örneğine dayanan NW tahmin edicileri:

görüntü tanımını buraya girin

Geniş desen orada, birkaç örnek de verilerin tümüne göre açıklamayı takip etmiyor. Soldaki seviyenin durumunun sağdan daha az kesin olduğunu görüyoruz - gürültü seviyesi (kısmen az gözlemden, kısmen geniş yayılmadan), ortalamanın gerçekten daha yüksek olduğunu iddia etmek daha az kolay merkezden daha sol.

Benim genel izlenim, muhtemelen basitçe kendimi kandırmamamdı, çünkü çeşitli yönler, basitçe gürültü olsaydı onları gizlemeye meyilli olan çeşitli zorluklara (yumuşatma, dönüşüm, alt gruplara ayrılma, yeniden örnekleme) oldukça iyi dayanıyor. Öte yandan, göstergeler etkilerin, ilk izlenimimle tutarlı bir şekilde tutarlı olmasına rağmen, göreceli olarak zayıf olduğu ve soldan merkeze doğru hareket beklentisinde herhangi bir gerçek değişiklik olduğunu iddia etmek için çok fazla olabileceği yönündeydi.


1
Bir cevabı sorguladım, fakat bu, orada olmayan bir şeyler bulduğunu söylerken kendime güveniyorum
rvl

1
Aşağı oyumu geri çevirmeye çalıştım, ama sanırım yapamam. Sırf cevabınıza gerçekten katılmıyorum, mutlaka tartışmaya katkıda bulunmadığı anlamına gelmiyor. Aşağı oy kullanmak nasıl emin değilim ve onun tarafından kişisel bir şey ifade etmiyor.p
rvl

4
@Russ olumsuzluk için endişelenmeyin, gerçekten önemli değil, bunun dışında ele almam gereken bir şey olduğuna işaret ediyor. Sahte internet noktaları hakkında endişelenmekten daha çok (neden yaptığımız kadarıyla) anlaşmazlık içinde olduğumuzu anlamak için çok daha önemli. Tartışmaya değer bir itirazınız var ve memnuniyetle bu kısa tartışmayı yapmak için en az on kez ödeyeceğim. Nedenini söyleyeceksen, bana her zaman katıldığın zaman beni küçümsemeni tavsiye ederim. Bir şey öğrenme şansım bu.
Glen_b

1
@RussLenth, aşağı oylamayı tekrar tıklatarak bir aşağı oy (veya yeni oy) geri alabilirsiniz. Oyların aşağıya (ya da yukarı) üzerindeki işaretin üstünde olduğundan emin değilseniz, size haber vereceğim.
Alexis,

4
+1 Aslında bu analizin çoğunu yaptım ama bu sonuçlarla cevabımı fazla uzatmak istemedim. Açık, okunaklı ve ikna edici bir formda sunmak için harika bir iş çıkardınız. Ek olarak yaptığım bir şey, x'e y'ye (aslında "bağımlı" olarak nitelendirilmesine rağmen) gerilemek (aslında, pürüzsüz) idi: Sonuçta, ilişkinin doğrusal olmama durumunun y'nin agnostik olacağı şekilde değerlendirilmesinde yardımcı olduğunu düşünüyorum. bir veya iki grup olarak ele alınmalıdır.
whuber

13

Tamam millet, Alexis'in liderliğini takip ettim ve verileri ele geçirdim. İşte karşı bir grafiğidir .logyxlog (Y) vs. X arsa

Ve korelasyonlar:

> cor.test(~ x + y, data = data)

    Pearson's product-moment correlation

data:  x and y
t = -2.6311, df = 169, p-value = 0.009298
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.33836844 -0.04977867
sample estimates:
       cor 
-0.1983692 

> cor.test(~ x + log(y), data = data)

    Pearson's product-moment correlation

data:  x and log(y)
t = -2.8901, df = 169, p-value = 0.004356
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.35551268 -0.06920015
sample estimates:
       cor 
-0.2170188 

Korelasyon testi olası bir olumsuz bağımlılığa işaret ediyor. Herhangi bir ikiyüzlülük konusunda ikna olmadım (ama bunun olmadığına da ikna oldum).

[Daha önceki bir sürümde sahip olduğum kalıntı grafiği kaldırdım çünkü @whuber'ın tahmin etmeye çalıştığı noktasını göz ardı ettim .]X|Y


2
Bu arada ... sadece, log (Y) dönüşümünü bağımlı olarak kabul etmenin hala lineer olmayan bir ilişki bulmaya eşdeğer olduğunu düşündüm ... log (Y), artıklar ile oynadığım menteşe fonksiyonundan daha iyi. Cevabım ... ama sonuçlardan biri benzer: ve arasındaki ilişki daha iyi işlevsel ifadelere sahip . YXY=a+bX
Alexis,

Kalıntı komplo için teşekkürler, Russ. Bu bir istek değil, fakat ilgi çekici bulduğum şeyin - ve belki de GoF'yi araştırmak için daha büyük bir değere sahip olduğunu - belirtmek isterim ki, x'in bu şekilde değil , y'nin bir fonksiyonu olarak ilişkisidir . Baktığımızda x böyle biz doğrusal olmayan yeniden ifadeleri yoluyla bir şeyler öğrenebileceğini olmadığı gibi bazı ek (belki kullanışlıdır) soruları şimdiye kadar yükseltti değil, artıkların istemleri x (evet, yapabiliriz); İki nüfuslu hipotezden bağımsız olarak (evet, yine) ve formumun sağlamlığı hakkında çok fazla şey söylenebilir mi (çok sağlam).
whuber

Belki bunun için artık arsa yapmak istersiniz. Başka şeylere geçiyorum.
rvl

5

Russ Lenth, Y ekseni logaritmik olsaydı grafiğin nasıl görüneceğini merak etti. Alexis verileri kazırdı, bu yüzden log ekseni ile çizmek kolaydır:

görüntü tanımını buraya girin

Kütük ölçeğinde, bir çift modellik veya eğilim ipucu yoktur. Bir günlük ölçeğinin anlamlı olup olmadığı elbette verilerin neyi temsil ettiğinin detaylarına bağlıdır. Benzer şekilde, verinin whuber'in önerdiği gibi iki topluluktan örneklemeyi temsil ettiğini düşünmenin bir anlamı olup olmadığı ayrıntılara bağlıdır.


Zeyilname: Aşağıdaki yorumlara dayanarak, revize edilmiş bir versiyon:

görüntü tanımını buraya girin


Grafiğimi birkaç dakika içinde Russ Lenth'i gönderdikten sonra yayınladım. Onu görmemiştim ya da benimkini göndermezdim.
Harvey Motulsky

Tahminlerde (doğrusal doğrusal) regresyon sonuçlarının log ( ) ile daha güçlü olduğunu buldum . Y
Alexis,

9
Bu grafik, zayıf bir görselleştirme seçiminin etkisinin ilginç bir örneğini sunar: en boy oranını küçülterek ve y eksenini, gerektiğinden iki kat daha fazla genişleterek, yazılım, herhangi bir dikey saçılmanın görsel izlenimini otomatik olarak bastırdı, izleyicinin bir şeylerin çoğunu görmesini zorlaştırır. Bu nedenle, iyi bir keşif, grafiksel gösterimle yönlendirilmesine rağmen, (a) veri davranışını bastırmak yerine ortaya çıkarmak için uygun görselleştirme yöntemlerini kullanmalı ve (b) ek analizlerle (@ Glen_b'in yazısında gösterildiği gibi) desteklemelidir. .
whuber

Söz konusu Y aralıkları için, log tabanı 2, Y ekseni için makul bir değer aralığına sahip olmak için daha basit bir seçim olacaktır. Ayrıca üstteki menzili, eldeki verilere uymayan 1 ve 1,000 değerlerinden de koruyacaktır.
Andy W,

1

Haklısın, ilişki zayıf, ama sıfır değil. Olumlu olacağını tahmin ediyorum. Ancak, sanmıyorum, sadece basit bir doğrusal regresyon (OLS regresyon) çalıştırın ve öğrenin! Orada, ilişkinin ne olduğunu söyleyen xxx eğimine sahip olacaksınız. Ve evet, sonuçları etkileyebilecek aykırı değerleriniz var. Bu ele alınabilir. Aykırıların ilişkideki etkisini tahmin etmek için Cook'un mesafesini kullanabilir veya bir kaldıraç grafiği oluşturabilirsiniz.

İyi şanslar


DGP'nin doğrusal olmayan olmaktan ziyade gerçek aykırı olduklarını düşündüren nedir?
abaumann

Sanırım bu da olabilir. Ancak bunu söylemek zor, noktalar çok dağınık.
Helgi Guðmundsson

OLS ile neden doğrusallığı varsayıyoruz? Parametrik olmayan regresyon FTW! :)
Alexis

1
@Alexis, doğrusallık gibi varsayımların etki alanı teorisi ya da model kontrolü ile gerekçelendirilmesi gerektiğinin altını çizmekte haklıdır. Ancak, bu değerlerin neden oluştuğunu dikkatlice düşünmeden aykırıların tamamen silinmesinin istatistiksel analizde çok yaygın bir hata olduğunu düşünüyorum.
abaumann

Evet, aykırı değerler yanlış değer gibi iyi bir gerekçe olmadan silinemez. Ancak dönüşümler, değerin dağılımını daha iyi bir uyum sağlayacak şekilde ayarlayabilir ve aykırı değerleri azaltabilir. Ve evet katılıyorum, haklı sebep olmadan aykırılıkları silme işleminin oldukça yaygın olduğuna inanıyorum.
Helgi Guðmundsson

1

X / Y veri noktalarının oryantasyonuna ve dağılımına bakarak sorunuza zaten bazı sezgiler sağladınız. Kısacası haklısın.

Resmi terimlerle oryantasyon, korelasyon işareti ve dağılım olarak varyans olarak ifade edilebilir . Bu iki bağlantı, iki değişken arasındaki doğrusal ilişkinin nasıl yorumlanacağı konusunda size daha fazla bilgi verecektir .


0

Bu bir ev işi. Yani, sorunuzun cevabı basittir. X üzerinde doğrusal bir Y regresyonunu çalıştırın, şöyle bir şey alacaksınız:

    Coefficient Standard Er t Stat
C   53.14404163 6.522516463 8.147781908
X   -44.8798926 16.80565866 -2.670522684

Bu nedenle, T-istatistikleri X değişkeninde% 99 güvende önemlidir. Dolayısıyla, değişkenleri bir çeşit ilişki olarak ilan edebilirsiniz.

Doğrusal mı? Bir değişken X2 = (X-ortalama (X)) ^ 2 ekleyin ve tekrar gerileyin.

    Coefficient Stand Err   t Stat
C   53.46173893 6.58938281  8.11331508
X   -43.9503443 17.01532569 -2.582985779
X2  -44.601130  114.1461801 -0.390736951

X'deki katsayı hala önemlidir, ancak X2 değildir. X2 doğrusal olmayanlığı temsil eder. Yani, ilişkinin lineer göründüğünü beyan ediyorsunuz.

Yukarıdaki bir ev işi içindi.

Gerçek hayatta, işler daha karmaşıktır. Bunun bir sınıf öğrenci verisi olduğunu hayal edin. Y - lira cinsinden tezgah baskısı, X - tezgah presinden önce nefesini tutarak dakika cinsinden süre. Öğrencilerin cinsiyeti için rica ediyorum. Sadece eğlenmek için, Z, başka bir değişken ekleyelim ve diyelim ki Z = 1 (kızlar) tüm Y <60 ve Z = 0 (erkekler) ise Y> = 60. Regresyonu üç değişkenle çalıştırın:

    Coefficient Stand Error t Stat
C   92.93031357 3.877092841 23.969071
X   -6.55246715 8.977138488 -0.72990599
X2  -43.6291362 59.06955097 -0.738606194
Z   -63.3231270 2.960160265 -21.39179009

Ne oldu?! X ve Y arasındaki "ilişki" kayboldu! Ah, ilişkinin şaşırtıcı değişken cinsiyetten dolayı sahte olduğu görülüyor .

Hikayenin ahlaki nedir? "İlişkiyi" "açıklayan", ya da hatta ilk etapta kuracak verilerin ne olduğunu bilmeniz gerekir. Bu durumda, öğrencilerin fiziksel aktivitelerine ilişkin verinin bana derhal cinsiyetlerini soracağım ve cinsiyet değişkenini almadan verileri analiz etmekten bile rahatsız olmayacağım söylendiği anda.

Diğer taraftan, dağılım grafiğini "tanımlamanız" istenirse, o zaman her şey yolunda gider. Korelasyonlar, doğrusal uyumlar vb. Evdeki çalışmalarınız için, ilk önce iki adım yeterli olmalıdır: X (ilişki) katsayısına, sonra X ^ 2 (doğrusallık) katsayısına bakın. X değişkenini dediğinizden emin olun (ortalamayı çıkarın).

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.