Aşağıdaki çizimde ve arasındaki ilişki nedir ? Benim görüşüme göre olumsuz doğrusal bir ilişki var, ama çok fazla aykırı olduğumuz için ilişki çok zayıf. Haklı mıyım Saçılma noktalarını nasıl açıklayabileceğimizi öğrenmek istiyorum.
Aşağıdaki çizimde ve arasındaki ilişki nedir ? Benim görüşüme göre olumsuz doğrusal bir ilişki var, ama çok fazla aykırı olduğumuz için ilişki çok zayıf. Haklı mıyım Saçılma noktalarını nasıl açıklayabileceğimizi öğrenmek istiyorum.
Yanıtlar:
Soru birkaç kavramla ilgilidir: sadece bir dağılım grafiği biçiminde verilen verilerin nasıl değerlendirileceği, bir dağılım grafiğinin nasıl özetleneceği ve bir ilişkinin lineer görünüp görünmediği (ve ne ölçüde). Onları sırayla alalım.
Açıklayıcı veri analizi (EDA) prensiplerini kullanın. Bunlar (en azından başlangıçta kalem ve kağıt kullanımı için geliştirildiklerinde) basit, hesaplanması kolay, sağlam veri özetlerini vurgular. En basit özet türlerinden biri , "tipik" bir değeri tanımlayan orta değer gibi bir sayı kümesi içindeki konumlara dayanır . Ortaları grafiklerden güvenilir şekilde tahmin etmek kolaydır.
Saçılım grafikleri sayılar çiftleri sergiler. Her çiftin ilki (yatay eksende çizildiği gibi), ayrı ayrı özetleyebileceğimiz bir dizi tek sayı verir.
Bu belirli saçılma grafiğinde, y-değerleri neredeyse tamamen ayrı iki grup içinde yer almaktadır : üstte üstünde ve altta eşit veya daha düşük değerler . (Bu izlenim, keskin bir şekilde iki modlu olan, ancak bu aşamada çok fazla çalışacak olan y değerlerinin bir histogramını çizerek doğrulanır.) Ben saçılma noktasında şüphe etmeye şüpheci davet ediyorum. Bunu yaptığımda - saçılma grafiğindeki noktaların büyük yarıçaplı, gama düzeltmeli Gauss bulanıklığı (standart bir hızlı görüntü işleme sonucu) kullanarak şunu görüyorum:
İki grup - üst ve alt - oldukça belirgindir. (Üst grup, alt gruptan çok daha hafiftir, çünkü daha az nokta içerir.)
Buna göre, y-değer gruplarını ayrı ayrı özetleyelim. Bunu iki grubun medyanlarına yatay çizgiler çizerek yapacağım. Verilerin izlenimini vurgulamak ve herhangi bir hesaplama yapmadığımızı göstermek için (a) eksenler ve kılavuz çizgileri gibi tüm süslemeleri kaldırdım ve (b) noktaları bulanıklaştırdım. Verilerdeki kalıplar hakkında çok az bilgi grafikte "çarpıtarak" kaybolur:
Benzer şekilde, x değerlerinin medyanlarını dikey çizgi parçalarıyla işaretlemeye çalıştım. Üst grupta (kırmızı çizgiler) - blokları sayarak - bu çizgilerin grubu hem yatay hem de dikey olarak iki eşit yarıya ayırdığını kontrol edebilirsiniz. Alt grupta (mavi çizgiler) sadece sayıları yapmadan pozisyonları görsel olarak hesapladım.
Kavşak noktaları, iki grubun merkezleridir. X ve y değerleri arasındaki ilişkinin mükemmel bir özeti, bu merkezi pozisyonları bildirmek olacaktır. Daha sonra bir kişi bu özeti, her bir grupta verinin ne kadarının merkezlerinin etrafına - sola ve sağa, yukarı ve aşağı - yayıldığının bir açıklamasıyla desteklemek isteyecektir. Kısacası, bunu burada yapmayacağım, ama çizdiğim çizgi parçalarının uzunluklarının (kabaca) her grubun genel yayılımlarını yansıttığına dikkat edin.
Sonunda, iki merkezi birbirine bağlayan bir kesik çizgi çizdim. Bu makul bir regresyon çizgisidir. Verilerin iyi bir açıklaması mı? Kesinlikle hayır: Verilerin bu satır etrafında nasıl yayıldığına bakın. Doğrusallığın bile kanıtı var mı? Bu çok ilgili çünkü doğrusal açıklama çok zayıf. Yine de, çünkü bu önümüzde bir soru, hadi ele alalım.
Bir ilişki doğrusal zaman istatistiksel anlamda iki y değerleri, bir çizgi etrafında dengeli bir rasgele bir şekilde değişir ve x değeri bir çizgi (veya her ikisi) etrafında dengeli bir rasgele bir şekilde farklılık görülmektedir.
İlki burada böyle görünmüyor: y değerleri iki gruba düştüğü için, varyasyonları çizginin üstünde veya altında kabaca simetrik olarak dağılmış olması anlamında hiçbir zaman dengeli görünmeyecek . (Bu, verileri doğrusal bir regresyon paketine koyma ve x'e karşı y'ye uygun en küçük kareler yapma olasılığını hemen dışlar: cevaplar uygun olmaz.)
Peki ya x'deki değişim? Bu daha makul: Arsa üzerindeki her bir yükseklikte , noktalı çizginin etrafındaki noktaların yatay dağılımı oldukça dengelidir. Yayılmış bu dağılım içinde düşük yüksekliklerde biraz daha büyük (düşük y değerleri) gibi görünüyor, ama belki çok daha fazla nokta vardır en çünkü orada. (Ne kadar çok rastgele veriye sahipseniz, uç değerler de o kadar geniş olur.)
Dahası, yukarıdan aşağıya doğru tararken, regresyon çizgisi etrafındaki yatay saçılmanın kesinlikle dengesiz olduğu yerler yoktur: bu, doğrusal olmama kanıtı olur. (Peki, belki y = 50 civarında ya da öylesine çok büyük x değeri olabilir. Bu ince etki, verileri y = 60 değeri etrafında iki gruba ayırmak için daha fazla kanıt olarak görülebilir.)
Bunu gördük
X'i y'nin lineer bir işlevi ve bazı "güzel" rastgele varyasyonlar olarak görmek mantıklıdır.
Bu etmez olup x ve rastgele bir varyasyon doğrusal fonksiyonu olarak görünümü y mantıklı.
Bir regresyon çizgisi, verileri yüksek y değerlerine sahip bir gruba ve düşük y değerlerine sahip bir gruba ayırarak, her iki grubun merkezlerini medyanlar kullanarak bularak ve bu merkezleri birleştirerek tahmin edilebilir.
Sonuç olarak ortaya çıkan çizginin, aşağı doğru bir eğimi var, negatif doğrusal bir ilişki olduğunu gösteriyor.
Doğrusallıktan güçlü ayrılma yoktur.
Bununla birlikte, x-değerlerinin çizginin etrafındaki yayılımı hala büyük olduğundan (başlangıçtaki x-değerlerinin genel yayılımıyla karşılaştırıldığında), bu negatif doğrusal ilişkiyi "çok zayıf" olarak nitelendirmek zorunda kalacağız.
Verileri iki oval şekilli bulut oluşturmak olarak tanımlamak daha yararlı olabilir (biri 60'ın üzerinde y için ve diğeri düşük değerlerin için). Her bulutun içinde x ve y arasında çok az fark edilebilir ilişki vardır. Bulutların merkezleri yakındır (0,29, 90) ve (0,38, 30). Bulutların karşılaştırılabilir formaları vardır, ancak üst bulutun alt bulutundan daha az veri vardır (belki% 20 kadar).
Bu sonuçlardan ikisi, soruda yapılanları zayıf bir negatif ilişki olduğunu doğrulamaktadır. Diğerleri bu sonuçları desteklemekte ve desteklemektedir.
Soruya dayanmayan bir sonuç, “aykırı” olduğu iddiasıdır. Daha dikkatli bir inceleme (aşağıda belirtildiği gibi), geçerli olarak dışlandığı düşünülebilecek herhangi bir bireysel puanı veya hatta küçük puan gruplarını açamaz. Yeterince uzun bir analizden sonra, dikkatleri orta sağdaki iki noktaya ya da sol alt köşedeki bir noktaya dikkat çekebilir, ancak bunlar bile birinin verilerini değerlendirmesini çok dikkate almasa da değiştirmeyeceklerdir. uzaktaki.
Çok daha fazlası söylenebilirdi. Sonraki adımlar, bu bulutların yayılımlarını değerlendirmek olacaktır. Her iki buluttaki x ve y arasındaki ilişkiler burada gösterilen tekniklerin aynısı kullanılarak ayrı ayrı değerlendirilebilir. Alt bulutun hafif asimetrisi (en küçük y değerinde daha fazla veri görünmektedir) değerlendirilebilir ve y değerleri yeniden ifade edilerek bile ayarlanabilir (bir karekök işe yarayabilir). Bu aşamada, dışarıdaki verileri aramak mantıklı olacaktır; çünkü bu noktada açıklama, tipik veri değerleri ve bunların spreadleri hakkındaki bilgileri içerecektir; aykırı değerler (tanım gereği) gözlenen yayılma miktarı açısından açıklanacak olan orta noktadan çok uzak olacaktır.
Oldukça nicel olan bu çalışmaların hiçbiri, veri gruplarının ortalarını bulmaktan ve onlarla bazı basit hesaplamalar yapmaktan çok daha fazlasını gerektirmez ve bu nedenle, veriler yalnızca grafik biçiminde mevcut olsa bile hızlı ve doğru bir şekilde yapılabilir. Burada bildirilen her sonuç - niceliksel değerler dahil - birkaç saniye içinde, bir grafiğin üzerine ışık işaretleri koymaya izin veren bir görüntüleme sistemi (basılı kopya ve kalem :-) gibi) kullanılarak kolayca bulunabilir.
Hadi biraz eğlenelim!
Her şeyden önce, ben alıntı verileri sizin grafikte kapatır.
Daha sonra, gri çizgili kesikli% 95 CI bantlarıyla aşağıdaki siyah regresyon çizgisini üretmek için daha yumuşak bir koşu bandı kullandım. Aşağıdaki grafik, verilerin yarısının pürüzsüzlüğünde bir açıklığı göstermektedir, ancak daha sıkı açıklıklar aynı veya daha fazla kesin olarak aynı ilişkiyi ortaya koymaktadır. civarında eğimdeki hafif değişim, doğrusal olmayan en küçük kareler regresyonu (kırmızı çizgi) olarak , eğiminin doğrusal menteşe fonksiyonu eklenerek doğrusal bir model kullanılarak yaklaştırılabilecek bir ilişki olduğunu göstermiştir :
Katsayı tahmini:
Redoubtable whuber güçlü bir doğrusal ilişki olmadığını iddia ederken, menteşe terimi tarafından ima edilen çizgisinden sapmanın eğimi ile aynı sırada olduğunu, yani 37.7 saygısız bir şekilde doğrusal olmayan bir ilişki görmediğimizi kabul etmiyoruz (yani Evet, güçlü bir ilişki yok, ancak doğrusal olmayan terim, doğrusal olan kadar güçlüdür).
Yorum
(Sadece bağımlı değişken olarak ilgi duyduğunuzu varsaydım .) değerleri tarafından çok zayıf bir şekilde tahmin edilir (Düzeltilmiş- = 0,03). İlişkilenme yaklaşık olarak 0,46'da eğimde hafif bir düşüşle yaklaşık olarak lineerdir. Artıklar biraz sağa doğru eğimlidir, çünkü değeri üzerinde keskin bir alt sınır vardır . örneklem büyüklüğü göz önüne alındığında, normallik ihlallerine tolerans göstermeye meyilliyim . değerleri için daha fazla gözlem , eğimdeki değişimin gerçek olup olmadığını veya azalmış varyansının bir eseri olup olmadığını saptamaya yardımcı olacaktır. bu aralıkta.
İle güncelleme grafik:
(Kırmızı çizgi, X'deki basitçe ln (Y) 'nin regresyonudur.)
Yorumlarda Russ Lenth şöyle yazdı: " ve yumuşatırsanız bunun devam edip etmediğini merak ediyorum . dağılımı doğru." karşı dönüşümü de, simetrik olarak dağılmış artıkları olan ve arasındaki çizgiye biraz daha iyi uyduğundan, bu oldukça iyi bir öneridir . Bununla birlikte, hem önerdiği hem de doğrusal çizgim, (dönüştürülmemiş) ve arasındaki düz bir çizgiyle tanımlanmayan bir ilişki tercihini paylaşır .
İşte benim 2 ¢ 1.5 ¢. Bana göre en belirgin özellik, verilerin Y aralığının altında aniden durup 'toplanması' olması. İki (potansiyel) 'kümeyi' ve genel negatif ilişkiyi görüyorum, ancak en göze çarpan özellikler, (potansiyel) zemin etkisi ve üst, düşük yoğunluklu kümenin yalnızca X aralığının bir kısmı boyunca uzanması gerçeği.
'Kümeler' belli belirsiz iki değişkenli normal olduğundan, parametrik bir normal karışım modelini denemek ilginç olabilir. @Alexis'in verilerini kullanarak, üç kümenin BIC'yi optimize ettiğini buldum . Yüksek yoğunluklu 'zemin etkisi' üçüncü bir küme olarak seçildi. Kod aşağıdaki gibidir:
library(mclust)
dframe = read.table(url("http://doyenne.com/personal/files/data.csv"), header=T, sep=",")
mc = Mclust(dframe)
summary(mc)
# ----------------------------------------------------
# Gaussian finite mixture model fitted by EM algorithm
# ----------------------------------------------------
#
# Mclust VVI (diagonal, varying volume and shape) model with 3 components:
#
# log.likelihood n df BIC ICL
# -614.4713 170 14 -1300.844 -1338.715
#
# Clustering table:
# 1 2 3
# 72 72 26
Şimdi, bundan ne çıkartacağız? Bunun Mclust
sadece insan örüntü tanıma sisteminin ters gittiğini sanmıyorum . (Oysa saçılım grafiğini okumam iyi olabilir.) Öte yandan, bunun post-hoc olduğuna dair hiçbir soru yoktur . İlginç bir model olabileceğini düşündüğüm şeyi gördüm ve kontrol etmeye karar verdim. Algoritma bir şey buluyor, ancak daha sonra sadece orada olabileceğini düşündüğüm şeyi kontrol ettim, böylece baş parmağım kesinlikle ölçekte. Bazen olası vasiyet (whuber mükemmel cevap @ bkz buna karşı azaltmak için bir stratejidir burada ), ama nasıl böyle durumlarda böyle bir süreç hakkında gitmek için hiçbir fikrim yok. Sonuç olarak, bu sonuçları çok fazla tuzla alıyorum (Bu tür bir şeyi yeterince sık yaptım, birinin bütün bir çalkalayıcıyı özlemiş olması.). Bir dahaki görüşmemizde müvekkilim hakkında düşünmek ve tartışmak için bana bazı materyaller veriyor. Bu veriler nedir? Zemin etkisi olabileceğinin bir anlamı var mı? Farklı gruplar olabileceği mantıklı mıydı? Bunlar gerçek olsaydı ne kadar anlamlı / şaşırtıcı / ilginç / önemli olurdu? Bağımsız veriler mevcut mu / bu olanakları dürüst bir şekilde test etmeleri için uygun şekilde kullanabilir miyiz? Vb.
Baktıktan sonra ne gördüğümü açıklayayım:
Koşullu dağılımı konum ilgi Biz ise (görüleceği eğer genellikle ilgi odaklanır IV gibi DV), daha sonra da koşullu dağılımı bir üst grup bimodal belirir ( yaklaşık 70 ila 125 arasında, ortalama 100'ün biraz altında) ve daha düşük bir grup (0 ila yaklaşık 70 arasında, ortalama 30 civarında). Her modal grupta, ile ilişki neredeyse düzdür. (Aşağıdaki kırmızı ve mavi çizgilerin kabaca çizildiğini görün.
Sonra, bu iki grubun neresinde ya da daha az yoğunlaştığını bakarak, daha fazlasını söylemeye devam edebiliriz:
İçin Üst grup genel ortalama yapar, tamamen yok düşer, ve 0.2 ile ilgili aşağıdaki alt grubu genel ortalamaları daha yüksek hale çok daha az yoğun üstünde daha uzundur.
Bu iki etki arasında, karşı azalırken , merkezde geniş, çoğunlukla düz bir bölge ile göründüğü için , ikisi arasında görünür bir negatif (ama doğrusal olmayan) bir ilişki meydana getirir. (Mor kesikli çizgiye bakın)
Hiç şüphe yok ki ve ne olduğunu bilmek önemli olacak , çünkü o zaman için koşullu dağılımın , menzilinin çoğunda iki ayda bir olabileceği daha açık olabilir (aslında, aslında iki grubun olduğu açıkça anlaşılabilir). dağılımlar, ) ' de görünür azalan ilişkiyi indükler .
Bunu tamamen "gözle" incelemeye dayanarak gördüm. Basit bir görüntü işleme programı gibi bir şeyle uğraşırken (satırları çizdiğim gibi) biraz daha kesin sayılar bulmaya başlayabiliriz. Verileri sayısallaştırırsak (bu doğru bir araçla oldukça basittir, bazen doğru olması biraz sıkıcıysa), o zaman bu tür izlenimlerin daha karmaşık analizlerini yapabiliriz.
Bu tür bir keşif analizi bazı önemli sorulara yol açabilir (bazen veriye sahip olan kişiyi şaşırtan ancak sadece bir komplo gösterebilen kişiyi şaşırtan sorular), ancak modellerimizin bu denetimler tarafından seçilme boyutuna biraz dikkat etmeliyiz - eğer Bir arsa görünümü temelinde seçilen modelleri uyguluyoruz ve daha sonra bu modelleri aynı veriler üzerinde tahmin ediyoruz, daha resmi model seçimi ve aynı veriler üzerinde tahmin kullandığımız zaman karşılaştığımız sorunların birçoğu ile karşılaşma eğiliminde olacağız. [Bu, keşif analizinin önemini hiç reddetmek değildir - sadece nasıl yaptığımıza bakmadan bunu yapmanın sonuçlarına dikkat etmeliyiz . ]
Russ'un yorumlarına cevap:
[daha sonra düzenleyin: Açıklığa kavuşturmak için - Russ'ın genel bir önlem olarak aldığı eleştirilerine genel olarak katılıyorum ve gerçekten orada olduğundan daha fazla gördüğüm bazı olasılıklar var. Geri dönmeyi ve bunları genel olarak gözle tanımladığımız ve en kötüsünden kaçınmaya başlayabileceğimiz yollarla tanımladığımız sahte kalıplarla ilgili daha kapsamlı bir yorumda düzenlemeyi planlıyorum. Sanırım neden bu özel olayla ilgili olarak sadece sahte olmadığını düşündüğüm hakkında bir gerekçe de ekleyebileceğime inanıyorum (örneğin, bir regressogram veya 0 dereceli çekirdekten pürüzsüz, elbette, karşı test etmek için daha fazla veri yoksa) şimdiye kadar gidebilir; örneğin, örneğimizin temsili olmadığı durumlarda, yeniden örnekleme bile bizi sadece şu ana kadar elde eder.]
Sahte kalıpları görme eğiliminde olduğumuza tamamen katılıyorum; burada ve başka yerlerde sık sık yaptığım bir nokta.
Örneğin, kalan arsalara veya QQ parsellerine bakarken, durumun bilindiği bir yerde (ne olması gerektiği gibi ve varsayımların olmadığı yerlerde) ne kadar kalıp olması gerektiği hakkında net bir fikir edinmek için önermek görmezden geldi.
İşte bir QQ arsasının, arsanın ne kadar sıradışı olduğunu görmemiz için 24 varsayımın (varsayımları karşılayan) arasına yerleştirildiği bir örnek . Bu tür bir egzersiz önemlidir, çünkü çoğu basit gürültü olacak her küçük kıkırdağı yorumlayarak kendimizi kandırmaktan kaçınmamıza yardımcı olur.
Sık sık, bir noktayı birkaç noktayı kapsayacak şekilde değiştirebilirseniz, gürültüden başka bir şey tarafından oluşturulan bir gösterime güvenebileceğimizi belirtiyorum.
[Ancak, birkaç noktadan ziyade birçok noktadan anlaşıldığında, orada olmadığını korumak daha zor.]
Whuber yanıtında görüntüler Gauss bulanıklığı arsa içinde bimodalite aynı eğilimi almak gibi görünüyor, benim izlenimini destekler .
Kontrol edilecek daha fazla veriye sahip olmadığımız zaman, en azından gösterimin yeniden örneklemeden kurtulmaya meyilli olup olmadığına bakabiliriz (iki değişkenli dağıtımı önyükleme ve neredeyse her zaman hala var olup olmadığına bakın) veya gösterimin görünmemesi gereken diğer manipülasyonlara bakabiliriz. basit bir ses ise.
1) Görünen iki-benlikliliğin çarpıklıktan başka bir gürültüden fazlası olup olmadığını görmenin bir yolu - çekirdek yoğunluğu tahminde görünüyor mu? Çekirdek yoğunluğu tahminlerini çeşitli dönüşümler altında çizersek, hala görülebilir mi? Burada, varsayılan bant genişliğinin% 85'inde (nispeten küçük bir mod tanımlamaya çalıştığımızdan ve varsayılan bant genişliği bu görev için optimize edilmediğinden) daha büyük simetriye dönüştürüyorum:
Grafikleridir , ve . Dikey çizgiler , ve . İkiyüzlülük azalır, ancak yine de oldukça görünür. Orijinal KDE'de çok net olduğu için, orada olduğunu onaylıyor gibi görünüyor - ve ikinci ve üçüncü grafikler, dönüşüm için en azından biraz sağlam olduğunu gösteriyor.
2) İşte "gürültü" den daha fazlası olup olmadığını görmenin başka bir temel yolu:
1. Adım: Y üzerinde kümeleme yapın
Adım 2: iki gruba bölün ve iki grubu ayrı ayrı kümeleyin ve benzer olup olmadığına bakın. Eğer hiçbir şey olmazsa, iki yarıya da bu kadar bölünmüş olmaları beklenmemelidir.
Noktalı noktalar önceki çizimdeki "hepsi bir arada" kümesinden farklı şekilde kümelenmiştir. Daha sonra biraz daha yapacağım, ama sanırım bu pozisyonun yanında yatay bir "bölünme" olabilir.
Bir regressogram veya Nadaraya-Watson tahmincisi deneyeceğim (her ikisi de regresyon fonksiyonunun yerel tahminleri olan ). Ben de henüz yaratmadım, ama nasıl gittiklerini göreceğiz. Muhtemelen çok az veri bulunan uçları dışlardım.
3) Düzenleme: İşte regressogram, 0.1 genişlik bidonları için (daha önce önerdiğim gibi, en uçları hariç):
Bu tamamen, arsanın ilk izlenimiyle tutarlıdır; mantığımın doğru olduğunu kanıtlamaz, ancak sonuçlarım regressogram'ın yaptığı sonuçla aynı oldu.
Eğer arsada gördüklerim - ve sonuçta ortaya çıkan akıl yürütme - yanıltıcı olsaydı, muhtemelen böyle ayırt etmeyi başaramazdım .
(Denenecek bir sonraki şey bir Nadayara-Watson tahmincisi olacaktır. O zaman, zamanımın yeniden örneklemenin nasıl geçtiğini görebilirim.)
4) Daha sonra düzenleme:
Nadarya-Watson, Gauss çekirdeği, bant genişliği 0.15:
Yine, bu şaşırtıcı bir şekilde ilk izlenimimle tutarlı. İşte on bootstrap örneğine dayanan NW tahmin edicileri:
Geniş desen orada, birkaç örnek de verilerin tümüne göre açıklamayı takip etmiyor. Soldaki seviyenin durumunun sağdan daha az kesin olduğunu görüyoruz - gürültü seviyesi (kısmen az gözlemden, kısmen geniş yayılmadan), ortalamanın gerçekten daha yüksek olduğunu iddia etmek daha az kolay merkezden daha sol.
Benim genel izlenim, muhtemelen basitçe kendimi kandırmamamdı, çünkü çeşitli yönler, basitçe gürültü olsaydı onları gizlemeye meyilli olan çeşitli zorluklara (yumuşatma, dönüşüm, alt gruplara ayrılma, yeniden örnekleme) oldukça iyi dayanıyor. Öte yandan, göstergeler etkilerin, ilk izlenimimle tutarlı bir şekilde tutarlı olmasına rağmen, göreceli olarak zayıf olduğu ve soldan merkeze doğru hareket beklentisinde herhangi bir gerçek değişiklik olduğunu iddia etmek için çok fazla olabileceği yönündeydi.
Tamam millet, Alexis'in liderliğini takip ettim ve verileri ele geçirdim. İşte karşı bir grafiğidir .
Ve korelasyonlar:
> cor.test(~ x + y, data = data)
Pearson's product-moment correlation
data: x and y
t = -2.6311, df = 169, p-value = 0.009298
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.33836844 -0.04977867
sample estimates:
cor
-0.1983692
> cor.test(~ x + log(y), data = data)
Pearson's product-moment correlation
data: x and log(y)
t = -2.8901, df = 169, p-value = 0.004356
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.35551268 -0.06920015
sample estimates:
cor
-0.2170188
Korelasyon testi olası bir olumsuz bağımlılığa işaret ediyor. Herhangi bir ikiyüzlülük konusunda ikna olmadım (ama bunun olmadığına da ikna oldum).
[Daha önceki bir sürümde sahip olduğum kalıntı grafiği kaldırdım çünkü @whuber'ın tahmin etmeye çalıştığı noktasını göz ardı ettim .]
Russ Lenth, Y ekseni logaritmik olsaydı grafiğin nasıl görüneceğini merak etti. Alexis verileri kazırdı, bu yüzden log ekseni ile çizmek kolaydır:
Kütük ölçeğinde, bir çift modellik veya eğilim ipucu yoktur. Bir günlük ölçeğinin anlamlı olup olmadığı elbette verilerin neyi temsil ettiğinin detaylarına bağlıdır. Benzer şekilde, verinin whuber'in önerdiği gibi iki topluluktan örneklemeyi temsil ettiğini düşünmenin bir anlamı olup olmadığı ayrıntılara bağlıdır.
Zeyilname: Aşağıdaki yorumlara dayanarak, revize edilmiş bir versiyon:
Haklısın, ilişki zayıf, ama sıfır değil. Olumlu olacağını tahmin ediyorum. Ancak, sanmıyorum, sadece basit bir doğrusal regresyon (OLS regresyon) çalıştırın ve öğrenin! Orada, ilişkinin ne olduğunu söyleyen xxx eğimine sahip olacaksınız. Ve evet, sonuçları etkileyebilecek aykırı değerleriniz var. Bu ele alınabilir. Aykırıların ilişkideki etkisini tahmin etmek için Cook'un mesafesini kullanabilir veya bir kaldıraç grafiği oluşturabilirsiniz.
İyi şanslar
X / Y veri noktalarının oryantasyonuna ve dağılımına bakarak sorunuza zaten bazı sezgiler sağladınız. Kısacası haklısın.
Resmi terimlerle oryantasyon, korelasyon işareti ve dağılım olarak varyans olarak ifade edilebilir . Bu iki bağlantı, iki değişken arasındaki doğrusal ilişkinin nasıl yorumlanacağı konusunda size daha fazla bilgi verecektir .
Bu bir ev işi. Yani, sorunuzun cevabı basittir. X üzerinde doğrusal bir Y regresyonunu çalıştırın, şöyle bir şey alacaksınız:
Coefficient Standard Er t Stat
C 53.14404163 6.522516463 8.147781908
X -44.8798926 16.80565866 -2.670522684
Bu nedenle, T-istatistikleri X değişkeninde% 99 güvende önemlidir. Dolayısıyla, değişkenleri bir çeşit ilişki olarak ilan edebilirsiniz.
Doğrusal mı? Bir değişken X2 = (X-ortalama (X)) ^ 2 ekleyin ve tekrar gerileyin.
Coefficient Stand Err t Stat
C 53.46173893 6.58938281 8.11331508
X -43.9503443 17.01532569 -2.582985779
X2 -44.601130 114.1461801 -0.390736951
X'deki katsayı hala önemlidir, ancak X2 değildir. X2 doğrusal olmayanlığı temsil eder. Yani, ilişkinin lineer göründüğünü beyan ediyorsunuz.
Yukarıdaki bir ev işi içindi.
Gerçek hayatta, işler daha karmaşıktır. Bunun bir sınıf öğrenci verisi olduğunu hayal edin. Y - lira cinsinden tezgah baskısı, X - tezgah presinden önce nefesini tutarak dakika cinsinden süre. Öğrencilerin cinsiyeti için rica ediyorum. Sadece eğlenmek için, Z, başka bir değişken ekleyelim ve diyelim ki Z = 1 (kızlar) tüm Y <60 ve Z = 0 (erkekler) ise Y> = 60. Regresyonu üç değişkenle çalıştırın:
Coefficient Stand Error t Stat
C 92.93031357 3.877092841 23.969071
X -6.55246715 8.977138488 -0.72990599
X2 -43.6291362 59.06955097 -0.738606194
Z -63.3231270 2.960160265 -21.39179009
Ne oldu?! X ve Y arasındaki "ilişki" kayboldu! Ah, ilişkinin şaşırtıcı değişken cinsiyetten dolayı sahte olduğu görülüyor .
Hikayenin ahlaki nedir? "İlişkiyi" "açıklayan", ya da hatta ilk etapta kuracak verilerin ne olduğunu bilmeniz gerekir. Bu durumda, öğrencilerin fiziksel aktivitelerine ilişkin verinin bana derhal cinsiyetlerini soracağım ve cinsiyet değişkenini almadan verileri analiz etmekten bile rahatsız olmayacağım söylendiği anda.
Diğer taraftan, dağılım grafiğini "tanımlamanız" istenirse, o zaman her şey yolunda gider. Korelasyonlar, doğrusal uyumlar vb. Evdeki çalışmalarınız için, ilk önce iki adım yeterli olmalıdır: X (ilişki) katsayısına, sonra X ^ 2 (doğrusallık) katsayısına bakın. X değişkenini dediğinizden emin olun (ortalamayı çıkarın).