Korelasyonu iyileştirmek için veri kümesinde ortalamaların kullanılmasına izin veriliyor mu?


9

Bağımlı ve bağımsız değişkenli bir veri setim var. Her ikisi de bir zaman serisi değil. 120 gözlemim var. Korelasyon katsayısı 0.43

Bu hesaplamadan sonra, her iki değişken için her 12 gözlem için ortalama olan bir sütun ekledim ve 108 gözlem (çift) ile 2 yeni sütun ortaya çıktı. Bu sütunların korelasyon katsayısı 0.77'dir

Korelasyonu bu şekilde geliştirdim. Buna izin verilir mi? Ortalamaları kullanarak bağımsız değişkenin açıklama gücünü artırdım mı?


4
Yaptığınız tek şey verileri bir yumuşatma filtresiyle çalıştırmak. Bu, sinyal işlemede her zaman yapılır ve mükemmel bir şekilde kabul edilebilir ve genellikle veriler bile kullanılabilir olmadan önce gereklidir. Elektronik ölçümlerde daima yaygın olan gürültüyü ortadan kaldırır. Ancak, özel sorununuz için kabul edilebilir olup olmayacağı, elde etmeye çalıştığınız şeyin özelliklerine ve muhtemelen büyük ölçüde verilerinizde ne kadar "gürültü" ve "kalite" olduğuna bağlıdır. Ben sadece "Her ikisi de bir zaman serisi değildir" fark ettim, bu yüzden yaptığınız şeyin anlamsız olduğundan şüpheliyim çünkü düzeni değiştirmek sonuçları değiştiriyor
Dunk

Hepinize teşekkür ederim. Bağımlı değişkenim, bir bahis sisteminin aylık sonuçlarının bir serisidir (bu sonuçlar ilişkili değildir). Bağımsız değişken, oluşturduğum bir göstergenin sonucudur. Bu gösterge, belirli bir ayda spor karşılaşmalarının puanlarının ne kadar aşırı olduğuna dair bir puan üretir (bu spor sonuçları ilişkili değildir). Korelasyon katsayısının bu kadar iyileştiği beni şaşırtsa da yaptığımın anlamsız olduğundan şüpheleniyordum.
user2165379

2
Emin değilim ama herhangi bir verinin ortalamasının benzer sonuçlar vereceğini düşünüyorum. Ortalamalamanın aykırı değerlerin etkilerini azalttığını düşünürüm. Böylece, korelasyonun iyileştirilmesi gerekecektir. Her ne kadar, bazı mathy-geek'in tersi etkiye neden olacak iyi seçilmiş verilerle gelebileceğine bahse girerim, ancak böyle verilerin gerçek dünyada olmasını beklemezdim.
Dunk

Bu verilerin ne için olduğunu belirttiniz mi? Ancak, genel olarak, verilerinizi belirttiğiniz kitleye sunarken, verilerin nasıl türetildiği hakkında açıklama sağlamak iyi bir uygulamadır.
Jon Milliken

3
Temsil etmesi amaçlanan ortalama değerlerin korelasyonu nedir? Artık orijinal değişkenler arasındaki korelasyonun makul bir tahmini değildir.
Glen_b

Yanıtlar:


15

İlk olarak iki vektöre bakalım

    2 6 2 6 2 6 2 6 2 6 2 6

ve ikinci vektör

   6 2 6 2 6 2 6 2 6 2 6 2

Elde edeceğiniz Pearson korelasyonunu hesaplamak

cor(a,b)
[1] -1

Ancak, değerler için birbirini izleyen çiftlerin ortalamasını alırsanız, her iki vektör de aynıdır. Özdeş vektörlerin korelasyonu 1'dir.

  4 4 4 4 4 4  

Bu basit örnek, yönteminizin bir dezavantajını gösterir.

Düzenleme : Daha genel açıklamak için: Korelasyon katsayısı aşağıdaki şekilde hesaplanır.

E[(XμX)(YμY)]σX σY

Biraz ortalama Xs ve bazıları Ys arasındaki farkları değiştirir X ve μX yanı sıra arasındaki fark Y ve μY.


1
Bazı işaretler ekledim ancak tanımlayabilirsiniz μ ve σterimler açıkça.
Nick Cox

Teşekkür ederim. Bu, ortalamaları kullanarak sonuçlarımın 'şişirilmiş' olduğu ve gözlemlerin ortalamasız olarak kullanılmasının her zaman daha iyi olduğu anlamına mı geliyor?
user2165379

Hipotez testi için ortalamalara değil, verilere bakmalısınız. Diğer alanlarda tanımlayıcı istatistikler yararlı bir araç olabilir. Ayrıca, kantil (özellikle medyan) ve varyans, çarpıklık ve basıklık gibi daha yüksek (merkezi) anlar gibi tanımlayıcı istatistiklerin diğer ölçümlerine de bakmalısınız. Ancak bizim durumumuzda bu yararlı değildir. A ve b vektörleri aynı niceliklere, aynı momentlere ve aynı merkezi momentlere sahiptir.
Ferdi

1
Ortalama alma, yarı rastgele dağılmayı kaldırarak korelasyonları artırma eğilimindedir, ancak yeterince sapkın bir ortalama alma korelasyonları sıfıra doğru itebilir.
Nick Cox

Teşekkür ederim. Eğer ortalama, genel olarak korelasyonu artırma eğilimindeyse, bu bir gelişme olmadığı anlamına mı gelir? Yoksa bir gelişmedir mi, çünkü yarı rastgele dağılım dağılmış mıdır?
user2165379

10

Ortalama alma çekici veya kullanışlı olabilir. Ayrıca, en aldatmacada bir aldatma kaynağı olabilir, bu nedenle ortalama alma için açık bir gerekçe olsa bile dikkatli bir şekilde ilerleyin.

İşte iyi bir fikir olmayan bir durum. Grupların dikkatli tanımlanmasıyla (genellikle) verilerinizi her biri iki değişken üzerinde farklı olan iki özet noktaya indirgeyebilirsiniz; ve sonra büyüklükle mükemmel bir korelasyon elde edersiniz1. Tebrikler ya da değil! Buradaki iyileştirme, prosedür için iyi bir bağımsız neden olmadan sahte. Tehlikeye yaklaşmak için bu aşırı duruma yaklaşmanıza gerek yoktur.

Ortalamalamanın mantıklı olabileceği bazı durumlar vardır. Örneğin, mevsimsel varyasyonlar çok az ilgi gösteriyorsa veya hiç ilgi göstermiyorsa, yıllık değerlere ortalama koymak, bu yıllık değerlere odaklanabileceğiniz azaltılmış bir veri kümesi oluşturur.

Çeşitli alanlarda araştırmacılar, örneğin bireyler, ilçeler, devletler, ülkeler için işsizlik ve suçlar arasında oldukça anlamlı ölçeklerdeki korelasyonlarla ilgilenebilirler (en mantıklı olan terimlerin yerine).

İlgi ve çoğu zaman çıkarım sorunlarının önemli bir kaynağı, farklı ölçeklerde veya seviyelerde neler olup bittiğini yorumlamaktır. Örneğin, alanlar için işsizlik oranı ve suç oranı arasında yüksek bir korelasyon olması, mutlaka işsizlerin suçlu olma eğiliminin yüksek olduğu anlamına gelmez; bunun net olması için bireyler hakkındaki verilere ihtiyacınız vardır. Veri sağlama, verilerin, belki de ekonomi ya da gizlilik meselesi olarak, sadece en az ilgi çekici ölçekte mevcut olması, azami derecede garip olabilir.

Ayrıca, birçok ölçümün ilk etapta, genellikle küçük zaman aralıklarında ve / veya küçük boşluk aralıklarında ortalamalar olduğunu, bu nedenle verilerin her durumda ortalamaya ulaştığını unutmayın.


3
@ Ferdi'nin ortalamanın birçok farklı yolu olabileceğinin altını çizerek verdiği cevabı tekrarlıyorum. Bu ekstra bir belirsizlik kaynağı yaratır. Zorluk, özellikle küçük alanları daha büyük alanlara toplamada akuttur.
Nick Cox
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.