En güçlü korelasyon ile veri noktalarının alt kümesini seçmek için otomatik prosedür?


15

En güçlü korelasyona sahip (sadece iki boyut boyunca) daha büyük bir havuzdan veri noktalarının alt kümesini seçmek için bazı standart prosedürler var mı (referans olarak gösterilebilir)?

Örneğin, 100 veri noktanız olduğunu varsayalım. X ve Y boyutları boyunca mümkün olan en güçlü korelasyona sahip 40 noktadan oluşan bir alt küme istiyorsunuz.

Bunu yapmak için kod yazmanın nispeten basit olacağını fark ettim, ama bunun için alıntı yapmak için herhangi bir kaynak olup olmadığını merak ediyorum?


3
"Bunu yapmak için kod yazmanın nispeten basit olacağını anlıyorum". Ah? Ve bunu nasıl yapardın?
user603

3
Sanırım "en iyi alt küme korelasyonu" gibi bir şey ifade ediyordu; alt kümelerini seçin ( k = 40 onun örnekte) dışına veri noktaları sizin N ( N = 100 onu örnekte) ve korelasyon tahminini hesaplamak p'ye ( X , Y ) o noktaları bir alt kümesini bilmek anlamına geldiğini (varsayarak en iyi doğrusal korelasyon ile). Bununla birlikte, bu işlem büyük N için hesaplama açısından pahalı görünmektedir , çünkü katsayının katını hesaplamanız gerekir . kk=40NN=100ρ(X,Y)N(Nk)
Néstor

1
değişkenlerinin doğrusal kombinasyonlarına bakmaya istekli iseniz, aradığınız kanonik korelasyonlar budur. Aksi takdirde, korelasyon özelliği seçimi ilgi çekici olabilir. X
MånsT

Sanırım bazıları beni yanlış anlıyor olabilir. @ Néstor doğru gibi görünüyor. Her biri X değeri ve Y değeri olan 100 öğe vardır. X ve Y değerleri arasında mümkün olan en güçlü korelasyona (w / lineer regresyon) sahip 40 alt kümesini bulmak istiyorum. Tüm arama alanını keşfetmek için kod yazabilirim, ancak böyle bir yöntemi desteklemek için ne söyleyebilirim? Olası tüm alt kümeler arasında en uygun korelasyonu bulmak için ne denir?
Julie

1
Örneğin minimum kalıntı varyansıyla ölçülen korelasyonu en üst düzeye çıkarmak veya en uygun regresyon çizgisini elde etmekle ilgileniyor musunuz? Veri noktalarınızı seçtiğinizde ikisi aynı değildir.
jbowman

Yanıtlar:


17

Yönteminizin , sadece wikipedia'dan başka bir şeye ihtiyacınız varsa başka referansları olan bu wikipedia makalesinde açıklanan genel kategoriye uyduğunu söyleyebilirim . Bu makaledeki bazı bağlantılar da geçerlidir.

Uygulanabilecek diğer terimler (biraz daha fazla arama yapmak istiyorsanız) "Veri Tarama" ve "Verileri itiraf edene kadar işkence etme" yi içerir.

Aynı x veya y değerleri olmayan 2 noktayı seçerseniz, her zaman 1 arasında bir korelasyon elde edebileceğinizi unutmayın. Chance dergisinde birkaç yıl önce, aslında hiçbir korelasyonu olmayan bir x ve y değişkenine sahip olduğunuzda, artan veya azalan bir eğilimi göstermek için x'leri depolamak ve kutulardaki y'leri ortalamanın bir yolunu bulabileceğinizi gösteren bir makale vardı ( Şans 2006, Görsel Vahiy: Sonuçların Talihsiz İkilemi İle Orada Olmayanı Bulmak: Mendel Etkisi, sf. 49-52). Ayrıca orta düzeyde pozitif bir korelasyon gösteren tam bir veri kümesi ile negatif bir korelasyon gösteren bir alt küme seçmek mümkündür. Bunlar göz önüne alındığında, önerdiğiniz şeyi yapmak için meşru bir nedeniniz olsa bile, herhangi bir şüpheciye, ortaya çıkardığınız herhangi bir sonuca karşı kullanacak çok sayıda argüman veriyorsunuz.


Amerikan İstatistikçi'nin makalesinin adı nedir?
varsayılan

1
Makaleyi gördüğüm yerde yanlış hatırladım, aslında Amerikan İstatistikçi yerine Şans Dergisi'ndeydi. Bunu düzelttim ve ilgili tarafların kopyaları kolayca bulabilmesi için yılı, başlığı ve sayfa numaralarını ekledim.
Greg Snow

4

RANSAC algoritması istediğiniz gibi geliyor. Temel olarak, verilerinizin bir çift ve aykırı karışımdan oluştuğunu varsayar ve verilerin alt kümelerini tekrar tekrar örnekleyerek, bir model takarak, diğer her veri noktasını modele sığdırmaya çalışarak, sonlandırıcıları tanımlamaya çalışır. İşte bununla ilgili wikipedia makalesi .

Sizin durumunuzda, en az 40 puana uyan mevcut en iyi modeli kaydederken algoritmayı tekrarlamaya devam edebilirsiniz, böylece mutlak en iyi korelasyonu garanti etmez, ancak yakınlaşmalıdır.


1

Bunun iyi bir uygulama olacağı bir bağlam hayal etmekte zorlanıyorum, ancak bir an için bunu yapmak için gerçekten iyi bir nedeniniz olduğunu varsayalım.

Bir kaba kuvvet algoritması şöyle bir şey olabilir:

  1. Genel N örneğinizin tüm olası n alt örneklerini hesaplarsınız. Çoğu istatistiksel paket, bunu sizin için yapacak yedeksiz kombinasyonları hesaplama işlevlerine sahiptir.

  2. Alt örneklerin her biri için x ve y arasındaki korelasyonu tahmin edersiniz ve bu setten maksimum değeri seçersiniz.

Bu posterin referansı ile ilgili orijinal posterin yorumunu yeni gördüm. Sonuçta birisinin bu yordam için belirli bir ada sahip olduğundan emin değilim, sadece veri kümenizdeki tüm olası korelasyonun ampirik bir dağılımını oluşturuyorsunuz ve maksimumu seçiyorsunuz. Önyükleme yaparken benzer yaklaşımlar kullanılır, ancak bu durumda ampirik değişkenlikle ilgilenirseniz, bunları max ile ilişkili belirli bir alt örnek almak için KULLANMAYIN.


2
1032N-=100n=40

Bu konuda sinsi olmaya gerek yok :-p. Doğru tespit.
David

Üzgünüm ... Ama bu rakamları seviyorum, çünkü bize gelişmiş bir algoritma için çok yer veriyorlar :-).
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.