Değişkenler arasındaki ilişkileri belirlemek için R paketi [kapalı]


13

Değişkenler arasında ilişki olup olmadığını araştırmak için kullanabileceğim bir R paketi var mı?

Tipik olarak desen ararken korelasyonlara ve sonra bir faset planına bakarım. Sonra verilerdeki değişkenlere manuel olarak bazı dönüşümler uygularım. Bu işlemi bir R paketi ile hızlandırabilir miyim diye merak ediyordum.


Kendi süreciniz varsa, her zaman kendi paketinizi yuvarlayabilirsiniz. Veya sadece komut dosyanızın başına yüklenen bazı dosyalarda yeniden kullanılabilir bir işlev.
Brandon Bertelsen

Yanıtlar:


9

AFAIK, hayır. Daha kesin olmak gerekirse, tek bir işlev çağrısı aracılığıyla Keşif Veri Analizi (EDA) olarak adlandırılan şeyin bir parçasını yapacak tek bir R paketi bilmiyorum - Yeniden ifade ve vahiy yönlerini düşünüyorum Hoaglin, Mosteller ve Tukey'de tartışıldı, Sağlam ve Keşif Verileri Analizini Anlama . Wiley-Interscience, özellikle 1983.

Bununla birlikte, R'de özellikle verilerin etkileşimli keşfi konusunda bazı şık alternatifler vardır (İlginç tartışma için buraya bakın: Etkileşimli veri görselleştirmesi ne zaman yararlıdır? ). düşünebilirim

  • iplots , veya halefi acinonyx interaktif görselleştirme için, (fırçalama, bağlantılı araziler için izin ve benzeri) (bu özelliklerden bazıları bulunabilir latticist pakette; nihayet, rgl . 3D etkileşimli görselleştirme için büyük)
  • Veri azaltma (Çok boyutlu ölçeklendirme) ve Projeksiyon İzlemesi de dahil olmak üzere etkileşimli ve dinamik ekranlar için ggobi

Bu sadece etkileşimli veri araştırması içindir, ancak bunun EDA'nın özü olduğunu söyleyebilirim. Her neyse, yukarıdaki teknikler sayısal değişkenler arasındaki iki değişkenli veya daha üst düzey ilişkileri araştırırken yardımcı olabilir. Kategorik veriler için vcd paketi iyi bir seçenektir (görselleştirme ve özet tabloları). Daha sonra, karışık veri türlerinin değişkenleri arasındaki ilişkileri araştırmak için vegan ve ade4 paketlerinden önce geldiğini söyleyebilirim .

Son olarak, R'de veri madenciliği ne olacak ? (Bu anahtar kelimeyi Rseek'te deneyin )


(+1) Soruları yanıtlarken seni görmek ne güzel!
whuber

+1 Btw: küçük yazım hatası - Acinonyx (i & y aktarılır).
Iterator

@Iterator Yazım hatası yakaladığınız için teşekkür ederiz. (Yanıtınızı + 1'ledim, Wilson'ın makalesini alıntıladığınız iyi oldu).
chl

2
Şimdi loonde waddella.github.io/loon Kredi bunu belirtmek için @hadleywickham'a gidiyor.
Ari B. Friedman

11

Veri kümenizdeki değişkenlerin nasıl ilişkilendirildiğine hızlı bir şekilde göz atmak istiyorsanız, psych paketindeki pairs.panels () işlevine bakın. Burada çiftlerin işlevi hakkında biraz yazdım .

Pairs () veya psych :: pairs.panels () işlevini kullanarak dağılım grafiği matrisleri yapmak oldukça kolaydır.

pairs.panels(iris[-5], bg=c("blue","red","yellow")[iris$Species], pch=21,lm=TRUE)

resim açıklamasını buraya girin


7

Check out scagnosticspaketi ve özgün araştırma makalesi . Bu iki değişkenli ilişkiler için çok ilginç. Çok değişkenli ilişkiler için, projeksiyon arayışı çok iyi bir ilk adımdır.

Bununla birlikte, genel olarak, alan adı ve veri uzmanlığı, ilişkileri hızlı bir şekilde araştırmak için yöntemlerinizi hem daraltacak hem de geliştirecektir.


7

Chart.Correlation fonksiyon PerformanceAnalytics plot.pairs @Stephen Turner belirtilen işlev için bir lös fonksiyonu yerine bir doğrusal model ve korelasyonları öneme sahip düzeltir hariç benzer bir işlevsellik sağlar.

library(PerformanceAnalytics)
chart.Correlation(iris[-5], bg=c("blue","red","yellow")[iris$Species], pch=21)

Grafik


5

Eğer korelasyon ile çalışmak mümkün dönüşümler arıyorsanız, o zaman henüz söz edilmemiştir bir araç bu faydalı is olabilir acebulunabilir acepack(sıra ve muhtemelen diğer paketler) paketin. Bu, bir dizi x değişkeni ile ay değişkeni arasındaki korelasyonu en üst düzeye çıkarmak için dönüşümleri bulmak için birçok farklı dönüştürmeyi (düzleştirici kullanarak) denemeye yönelik etkileşimli bir işlem yapar. Dönüşümleri çizmek daha sonra anlamlı dönüşümler önerebilir.


2

Yukarıdaki korelasyon ve çizim olarak adlandırılan doğrusal olmayan bağımlılığın bir ölçüsünü hesaplamak için 'enerji' paketindeki DCOR işlevini kullanabilirsiniz. Pearson korelasyonu ile ilgili mesele sadece değişkenler arasındaki doğrusal ilişkileri tespit edebilmesidir. Belirtilen DCOR işlevinde dizin için write parametresini seçtiğinizden emin olun.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.