Sıcaklığa karşı dondurma satışının bu PCA grafiğini anlamak


9

Dondurma Satışlarına karşı kukla bir sıcaklık verileri alıyorum ve 2 kategoriyi (tamamen kukla) ayırt etmek için K Means (n ​​clusters = 2) kullanarak kategorilere ayırdım.

Şimdi bu veriler üzerinde Temel Bileşen Analizi yapıyorum ve amacım gördüklerimi anlamak. PCA'nın amacının boyutsallığı azaltmak (bu durumda değil) ve elementlerin varyansını göstermek olduğunu biliyorum. Fakat aşağıdaki PCA grafiğini nasıl okuyorsunuz, yani PCA grafiğindeki sıcaklık ve dondurmanın sıcaklığı hakkında anlatabileceğiniz hikaye nedir? 1. (X) ve 2. (Y) PC'ler ne anlama geliyor?

resim açıklamasını buraya girin


1
Bu bir yorum olmalı, ama ben yeterli temsilcim yok. Aşağıdaki bağlantı PCA hakkında mükemmel bir öğreticidir. Özellikle, Oyuncak Örneği "bir resim ile anlayabilecek kadar basit" ve "gelecekteki problemlerde bir benzetme olarak kullanılabilecek kadar karmaşık" arasında iyi bir denge kurar. Bence okumak PCA'nın sizin için neler yapabileceğini ve yapamayacağını temizlemeye yardımcı olabilir. cs.princeton.edu/picasso/mats/PCA-Tutorial-Intuition_jp.pdf
Jason

Yanıtlar:


18

PCA'nın amacının boyutsallığı azaltmak olduğunu biliyorum

Bu genellikle insanların varsaydığı şeydir, ancak aslında PCA verilerinizin dik bir temsili olarak temsil edilmesidir. Bu temel hala orijinal verilerinizle aynı boyutluluğa sahiptir. Hiçbir şey kaybolmadı ... henüz. Boyutsallık azaltma kısmı tamamen size kalmış. PCA'nın sağladığı şey,kyeni projeksiyonunuzun boyutları en iyisidir kverilerinizin temsil edilebileceği boyutlar. En iyi ne anlama geliyor? Açıklanan varyans burada devreye girer.

açıkçası bu durumda değil

Bundan o kadar emin olmazdım! İkinci grafiğinizden, görsel olarak verilerinizden gelen birçok bilgi yatay bir çizgiye yansıtılabiliyor gibi görünüyor. Bu 2 boyutta olan orijinal arsa yerine 1 boyut! Açıkçası bazı bilgileri kaybediyorsunuz, çünkü Y eksenini kaldırıyorsunuz, ancak bu bilgi kaybının sizin için kabul edilebilir olup olmadığı sizin aramanızdır.

PCA'nın sitede ne olduğu ile ilgili bir sürü soru var, bu yüzden onları burada , burada , burada veya burada kontrol etmenizi öneririz . Bundan sonra başka sorularınız varsa, lütfen bunları gönderin, size yardımcı olmaktan memnuniyet duyarız.

Asıl sorunuz olarak:

PCA grafiğindeki sıcaklık vs dondurma hakkında anlatabileceğiniz hikaye nedir?

Yeni koordinat eksenleri orijinal koordinatların doğrusal bir kombinasyonu olduğundan, o zaman ... temelde hiçbir şey! PCA size aşağıdaki gibi bir cevap verecektir: (sayılar oluşur):

PC1=2.5xdondurma-3.6xsıcaklıkPC2=-1.5xdondurma+0.6xsıcaklık

Bu sizin için yararlı mı? Olabilir. Ama tahmin etmem :)

Düzenlenen

Yararlı olduğunu düşündüğüm bu kaynağı ekleyeceğim çünkü etkileşimli grafikler harika.

Tekrar düzenlendi

En iyi olanı netleştirmek için k anlamına geliyor:

PCA, veriler üzerlerine yansıtıldığında en yüksek varyansı veren boyutları bulmaya çalışır. Verilerinizinn>k boyutlar, ilk k PC'ler verilerinizde diğerlerinden daha fazla varyansı açıklar kboyutları olabilir. En iyi demek istediğim bu k. Bunun sizin için yararlı olup olmadığı başka bir şeydir.


6
Ayrıca, değişkenleri ölçeklendirdiğinizden emin olun. Aksi takdirde satışlar (çok daha yüksek rakamlar) varyansın çoğunluğunu açıklayacaktır. Muhtemelen PC'lerinizdeki birimler neden bu kadar farklıdır.
Filipe

İyi yanıt, ancak ifadeniz "... verilerinizin muhtemelen temsil edilebileceği en iyi kk boyutları ..." belki de aşırı genelleştirilmiştir. Maksimum varyansın yönü, iki sınıfı ayırmak için yararlı olmayabilir. Her nasılsa, genellikle iyi çalışır, ancak PCA belirli bir amaç için en iyi seçimleri yapmak için her şeyi yaptığı için değil.
Wayne

"Aslında PCA, verilerinizin dikey bir temsili olduğunu gösterir." Ben sürekli birçok kişi gerçeği ile sürpriz değil ... Bu noktayı iyi anlamak
3x89g2

5

Ilan adamın iyi cevabına, temel bileşenlerinizin oldukça basit bir yorumu olduğunu ekleyeceğim, ancak bu basit 2D durumda, sadece dağılım grafiğine bakarak yorumlayabileceğimiz şeylere fazla bir şey eklemiyor.

İlk PC, ılımanlık ve dondurma tüketiminin ağırlıklı bir toplamıdır (yani her iki katsayının pozitif olduğu doğrusal bir kombinasyon). Sağ tarafta çok fazla dondurmanın satıldığı sıcak günleriniz var ve sol tarafta daha az dondurmanın satıldığı daha soğuk günleriniz var. Bu PC varyansınızın çoğunu ve aldığınız grupları bu iki tarafla eşleştiriyor.

İkinci PC, sıcaklık ve dondurma tüketiminin ilk PC tarafından vurgulanan yakın doğrusal ilişkiden nasıl uzaklaştığını ölçer. Grafiğin üst kısmında, aynı sıcaklığa sahip diğer günlere kıyasla daha fazla dondurma satılan günlerimiz ve alt sıcaklığa göre beklenenden daha az dondurma satılan günlerimiz var. Bu bilgisayar varyansın sadece küçük bir kısmını açıklıyor.

Yani, ana bileşenlerden bir hikaye anlatabiliriz, ancak sadece iki değişkenle PCA olmadan fark edebileceğimiz aynı hikaye. Daha fazla değişkenle PCA daha kullanışlı hale gelir çünkü aksi takdirde fark edilmesi daha zor olan hikayeler anlatır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.