PCA sonuçlarında örüntü olmadığını nasıl anlarım?


9

19 değişkenli 1000'den fazla örnek veri setim var. Amacım diğer 18 değişkene (ikili ve sürekli) dayalı bir ikili değişken tahmin etmektir. Tahmin değişkenlerinin 6'sının ikili yanıtla ilişkili olduğundan eminim, ancak veri kümesini daha fazla analiz etmek ve eksik olabileceğim diğer ilişkilendirmeleri veya yapıları aramak istiyorum. Bunu yapmak için PCA ve kümelemeyi kullanmaya karar verdim.

PCA'yı normalleştirilmiş veriler üzerinde çalıştırırken, varyansın% 85'ini korumak için 11 bileşenin saklanması gerektiği ortaya çıkıyor. resim açıklamasını buraya girin Çift grafikleri çizerek şunu elde ederim: resim açıklamasını buraya girin

Bundan sonra ne olacağından emin değilim ... PCA'da önemli bir örüntü görmüyorum ve bunun ne anlama geldiğini ve bazı değişkenlerin ikili olduğu gerçeğinden kaynaklanıp kaynaklanmadığını merak ediyorum. 6 kümeyle bir kümeleme algoritması çalıştırarak, bazı lekeler göze çarpıyor gibi görünse de (sarı olanlar) tam olarak bir gelişme olmayan aşağıdaki sonucu elde ediyorum. resim açıklamasını buraya girin

Muhtemelen anlayabileceğiniz gibi, PCA konusunda uzman değilim, ancak bazı öğreticiler ve yüksek boyutlu alandaki yapılara bir göz atmanın nasıl güçlü olabileceğini gördüm. Ünlü MNIST rakamları (veya IRIS) veri seti ile harika çalışıyor. Sorum şu: PCA'dan daha anlamlı olmak için şimdi ne yapmalıyım? Kümeleme yararlı bir şey almıyor gibi görünüyor, PCA'da desen olmadığını nasıl anlayabilirim veya PCA verilerindeki desenleri bulmak için ne denemeliyim?


Tahmincileri bulmak için neden PCA yapıyorsunuz? Neden başka bir yöntem kullanmıyorsunuz? Örneğin, hepsini bir lojistik reg'a dahil edebilirsiniz, LASSO kullanabilirsiniz, bir ağaç modeli inşa edebilirsiniz, torbalama, artırma vb. var.
Peter Flom

PCA'nın iyi açıkladığı "kalıp" ile özellikle ne demek istiyorsun?
ttnphns

@ttnphns yapmaya çalıştığım, tahmin etmeye çalıştığım ikili yanıtın sonucunu daha iyi açıklamak için ortak bir şey olabilecek bazı alt gözlem grupları bulmaktır (bu kısmen everydayanalytics.ca/2014/ 06 /… ). Ayrıca iris veri kümesinde pca ve kümeleme kullanarak, türlerin ( scikit-learn.org/stable/auto_examples/decomposition/… ) izole edilmesi yararlıdır, ancak küme sayısını zaten bildiğimizden bu çok kolaydır.
mickkk

@PeterFlom Zaten lojistik regresyon ve rastgele bir orman modeli çalıştırdım ve iyi performans gösteriyorlar, ancak verileri daha fazla araştırmak istiyorum.
mickkk

Yanıtlar:


7

Varyans grafiğinin PCA'nın burada anlamsız olduğunu söylediğini açıkladınız. 11/18% 61'dir, bu nedenle varyansın% 85'ini açıklamak için değişkenlerinizin% 61'ine ihtiyacınız vardır. Bence PCA için durum böyle değil. PCA'yı 18'in 3-5 faktörü varyansın% 95'ini açıkladığında kullanıyorum.

GÜNCELLEME: PC sayısı ile açıklanan toplam varyans yüzdesi grafiğine bakın. Bu faiz oranı terimi yapı modelleme alanından gelmektedir. 3 bileşenin toplam varyansın% 99'undan fazlasını nasıl açıkladığını görebilirsiniz. Bu, PCA reklamcılığı için yapılmış bir örnek gibi görünebilir :) Ancak, bu gerçek bir şeydir. Faiz oranı tenörleri o kadar ilişkilidir ki, bu yüzden PCA bu uygulamada çok doğaldır. Birkaç düzinelerce tenor ile uğraşmak yerine, sadece 3 bileşenle uğraşıyorsunuz.

resim açıklamasını buraya girin


İlk başta şüphelendiğim şey buydu. Ben doğrudan işaret etmedi çünkü PCA hakkında bu kadar cesur bir açıklama yapmak için çok fazla şey bilmiyorum. Bileşenlerin% x'inden fazlasına ihtiyaç duyulduğunda PCA'nın çok yardımcı olmadığını söylemek güvenli midir? Yani, gördüğüm uygulama örneklerinde, en az varyasyonu genellikle az sayıda bileşen açıklamaktadır.
mickkk

mickkk, kesin bir kural yok. Bana göre gösterge konvekslik varyansı açıkladı grafik. PC sayısı ile açıklanan toplam varyansın kümülatif yüzdesi olarak çizerseniz, çok içbükey bir grafik görmek istersiniz. Doğrusallara yakın olacaktınız: her bileşen veri hakkında kabaca aynı bilgileri taşıyor gibi görünüyor, bu durumda neden orijinal veriler yerine PCA kullanıyorsunuz?
Aksakal

Yeni örnekle yapılan düzenleme çok yardımcı oldu.
mickkk

5

Eğer varsa N->1000 örnekler ve sadece p=19öngörücüler bir modelde tüm öngörücülerin kullanılması oldukça makul olacaktır. Bu durumda bir PCA adımı gereksiz olabilir.

Değişkenlerin sadece bir alt kümesinin gerçekten açıklayıcı olduğundan eminseniz, seyrek bir regresyon modeli, örneğin Elastik Ağ kullanmak bunu belirlemenize yardımcı olabilir.

Ayrıca, PCA sonuçlarının karışık tip girişler (ikili ve gerçek, farklı ölçekler vb., CV sorularına bakınız ) kullanılarak yorumlanması o kadar basit değildir ve bunu yapmak için açık bir neden olmadıkça bundan kaçınmak isteyebilirsiniz.


4

Sorunuzu olabildiğince kısa bir şekilde yorumlayacağım. Anlamını değiştirirse bana haber ver.

Tahmin değişkenlerinin 6'sının ikili yanıtla ilişkili olduğundan eminim [ama] pca'da anlamlı bir model görmüyorum

Ben de çift parsellerinizdeki tutarlılık dışında herhangi bir “önemli model” görmüyorum. Hepsi kabaca dairesel lekeler. Ne görmeyi beklediğini merak ediyorum. Açıkça ayrı nokta bazı parselleri kümeler? Doğrusalya çok yakın birkaç parsel?

PCA sonuçlarınız - blob benzeri çift grafikler ve ilk 11 ana bileşende yakalanan varyansın sadece% 85'i - yaklaşık 6 değişkenin ikili yanıt tahmini için yeterli olmasını engellemez.

Şu durumları hayal edin:

  1. PCA sonuçlarınızın varyansın% 99'unun 6 ana bileşen tarafından yakalandığını gösterdiğini varsayalım.

    Bu, önsezinizi yaklaşık 6 tahmin değişkeni destekliyor gibi görünebilir - belki de bu 6 boyutlu alanda noktaları çok iyi sınıflandıran bir düzlem veya başka bir yüzey tanımlayabilir ve bu yüzeyi ikili bir tahminci olarak kullanabilirsiniz. Bu da beni 2 numaraya getiriyor ...

  2. En iyi 6 ana bileşeninizde bunun gibi görünen çift grafikler olduğunu varsayalım

    Çift grafikte "Desen".

    Ama rastgele bir ikili yanıtı renk kodlayalım

    "Desen" işe yaramaz.

    6 değişkendeki varyansın neredeyse tamamını (% 99) yakalamayı başarmış olsanız bile, ikili yanıtınızı tahmin etmek için uzamsal ayrımı olduğu garanti edilmez.

Aslında birkaç sayısal eşik değerine ihtiyacınız olabilir (bu 6 boyutlu uzayda yüzeyler olarak çizilebilir) ve bir noktanın ikili sınıflandırma üyeliğiniz, o noktanın bu eşiklerin her biriyle ilişkisinden yapılan karmaşık bir koşullu ifadeye bağlı olabilir. Ancak bu sadece bir ikili sınıfın nasıl tahmin edilebileceğinin bir örneğidir. Temsil, eğitim ve tahmin için bir ton veri yapısı ve yöntemi vardır. Bu bir iltifat. Alıntılamak,

Genellikle bir makine öğrenme problemini çözmenin en zor kısmı iş için doğru tahmin ediciyi bulmak olabilir.


1
Çünkü smiley, aslında iyidir olduğunu ilintisiz! Bunu sevdim.
amip

@amoeba, ilişkisiz bilgisayarlardan gülen yüzünüz olabilir mi?
Aksakal

@Aksakal, evet, smiley dağılım grafiği bana sıfır korelasyon sergiliyor gibi görünüyor. Kdbanman, güncellemeyi takdir ediyorum, +1.
amip

@amoeba, tamam, doğrusal korelasyon demek istedin .
Aksakal
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.