Ayrık veriler ve PCA'ya alternatifler


9

Yakın ilişkili birkaç böcek türünde morfolojik kanat karakterlerini tanımlayan ayrık (sıralı, meristik ve nominal) değişkenler veri kümem var. Yapmak istediğim şey, morfolojik özelliklere dayanarak bana farklı türlerin benzerliğinin görsel bir temsilini verecek bir tür analiz yapmak. Kafama gelen ilk şey PCA (bu oluşturmak istediğim görselleştirme türüdür), ancak içine baktıktan sonra (özellikle aşağıdaki gibi diğer sorular: Temel bileşen analizi, sürekli bir karışım içeren veri kümelerine uygulanabilir mi? ve kategorik değişkenler?), PCA'nın ayrı veriler için uygun olmadığı anlaşılmaktadır (PCA, literatürdeki bu tür çalışmalarda kullanılır, ancak her zaman sürekli verilerle birlikte). Bu verilerin neden uygunsuz olduğunun istatistiksel arka planını göz ardı ederek, PCA biyolojik sorumla ilgili olarak nispeten mükemmel sonuçlar veriyor (ilgili hibrit gruplar baba gruplarının tam ortasına düşüyor).

Ayrıca istatistikleri yatıştırmak için birden fazla yazışma analizi denedim (en azından benim anlayışım kadarıyla), ancak gözlemlerim (biyolojik bireyler) olan PCA ile alacağım birine benzer bir arsa elde edemiyorum. farklı gruplamaları (biyolojik olarak farklı türler) göstermek için renklerle ayrılırlar. Bu analizin değişkenlerin (burada morfolojik özelliklerim) bireysel gözlemlerle değil birbiriyle nasıl ilişkili olduğunu açıklamayı amaçladığı görülmektedir. Ve gruba göre renklendirilmiş gözlemler çizdiğimde, tüm bireyleri tanımlayan tek bir değer (belki de ortalama) alıyorum. Analizi R'de yaptım, bu yüzden belki de arsa konusundaki fikrimi alacak kadar R-meraklı değilim.

Verilerimle bu tür bir analizi denemede doğru muyum yoksa yoldan çıkıyorum mu? Eğer söyleyemediyseniz, istatistiksel uzmanlığım sınırlıdır, bu nedenle bu analizlerin altında gerçekleşen denklemler tamamen başımın üstündedir. Bu analizi tamamen açıklayıcı bir şekilde yapmaya çalışıyorum (daha fazla aşağı akış numarası yapmam gerekmiyor) ve bu durumda PCA'nın yeterli olacağını, ancak emin olmadığımdan emin olmak istiyorum. çok fazla istatistiksel varsayımı ihlal etmek.


1
Birden fazla yazışma analizi ile istediğiniz arsa türünü elde edebilmelisiniz. Bize verilerinize bir bağlantı verebilirseniz, bir göz atabiliriz. Çok boyutlu ölçekleme başka bir olasılıktır, ancak MCA bir çeşit çok boyutlu ölçekleme olarak görülebilir
kjetil b halvorsen

Gizli sınıf kümeleme başka bir metodolojik seçenektir. Temel olarak, LCA kümelenmede kullanılan artıkta heterojenliği bir 'model' oluşturur. Tarihsel olarak literatürde her ikisi de sosyolojik olmak üzere 2 geniş araştırma akışı olmuştur. Orijinal LCA 50'li yıllarda Columbia'daki Lazarsfeld'e kadar uzanıyor, denetimsizdi ve kategorik veriler kullanıyordu -R'nin poLCA buna bir örnektir. Daha yakın zamanda LCA için denetimli sonlu karışım modelleri geliştirilmiştir. R modüllerinin farkında değilim ama bunu yapan ucuz bir ticari yazılım var ( Latent Gold ). LG web sitesinde LCA ile ilgili iyi makaleler var
Mike Hunter

Yanıtlar:


1

Biraz amacınıza bağlıdır, ancak bir görselleştirme aracının peşindeyseniz, güzel resimler üretebilen ve kategorik ve sürekli verilerin bir karışımı için çalışacak rastgele orman yakınlığının çıktısına çok boyutlu ölçeklendirme uygulayan bir hile vardır. Burada türleri öngörücülerinize göre sınıflandırırsınız. Ancak - ve bu büyük bir uyarı - Bu görselleştirmelerin çıktısının ne anlama geldiğini gerçekten bilip bilmediğini bilmiyorum.

Başka bir alternatif, Gower benzerliği gibi bir şeye çok boyutlu ölçeklendirme uygulamak olabilir.

Asılı bir soru var - nihai amacınız nedir? Hangi soruyu cevaplamak istiyorsun? Bu teknikleri, belki de daha fazla ve daha iyi sorular sormanıza yol açacak keşif araçları olarak hoşuma gidiyor, ancak size ne açıkladıklarını veya söylediklerini bilmiyorum.

Belki sorunuzu çok fazla okuyorum, ancak hangi safsa değişkenlerinin iki saf tür arasında oturan melezler için değerlere sahip olduğunu keşfetmek istiyorsanız, yol gösteren öngörü değişkenlerinin değerlerini tahmin etmek için bir model oluşturmak daha iyi olabilir türlere ve melezlere doğrudan. Değişkenlerin birbirleriyle nasıl ilişkili olduğunu ölçmek istiyorsanız, belki de bir korelasyon matrisi oluşturun - ve bunun için birçok düzgün görselleştirme var.


Giriş için teşekkürler. Nihayetinde, bu analizden istediğim tek şey, bazı türlerin diğerlerine göre benzerliğinin niceliksel bir ölçüsüne sahip olmaktır (sadece gestalt görünümüne dayanan, başka bir yakından ilişkili türe benzeyen, ancak genetik olarak farklı bir türe benzeyen iki türüm var, Antik hibridizasyonu öneriyor). Bu araştırma sorununun asıl amacı grubun genetiğini araştırmaktır ve bu morfolojik analiz basitçe tüm biyolojik hikayeye katkıda bulunacaktır. Bu çok boyutlu ölçekleme PCA'ya benzer bir görselleştirmeye yol açar mı?
JD

Benzer görselleştirmeler alırsınız. MDS'nin fikri / sezgisi, yüksek boyutlu alandan (sizin için morfolojik özelliklerin uzayından) bazı düşük boyutlu alanlara (2B düz düzlem gibi) bir eşleme oluşturmaktır, böylece yüksek boyutlu alandaki mesafe "hemen hemen düşük boyutlu uzay ile aynıdır. Daha sonra 2B düz düzlemi çizebilirsiniz. Ancak, bir yerden yüksek boyutlu alan için bir mesafe metriği elde etmeye bağlıdır.
Patrick Caldon
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.