PCA / yazışma analizindeki “at nalı etkisi” ve / veya “kemer etkisi” nedir?


20

Ekolojik istatistiklerde çok boyutlu verilerin keşifsel veri analizi için birçok teknik vardır. Bunlara 'koordinasyon' teknikleri denir. Birçoğu istatistiklerin başka yerlerindeki ortak tekniklerle aynı veya yakından ilişkilidir. Belki de prototip örnek temel bileşenler analizi (PCA) olabilir. Ekolojistler, 'degradeleri' keşfetmek için PCA'yı ve ilgili teknikleri kullanabilirler (Bir degradenin ne olduğunu tam olarak açıklamıyorum, ancak bu konuda biraz okuyorum.)

Açık bu sayfayı altında son madde Temel Bileşenler Analizi (PCA) okur:

  • PCA'nın bitki örtüsü verileri için ciddi bir sorunu vardır: at nalı etkisi. Bunun nedeni, degradeler boyunca tür dağılımlarının eğriselliğidir. Tür tepki eğrileri tipik olarak tek modlu olmadığından (yani çok eğrisel), at nalı etkileri yaygındır.

Sayfanın ilerisinde, Yazışma Analizi veya Karşılıklı Ortalamalama (RA) altında , "ark efekti" ni ifade eder:

  • RA'nın bir sorunu var: kemer efekti. Ayrıca, degradeler boyunca dağılımların doğrusal olmayışı da neden olur.
  • Kemer, PCA'nın at nalı etkisi kadar ciddi değildir, çünkü eğimin uçları kıvrık değildir.

Birisi bunu açıklayabilir mi? Kısa bir süre önce bu fenomeni daha düşük boyutlu bir alanda verileri temsil eden grafiklerde gördüm (yani, yazışma analizi ve faktör analizi).

  1. Bir "gradyan" daha genel olarak neye karşılık gelir (yani ekolojik olmayan bir bağlamda)?
  2. Verilerinizde bu olursa, bu bir "sorun" ("ciddi sorun") mudur? Ne için?
  3. At nalı / kemerin göründüğü çıktı nasıl yorumlanmalıdır?
  4. Bir çare uygulanması gerekiyor mu? Ne? Orijinal verilerin dönüştürülmesi yardımcı olur mu? Veriler sıralı derecelendirmelerse ne olur?

Yanıtlar bu sitedeki diğer sayfalarda bulunabilir (örneğin, PCA , CA ve DCA için ). Bunları çözmeye çalışıyorum. Ancak tartışmalar yeterince tanıdık olmayan ekolojik terminolojide ele alınmakta ve konuyu anlamanın daha zor olduğu örnekler.


1
(+1) ordination.okstate.edu/PCA.htm adresinde oldukça açık bir cevap buldum . Teklifinizdeki "eğrisellik" açıklaması tamamen yanlıştır - bu onu kafa karıştırıcı yapan şeydir.
whuber

2
Ayrıca bakınız Diaconis ve ark. (2008), Çok boyutlu ölçeklemede nallar ve yerel çekirdek yöntemleri , Ann. Baş. Stat. , cilt. 2, hayır. 3, 777-807'de tarif edilmektedir.
kardinal

Sorularınızı cevaplamaya çalıştım ama bir ekoloji uzmanı ve degradeler olduğumu görmenin bunları nasıl düşündüğümden ne kadar başarılı olduğumdan emin değilim.
Monica'yı eski durumuna getirin - G. Simpson

@whuber: Alıntılanan "eğrisellik" açıklaması kafa karıştırıcı olabilir ve çok açık olmayabilir, ama bunun "tamamen yanlış" olduğunu düşünmüyorum. Eğer türün gerçek "gradyan" boyunca konumun bir fonksiyonu olarak bolluğu (bağlantınızdan bir örnek kullanarak) hepsi lineer olsaydı (belki biraz gürültü nedeniyle bozulabilirse), nokta bulutu (yaklaşık olarak) 1 boyutlu ve PCA olurdu bulur. Nokta bulutu, fonksiyonlar doğrusal olmadığı için bükülür / kavislenir. Değişen Gauss'lu özel bir durum at nalı yol açar.
amip diyor ki Reinstate Monica

@Amoeba Bununla birlikte, at nalı etkisi, tür gradyanlarının eğriselliği nedeniyle ortaya çıkmaz: dağıtım oranlarındaki doğrusallıklardan kaynaklanır . Tırnak, efekti degradelerin şekillerine atfederken, fenomenin nedenini doğru bir şekilde tanımlamaz.
whuber

Yanıtlar:


19

Q1

Ekolojistler her zaman degradelerden bahseder. Çok çeşitli degradeler vardır, ancak bunları yanıt için istediğiniz veya önemli olan değişkenlerin bir kombinasyonu olarak düşünmek en iyisi olabilir. Dolayısıyla bir gradyan zaman, boşluk veya toprak asiditesi veya besinler veya bir şekilde yanıtın gerektirdiği bir dizi değişkenin doğrusal bir kombinasyonu gibi daha karmaşık bir şey olabilir.

Degradeler hakkında konuşuyoruz çünkü uzay veya zamanda türleri gözlemliyoruz ve bir sürü şey bu alana veya zamana göre değişiyor.

Q2

Sonuç olarak, PCA'daki at nalı nasıl ortaya çıktığını anlarsanız ve "gradyan" aslında PC1 ve PC2 ile temsil edildiğinde PC1 almak gibi aptalca şeyler yapmazsanız ciddi bir sorun olmadığı sonucuna vardım. aynı zamanda daha yüksek PC'lere de ayrılmıştır, ancak umarım 2-d gösterim iyidir).

CA'da sanırım aynı düşünüyorum (şimdi biraz düşünmek zorunda kaldım). Çözüm, verilerde güçlü bir 2. boyut olmadığında, CA eksenlerinin diklik gerekliliğini karşılayan birinci eksenin katlanmış bir versiyonunun verilerdeki başka bir yönden daha fazla "ataleti" açıklayacağı şekilde bir kemer oluşturabilir. Bu, PCA ile kemerin tek bir baskın gradyan boyunca sahalardaki tür bolluğunu temsil etmenin bir yolu olduğu yapıdan oluştuğundan daha ciddi olabilir.

İnsanların neden güçlü bir at nalı ile PC1 boyunca yanlış sipariş verme konusunda bu kadar endişe ettiklerini hiç anlamadım. Bu gibi durumlarda sadece PC1 almamalısınız ve sonra sorun ortadan kalkar; PC1 ve PC2'deki koordinat çiftleri bu iki eksenin herhangi birindeki ters dönüşlerden kurtulur.

Q3

At nalı bir PCA biplotunda görürsem, verileri tek bir baskın gradyan veya değişim yönüne sahip olarak değerlendirirdim.

Kemeri görürsem, muhtemelen aynı sonuca varırdım, ama CA ekseni 2'yi açıklamaya çalışmaktan çok dikkatli olurdum.

DCA uygulamam - sadece 2-b parsellerindeki tuhaflıkları görmeyeceğiniz şekilde kemeri (en iyi koşullarda) büküyor, ancak çoğu durumda elmas veya trompet şekilleri gibi diğer sahte yapıları üretiyor. DCA uzayında örneklerin düzenlenmesi. Örneğin:

library("vegan")
data(BCI)
plot(decorana(BCI), display = "sites", type = "p") ## does DCA

resim açıklamasını buraya girin

Parselin soluna doğru örnek noktalardan dışarı fırlayan tipik bir örnek görüyoruz.

S4

m

Bu, verilerin yüksek boyutlu alanında doğrusal olmayan bir yön bulmayı önerecektir. Böyle bir yöntem Hastie & Stuezel'in ana eğrisidir, ancak yeterli olabilecek diğer doğrusal olmayan manifold yöntemleri de mevcuttur.

Örneğin, bazı patolojik veriler için

resim açıklamasını buraya girin

Güçlü bir at nalı görüyoruz. Ana eğri, verilerin m boyutlarında düzgün bir eğri yoluyla bu temel gradyanı veya numunelerin düzenlenmesini / düzenini kurtarmaya çalışır. Aşağıdaki şekilde, yinelemeli algoritmanın temeldeki gradyana yaklaşan bir şey üzerinde nasıl birleştiği gösterilmiştir. (Sanırım daha yüksek boyutlardaki verilere daha yakın olacak şekilde ve kısmen bir eğrinin temel eğri olarak bildirilmesi için öz-tutarlılık kriteri nedeniyle, grafiğin üst kısmındaki verilerden uzaklaşıyor.)

resim açıklamasını buraya girin

Bu resimleri çektiğim blog yayınımdaki kod da dahil olmak üzere daha fazla ayrıntım var. Ancak buradaki ana nokta, ana eğrilerin, bilinen örnek sırasını kolayca geri kazanması, PC1 veya PC2'nin kendi başına yapmamasıdır.

PCA durumunda, ekolojide dönüşümlerin uygulanması yaygındır. Popüler dönüşümler, Öklid mesafesi dönüştürülmüş veriler üzerinde hesaplandığında Öklid olmayan bir mesafeyi geri döndürmeyi düşünebilenlerdir. Örneğin, Hellinger mesafesi

D'Hellbennger(x1,x2)=Σj=1p[y1jy1+-y2jy2+]2

Nerede ybenj bolluğu jörnekte türler ben, yben+ tüm türlerin bolluğunun toplamıdır. beninci örnek. Verileri oranlara dönüştürürsek ve karekök dönüşümü uygularsak, Öklid mesafesini koruyan PCA, orijinal verilerdeki Hellinger mesafelerini temsil edecektir.

At nalı uzun zamandır ekolojide bilinmekte ve incelenmektedir; bazı erken literatür (artı daha modern bir görünüm)

Ana temel eğri referansları

Birincisi çok ekolojik bir sunum.


Teşekkürler Gavin. "Doktorumu seviyorum" ve "Doktorumun beni bir kişi olarak önemsediğini hissediyorum" gibi bir veri kümesinden sıralı derecelendirme 1: 5'i düşünün. Bunlar uzay veya zaman arasında anlamlı bir şekilde dağılmamıştır. Buradaki 'gradyan' ne olurdu?
gung - Monica'yı eski

5x5 tablo ve yüksek N ile, verileri görselleştirmenin bir yolu w / CA'dır. Veriler sıralı, ancak CA bunu tanımıyor; böylece bitişik satırların / sütunların birbirlerinden daha yakın olup olmadığını kontrol edebiliriz. Her iki nokta dizisi de uygun sırada net bir çizgi boyunca düşer, ancak çizgi eğrileri, 2B uzayda orta uçlardan birbirine yakın olacak şekilde eğrilir. Bu nasıl yorumlanmalıdır?
gung - Monica'yı eski

CA, hem satırlar (örnekler) hem de değişkenler (sütunlar) için örnek "skorların" dağılımını maksimize eden bir düzen bulur. Bu dağılımı en üst düzeye çıkaran gizli bir değişken (değişkenlerin doğrusal bir kombinasyonu) bulur. Bu gizli değişkene gradyan diyoruz.
Monica'yı eski durumuna getirin - G. Simpson

Sıkıştırma yeniden, CA ekseni 1 üzerinde birbirlerine daha yakın veya biplot ölçeğinde Öklid mesafesi açısından birbirlerine daha yakın mı demek istiyorsun? Her iki durumda da, bu, verilerin düşük boyutlu bir alana yansıtılmasında gerçekten bir sorundur. DCA, algılanan DCA ekseni 1'in sonunda numuneleri çekerek ve örnekleri başlangıç ​​noktasına yakın sıkıştırarak bu etkiyi geri almaya çalışır. Yani evet, bu bir problem, ancak alttaki gradyanı uygun şekilde yakalama yönteminin esnek olmaması nedeniyle. Onunla yaşayabilir veya daha esnek bir yaklaşım kullanabiliriz (en azından ekolojide).
Monica'yı eski durumuna getirin - G. Simpson

1
Buna daha fazla boyutla bakarsanız, sorun ortadan kalkar. Bu sadece yöntemin bir sınırı olduğunu düşünüyorum; birçok durumda TAMAM yapar, ancak diğerlerinde başarısız olur.
Monica'yı eski durumuna getirin - G. Simpson
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.