Feragatname: Konu hakkında sadece teğetsel bilgim var, ancak kimse cevap vermediği için bir deneyeceğim
Mesafe önemlidir
Mesafelere dayalı herhangi bir boyutsal küçültme tekniği (tSNE, UMAP, MDS, PCoA ve muhtemelen diğerleri) yalnızca kullandığınız mesafe ölçüsü kadar iyidir. @ Amoeba'nın doğru bir şekilde işaret ettiği gibi, tek bedene uyan bir çözüm olamaz, verilerde önemli bulduğunuz şeyleri yakalayan bir mesafe metriğine ihtiyacınız vardır, yani benzer olduğunu düşündüğünüz satırların küçük mesafeleri ve satırları vardır farklı düşünün geniş mesafe var.
İyi bir mesafe metriğini nasıl seçersiniz? İlk olarak, biraz saptırma yapmama izin verin:
Emretmek
Modern makine öğreniminin görkemli günlerinden çok önce, topluluk ekologları (ve büyük olasılıkla diğerleri) çok boyutlu verilerin keşif analizi için güzel planlar yapmaya çalıştılar. Süreç koordinasyonunu çağırıyorlar ve ekoloji literatüründe en azından 70'lere dönüp bugün hala güçlü olmak için aramak yararlı bir anahtar kelime.
Önemli olan, ekolojistlerin çok çeşitli veri kümelerine sahip olmaları ve ikili, tamsayı ve gerçek değerli özelliklerin karışımlarıyla uğraşmalarıdır (örneğin türlerin varlığı / yokluğu, gözlenen örnek sayısı, pH, sıcaklık). Düzenlemelerin iyi çalışması için mesafeleri ve dönüşümleri düşünerek çok zaman harcadılar. Alanı çok iyi anlamıyorum, ancak topluluk verilerinin varyansı olarak Legendre ve De Cáceres Beta çeşitliliğinin gözden geçirilmesi : farklılık katsayıları ve bölümleme , kontrol etmek isteyebileceğiniz çok sayıda olası mesafeyi gösteriyor.
Çok boyutlu ölçekleme
Sıralama için kullanılacak araç, çok boyutlu ölçekleme (MDS), özellikle de metrik olmayan varyanttır (NMDS) ve t-SNE'ye ek olarak denemenizi öneririm. Python dünyası hakkında bilmiyorum, ancak paketin metaMDS
işlevindeki R uygulaması vegan
sizin için çok fazla hile yapıyor (örneğin, benzer iki tane bulana kadar birden fazla çalıştırma).
Bu tartışmalı, yorumlara bakın: MDS ile ilgili güzel kısım, özellikleri (sütunları) da yansıtmasıdır, böylece hangi özelliklerin boyutsallık azaltımını yönlendirdiğini görebilirsiniz. Bu, verilerinizi yorumlamanıza yardımcı olur.
T- SNE'nin anlayışı türetmek için bir araç olarak eleştirildiğini unutmayın, örneğin tuzaklarının bu keşifini görün - UMAP'ın bazı sorunları çözdüğünü duydum, ancak UMAP ile ilgili hiçbir deneyimim yok. Ekolojistlerin NMDS kullanma nedeninin bir kısmı da kültür ve atalet olduğundan şüphe etmiyorum, belki UMAP veya t-SNE aslında daha iyidir. Dürüst olmak gerekirse bilmiyorum.
Kendi mesafenizi katlama
Verilerinizin yapısını anlarsanız, hazır mesafeler ve dönüşümler sizin için en iyi olmayabilir ve özel bir mesafe metriği oluşturmak isteyebilirsiniz. Verilerinizin neyi temsil ettiğini bilmesem de, gerçek değerli değişkenler (örneğin mantıklıysa Öklid mesafesini kullanarak) ve ikili değişkenler için mesafeyi ayrı ayrı hesaplamak ve bunları eklemek mantıklı olabilir. İkili veriler için ortak mesafeler, örneğin Jaccard mesafesi veya Kosinüs mesafesidir . Jaccard ve Cosine'nin her ikisi de[ 0 , 1 ] Öklid mesafesinin büyüklüğü, özelliklerin sayısından bağımsız olarak özelliklerin sayısını yansıtır.
Uyarı kelimesi
Her zaman aklınızda bulundurmanız gerekir ki, ayarlamak için çok fazla topuz olduğundan, görmek istediğinizi görene kadar ayar tuzağına kolayca düşebilirsiniz. Keşif analizinde bundan tamamen kaçınmak zordur, ancak dikkatli olmalısınız.