Temel bileşen analizi yapmadan önce verileri neden log dönüşümü?


16

Burada bir öğreticiyi takip ediyorum: PCA'yı daha iyi anlamak için http://www.r-bloggers.com/computing-and-visualizing-pca-in-r/ .

Eğitici Iris veri kümesini kullanır ve PCA'dan önce bir günlük dönüşümü uygular:

[1] ve seti tarafından önerildiği gibi Bildirimi aşağıdaki kodda biz sürekli değişkenler için bir günlük dönüşümü geçerli olduğunu centerve scalehiç eşit TRUEçağrısında prcompönce PCA uygulanmasından değişkenleri standardize etmek.

Birisi bana neden İris veri kümesinin ilk dört sütununda günlük işlevini kullandığınızı açık bir şekilde açıklayabilir mi? Veriyi göreceli hale getirmekle ilgili bir şey olduğunu anlıyorum, ancak günlük, merkez ve ölçek işlevinin tam olarak ne olduğunu karıştırıyorum.

Yukarıdaki referans [1] kısaca şunları söyleyen Modern uygulamalı istatistikler S-PLUS ile Bölüm Ven.1 ve Ripley'dir :

Veriler fiziksel ölçümlerdir, bu nedenle sağlam bir başlangıç ​​stratejisi günlük ölçeğinde çalışmaktır. Bu baştan sona yapıldı.


Yanıtlar:


19

İris veri seti PCA'yı öğrenmek için iyi bir örnektir. Bununla birlikte, sepals ve taç yapraklarının uzunluğunu ve genişliğini açıklayan ilk dört sütun, güçlü eğri verilere bir örnek değildir. Bu nedenle, verilerin log-dönüşümü, sonuçları çok fazla değiştirmez, çünkü ana bileşenlerin sonuçtaki dönüşü, log-dönüşüm ile oldukça değişmez.

Diğer durumlarda log-dönüşümü iyi bir seçimdir.

Veri kümesinin genel yapısı hakkında bilgi almak için PCA gerçekleştiriyoruz. PCA'mıza hâkim olabilecek bazı önemsiz etkileri filtrelemek için merkezler, ölçekler ve bazen log-dönüşümleri yaparız. Bir PCA'nın algoritması, kareli artıkları, yani herhangi bir örnekten PC'lere kare dik mesafelerin toplamını en aza indirmek için her bir PC'nin dönüşünü bulacaktır. Büyük değerler yüksek kaldıraç eğilimindedir.

İris verilerine iki yeni numune enjekte ettiğinizi düşünün. 430 cm petal uzunluğunda ve 0.0043 cm petal uzunluğunda bir çiçek. Her iki çiçek de ortalama örneklere göre sırasıyla 100 kat daha büyük ve 1000 kat daha küçüktür. İlk çiçeğin kaldıracı çok büyüktür, böylece ilk PC'ler çoğunlukla büyük çiçek ve diğer herhangi bir çiçek arasındaki farkları açıklar. Bir aykırı değer nedeniyle türlerin kümelenmesi mümkün değildir. Veriler günlüğe dönüştürülürse, mutlak değer şimdi göreli varyasyonu açıklar. Şimdi küçük çiçek en anormal olanıdır. Bununla birlikte, tüm örnekleri tek bir görüntüde içermek ve türlerin adil bir şekilde kümelenmesini sağlamak mümkündür. Bu örneği inceleyin:

data(iris) #get data
#add two new observations from two new species to iris data
levels(iris[,5]) = c(levels(iris[,5]),"setosa_gigantica","virginica_brevis")
iris[151,] = list(6,3,  430  ,1.5,"setosa_gigantica") # a big flower
iris[152,] = list(6,3,.0043,1.5  ,"virginica_brevis") # a small flower

#Plotting scores of PC1 and PC" without log transformation
plot(prcomp(iris[,-5],cen=T,sca=T)$x[,1:2],col=iris$Spec)

resim açıklamasını buraya girin

#Plotting scores of PC1 and PC2 with log transformation
plot(prcomp(log(iris[,-5]),cen=T,sca=T)$x[,1:2],col=iris$Spec)

resim açıklamasını buraya girin


2
Güzel demo ve araziler.
shadowtalker

3

Diğer cevap, log-dönüşümü aşırı değerlerin veya aykırı değerlerin etkisini azaltmak için kullanıldığında bir örnek verir.
Eğer olan verileri analiz etmek için çalışırken başka genel bir argüman, meydana çarpımsal oluşan yerine addititively matematik gibi katkı bileşimlerine göre PCA ve FA modeli -. Çarpımsalbileşimler en basit durumda yüzey ve vücut hacmi gibi fiziksel verilerde (işlevsel olarak) üç parametreye bağlı olarak (örneğin) uzunluk, genişlik, derinliğe bağlıdır. Erken PCA'nın tarihi bir örneğinin kompozisyonları yeniden üretilebilir, bence buna "Thurstone's Ball- (veya 'Cubes'-) problemi" veya benzeri denir. Bir kez bu örneğin verileriyle oynadım ve log dönüştürülmüş verilerin, ölçülen hacim ve yüzey verilerinin üç tek boyutlu ölçümle bileşimi için çok daha güzel ve daha açık bir model verdiğini keşfettim.

Bu basit örneklerin yanı sıra, sosyal araştırma veri etkileşimlerinde dikkate alırsak, bunları daha temel öğelerin çarpımsal olarak oluşturulmuş ölçümlerinin yanı sıra ususally düşünüyoruz. Bu nedenle, özellikle etkileşimlere bakarsak, bir log-dönüşümü, kompozisyonun ayrılması için matematiksel bir model elde etmek için özel bir yardımcı araç olabilir.


"Çoklayıcı" kompozisyonları daha iyi açıklayabilecek bazı referansları listeleyebilir misiniz? Çok teşekkürler!
Amatya

1
@Amatya - "thurstone-box-problem" bulamadım, ancak küpler üzerinde, genişlik, uzunluk, temel öğeler ve yüzeyler olarak yükseklik ve çarpımla birleştirilen ek öğeler olarak hacim içeren bir (alman) site tartışma pca'sını bulamadım. Belki de tanımlamalar için dahil edilen formüller yeterlidir. Bkz. Sgipt.org/wisms/fa/Quader/q00.htm
Gottfried Helms


@GottfriedHelms Değişkenleri standartlaştırıyorsak neden bunları da günlüğe dönüştürmemiz gerektiğini hâlâ anlamıyorum. Aşırı uç değerlerin istenmeyen etkisini azaltmanın genel prensibini anlıyorum, ancak bunları zaten standartlaştırıyorsak (merkezliyor, ölçeklendiriyoruz), buna ek olarak günlük dönüşümü de verileri bozuyor gibi görünüyor.
Yu Chen

@YuChen - herhangi bir log-transformasyon, çarpımsal olarak kompozisyonu ilave kompozisyona dönüştürür ve katkı kompozisyonu, her türlü bileşen ve faktör analizinin temel varsayımıdır (doğrusallığın yanı sıra vb.). Dolayısıyla, verilerinizde çarpımsal kompozisyon varsa, bir günlük dönüşümü dikkate değer bir seçenek olmalıdır.
Gottfried Helms
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.