Üniversite ödevinin bir parçası olarak, oldukça büyük, çok değişkenli (> 10) bir ham veri setinde veri ön işleme yapmak zorundayım. Kelimenin hiçbir anlamında bir istatistikçi değilim, bu yüzden neler olduğu konusunda biraz kafam karıştı. Muhtemelen gülünç basit bir soru için özür dilerim - başım çeşitli cevaplara bakıp istatistik-konuşmada beklemeye çalıştıktan sonra dönüyor.
Bunu okudum:
- PCA verilerimin boyutsallığını azaltmama izin veriyor
- Bunu, çok fazla ilişkilendiren nitelikleri / boyutları birleştirerek / kaldırarak yapar (ve bu nedenle biraz gereksizdir)
- Bunu kovaryans verilerinde özvektörler bularak yapar ( bunu öğrenmek için izlediğim güzel bir öğretici sayesinde )
Hangi harika.
Ancak, bunu pratik olarak verilerime nasıl uygulayabileceğimi görmek için gerçekten zorlanıyorum. Örneğin (bu , kullanacağım veri kümesi değil , insanların birlikte çalışabileceği iyi bir örnek girişim), eğer böyle bir şeyle bir veri setim olsaydı ...
PersonID Sex Age Range Hours Studied Hours Spent on TV Test Score Coursework Score
1 1 2 5 7 60 75
2 1 3 8 2 70 85
3 2 2 6 6 50 77
... ... ... ... ... ... ...
Herhangi bir sonucu nasıl yorumlayacağımdan tam olarak emin değilim.
Çevrimiçi gördüğüm öğreticilerin çoğu bana PCA'nın matematiksel bir görünümünü veriyor gibi görünüyor. Üzerinde biraz araştırma yaptım ve onları takip ettim - ama bunun benim için ne anlama geldiğinden hala emin değilim, kim sadece önümdeki bu veri yığınından bir çeşit anlam çıkarmaya çalışıyor.
Sadece verilerimde PCA yapmak (bir istatistik paketi kullanarak) NxN sayı matrisini (burada N orijinal boyutların sayısıdır) tükürüyor, ki bu benim için tamamen yunanca.
PCA'yı nasıl yapabilirim ve elde ettiğimi daha sonra orijinal boyutlar açısından düz İngilizce'ye koyabileceğim şekilde nasıl alabilirim?