Ülke türlerini tanımlamak için veri azaltma tekniği


11

Giriş niteliğinde bir ekonomik coğrafya dersi veriyorum. Öğrencilerimin çağdaş dünya ekonomisinde bulunan ülke türlerini daha iyi anlamasına ve veri azaltma tekniklerinin takdir edilmesine yardımcı olmak için, farklı türden ülkelerin tipolojisini oluşturan bir ödev inşa etmek istiyorum (ör. katma değerli mfg uzun ömür beklentisi; yüksek gelirli doğal kaynak ihracatçısı orta yüksek yaşam beklentisi; Almanya birinci türden bir unsur ve Yemen ikinci türden bir örnek). Bu, halka açık UNDP verilerini kullanır (200'den az ülkede sosyoekonomik verileri doğru bir şekilde hatırlarsam, üzgünüm bölgesel veri mevcut değildir).

Bu atamadan önce, aynı değişkenler arasındaki korelasyonları incelemelerini isteyen (aynı --- büyük ölçüde aralık veya oran seviyesi --- veriler kullanılarak) başka bir görev olacaktır.

Umudum, ilk önce farklı değişkenler arasındaki ilişki türleri için bir sezgi geliştirecekleridir (örneğin, yaşam beklentisi ile zenginliğin [çeşitli göstergeleri] arasında pozitif bir ilişki; servet ve ihracat çeşitliliği arasında pozitif bir ilişki). Daha sonra, veri azaltma tekniğini kullanırken, bileşenler veya faktörler sezgisel bir anlam ifade eder (örneğin, faktör / bileşen 1 servetin önemini, faktör / bileşen 2 eğitimin önemini yakalar).

Bunların genellikle analitik düşünceye daha az maruz kalan ikinci ila dördüncü sınıf öğrencileri olduğu düşünüldüğünde, ikinci ödev için en uygun olan tek veri azaltma tekniğini önerirsiniz? Bunlar nüfus verileridir, bu nedenle çıkarımsal istatistikler (p-vlaues, vs.) gerçekten gerekli değildir.

Yanıtlar:


10

Bir keşif yöntemi olarak, PCA bu IMO gibi bir görev için iyi bir ilk seçimdir. Onlara maruz kalmaları da iyi olurdu; birçoğu daha önce ana bileşenleri görmemiş gibi görünüyor.

Veri açısından sizi de dikkat çekici bir şekilde tamamlanmış olan Dünya Bankası Göstergelerine yönlendireceğim: http://data.worldbank.org/indicator .


5

JMS ile hemfikirim ve her ilçe için değişkenler arasındaki başlangıç ​​korelasyonları ve dağılım grafikleri incelendikten sonra PCA iyi bir fikir gibi görünüyor. Bu iş parçacığında PCA'yı matematiksel olmayan terimlerle tanıtmak için bazı yararlı öneriler bulunmaktadır.

Ayrıca, değişkenlerin her birinin uzamsal dağılımlarını görselleştirmek için küçük çoklu haritaların kullanılmasını öneririm (ve bu soruda gis.se sitesinde bazı iyi örnekler var ). Bence, karşılaştırmak için sınırlı sayıda alan biriminiz varsa ve iyi bir renk düzeni kullanıyorsanız ( Andrew Gelman'ın blogundaki bu örnek gibi ) özellikle iyi çalışır.

Maalesef, şüphelendiğim herhangi bir "dünya ülkesi" veri kümesinin doğası, coğrafi verilerin görüntülenmesini zorlaştıracak şekilde seyrek verilere (yani, eksik ülkelerin birçoğuna) neden olacaktır. Ancak bu tür görselleştirme teknikleri kursunuz için başka durumlarda da yararlı olmalıdır.


+1, güzel referanslar. Değişkenlerin haritalarının PCA skorlarının haritalarıyla karşılaştırılması da ilginç olabilir.
JMS

PCA girişinin matematiksel olmayan terimlerle bağlantısı yararlıydı, çünkü PCA ve faktör analizi arasındaki ince farkı hissetmeme yardımcı oldu. Değişkenlerin uzamsal dağılımını görselleştirmeyi düşünmediğim için CBS / haritalama önerileri de oldukça kullanışlıdır. Bu öğrenci nüfusu için, temel yapıları dünya ekonomisine tüm falan filan falan filan yapmayacak şekilde kavramalarında yardımcı olacaktır.
rabidotter

1
Güzel arsalar sık ​​sık falan filan falan yendi :)
JMS

4

Hızlı bir not: Yukarıdaki tekniklerden hangisini kullanırsanız kullanın, öncelikle değişkenlerinizin dağılımlarını kontrol etmek isteyeceksiniz, çünkü birçoğu bir logaritma kullanarak önce onları dönüştürmenizi "gerektirecektir". Bunu yapmak, bazı ilişkilerin orijinal değişkenleri kullanmaktan çok daha iyi olduğunu ortaya çıkaracaktır.


3
+1 Normalde böyle bir cevap sadece bir yorum olarak gönderilmelidir, ancak tavsiye burada çok önemlidir, her olası vurgudan yararlanır. Özellikle PCA sonuçları, değişkenler uygun şekilde yeniden ifade edilinceye kadar bilgilendirici olmayacaktır.
whuber

2

PCA'ya alternatif olarak CUR ayrışmasını kullanabilirsiniz. CUR ayrışması için [1] veya [2] 'ye başvurabilirsiniz. CUR ayrışmasında, C, seçilen sütunları, R, seçilen satırları ve U, bağlantı matrisini temsil eder. [1] 'de verildiği gibi CUR ayrışmasının ardındaki sezgiyi açıklayayım;

ubenvben

[(1/2)age − (1/ √2)height + (1/2)income]

insanların özelliklerinin bir veri kümesindeki anlamlı ilişkisiz “faktörlerden” veya “özelliklerden” biri olmak, özellikle bilgilendirici veya anlamlı değildir.

CUR ile ilgili güzel olan şey, temel sütunların gerçek sütunlar (veya satırlar) olması ve PCA'nın (kalıtsal SVD kullanan) aksine yorumlanmasının daha iyi olmasıdır.

[1] 'de verilen algoritmanın uygulanması kolaydır ve hata eşiğini değiştirerek ve farklı sayıda taban elde ederek onunla oynayabilirsiniz.

[1] MW Mahoney ve P. Drineas, “Geliştirilmiş veri analizi için CUR matris ayrışması.” Amerika Birleşik Devletleri Ulusal Bilimler Akademisi Bildirileri, cilt. 106, Ocak 2009, sayfa 697-702.

[2] J. Sun, Y. Xie, H. Zhang ve C. Faloutsos, “Daha azdır: Büyük seyrek grafikler için kompakt matris ayrışması,” Yedinci SIAM Uluslararası Veri Madenciliği Konferansı Bildirileri, Citeseer, 2007, s . 366.


2

Hedeflerinize bağlı olarak, gruplardaki kayıtların sınıflandırılması en iyi şekilde bazı kümeleme yöntemleriyle elde edilebilir. Nispeten az sayıda vaka için, hiyerarşik kümeleme genellikle en azından keşif aşamasında uygundur, daha cilalı bir çözüm için K-araçları gibi bazı yinelemeli süreçlere bakabilirsiniz. Hangi yazılımı kullandığınıza göre, SPSS'de olan bir işlemi kullanmak da mümkündür, ancak başka bir yerde bilmiyorum, hızlı, opak olsa da ve iyi sonuçlar veriyor gibi görünen iki aşamalı kümeleme.

Küme analizi, söz konusu gruplar içindeki varyansı en aza indirirken, gruplar arasındaki varyansı en üst düzeye çıkaran bir sınıflandırma çözümü sağlar. Ayrıca, yorumlanması daha kolay sonuçlar verecektir.



1

Başka bir seçenek de Kendini Düzenleyen Haritaları (SOM'lar) kullanmak olacaktır. Öğrencilerin hangi yazılımı kullanacakları hakkında bir fikriniz var mı? Örneğin, R'nin birkaç SOM uygulaması olduğunu biliyorum. Ancak SOM'lar, "bileşen faktörleri sezgisel mantıklı" testinizde başarısız olabilir. (PCA için de geçerli olmayabilir ...)


Cevap gecikmesi için üzgünüz. Öğrenciler, yukarıda belirtilen daha geleneksel veri azaltma tekniklerinden bazılarına sahip olan Minitab 16'yı kullanıyor olacaklar. Kendini organize eden haritalara bakacağım, ancak ikinci yıl lisans dersinde aldığım öğrenciler için uygun olup olmadığından şüpheliyim.
rabidotter
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.