Çeşitli istatistiksel teknikler (regresyon, PCA, vb.) Örnek büyüklüğü ve boyutu ile nasıl ölçeklenir?


10

Örnek boyutu ve boyutu ile nasıl ölçeklendiğini açıklayan bilinen bir genel istatistiksel teknikler tablosu var mı? Örneğin, bir arkadaşım geçen gün bana n boyutundaki tek boyutlu verileri hızlı bir şekilde sıralamanın hesaplama süresinin n * log (n) olarak gittiğini söyledi.

Örneğin, X'in d-boyutlu bir değişken olduğu X'e karşı regresyon yaparsak, O (n ^ 2 * d) olarak mı gider? Newton yöntemi ile sayısal en küçük kareler ile tam Gauss-Markov çözümü üzerinden çözüm bulmak istersem nasıl ölçeklenir? Ya da sadece anlamlılık testlerini kullanarak çözümü mi elde ediyorsunuz?

Sanırım burada iyi bir cevaptan daha iyi bir cevap kaynağı istiyorum (çeşitli istatistiksel tekniklerin ölçeğini özetleyen bir kağıt gibi). Diyelim ki, çoklu regresyon, lojistik regresyon, PCA, cox orantılı tehlike regresyonu, K-ortalama kümeleme vb.


Bu iyi bir soru. Birçok istatistik kitabı, hesaplama boyutlarından değil, yüksek boyutlu verilerin teorik yönlerinden bahseder.
shadowtalker

Birçok durumda, orijinal literatür karmaşıklığı tartışacaktır. Ancak genellikle teorik karmaşıklık işe yaramaz. QuickSort en kötü O (n ^ 2) durumuna sahiptir, ancak çoğu zaman en hızlıdır - en kötü O (n günlüğü n) olan HeapSort'dan daha hızlıdır. Biraz araştırma yaparsanız, biliniyorsa birçok algoritma için karmaşıklık sonuçları bulacaksınız. Örneğin, PCA O (nd ^ 3), k-O (nkid) vb. Anlamına gelir.
QUIT

Yanıtlar:


6

Verimli (ve önemsiz olmayan) istatistik algoritmalarının çoğu doğası gereği yinelemelidir, bu nedenle en kötü durum analizi O()'yakınsama başarısızlığı' olduğu için en kötü durum analizi önemsizdir.

Bununla birlikte, çok fazla veriniz olduğunda, doğrusal algoritmalar ( O(n)) bile yavaş olabilir ve daha sonra gösterimin ardındaki 'gizli' sabitine odaklanmanız gerekir. Örneğin, tek bir varyasyonun varyansının hesaplanması, verilerin iki kez taranması naif olarak yapılır (bir kez ortalamanın bir tahminini hesaplamak için ve sonra bir kez varyansı tahmin etmek için). Ama aynı zamanda bir geçişte de yapılabilir .

Yinelemeli algoritmalar için daha önemli olan yakınsama oranı ve yakınsamayı büyük ölçüde etkileyen bir unsur olan veri boyutluluğunun bir fonksiyonu olarak parametre sayısıdır. Birçok model / algoritma, değişkenlerin sayısı (örn. Spline) ile üstel olan bir dizi parametre büyütürken, bazıları ise doğrusal olarak büyür (örn. Destek vektör makineleri, rastgele ormanlar, ...)


Bunu kabul ettiğimden emin değilim: istatistiksel bir problem için bir algoritma tasarlarken , her yinelemeli adımın karmaşıklığına çok fazla endişe duyuluyor (ve genellikle bir makalede belgeleniyor). Ancak, belirttiğiniz gibi, özetlemek o kadar kolay değildir, çünkü yineleme başına aynı karmaşıklığa sahip iki algoritma gerekli yinelemeler nedeniyle çok farklı performans gösterebilir. Bununla birlikte, gerekli yineleme sayısının daha hızlı artması çok nadirdir O(log(n) ).
Cliff AB

5

Başlıkta regresyon ve PCA'dan bahsettiniz ve bunların her biri için kesin bir cevap var.

N> P ise lineer regresyonun asimptotik karmaşıklığı O (P ^ 2 * N) 'ye düşer, burada P özellik sayısı ve N gözlem sayısıdır. En az kare regresyon işleminin hesaplama karmaşıklığı hakkında daha fazla ayrıntı .

Vanilya PCA, yüksek boyutlu veriler için en hızlı PCA algoritmasında olduğu gibi O (P ^ 2 * N + P ^ 3) 'tür . Ancak çok büyük matrisler için hızlı algoritmalar var, bu cevabı açıkladı ve Çok Sayıda Özellik İçin En İyi PCA Algoritması? .

Ancak kimsenin tek bir aydınlatılmış inceleme veya referans ya da konuyla ilgili kitap derlediğini sanmıyorum. Boş zamanlarım için kötü bir proje olmayabilir ...


Teşekkürler, bu çok yardımcı oldu! Çeşitli tahmini modelleme teknikleri için bir literatür incelemesi yaparsanız, çok referans alacağından eminim. Büyük n veya büyük p vakalarında hangi algoritmaların kullanılacağını ayırt etmek isteyenler veya daha kesin hesaplamalar için bunların orta değerleri için çok yararlı olacaktır. Daha belirsiz tekniklerden bazılarının nasıl ölçeklendiğini biliyor musunuz? (Cox orantılı tehlike regresyonu veya doğrulayıcı faktör analizi gibi)
Bridgeburners

Ne yazık ki hayır, ama hiç bu inceleme yaparsanız ben kapsamlı olmaya çalışacağız. En azından benim alanımda Cox regresyonunu "belirsiz" olarak adlandırmam.
shadowtalker

5

Stata Journal makalesinde , gerçek simülasyonların zamanlamasına dayanarak Stata için geliştirdiğim doğrulayıcı faktör analizi paketi için çok sınırlı bir kısmi cevap verdim . Doğrulama faktörü analizi, bir maksimum olabilirlik tahmin tekniği olarak uygulandı ve hesaplama süresinin her bir boyutla (örneklem büyüklüğü n, değişken psayısı, faktör sayısı k) nasıl büyüdüğünü çok kolay görebiliyordum . Stata'nın veriler hakkında nasıl düşündüğüne (satırlardan ziyade sütunlar / gözlemler arasında hesaplamak için optimize edildi) büyük ölçüde bağlı olduğundan, performansınO(n^{0.68} (k+p)^{2.4})burada 2.4 en hızlı matris inversiyon asimptotikidir (ve doğrulayıcı faktör analizi yinelemeli maksimizasyonda çok fazla cehennem vardır). İkincisi için bir referans vermedim, ancak sanırım bunu Wikipedia'dan aldım .

X'X108


2
Matematik biçimlendirme DataScience üzerinde çalışmıyor? Gerçekten mi? Belki de almamýzý istemeliyiz.
StasK

Sayısal doğruluk hakkında iyi bir nokta.
shadowtalker
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.