Çevrimiçi, ölçeklenebilir istatistiksel yöntemler


12

Bu, çok ilginç bulduğum Verimli çevrimiçi doğrusal regresyondan ilham aldı . Ana belleğe sığmayacak kadar büyük veri kümeleriyle hesaplamanın ve belki de etkili bir şekilde alt örneklemeye dönüştürülemeyen büyük ölçekli istatistiksel hesaplamaya ayrılmış metinler veya kaynaklar var mı? Örneğin, karma efekt modellerini çevrimiçi bir şekilde takmak mümkün müdür? MLE için standart 2. derece optimizasyon tekniklerini 1. sıra, SGD tipi tekniklerle değiştirmenin etkilerini inceleyen var mı?


Cevabın evet olduğunu düşünüyorum". Tabii ki, burada birtakım tanımlar sorunu var. Bir kişinin "büyük ölçekli" olarak gördüğü şey bazen diğerinden çok farklıdır. Benim izlenimim, örneğin, birçok akademik araştırmacının Netflix veri kümesini "büyük ölçekli" olarak düşünürken, birçok endüstriyel ortamda "cılız" olarak kabul edilir. Tahmin teknikleri ile ilgili olarak, genellikle çok büyük verilerle, hesaplama verimliliği istatistiksel verimliliği düşürür. Örneğin, anlar yöntemi, birçok durumda, bu ayarlarda (neredeyse) ve MLE'yi gerçekleştirir ve hesaplanması çok daha kolay olabilir .
kardinal

2
Modern Büyük Veri Kümeleri (MMDS) için Algoritmalar Çalıştayı'na da bakabilirsiniz. Genç, ancak istatistik, mühendislik ve bilgisayar bilimleri arayüzlerinde ve ayrıca akademi ve endüstri arasında oldukça etkileyici bir konuşmacı çekiyor.
kardinal

Veri setlerinin çoğu ana belleğe sığmayacak kadar büyük olduğundan ve sadece erken istatistiksel programlarda kullanılan algoritmaların seçimi bunu yansıtıyor. Bu tür programların karışık efekt modelleri için olanakları yoktu.
onestop

Veri kümesi için istatistikleri hesaplayabiliyor musunuz? örneğin veri öğelerinin toplamı veya ortalamaları?
probabilityislogic

Yanıtlar:


5

Yahoo! John Langford'dan Vowpal Wabbit projesine bakabilirsiniz. Araştırma . Birkaç kayıp fonksiyonunda uzmanlaşmış gradyan iniş yapan bir çevrimiçi öğrenicidir. VW bazı katil özelliklere sahiptir:

  • Önemsizce "sudo apt-get install vowpal-wabbit" ile Ubuntu üzerine kurulur.
  • Çok büyük özellik alanları için karma hile kullanır .
  • Özelliğe uyarlanabilir ağırlıklar.
  • En önemlisi, aktif bir e-posta listesi ve topluluk projeyi kapatıyor.

Bianchi & Lugosi kitabı Tahmin, Öğrenme ve Oyunlar , çevrimiçi öğrenmeye sağlam, teorik bir temel sağlar. Ağır bir okuma, ama buna değer!

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.