İstatistikler ve Büyük Veri

İstatistik, makine öğrenmesi, veri analizi, veri madenciliği ve veri görselleştirmesi ile ilgilenen kişiler için soru cevap

3
LSA vs. PCA (belge kümeleme)
Belge kümelemede kullanılan çeşitli teknikleri araştırıyorum ve PCA (temel bileşen analizi) ve LSA (gizli anlamsal analiz) ile ilgili bazı şüphelerimi silmek istiyorum. İlk şey - aralarındaki farklar nelerdir? PCA'da SVD ayrışmasının kovaryans matrisine uygulandığını biliyorum, LSA'da ise terim matrisi. Başka bir şey var mı? İkincisi - belge kümeleme prosedüründeki rolü …

2
Genel bir uygunluk testinin Bayesian eşdeğeri nedir?
Biri bir dizi fiziksel gözlem (sıcaklık) diğeri nümerik modellerden oluşan iki veri setim var. Mükemmel bir model analizi yapıyorum, model topluluğunun gerçek ve bağımsız bir örnek teşkil ettiğini varsayarak gözlemlerin bu dağılımdan çekilip çizilmediğini kontrol ediyorum. Hesapladığım istatistik normalleştirildi ve teorik olarak standart bir normal dağılım olmalıdır. Tabii ki mükemmel …

1
Bir GLM'den sonra R'deki faktör seviyelerinin karşılaştırılması
İşte durumumla ilgili küçük bir arka plan: verilerim, avcı tarafından başarılı bir şekilde yenen av sayısını göstermektedir. Her denemede av sayısının sınırlı olması (25), mevcut av sayısını gösteren her bir denemede (yani, her denemede 25 adet) ve "Sayısı" olarak adlandırılan ve "başarı" sayılan "Sayı" olarak adlandırılan bir sütunum vardı. kaç …

1
Calinski ve Harabasz (CH) kriterinin kabul edilebilir bir değeri nedir?
R ve kml paketini kullanarak boylamsal verileri kümelemeye çalışırken veri analizi yaptım . Verilerim yaklaşık 400 ayrı yörünge içerir (makalede adı geçen). Sonuçlarımı aşağıdaki resimde görebilirsiniz: Bölüm 2.2 'yi okuduktan sonra, ilgili makalede "Optimum sayıda küme seçmek", hiçbir cevap alamadım. 3 kümeye sahip olmayı tercih ederdim ama sonuç hala 80'lik …

3
R üretim (konuşlandırılmış) kodu için uygun mudur?
Google, Facebook gibi şirketler hakkında ve araştırma için R'yi kullanan birçok şirket hakkında konuşan birkaç makale okudum. Hakkında okuduğum diğer senaryo, bir analitik çözümünü prototip yapmak ve ardından başka bir dilde tekrar uygulamak için R kullanan şirketler. Gerçek üretim analitiği kodu için R kullanan şirketler hakkında literatür bulmaya çalışıyorum. Bir …
25 r  references 

6
İstatistiksel grafikler için “merhaba, dünya” var mı?
Bilgisayar programcılığında "merhaba, dünya" adı verilen yeni bir dil veya sistemi öğrenmek / öğretmek için klasik bir ilk program vardır. http://en.wikipedia.org/wiki/Hello_world_program Bir grafik paketi kullanmak için klasik bir ilk veri görselleştirme var mı? Eğer öyleyse, bu nedir? Olmazsa, iyi adaylar ne olabilir?

5
Copulas'ta tanıtım okuması
Şimdilik bir süredir, seminerim için Copulas ile ilgili iyi bir tanıtım okudum. Teorik yönlerden bahseden pek çok materyal buluyorum, ki bu iyi, ancak bu konulara geçmeden önce konuyla ilgili iyi bir sezgisel anlayış inşa etmek istiyorum. Herhangi biri yeni başlayanlara iyi bir temel sağlayacak herhangi bir iyi makale önerebilir mi …

3
Bu tuhaf biçimli dağılım nasıl modellenir (neredeyse ters J)
Aşağıda gösterilen bağımlı değişkenim bildiğim hiçbir hisse senedi dağıtımına uymuyor. Doğrusal regresyon, tahmin edilemeyen Y ile garip bir şekilde ilişkili olan (2 arsa) normal olmayan, sağa eğik artıkları üretir. Dönüşümler veya en geçerli sonuçları ve en iyi tahmin doğruluğunu elde etmenin başka yolları için herhangi bir öneriniz var mı? Mümkünse, …

6
Sinir ağı görüntüleri nasıl tanır?
Bu soru edildi göç o Çapraz doğrulanmış üzerinde yanıtlanabilir çünkü yığın taşması gelen. 7 yıl önce göç etti . Sinir Ağının görüntü tanımada nasıl çalıştığını öğrenmeye çalışıyorum. Bazı örnekler gördüm ve daha fazla kafam karıştı. 20x20'lik bir görüntünün harf tanıma örneğinde, her pikselin değerleri giriş katmanı haline gelir. 400 nöron. …


2
Joel Spolsky'nin “Snark Avcılığı” geçerli bir istatistiksel içerik analizi midir?
Son zamanlarda topluluk bültenlerini okuyorsanız , StackExchange ağının CEO'su Joel Spolsky'nin resmi StackExchange blogunda yayınlanan bir yazı olan The Snark The Hunting'u gördünüz . Dış kaynaklı bir bakış açısıyla "dostluğunu" değerlendirmek için bir SE yorumu örneği üzerinde yapılan istatistiksel bir analizden bahseder. Yorumlar StackOverflow'tan rastgele örneklendi ve içerik analistleri, şirketleri …

3
Kalıntıların ve arsa değerlerinin Poisson regresyonuna göre yorumlanması
Verilerimi R'de bir GLM (poisson regresyon) ile uydurmaya çalışıyorum. Artıkları ve takılan değerleri çizdiğimde, arsa çoklu (neredeyse hafif içbükey bir eğri ile doğrusal) "çizgiler" yarattı. Ne anlama geliyor? library(faraway) modl <- glm(doctorco ~ sex + age + agesq + income + levyplus + freepoor + freerepa + illness + actdays …


3
R de bir zaman serisinin düzgünlüğü nasıl ölçülür?
R'de zaman dizisinin düzgünlüğünü ölçmenin iyi bir yolu var mı? Örneğin, -1, -0.8, -0.6, -0.4, -0.2, 0, 0.2, 0.4, 0.6, 0.8, 1.0 daha yumuşak -1, 0.8, -0.6, 0.4, -0.2, 0, 0.2, -0.4, 0.6, -0.8, 1.0 aynı ortalama ve standart sapmalara sahip olmalarına rağmen. Bana bir zaman serisinde pürüzsüz bir puan …
25 r  time-series 

1
Kuantil regresyon için hangi tanı grafikleri var?
OLS ile ilgili sorumu takiben merak ediyorum: kuantil regresyon için hangi tanı grafikleri var? (ve bunların R uygulaması var mı?) Hızlı bir google araması zaten (daha önce hiç duymadığım) solucan komplosuyla geldi ve hakkında bilmeniz gereken daha fazla yöntemi bilmekten mutluluk duyarım. (bunlardan herhangi biri kuantil regresyon için kullanılan OLS'tan …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.