İstatistikler ve Büyük Veri

İstatistik, makine öğrenmesi, veri analizi, veri madenciliği ve veri görselleştirmesi ile ilgilenen kişiler için soru cevap

5
Çeşitli kitlelere gelişmiş istatistikler sunma stratejileri
Ağırlıklı olarak tıp, sosyal bilimler ve eğitim gibi alanlarda istatistikçilerle çalışıyorum. Lisansüstü öğrencilere danışmanlık yapıp, makaleleri araştırmama yardım etmekte veya dergileri inceleyen makaleleri gözden geçirsem de, genellikle birisinin (müşteri, yazar, tez komitesi, dergi editörü) tamamen tanınmış olduğu zaman göreceli olarak iyi bilinen bir teknik kullanmak istediği problemi yaşıyorum. uygun olmadığında …
26 consulting 

2
Sentetik veri setleri oluşturmak için bazı standart uygulamalar nelerdir?
Bağlam olarak: Çok büyük bir veri kümesiyle çalışırken, bazen yordayıcılar ve yanıt değişkeni arasındaki ilişkiyi veya "yordayıcılar arasındaki ilişkileri" bildiğimiz "sentetik bir veri kümesi oluşturabilir miyiz? Yıllar boyunca, ya geçici bir şekilde hazırlanmış gibi görünen bir kerelik sentetik veri setleriyle ya da araştırmacının önerdiği modelleme yöntemi için özellikle uygun görünen …


3
MANOVA ve Tekrarlanan Ölçümler Arasındaki Farklar ANOVA?
Tekrarlanan bir ölçümün ANOVA'sını bazı faktörler (deneysel şartlar) ile MANOVA arasındaki fark nedir? Özellikle rastladığım bir web sitesi, MANOVA'nın, ANOVA'nın yaptığı tekrarlanan önlemlerle aynı küreselliği kabul etmediğini öne sürdü, doğru mu? Öyleyse, neden sadece MANOVA kullanılmıyor? Birden fazla DV ile tekrarlanan bir önlem ANOVA yapmaya çalışıyorum, uygun yaklaşım nedir?

4
Izgara çizgileri ve gri arkaplanlar grafik hurdası mıdır ve yalnızca istisna esasına göre mi kullanılmalıdır?
Yetkili makamların çoğu, parsellerdeki koyu renkli veya belirgin ızgara çizgilerinin herhangi bir makul tanımla "harita hurdası" olduğu konusunda hemfikirdir ve izleyiciyi tablonun ana gövdesindeki mesajdan uzaklaştırır. Bu yüzden bu noktada referanslar vermeye zahmet etmeyeceğim. Aynı şekilde, her zaman olacağını anlaşabileceği soluk izleyiciler için kılavuz çizgileri referans oluşturmak için olacak gerekli. …

9
Lojistik regresyona dayalı bir modelin ölçüm doğruluğu
Test veri setine uyguladığım eğitimli bir lojistik regresyon modelim var. Bağımlı değişken ikilidir (boolean). Test veri setindeki her numune için, bağımlı değişkenlerin gerçek olacağı ihtimalini% oluşturmak için lojistik regresyon modelini uyguluyorum. Sonra acutal değerinin doğru veya yanlış olduğunu kaydederim. Doğrusal bir regresyon modelinde olduğu gibi bir veya Düzeltilmiş figürü hesaplamaya …

3
Çok küçük bir örneklem büyüklüğüyle normalliği test etmek anlamlı mı (örn. N = 6)?
6 örneklem büyüklüğüne sahibim. Böyle bir durumda, Kolmogorov-Smirnov testini kullanarak normalliği test etmek mantıklı mı? SPSS kullandım. Çok küçük bir örneklem büyüklüğüne sahibim çünkü her birini almak zaman alıyor. Mantıklı değilse, test etmek için anlamlı olan en düşük sayı kaç örnek? Not: Kaynak kodla ilgili bazı deneyler yaptım. Örnek, bir …

2
dağılımının bir adı var mı?
Geçen gün bu yoğunluğa rastladım. Birisi buna bir isim verdi mi? f(x)=log(1+x−2)/2πf(x)=log⁡(1+x−2)/2πf(x) = \log(1 + x^{-2}) / 2\pi Yoğunluk, başlangıç ​​noktasında sonsuzdur ve ayrıca yağ kuyruklarına sahiptir. Birçok gözlemin küçük olması beklenen bağlamda, büyük değerler de beklendiği halde önceki bir dağıtım olarak kullanıldığını gördüm.

3
R ile donatılmış negatif bir binom regresyonda teta nedir?
Negatif bir binom regresyonla ilgili bir sorum var: Aşağıdaki komutlara sahip olduğunuzu varsayalım: require(MASS) attach(cars) mod.NB<-glm.nb(dist~speed) summary(mod.NB) detach(cars) (Arabaların R'de bulunan bir veri kümesi olduğunu ve bu modelin anlam ifade edip etmediğini gerçekten umursamadığımı unutmayın.) Bilmek istediğim şey: Değişkeni nasıl yorumlayabilirim theta(bir çağrının sonunda döndürüldüğü gibi summary). Bu negbin dağılımının …

4
Yahoo Finance'den R'ye stok fiyatı al?
Kilitli . Bu soru ve cevapları kilitli çünkü soru konu dışı, ancak tarihsel öneme sahip. Şu anda yeni cevaplar veya etkileşimler kabul etmiyor. Yahoo Finans'tan "Last Trade" hisse senedi fiyatını R'ye aktarmak istiyorum. Amaç (neredeyse) gerçek zamanlı verilerle çalışmaktır. Herhangi bir çözüm var mı? Yararlı yorumlarınız için şimdiden teşekkür ederiz.
26 r 

6
1300 yılında doğmuş belirli bir kişiden gelme ihtimalim ne kadar?
Başka bir deyişle, aşağıdakilere dayanarak, p nedir? Bunu, antropoloji veya sosyal bilimler yerine bir matematik problemi yapmak ve problemi basitleştirmek için, eşlerin asla eşler arasında eşleşme olasılığı olmadığını, kardeşlerin ve ilk kuzenlerin asla eşleşmediğini ve eşlerin daima aynı şeyden seçildiğini varsayalım. nesil. n1n1n_1 - ilk nüfus ggg - sayı nesiller. …


7
Bir matrisin kolonları arasında doğrusal bağımlılık testi
Belirleyicisi sıfır olan bir güvenlik getirisi korelasyon matrisine sahibim. (Örnek korelasyon matrisi ve karşılık gelen kovaryans matrisi teorik olarak pozitif olarak kesin olmalıdır, çünkü bu biraz şaşırtıcıdır.) Hipotezim, en az bir güvenliğin doğrusal olarak diğer menkul kıymetlere bağlı olduğudur. R'de, her bir sütunu sıralı olarak doğrusal bağımlılık için bir matris …

4
RANSAC neden istatistiklerde en yaygın şekilde kullanılmıyor?
Bilgisayarla görme alanında, çoğu aykırı verilere veri yerleştirmek için RANSAC (Random Sample Consensus) yöntemini kullandım. Bununla birlikte, istatistikçiler tarafından kullanıldığını hiç görmedim ve her zaman "istatistiksel olarak sağlam" bir yöntem olarak görülmediği izlenimini edindim. Neden böyle? Doğada, rastgele, analiz etmeyi zorlaştırıyor, ancak önyükleme yöntemleri de var. Yoksa sadece bir akademik …

1
AIC ve BIC'in hangi çapraz-onaylama metotlarına eşdeğer olduğu R'de ampirik olarak nasıl gösterilebilir?
Bu sitenin başka bir yerindeki bir soruda , AIC'nin bir kez dışarıda bırakma (LOO) çapraz onaylamaya eşdeğer olduğunu ve BIC'nin K-kat çapraz onaylamaya eşdeğer olduğunu belirtti. Bunu R'de ampirik olarak göstermenin, LOO ve K-katlamada yer alan tekniklerin AIC ve BIC değerlerine eşdeğer olduğu açık bir şekilde gösterilebileceğini göstermenin bir yolu …
26 r  aic  cross-validation  bic 

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.