İstatistikler ve Büyük Veri

İstatistik, makine öğrenmesi, veri analizi, veri madenciliği ve veri görselleştirmesi ile ilgilenen kişiler için soru cevap

1
R neden NA'yı lm () katsayısı olarak verir?
lm()Finansal çeyrek için göstergeleri içeren bir veri kümesine bir model uyguluyorum (Q1, Q2, Q3, Q4'ü varsayılan yapar). Kullanarak lm(Y~., data = data) NAQ3 için bir katsayı olarak değer alıyorum ve tekilliklerden dolayı bir değişkenin dışlandığını belirten bir uyarı alıyorum . Q4 sütunu eklemem gerekir mi?
32 r  regression 


3
Bilinen grup varyasyonları, ortalamaları ve örneklem büyüklükleri verilen iki veya daha fazla grubun havuzlanmış varyansı nasıl hesaplanır?
Diyelim ki m+nm+nm+n elementleri iki gruba ayrıldı ( mmm ve nnn ). Birinci grubun varyansı σ2mσm2\sigma_m^2 ve ikinci grubun varyansı σ2nσn2\sigma^2_n . Kendileri varsayılır unsurlar bilinmeyen olmak ama anlamına biliyorum μmμm\mu_m ve μnμn\mu_n . Kombine varyansı σ2(m+n)σ(m+n)2\sigma^2_{(m+n)} hesaplamanın bir yolu var mı ? Varyansın tarafsız olması gerekmediğinden, payda (m+n)(m+n)(m+n) ve …
32 variance  pooling 

3
Ggplot2 içindeki scatterplot bölgelerinin etrafına düzgün çokgenler nasıl çizilir [kapalı]
Bir dağılım grafiğindeki nokta grubunun etrafına düzgün bir çokgen nasıl eklerim? Ggplot2 kullanıyorum ama sonuçları ile hayal kırıklığına uğradım geom_polygon. Veri kümesi orada , sekmeyle ayrılmış bir metin dosyası olarak var. Aşağıdaki grafik, birçok ülkede sağlık ve işsizliğe yönelik iki tutum ölçüsünü göstermektedir: Daha geom_density2daz fantaziye geçmek istiyorum ama ampirik …

2
Tek taraflı Chebyshev eşitsizliğinin örnek bir sürümü var mı?
Aşağıdaki tek taraflı Cantelli'nin Chebyshev eşitsizliği versiyonuyla ilgileniyorum : P(X−E(X)≥t)≤Var(X)Var(X)+t2.P(X−E(X)≥t)≤Var(X)Var(X)+t2. \mathbb P(X - \mathbb E (X) \geq t) \leq \frac{\mathrm{Var}(X)}{\mathrm{Var}(X) + t^2} \,. Temel olarak, popülasyonun ortalama ve varyansını biliyorsanız, üst sınırı belirli bir değer gözlemleme olasılığına göre hesaplayabilirsiniz. (En azından benim anlayışım buydu.) Ancak, gerçek nüfus ortalaması ve varyansı …

2
Derecelendirme için güven aralıkları nasıl bulunur?
Evan Miller'ın " Ortalama Reytinge Göre Nasıl Sıralanmaması", derecelendirilmiş maddeler için anlamlı bir toplam "puan" elde etmek için bir güven aralığı alt sınırının kullanılmasını önermektedir. Ancak, bir Bernoulli modeliyle çalışıyor: derecelendirmeler ya başparmak yukarıya ya da başparmak aşağı. Bir öğenin derecelendirme sayısının az olabileceğini varsayarak , - yıldız arasında ayrı …

1
Karışık etki modelinden tahmin edilen değerlerin bir zaman dilimleri üzerindeki toplamına göre farklılık
Bana bir zaman dilimi için öngörülerde bulunacak karışık bir etki modelim var (aslında genelleştirilmiş bir karma model var). Otokorelasyonu dengelemek için eksik verilerim olduğu için bir corCAR1 modeli kullanıyorum. Verilerin bana toplam bir yük vermesi gerekiyor, bu yüzden tüm tahmin aralığı boyunca toplamam gerekiyor. Ancak, toplam yük üzerindeki standart hatanın …


4
Binom verileri üzerinde ANOVA
Deneysel bir veri setini analiz ediyorum. Veriler, bir çift tedavi tipi vektöründen ve binom bir sonuçtan oluşur: Treatment Outcome A 1 B 0 C 0 D 1 A 0 ... Sonuç sütununda, 1 başarılı ve 0 başarısızlık anlamına gelir. Tedavinin sonucu önemli ölçüde değiştirip değiştirmediğini anlamak isterim. Her deneyde çok …


7
“Çalışan” doğrusal veya lojistik regresyon parametrelerini hesaplamak için algoritmalar var mı?
Http://www.johndcook.com/standard_deviation.html adresindeki "Doğru çalışan bilgisayar varyasyonu" adlı bir makale , çalışan ortalama, varyans ve standart sapmaların nasıl hesaplandığını gösterir. Her yeni eğitim kaydı sağlandığında doğrusal veya lojistik bir regresyon modelinin parametrelerinin benzer şekilde "dinamik olarak" güncellenebileceği algoritmalar var mı?


5
Zaman etkisinin bireyler arasında fonksiyonel biçimde değiştiği boyuna verilerin modellenmesi
Bağlam : 200 katılımcıda 20 hafta boyunca haftada bir bağımlı değişken (DV) ölçen uzunlamasına bir çalışma yaptığınızı hayal edin. Genel olarak ilgilenmeme rağmen, düşünmeyi düşündüğüm tipik DV'ler işe alım sonrası iş performansını veya klinik psikoloji müdahalesini takiben çeşitli sağlık önlemlerini içeriyor. Zaman ve DV arasındaki ilişkiyi modellemek için çok seviyeli …

12
Kavraması en zor istatistiksel kavram nedir?
Bu, buradaki soruya benzer bir sorudur , ancak sormaya değeceğini düşünüyorum. Başlangıç ​​olarak koyacağımı düşündüm, kavraması en zor olanın bence. Maden olasılık ve frekans arasındaki farktır . Biri "gerçeklik bilgisi" (olasılık), diğeri "gerçekliğin kendisi" (frekans) düzeyindedir. Çok fazla düşünürsem, bu beni hemen hemen her zaman şaşırtıyor. Edwin Jaynes Bu şeyleri …
32 teaching 

6
Metnin istatistiksel sınıflandırması
İstatistiki altyapısı olmayan bir programcıyım ve şu anda önceden tanımlanmış kategorilerde sınıflandırmak istediğim çok sayıda farklı belge için farklı sınıflandırma yöntemlerine bakıyorum. KNN, SVM ve NN hakkında okuyorum. Ancak, başlamakta biraz zorlanıyorum. Hangi kaynakları önerirsiniz? Tek değişkenli ve çok değişkenli hesabı oldukça iyi biliyorum, bu yüzden matematiğim yeterince güçlü olmalı. …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.