İstatistikler ve Büyük Veri

1

R neden NA'yı lm () katsayısı olarak verir?

lm()Finansal çeyrek için göstergeleri içeren bir veri kümesine bir model uyguluyorum (Q1, Q2, Q3, Q4'ü varsayılan yapar). Kullanarak lm(Y~., data = data) NAQ3 için bir katsayı olarak değer alıyorum ve tekilliklerden dolayı bir değişkenin dışlandığını belirten bir uyarı alıyorum . Q4 sütunu eklemem gerekir mi?

32 r regression

6

Yapay sinir ağlarına nasıl başlanır

Yapay sinir ağları için tamamen yeniyim ama onları anlamakla çok ilgileniyorum. Ancak başlamak hiç de kolay değil. Herhangi biri iyi bir kitap veya başka bir kaynak önerebilir mi? Mutlaka okunması gereken bir şey var mı? Her türlü bahşiş için minnettarım.

32 machine-learning neural-networks references

3

Bilinen grup varyasyonları, ortalamaları ve örneklem büyüklükleri verilen iki veya daha fazla grubun havuzlanmış varyansı nasıl hesaplanır?

Diyelim ki m+nm+nm+n elementleri iki gruba ayrıldı ( mmm ve nnn ). Birinci grubun varyansı σ2mσm2\sigma_m^2 ve ikinci grubun varyansı σ2nσn2\sigma^2_n . Kendileri varsayılır unsurlar bilinmeyen olmak ama anlamına biliyorum μmμm\mu_m ve μnμn\mu_n . Kombine varyansı σ2(m+n)σ(m+n)2\sigma^2_{(m+n)} hesaplamanın bir yolu var mı ? Varyansın tarafsız olması gerekmediğinden, payda (m+n)(m+n)(m+n) ve …

32 variance pooling

3

Ggplot2 içindeki scatterplot bölgelerinin etrafına düzgün çokgenler nasıl çizilir [kapalı]

Bir dağılım grafiğindeki nokta grubunun etrafına düzgün bir çokgen nasıl eklerim? Ggplot2 kullanıyorum ama sonuçları ile hayal kırıklığına uğradım geom_polygon. Veri kümesi orada , sekmeyle ayrılmış bir metin dosyası olarak var. Aşağıdaki grafik, birçok ülkede sağlık ve işsizliğe yönelik iki tutum ölçüsünü göstermektedir: Daha geom_density2daz fantaziye geçmek istiyorum ama ampirik …

32 ggplot2 scatterplot

2

Tek taraflı Chebyshev eşitsizliğinin örnek bir sürümü var mı?

Aşağıdaki tek taraflı Cantelli'nin Chebyshev eşitsizliği versiyonuyla ilgileniyorum : P(X−E(X)≥t)≤Var(X)Var(X)+t2.P(X−E(X)≥t)≤Var(X)Var(X)+t2. \mathbb P(X - \mathbb E (X) \geq t) \leq \frac{\mathrm{Var}(X)}{\mathrm{Var}(X) + t^2} \,. Temel olarak, popülasyonun ortalama ve varyansını biliyorsanız, üst sınırı belirli bir değer gözlemleme olasılığına göre hesaplayabilirsiniz. (En azından benim anlayışım buydu.) Ancak, gerçek nüfus ortalaması ve varyansı …

32 probability mathematical-statistics probability-inequalities mean

2

Derecelendirme için güven aralıkları nasıl bulunur?

Evan Miller'ın " Ortalama Reytinge Göre Nasıl Sıralanmaması", derecelendirilmiş maddeler için anlamlı bir toplam "puan" elde etmek için bir güven aralığı alt sınırının kullanılmasını önermektedir. Ancak, bir Bernoulli modeliyle çalışıyor: derecelendirmeler ya başparmak yukarıya ya da başparmak aşağı. Bir öğenin derecelendirme sayısının az olabileceğini varsayarak , - yıldız arasında ayrı …

32 confidence-interval estimation

1

Karışık etki modelinden tahmin edilen değerlerin bir zaman dilimleri üzerindeki toplamına göre farklılık

Bana bir zaman dilimi için öngörülerde bulunacak karışık bir etki modelim var (aslında genelleştirilmiş bir karma model var). Otokorelasyonu dengelemek için eksik verilerim olduğu için bir corCAR1 modeli kullanıyorum. Verilerin bana toplam bir yük vermesi gerekiyor, bu yüzden tüm tahmin aralığı boyunca toplamam gerekiyor. Ancak, toplam yük üzerindeki standart hatanın …

32 mixed-model variance random-variable

6

Lojistik regresyon ve sinir ağları arasındaki fark nedir?

Lojistik regresyon ve sinir ağı arasındaki istatistiği olmayan bir kitleye olan farkı nasıl açıklayabiliriz?

32 logistic neural-networks

4

Binom verileri üzerinde ANOVA

Deneysel bir veri setini analiz ediyorum. Veriler, bir çift tedavi tipi vektöründen ve binom bir sonuçtan oluşur: Treatment Outcome A 1 B 0 C 0 D 1 A 0 ... Sonuç sütununda, 1 başarılı ve 0 başarısızlık anlamına gelir. Tedavinin sonucu önemli ölçüde değiştirip değiştirmediğini anlamak isterim. Her deneyde çok …

32 logistic anova binomial experiment-design

3

SVM'den değişken önem

SVM kullanarak değişken (nitelik) önemi nasıl elde edilir?

32 machine-learning feature-selection svm

7

“Çalışan” doğrusal veya lojistik regresyon parametrelerini hesaplamak için algoritmalar var mı?

Http://www.johndcook.com/standard_deviation.html adresindeki "Doğru çalışan bilgisayar varyasyonu" adlı bir makale , çalışan ortalama, varyans ve standart sapmaların nasıl hesaplandığını gösterir. Her yeni eğitim kaydı sağlandığında doğrusal veya lojistik bir regresyon modelinin parametrelerinin benzer şekilde "dinamik olarak" güncellenebileceği algoritmalar var mı?

32 regression logistic online

2

Ortalama ve varyansın bağımsız olduğu normal dışındaki dağılımlar

Ortalamanın ve varyansın birbirinden bağımsız olduğu normalin dışında herhangi bir dağılım olup olmadığını merak ediyordum (veya başka bir deyişle varyansın ortalamanın bir fonksiyonu olmadığı durumlarda).

32 distributions

5

Zaman etkisinin bireyler arasında fonksiyonel biçimde değiştiği boyuna verilerin modellenmesi

Bağlam : 200 katılımcıda 20 hafta boyunca haftada bir bağımlı değişken (DV) ölçen uzunlamasına bir çalışma yaptığınızı hayal edin. Genel olarak ilgilenmeme rağmen, düşünmeyi düşündüğüm tipik DV'ler işe alım sonrası iş performansını veya klinik psikoloji müdahalesini takiben çeşitli sağlık önlemlerini içeriyor. Zaman ve DV arasındaki ilişkiyi modellemek için çok seviyeli …

32 repeated-measures random-effects-model latent-class

12

Kavraması en zor istatistiksel kavram nedir?

Bu, buradaki soruya benzer bir sorudur , ancak sormaya değeceğini düşünüyorum. Başlangıç olarak koyacağımı düşündüm, kavraması en zor olanın bence. Maden olasılık ve frekans arasındaki farktır . Biri "gerçeklik bilgisi" (olasılık), diğeri "gerçekliğin kendisi" (frekans) düzeyindedir. Çok fazla düşünürsem, bu beni hemen hemen her zaman şaşırtıyor. Edwin Jaynes Bu şeyleri …

32 teaching

6

Metnin istatistiksel sınıflandırması

İstatistiki altyapısı olmayan bir programcıyım ve şu anda önceden tanımlanmış kategorilerde sınıflandırmak istediğim çok sayıda farklı belge için farklı sınıflandırma yöntemlerine bakıyorum. KNN, SVM ve NN hakkında okuyorum. Ancak, başlamakta biraz zorlanıyorum. Hangi kaynakları önerirsiniz? Tek değişkenli ve çok değişkenli hesabı oldukça iyi biliyorum, bu yüzden matematiğim yeterince güçlü olmalı. …

32 classification information-retrieval text-mining