İstatistikler ve Büyük Veri

İstatistik, makine öğrenmesi, veri analizi, veri madenciliği ve veri görselleştirmesi ile ilgilenen kişiler için soru cevap

6
Simülasyon ne zaman kullanılır?
Yani bu çok basit ve aptal bir soru. Ancak, okuldayken sınıftaki tüm simülasyon kavramına çok az dikkat ettim ve bu da beni bu süreçten biraz korkuttu. Simülasyon sürecini laymen cinsinden açıklayabilir misiniz? (veri üretmek için olabilir, regresyon katsayıları, vb.) Biri simülasyonları kullandığında bazı pratik durumlar / problemler nelerdir? R de …
40 simulation 

5
Sürekli ve kategorik (nominal) değişkenler arasındaki korelasyon
Sürekli (bağımlı değişken) ile kategorik (nominal: cinsiyet, bağımsız değişken) değişken arasındaki ilişkiyi bulmak isterim. Sürekli veri normalde dağılmaz. Daha önce Spearman's kullanarak hesaplamıştım . Ancak bunun doğru olmadığı söylendi.ρρ\rho İnternette arama yaparken, kutu grafiğinin ne kadar ilişkili oldukları hakkında bir fikir verebileceğini; Ancak, Pearson'un ürün moment katsayısı veya Spearman's gibi …

5
R - Ki-kare yaklaşımında uyarı yanlış olabilir
İtfaiyeciye giriş sınavı sonuçlarını gösteren verilerim var. Sınav sonuçlarının ve etnik kökenin karşılıklı olarak bağımsız olmadığı hipotezini test ediyorum. Bunu test etmek için, R'de Pearson ki-kare testi uygulamıştım. Sonuçlar beklediğimi gösteriyor, ancak " In chisq.test(a) : Chi-squared approximation may be incorrect." Şeklinde bir uyarı verdi . > a white black …


4
Sınıflandırmada hatırlama ve hassasiyet
Her zaman bilgi alımı bağlamında olmasına rağmen, bazı hatırlama ve kesinlik tanımlarını okudum. Birisini bunu bir sınıflandırma bağlamında biraz daha açıklayabilir ve belki bazı örnekler gösterebilir mi diye merak ediyordum. Örneğin, bana% 60 hassasiyet ve% 95 geri çağırma sağlayan bir ikili sınıflandırıcıya sahip olduğumu söyle, bu iyi bir sınıflandırıcı mı? …

3
Glmnet kullanarak bir Kement'in sonuçları nasıl sunulur?
30 bağımsız değişken kümesinden sürekli bir bağımlı değişken için tahmincileri bulmak istiyorum. R'deki glmnet paketinde uygulanan Lasso regresyonunu kullanıyorum . İşte bazı boş kod: # generate a dummy dataset with 30 predictors (10 useful & 20 useless) y=rnorm(100) x1=matrix(rnorm(100*20),100,20) x2=matrix(y+rnorm(100*10),100,10) x=cbind(x1,x2) # use crossvalidation to find the best lambda library(glmnet) …


3
veya
Bir süredir bunu merak ediyorum; Ne kadar beklenmedik bir şekilde olduğunu garip buluyorum. Temel olarak, neden olduğu gibi için sadece üç forma ihtiyacımız var? Düzeltme neden bu kadar çabuk oluyor?ZnZnZ_n Z2Z2Z_2 : Z3Z3Z_3 : (utanmadan John D. Cook'un blogundan çalınan görüntüler: http://www.johndcook.com/blog/2009/02/12/sums-of-uniform-random-values/ ) Neden dört üniforma almıyor? Veya beş? Veya...?

3
Gizli Markov modelleri ve sinir ağları arasındaki farklar nelerdir?
Sadece ayaklarımın istatistiklerini ıslattığım için üzgünüm, eğer bu soru mantıklı gelmiyorsa. Gizli aramaları (haksız kumarhaneler, zar atma vb.) Ve sinir ağlarını tahmin etmek için Markov modellerini ve kullanıcıların arama motorundaki tıklamaları incelemek için kullandım. Her ikisinde de gözlemleri kullanarak çözmeye çalıştığımız gizli durumlar vardı. Anladığım kadarıyla ikisi de gizli durumları …

1
Önyükleme veya Monte Carlo yaklaşımı kullanılarak önemli ana bileşenler nasıl belirlenir?
Temel Bileşen Analizi (PCA) veya Ampirik Ortogonal İşlev (EOF) Analizinden çıkan önemli kalıpların sayısını belirlemekle ilgileniyorum. Özellikle bu yöntemi iklim verilerine uygulamakla ilgileniyorum. Veri alanı, M'nin zaman boyutu (örneğin günler) ve N'nin uzaysal boyut (örneğin, lon / lat konumları) olduğu bir MxN matrisidir. Önemli bilgisayarları belirlemek için olası bir önyükleme …
40 r  pca  bootstrap  monte-carlo 


13
Monty Hall Sorunu - sezgilerimiz bizi nerede başarısız ediyor?
Wikipedia'dan: Bir oyun şovunda olduğunuzu ve üç kapının seçimini verdiğinizi varsayalım: Bir kapının arkasında bir araba; diğerlerinin arkasında keçiler var. Bir kapı seçiyorsunuz, 1 numara diyorsunuz ve kapıların arkasında ne olduğunu bilen ev sahibi, başka bir kapıyı açıyor, bir keçi olan 3 numara. Daha sonra size "2 numaralı kapıyı seçmek …

4
Doğrusal aktivasyon fonksiyonu, sinir ağlarında kaybolan gradyan problemini nasıl çözer?
Rektifiye doğrusal ünite (ReLU) sinir ağları için kaybolma degrade sorununa bir çözüm olarak çeşitli yerlerde övgüde bulundu . Yani aktivasyon fonksiyonu olarak max (0, x) kullanılır. Aktivasyon pozitif olduğunda, bunun, sigmoid aktivasyon fonksiyonundan daha iyi olduğu açıktır, çünkü türetilmesi, büyük x için keyfi olarak küçük bir değer yerine her zaman …

5
Dinamik Zaman Çözgü Kümeleme
Zaman serilerinin kümelenmesini gerçekleştirmek için Dinamik Zaman Sıyırma (DTW) kullanma yaklaşımı ne olurdu? DTW'yi, iki zaman serisi arasında benzerlik bulmanın, zaman içinde kaydırılabileceklerini bulmanın bir yolu olarak okudum. Bu yöntemi k-means gibi kümeleme algoritması için benzerlik ölçüsü olarak kullanabilir miyim?


Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.