İstatistikler ve Büyük Veri

İstatistik, makine öğrenmesi, veri analizi, veri madenciliği ve veri görselleştirmesi ile ilgilenen kişiler için soru cevap


4
Shapiro-Wilk en iyi normallik testi midir? Neden Anderson-Darling gibi diğer testlerden daha iyi olabilir?
Literatürde bir yerlerde Shapiro-Wilk testinin en iyi normallik testi olarak kabul edildiğini okudum, çünkü verilen bir anlamlılık düzeyi için, , yanlış olması durumunda boş hipotezi reddetme olasılığı diğerinden daha yüksek normallik testleri.αα\alpha Bana mümkünse matematiksel argümanlar kullanarak, diğer bazı normallik testlerine kıyasla tam olarak nasıl çalıştığını açıklayabilir misiniz (Anderson - …

5
Varyansı düşük olan PC'lerin “kullanışlı” olduğu PCA örnekleri
Normalde temel bileşen analizinde (PCA), ilk birkaç bilgisayar kullanılır ve verilerdeki varyasyonun çoğunu açıklamadığı için düşük değişkenlikteki PC'ler düşer. Bununla birlikte, düşük değişkenlikteki PC'lerin yararlı olduğu (yani, veri bağlamında kullanım, sezgisel bir açıklamaya vb. Sahip olduğu) ve atılmaması gereken örnekler var mı?
24 pca 

2
Hayatta kalma analizinde neden tamamen parametrik modeller yerine yarı parametrik modeller (Cox orantılı tehlikeler) kullanıyoruz?
Bu soru Matematiksel Yığın Değişim Borsası'ndan taşındı , çünkü Çapraz Doğrulama'da yanıtlanabiliyordu. 6 yıl önce göç etmiş . Cox Orantısal Tehlikeler modelini inceledim ve bu soru çoğu metinde açıklandı. Cox, kısmi bir olabilirlik yöntemi kullanarak Tehlike fonksiyonunun katsayılarının kullanılmasını önerdi, ancak neden maksimum olasılık yöntemini ve doğrusal bir modeli kullanarak …

5
Karışık bir modelde bir faktörü rastgele olarak görmenin ters tarafı nedir?
Birkaç nedenden ötürü bir model faktörünü rastgele olarak etiketlemenin faydalarını benimseme konusunda bir sorunum var. Bana göre, neredeyse her durumda olduğu gibi, optimal çözüm tüm faktörleri sabit olarak ele almaktır. İlk olarak, sabit vs rastgele ayrımı oldukça keyfidir. Standart açıklama, eğer kişi kendi başına belirli deneysel birimlerle ilgileniyorsa, o zaman …

3
Sınıflandırma performansını değerlendirmek için çapraz onaylama mı yoksa önyükleme mi?
Bir sınıflandırıcının belirli bir veri setindeki performansını değerlendirmek ve diğer sınıflayıcılarla karşılaştırmak için en uygun örnekleme yöntemi nedir? Çapraz onaylama standart bir uygulama gibi görünmektedir, ancak .632 önyükleme gibi yöntemlerin daha iyi bir seçim olduğunu okudum. Bir takip olarak: Performans ölçütü seçimi cevabı etkiler mi (doğruluk yerine AUC kullanırsam)? Nihai …


2
Ne kadar büyük bir eğitim seti gereklidir?
Minimum bir eşik genelleme doğruluğu elde etmek için bir sınıflandırıcı (bu durumda bir LDA) yetiştirmek için kaç eğitim örneğinin gerekli olduğunu belirlemek için kullanılan yaygın bir yöntem var mı? Soruyorum çünkü genellikle bir beyin-bilgisayar arayüzünde gerekli olan kalibrasyon süresini en aza indirmek istiyorum.

2
Regresyon için asimetrik kayıp fonksiyonu nasıl tasarlanır ve uygulanır?
Sorun Regresyonda, genellikle bir örnek için ortalama kare hatası (MSE) hesaplanır : , bir prediktör kalitesini ölçmek için uygulanır.MSE=1n∑i=1n(g(xi)−gˆ(xi))2MSE=1n∑i=1n(g(xi)−g^(xi))2 \text{MSE} = \frac{1}{n} \sum_{i=1}^n\left(g(x_i) - \widehat{g}(x_i)\right)^2 Şu anda, hedefin, müşterilerin birtakım sayısal özellikler verilen bir ürün için ödemek istedikleri fiyatı tahmin etmektir. Öngörülen fiyat çok yüksekse, hiçbir müşteri ürünü satın alamaz, …

3
Veritabanından 1d veri farklı kümeleri belirleme
Farklı düğümler arasında veri transferleri veritabanı tablosu var. Bu büyük bir veri tabanıdır (yaklaşık 40 milyon transferle). Özniteliklerden biri, 0 byte ile 2 tera byte arasında değişen bayt sayısı (nbyte) transferidir. Nbaytları kümelemek isterim ki, k kümeleri verildiğinde bazı x1 transferleri k1 kümesine, x2 k2 vb. Kullandığım terminolojiden neyle gittiğimi …

1
Binlenmiş gözlemlerin standart sapması
Menzil kutuları içinde sayım olarak saklanan bir örnek gözlem veri kümesine sahibim. Örneğin: min/max count 40/44 1 45/49 2 50/54 3 55/59 4 70/74 1 Şimdi, bunun ortalamasının bir tahminini bulmak oldukça açık. Basitçe, gözlem aralığı olarak her bir menzil kutusunun ortalamasını (veya ortancasını) kullanın ve ağırlık olarak sayımı hesaplayın: …

1
Degrade iniş için sonlandırma koşulu nasıl tanımlanır?
Aslında, size gradyan inişi için sonlandırma koşulunu nasıl tanımlayabileceğimi sormak istiyorum. Yineleme sayısına dayanarak, yani 100 yineleme için parametre değerlerini dikkate alarak durdurabilir miyim? Yoksa 'new' ve 'old' iki parametresindeki farklılığın, diyelim sırasına göre çok küçük olmasını beklemeli miyim ? Bu kesinlikle çok zaman alacaktır.10- 610-610^{-6} En iyi yol nedir? …

5
Örneklerin dağılımları normal olmadığında bağımsız numuneler t-testi ne kadar sağlamdır?
Örneklerin dağılımları normallikten çıktığında t- testinin "makul derecede sağlam" olduğunu okudum . Tabii ki, önemli olan farklılıkların örnekleme dağılımı. İki grup için verilerim var. Gruplardan biri bağımlı değişkene aşırı eğridir. Örneklem büyüklüğü her iki grup için de oldukça küçüktür (birinde n = 33, diğerinde 45). Bu koşullar altında t- testimin …


1
Doğrusal regresyon tahmin aralığı
Veri noktalarımın en iyi doğrusal yaklaşımı (en küçük kareler kullanılarak) çizgisiyse , yaklaşım hatasını nasıl hesaplayabilirim? Gözlemler ve öngörüler arasındaki farkların standart sapmasını hesaplarsam, , daha sonra gerçek (ama gözlenmeyen) değerin aralığının ( ) normal dağılım varsayılarak ~% 68 olasılıkla?e i = r e a l ( x i ) …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.