İstatistikler ve Büyük Veri

İstatistik, makine öğrenmesi, veri analizi, veri madenciliği ve veri görselleştirmesi ile ilgilenen kişiler için soru cevap

4
Önyükleme küçük örneklem büyüklüğü için bir “tedavi” olarak görülebilir mi?
Bu soru, bu lisans düzeyinde istatistik ders kitabında okuduğum ve bu sunum sırasında (bağımsız olarak) istatistiksel bir seminerde duyduğum bir şeyle tetiklendi. Her iki durumda da, ifade "satırlarının boyutu oldukça küçük olduğu için, bu parametrik yöntemi yerine (veya bununla birlikte) önyükleme yoluyla tahmin yapmaya karar verdik .XXX Ayrıntılara girmediler, ama …

8
Mevcut bir değişken (ler) ile tanımlanmış bir korelasyon ile rastgele bir değişken oluşturun
Bir simülasyon çalışması için, mevcut bir değişkenine önceden tanımlanmış (popülasyon) bir korelasyon gösteren rastgele değişkenler oluşturmalıyım .YYY RPaketlere baktım copulave CDVinebelirli bir bağımlılık yapısına sahip rastgele çok değişkenli dağılımlar üretebiliyorum. Bununla birlikte, ortaya çıkan değişkenlerden birini mevcut bir değişkene sabitlemek mümkün değildir. Herhangi bir fikir ve mevcut fonksiyonlara bağlantılar takdir …

12
Doğrusal regresyonla ilgili en yaygın yanlış anlamalar nelerdir?
Merak ediyorum, diğer araştırmacılarla işbirliği konusunda geniş deneyime sahip olanlarınız için, karşılaştığınız lineer regresyon hakkındaki en yaygın yanlış anlamalar nelerdir? Bence vaktinden önceki ortak yanlış anlamaları düşünmek için yararlı bir alıştırma olabilir. İnsanların hatalarını tahmin etmek ve bazı yanlış anlamaların neden yanlış olduğunu açıkça ifade edebilmek Bazı kavram yanılgılarımı kendim …

4
Hangi kanonik korelasyon analizinin yapıldığını nasıl görselleştirin (hangi temel bileşen analizine kıyasla)?
Kanonik korelasyon analizi (CCA), temel bileşen analizi (PCA) ile ilgili bir tekniktir. Bir dağılım grafiği kullanarak PCA veya doğrusal regresyon öğretmek kolay olsa da (google resim aramada birkaç bin örneğe bakın), CCA için benzer bir sezgisel örnek görmedim. Lineer CCA'nın ne yaptığını görsel olarak nasıl açıklayabilirim?

10
T-testinin geçerli olması için gereken minimum örneklem büyüklüğü var mı?
Şu anda yarı deneysel bir araştırma makalesi üzerinde çalışıyorum. Seçilen alandaki düşük nüfustan dolayı sadece 15'lik bir örneklem büyüklüğüne sahibim ve yalnızca 15 kriterime uyuyor. 15, t testi ve F testi için hesaplanacak minimum numune büyüklüğü mü? Öyleyse, bu küçük örneklem boyutunu desteklemek için nereden bir makale veya kitap bulabilirim? …

9
Ekonometri ve diğer istatistiksel alanlar arasındaki ana felsefi, metodolojik ve terminolojik farklar nelerdir?
Ekonometri, geleneksel istatistiklerle önemli ölçüde örtüşmektedir, ancak genellikle çeşitli konular hakkında kendi jargonunu kullanır ("tanımlama", "dışlayıcı" vb.). Bir keresinde başka bir alandaki uygulamalı istatistik profesörünün terminolojinin farklı olduğunu fakat kavramların aynı olduğunu yorumladığını duydum. Yine de kendine has yöntemleri ve felsefi ayrımları var (Heckman'ın ünlü makalesi akla geliyor). Ekonometri ve …


9
Neden önemli bir F istatistiği (p <.001), ancak önemli olmayan regresör t-testleri elde etmek mümkündür?
Çoklu bir doğrusal regresyonda, neden oldukça anlamlı bir F istatistiğine sahip olmak mümkündür (p &lt;.001), ancak tüm regresörün t testlerinde p değeri çok yüksek? Benim modelimde 10 adet regülatör var. Biri p-değeri 0.1, geri kalanı 0.9'un üstünde Bu sorunla ilgilenmek için takip eden soruya bakınız .

15
Açıklayıcı ve öngörücü modelleme üzerine pratik düşünceler
Nisan ayında, UMD Matematik Bölümü İstatistikleri grup seminer serisinde "Açıklamak veya Tahmin Etmek" adlı bir konuşmaya katıldım. Konuşma, UMD'nin Smith Business School'da ders veren Prof. Galit Shmueli tarafından verildi . Konuşması, "IS Araştırmalarında Tahmine Dayalı ve Açıklayıcı Modelleme" başlıklı bir makale ve "Açıklamak veya Tahmin Etmek İçin" başlıklı bir çalışma …

9
Zaman serisindeki anomalileri tespit etmek için hangi algoritmayı kullanmalıyım?
Arka fon Network Operations Center'da çalışıyorum, bilgisayar sistemlerini ve performanslarını izliyoruz. İzlenecek kilit ölçütlerden biri, şu anda sunucularımıza bağlı bir dizi ziyaretçi \ müşterisidir. Bunu görünür kılmak için (Ops ekibi) zaman serisi verileri gibi metrikleri topluyoruz ve grafikler çiziyoruz. Grafit bunu yapmamızı sağlıyor, ani düşüşler (çoğunlukla) ve diğer değişiklikler meydana …

1
Çapraz doğrulama, öğrenme eğrisi ve son değerlendirme için veri setinin nasıl bölüneceği?
Veri kümesini bölmek için uygun bir strateji nedir? Ben şu yaklaşıma ilgili görüşlerinizi (değil gibi bireysel parametrelere test_sizeveya n_iterama kullanılırsa X, y, X_train, y_train, X_test, ve y_testuygun bir şekilde ve sıra mantıklı ise): ( bu örneği scikit-learn belgelerinden uzatarak) 1. Veri kümesini yükleyin from sklearn.datasets import load_digits digits = load_digits() …

4
R fonksiyonları prcomp ve princomp arasındaki fark nedir?
Karşılaştırma yaptım ?prcompve ?princompQ modu ve R modu ana bileşen analizi (PCA) hakkında bir şeyler buldum. Ama dürüst olmak gerekirse, anlamıyorum. Birisi farkı açıklayabilir ve belki de ne zaman uygulanacağını açıklayabilir mi?
70 r  pca 

2
Keras 'Embedding' katmanı nasıl çalışır?
Keras kütüphanesinde 'Katıştırma' katmanının çalışmasını anlamalısınız. Python'da şu kodu çalıştırıyorum import numpy as np from keras.models import Sequential from keras.layers import Embedding model = Sequential() model.add(Embedding(5, 2, input_length=5)) input_array = np.random.randint(5, size=(1, 5)) model.compile('rmsprop', 'mse') output_array = model.predict(input_array) aşağıdaki çıktıyı verir input_array = [[4 1 3 3 3]] output_array = …

3
Sinir ağı araştırmacıları neden dönemleri önemsiyorlar?
Stokastik gradyan inişindeki bir çağ, verilerden tek bir geçiş olarak tanımlanır. Her SGD minibatch için, örnekleri çizilir, gradyan hesaplanır ve parametreler güncellenir. Çağ ayarında, numuneler değiştirilmeden çizilir.kkk Ancak bu gereksiz görünüyor. Neden olarak her SGD minibatch çekemez rastgele her tekrarda tüm veri kümesinden çizer? Çok sayıda dönemin üzerinde, numunelerinin az …

2
Doğrusal regresyonda öngörülen değerler için güven aralığı şekli
Doğrusal bir regresyonda öngörülen değerler için güven aralığının, yordayıcının ortalaması çevresinde ve yordayıcının minimum ve maksimum değerleri etrafındaki yağları daralma eğiliminde olduğunu fark ettim. Bu, bu 4 doğrusal regresyonun parsellerinde görülebilir: Başlangıçta bunun, tahmin edicilerin değerlerinin çoğunun tahmin edicinin ortalaması çevresinde toplandığından dolayı olduğunu düşündüm. Bununla birlikte, güven aralığının dar …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.