İstatistikler ve Büyük Veri

4

Önyükleme küçük örneklem büyüklüğü için bir “tedavi” olarak görülebilir mi?

Bu soru, bu lisans düzeyinde istatistik ders kitabında okuduğum ve bu sunum sırasında (bağımsız olarak) istatistiksel bir seminerde duyduğum bir şeyle tetiklendi. Her iki durumda da, ifade "satırlarının boyutu oldukça küçük olduğu için, bu parametrik yöntemi yerine (veya bununla birlikte) önyükleme yoluyla tahmin yapmaya karar verdik .XXX Ayrıntılara girmediler, ama …

71 bootstrap small-sample

8

Mevcut bir değişken (ler) ile tanımlanmış bir korelasyon ile rastgele bir değişken oluşturun

Bir simülasyon çalışması için, mevcut bir değişkenine önceden tanımlanmış (popülasyon) bir korelasyon gösteren rastgele değişkenler oluşturmalıyım .YYY RPaketlere baktım copulave CDVinebelirli bir bağımlılık yapısına sahip rastgele çok değişkenli dağılımlar üretebiliyorum. Bununla birlikte, ortaya çıkan değişkenlerden birini mevcut bir değişkene sabitlemek mümkün değildir. Herhangi bir fikir ve mevcut fonksiyonlara bağlantılar takdir …

71 r correlation random-variable random-generation independence assumptions random-variable unbiased-estimator regression hypothesis-testing heteroscedasticity generalized-least-squares distributions networks data-visualization sas reproducible-research philosophical time-series variance outliers quality-control mean multilevel-analysis average weighted-mean regression confidence-interval prediction-interval correlation matlab matrix data-mining maximum-likelihood r time-series survival predictive-models

12

Doğrusal regresyonla ilgili en yaygın yanlış anlamalar nelerdir?

Merak ediyorum, diğer araştırmacılarla işbirliği konusunda geniş deneyime sahip olanlarınız için, karşılaştığınız lineer regresyon hakkındaki en yaygın yanlış anlamalar nelerdir? Bence vaktinden önceki ortak yanlış anlamaları düşünmek için yararlı bir alıştırma olabilir. İnsanların hatalarını tahmin etmek ve bazı yanlış anlamaların neden yanlış olduğunu açıkça ifade edebilmek Bazı kavram yanılgılarımı kendim …

70 regression multiple-regression

4

Hangi kanonik korelasyon analizinin yapıldığını nasıl görselleştirin (hangi temel bileşen analizine kıyasla)?

Kanonik korelasyon analizi (CCA), temel bileşen analizi (PCA) ile ilgili bir tekniktir. Bir dağılım grafiği kullanarak PCA veya doğrusal regresyon öğretmek kolay olsa da (google resim aramada birkaç bin örneğe bakın), CCA için benzer bir sezgisel örnek görmedim. Lineer CCA'nın ne yaptığını görsel olarak nasıl açıklayabilirim?

70 regression data-visualization pca canonical-correlation geometry

10

T-testinin geçerli olması için gereken minimum örneklem büyüklüğü var mı?

Şu anda yarı deneysel bir araştırma makalesi üzerinde çalışıyorum. Seçilen alandaki düşük nüfustan dolayı sadece 15'lik bir örneklem büyüklüğüne sahibim ve yalnızca 15 kriterime uyuyor. 15, t testi ve F testi için hesaplanacak minimum numune büyüklüğü mü? Öyleyse, bu küçük örneklem boyutunu desteklemek için nereden bir makale veya kitap bulabilirim? …

70 t-test sample-size assumptions power

9

Ekonometri ve diğer istatistiksel alanlar arasındaki ana felsefi, metodolojik ve terminolojik farklar nelerdir?

Ekonometri, geleneksel istatistiklerle önemli ölçüde örtüşmektedir, ancak genellikle çeşitli konular hakkında kendi jargonunu kullanır ("tanımlama", "dışlayıcı" vb.). Bir keresinde başka bir alandaki uygulamalı istatistik profesörünün terminolojinin farklı olduğunu fakat kavramların aynı olduğunu yorumladığını duydum. Yine de kendine has yöntemleri ve felsefi ayrımları var (Heckman'ın ünlü makalesi akla geliyor). Ekonometri ve …

70 econometrics terminology

5

Zaman serisi model seçimi için k-kat çapraz doğrulama kullanma

Soru: Bir şeyden emin olmak istiyorum, zaman serileri ile k-fold cross-geçerlilik kullanımı basit mi, yoksa kullanmadan önce özel bir dikkat gösterilmesi gerekiyor mu? Arkaplan: Her 5 dakikada bir veri örneği ile 6 yıllık bir zaman serisini (yarı markov zinciri ile) modelleyeceğim. Birkaç modeli karşılaştırmak için, verileri 6 yıl içinde ayırarak …

70 time-series modeling cross-validation

9

Neden önemli bir F istatistiği (p <.001), ancak önemli olmayan regresör t-testleri elde etmek mümkündür?

Çoklu bir doğrusal regresyonda, neden oldukça anlamlı bir F istatistiğine sahip olmak mümkündür (p <.001), ancak tüm regresörün t testlerinde p değeri çok yüksek? Benim modelimde 10 adet regülatör var. Biri p-değeri 0.1, geri kalanı 0.9'un üstünde Bu sorunla ilgilenmek için takip eden soruya bakınız .

70 hypothesis-testing regression t-test multicollinearity

15

Açıklayıcı ve öngörücü modelleme üzerine pratik düşünceler

Nisan ayında, UMD Matematik Bölümü İstatistikleri grup seminer serisinde "Açıklamak veya Tahmin Etmek" adlı bir konuşmaya katıldım. Konuşma, UMD'nin Smith Business School'da ders veren Prof. Galit Shmueli tarafından verildi . Konuşması, "IS Araştırmalarında Tahmine Dayalı ve Açıklayıcı Modelleme" başlıklı bir makale ve "Açıklamak veya Tahmin Etmek İçin" başlıklı bir çalışma …

70 predictive-models

9

Zaman serisindeki anomalileri tespit etmek için hangi algoritmayı kullanmalıyım?

Arka fon Network Operations Center'da çalışıyorum, bilgisayar sistemlerini ve performanslarını izliyoruz. İzlenecek kilit ölçütlerden biri, şu anda sunucularımıza bağlı bir dizi ziyaretçi \ müşterisidir. Bunu görünür kılmak için (Ops ekibi) zaman serisi verileri gibi metrikleri topluyoruz ve grafikler çiziyoruz. Grafit bunu yapmamızı sağlıyor, ani düşüşler (çoğunlukla) ve diğer değişiklikler meydana …

70 machine-learning time-series python computational-statistics anomaly-detection

1

Çapraz doğrulama, öğrenme eğrisi ve son değerlendirme için veri setinin nasıl bölüneceği?

Veri kümesini bölmek için uygun bir strateji nedir? Ben şu yaklaşıma ilgili görüşlerinizi (değil gibi bireysel parametrelere test_sizeveya n_iterama kullanılırsa X, y, X_train, y_train, X_test, ve y_testuygun bir şekilde ve sıra mantıklı ise): ( bu örneği scikit-learn belgelerinden uzatarak) 1. Veri kümesini yükleyin from sklearn.datasets import load_digits digits = load_digits() …

70 machine-learning cross-validation python scikit-learn

4

R fonksiyonları prcomp ve princomp arasındaki fark nedir?

Karşılaştırma yaptım ?prcompve ?princompQ modu ve R modu ana bileşen analizi (PCA) hakkında bir şeyler buldum. Ama dürüst olmak gerekirse, anlamıyorum. Birisi farkı açıklayabilir ve belki de ne zaman uygulanacağını açıklayabilir mi?

70 r pca

2

Keras 'Embedding' katmanı nasıl çalışır?

Keras kütüphanesinde 'Katıştırma' katmanının çalışmasını anlamalısınız. Python'da şu kodu çalıştırıyorum import numpy as np from keras.models import Sequential from keras.layers import Embedding model = Sequential() model.add(Embedding(5, 2, input_length=5)) input_array = np.random.randint(5, size=(1, 5)) model.compile('rmsprop', 'mse') output_array = model.predict(input_array) aşağıdaki çıktıyı verir input_array = [[4 1 3 3 3]] output_array = …

70 text-mining word-embeddings keras

3

Sinir ağı araştırmacıları neden dönemleri önemsiyorlar?

Stokastik gradyan inişindeki bir çağ, verilerden tek bir geçiş olarak tanımlanır. Her SGD minibatch için, örnekleri çizilir, gradyan hesaplanır ve parametreler güncellenir. Çağ ayarında, numuneler değiştirilmeden çizilir.kkk Ancak bu gereksiz görünüyor. Neden olarak her SGD minibatch çekemez rastgele her tekrarda tüm veri kümesinden çizer? Çok sayıda dönemin üzerinde, numunelerinin az …

69 neural-networks deep-learning gradient-descent

2

Doğrusal regresyonda öngörülen değerler için güven aralığı şekli

Doğrusal bir regresyonda öngörülen değerler için güven aralığının, yordayıcının ortalaması çevresinde ve yordayıcının minimum ve maksimum değerleri etrafındaki yağları daralma eğiliminde olduğunu fark ettim. Bu, bu 4 doğrusal regresyonun parsellerinde görülebilir: Başlangıçta bunun, tahmin edicilerin değerlerinin çoğunun tahmin edicinin ortalaması çevresinde toplandığından dolayı olduğunu düşündüm. Bununla birlikte, güven aralığının dar …

69 regression confidence-interval linear-model standard-error prediction-interval