İstatistikler ve Büyük Veri

7

Yapay sinir ağlarında veri normalleşmesi ve standardizasyon

Sinir ağlarını (YSA) kullanarak karmaşık bir sistemin sonucunu tahmin etmeye çalışıyorum. Sonuç (bağımlı) değerler 0 ile 10,000 arasındadır. Farklı giriş değişkenlerinin farklı aralıkları vardır. Tüm değişkenler kabaca normal dağılımlara sahiptir. Antrenmandan önce verileri ölçeklendirmek için farklı seçenekler düşünüyorum. Bir seçenek, her değişkenin ortalama ve standart sapma değerlerini bağımsız olarak kullanarak …

39 machine-learning neural-networks multidimensional-scaling

1

R Sıralaması - Azalan Sıralama [Kapat]

Bazı durumlarda, daha büyük bir değerin 1 olduğunu belirten verileri sıralamaya bakıyorum, R için nispeten yeni, ancak bu ayarı sıralama işlevinde nasıl ayarlayabileceğimi göremiyorum. x <- c(23,45,12,67,34,89) rank(x) oluşturur: [1] 2 4 1 5 3 6 istediğim zaman: [1] 5 3 6 2 4 1 Bunun çok basit olduğunu düşünüyorum, …

39 r

5

AICc için negatif değerler (düzeltilmiş Akaike Bilgi Kriteri)

İki genel doğrusal karışık modeli karşılaştırmak için AIC ve AICc'yi hesapladım; AIC'ler model 1'den, model 2'den daha düşük AIC'ye sahip olan pozitiftir. Bununla birlikte, AICc için değerler her ikisi de negatiftir (model 1 hala <model 2'dir). Negatif AICc değerlerini kullanmak ve karşılaştırmak geçerli midir?

39 mixed-model model-selection aic

5

Bir popülasyon ile örnek arasındaki fark nedir?

Bir popülasyon ile örnek arasındaki fark nedir? Her biri için hangi ortak değişkenler ve istatistikler kullanılıyor ve bunlar birbirleriyle nasıl ilişkili?

38 standard-deviation variance sample population

3

Karar Ağaçları neden hesaplamalı olarak pahalı değil?

In R Uygulamaları ile İstatistiksel Öğrenme An Introduction , yazarlar uydurma olduğunu yazmak karar ağacını çok hızlıdır, ama bu benim için bir anlam ifade etmiyor. Algoritma, her bir özelliğin içinden geçmeli ve optimal bölünmeyi bulmak için mümkün olan her şekilde bölümlendirmelidir. gözlemli sayısal özellikler için bu, her özellik için bölümle …

38 cart

6

Neden% 100 doğrulukta karar ağacı alıyorum?

Karar ağacım için% 100 doğruluk elde ediyorum. Neyi yanlış yapıyorum? Bu benim kodum: import pandas as pd import json import numpy as np import sklearn import matplotlib.pyplot as plt data = np.loadtxt("/Users/Nadjla/Downloads/allInteractionsnum.csv", delimiter=',') x = data[0:14] y = data[-1] from sklearn.cross_validation import train_test_split x_train = x[0:2635] x_test = x[0:658] y_train …

38 machine-learning python cart accuracy

2

Taraflı tahminci ne zaman tarafsız birine tercih edilir?

İnsanın neden tarafsız bir tahminci tercih ettiğini defalarca açıktır. Ancak, gerçekte tarafsız bir tahminciyi tarafsız bir tahmin yerine tercih edebileceğimiz durumlar var mı?

38 bias unbiased-estimator estimators

5

Kare hatasını en aza indirmek, mutlak hatayı en aza indirmeye eşdeğer midir? Neden kare hata ikincisinden daha popüler?

Doğrusal regresyon yaptığımızda, bir sürü veri noktasına uyacak şekilde , klasik yaklaşım kare hatasını en aza indirir. Uzun zamandır karelerdeki hatayı en aza indirecek bir soruyu şaşırtmıştım , mutlak hatayı minimize etmekle aynı sonucu verdin mi? Değilse neden kare hatasını en aza indirgemek daha iyidir? “Amaç işlevi farklılaştırılabilir” den başka …

38 least-squares error

4

R ile çizim yapmak için, ggplot2 veya ggvis'i öğrenmeli miyim?

R ile çizim yapmak için, ggplot2 veya ggvis'i öğrenmeli miyim? Her ikisinden de birinin herhangi bir konuda üstün olup olmadığını öğrenmek istemiyorum. Neden R topluluğu örtüşen işlevlere sahip yeni paketler oluşturmaya devam ediyor? Tanıtım Blog yazısı ggvis sofistike komplo paket ggplot2 zaten var olduğu göz önüne alındığında oluşturulan neden tek …

38 r data-visualization software

4

R'deki Stata'nın “sağlam” seçeneğini çoğaltma

robustR'deki Stata seçeneğinin sonuçlarını kopyalamaya çalışıyorum. rlmMASS paketini ve lmrob"robustbase" paketinden gelen komutları kullandım. Her iki durumda da, sonuçlar Stata'daki "sağlam" seçeneğinden oldukça farklıdır. Herhangi biri bu bağlamda bir şey önerebilir mi? Stata'da sağlam seçeneği kullandığımda elde ettiğim sonuçlar: . reg yb7 buildsqb7 no_bed no_bath rain_harv swim_pl pr_terrace, robust Linear …

38 r stata robust robust-standard-error

3

Bootstrapped örneklerden alınan güven aralığının anlamı nedir?

Bu sitede önyükleme ve güven aralığı ile ilgili sayısız soruya baktım ama hala kafam karıştı. Kafamın karışma sebebinin bir kısmı muhtemelen istatistik bilgilerimde cevapların çoğunu anlayacak kadar gelişmiş olmamamdır. Girişsel bir istatistik kursunun yarısı kadar yoldayım ve matematik seviyem sadece Cebir II'nin ortasıyla ilgili, yani bu seviyedeki herhangi bir şey …

38 confidence-interval bootstrap

3

Polinom regresyonu neden çoklu lineer regresyonun özel bir durumu olarak kabul edilir?

Polinom regresyon doğrusal olmayan ilişkileri modelliyorsa, özel bir çoklu doğrusal regresyon olayı nasıl düşünülebilir? Wikipedia, "Polinom regresyonunun verilere doğrusal olmayan bir modele uymasına rağmen, istatistiksel bir tahmin problemi olarak doğrusal olduğunu, regresyon fonksiyonunun 'in tahmin edilen bilinmeyen parametrelerde lineer olduğu anlamında olduğunu not eder. verilerden. "E(y|x)E(y|x)\mathbb{E}(y | x) Parametreler order …

38 regression multiple-regression linear-model nonlinear-regression polynomial

2

Koşullu ve koşulsuz kuantil regresyon arasındaki fark nedir?

Koenker ve Basset'in (1978) quantile için koşullu nicel regresyon tahmincisi burada \ rho_ \ tau = u_i \ cdot (\ tau - 1 (u_i <0)) yeniden ağırlıklandırma işlevidir ("check" -function işlevi) artıkların u_i .τthτth\tau^{th} βˆQR=minb∑i=1nρτ(yi−X′ibτ)β^QR=minb∑i=1nρτ(yi−Xi′bτ) \widehat{\beta}_{QR} = \min_{b} \sum^{n}_{i=1} \rho_\tau (y_i - X'_i b_\tau) ρτ=ui⋅(τ−1(ui<0))ρτ=ui⋅(τ−1(ui<0))\rho_\tau = u_i\cdot (\tau - 1(u_i<0))uiuiu_i …

38 quantile-regression

3

Çapraz doğrulama kullanılırken bir standart hata kuralı için ampirik gerekçe

Tek bir standart hata kuralının para cezası lehine kullanılmasını haklı çıkaran ampirik çalışmalar var mı? Açıkçası, verilerin veri oluşturma sürecine bağlıdır, ancak büyük bir veri kümesini analiz eden herhangi bir şey çok ilginç bir okuma olacaktır. Modeller çapraz onaylama yoluyla (veya daha genel olarak herhangi bir randomizasyon temelli prosedür aracılığıyla) …

38 cross-validation model-selection regularization

2

Poisson ve negatif binom gerilimleri ne zaman aynı katsayılara uyar?

R, Poisson ve negatif binom (NB) regresyonlarında, kategorik fakat sürekli olmayan tahminler için daima aynı katsayılara uyduğunu farkettim. Örneğin, burada kategorik bir yordayıcılığa sahip bir regresyon: data(warpbreaks) library(MASS) rs1 = glm(breaks ~ tension, data=warpbreaks, family="poisson") rs2 = glm.nb(breaks ~ tension, data=warpbreaks) #compare coefficients cbind("Poisson"=coef(rs1), "NB"=coef(rs2)) Poisson ve NB'nin farklı katsayılara …

38 regression negative-binomial poisson-regression