İstatistikler ve Büyük Veri

İstatistik, makine öğrenmesi, veri analizi, veri madenciliği ve veri görselleştirmesi ile ilgilenen kişiler için soru cevap

7
Yapay sinir ağlarında veri normalleşmesi ve standardizasyon
Sinir ağlarını (YSA) kullanarak karmaşık bir sistemin sonucunu tahmin etmeye çalışıyorum. Sonuç (bağımlı) değerler 0 ile 10,000 arasındadır. Farklı giriş değişkenlerinin farklı aralıkları vardır. Tüm değişkenler kabaca normal dağılımlara sahiptir. Antrenmandan önce verileri ölçeklendirmek için farklı seçenekler düşünüyorum. Bir seçenek, her değişkenin ortalama ve standart sapma değerlerini bağımsız olarak kullanarak …

1
R Sıralaması - Azalan Sıralama [Kapat]
Bazı durumlarda, daha büyük bir değerin 1 olduğunu belirten verileri sıralamaya bakıyorum, R için nispeten yeni, ancak bu ayarı sıralama işlevinde nasıl ayarlayabileceğimi göremiyorum. x <- c(23,45,12,67,34,89) rank(x) oluşturur: [1] 2 4 1 5 3 6 istediğim zaman: [1] 5 3 6 2 4 1 Bunun çok basit olduğunu düşünüyorum, …
39 r 



3
Karar Ağaçları neden hesaplamalı olarak pahalı değil?
In R Uygulamaları ile İstatistiksel Öğrenme An Introduction , yazarlar uydurma olduğunu yazmak karar ağacını çok hızlıdır, ama bu benim için bir anlam ifade etmiyor. Algoritma, her bir özelliğin içinden geçmeli ve optimal bölünmeyi bulmak için mümkün olan her şekilde bölümlendirmelidir. gözlemli sayısal özellikler için bu, her özellik için bölümle …
38 cart 

6
Neden% 100 doğrulukta karar ağacı alıyorum?
Karar ağacım için% 100 doğruluk elde ediyorum. Neyi yanlış yapıyorum? Bu benim kodum: import pandas as pd import json import numpy as np import sklearn import matplotlib.pyplot as plt data = np.loadtxt("/Users/Nadjla/Downloads/allInteractionsnum.csv", delimiter=',') x = data[0:14] y = data[-1] from sklearn.cross_validation import train_test_split x_train = x[0:2635] x_test = x[0:658] y_train …


5
Kare hatasını en aza indirmek, mutlak hatayı en aza indirmeye eşdeğer midir? Neden kare hata ikincisinden daha popüler?
Doğrusal regresyon yaptığımızda, bir sürü veri noktasına uyacak şekilde , klasik yaklaşım kare hatasını en aza indirir. Uzun zamandır karelerdeki hatayı en aza indirecek bir soruyu şaşırtmıştım , mutlak hatayı minimize etmekle aynı sonucu verdin mi? Değilse neden kare hatasını en aza indirgemek daha iyidir? “Amaç işlevi farklılaştırılabilir” den başka …

4
R ile çizim yapmak için, ggplot2 veya ggvis'i öğrenmeli miyim?
R ile çizim yapmak için, ggplot2 veya ggvis'i öğrenmeli miyim? Her ikisinden de birinin herhangi bir konuda üstün olup olmadığını öğrenmek istemiyorum. Neden R topluluğu örtüşen işlevlere sahip yeni paketler oluşturmaya devam ediyor? Tanıtım Blog yazısı ggvis sofistike komplo paket ggplot2 zaten var olduğu göz önüne alındığında oluşturulan neden tek …

4
R'deki Stata'nın “sağlam” seçeneğini çoğaltma
robustR'deki Stata seçeneğinin sonuçlarını kopyalamaya çalışıyorum. rlmMASS paketini ve lmrob"robustbase" paketinden gelen komutları kullandım. Her iki durumda da, sonuçlar Stata'daki "sağlam" seçeneğinden oldukça farklıdır. Herhangi biri bu bağlamda bir şey önerebilir mi? Stata'da sağlam seçeneği kullandığımda elde ettiğim sonuçlar: . reg yb7 buildsqb7 no_bed no_bath rain_harv swim_pl pr_terrace, robust Linear …

3
Bootstrapped örneklerden alınan güven aralığının anlamı nedir?
Bu sitede önyükleme ve güven aralığı ile ilgili sayısız soruya baktım ama hala kafam karıştı. Kafamın karışma sebebinin bir kısmı muhtemelen istatistik bilgilerimde cevapların çoğunu anlayacak kadar gelişmiş olmamamdır. Girişsel bir istatistik kursunun yarısı kadar yoldayım ve matematik seviyem sadece Cebir II'nin ortasıyla ilgili, yani bu seviyedeki herhangi bir şey …

3
Polinom regresyonu neden çoklu lineer regresyonun özel bir durumu olarak kabul edilir?
Polinom regresyon doğrusal olmayan ilişkileri modelliyorsa, özel bir çoklu doğrusal regresyon olayı nasıl düşünülebilir? Wikipedia, "Polinom regresyonunun verilere doğrusal olmayan bir modele uymasına rağmen, istatistiksel bir tahmin problemi olarak doğrusal olduğunu, regresyon fonksiyonunun 'in tahmin edilen bilinmeyen parametrelerde lineer olduğu anlamında olduğunu not eder. verilerden. "E(y|x)E(y|x)\mathbb{E}(y | x) Parametreler order …

2
Koşullu ve koşulsuz kuantil regresyon arasındaki fark nedir?
Koenker ve Basset'in (1978) quantile için koşullu nicel regresyon tahmincisi burada \ rho_ \ tau = u_i \ cdot (\ tau - 1 (u_i &lt;0)) yeniden ağırlıklandırma işlevidir ("check" -function işlevi) artıkların u_i .τthτth\tau^{th} βˆQR=minb∑i=1nρτ(yi−X′ibτ)β^QR=minb∑i=1nρτ(yi−Xi′bτ) \widehat{\beta}_{QR} = \min_{b} \sum^{n}_{i=1} \rho_\tau (y_i - X'_i b_\tau) ρτ=ui⋅(τ−1(ui&lt;0))ρτ=ui⋅(τ−1(ui&lt;0))\rho_\tau = u_i\cdot (\tau - 1(u_i<0))uiuiu_i …

3
Çapraz doğrulama kullanılırken bir standart hata kuralı için ampirik gerekçe
Tek bir standart hata kuralının para cezası lehine kullanılmasını haklı çıkaran ampirik çalışmalar var mı? Açıkçası, verilerin veri oluşturma sürecine bağlıdır, ancak büyük bir veri kümesini analiz eden herhangi bir şey çok ilginç bir okuma olacaktır. Modeller çapraz onaylama yoluyla (veya daha genel olarak herhangi bir randomizasyon temelli prosedür aracılığıyla) …

2
Poisson ve negatif binom gerilimleri ne zaman aynı katsayılara uyar?
R, Poisson ve negatif binom (NB) regresyonlarında, kategorik fakat sürekli olmayan tahminler için daima aynı katsayılara uyduğunu farkettim. Örneğin, burada kategorik bir yordayıcılığa sahip bir regresyon: data(warpbreaks) library(MASS) rs1 = glm(breaks ~ tension, data=warpbreaks, family="poisson") rs2 = glm.nb(breaks ~ tension, data=warpbreaks) #compare coefficients cbind("Poisson"=coef(rs1), "NB"=coef(rs2)) Poisson ve NB'nin farklı katsayılara …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.