İstatistikler ve Büyük Veri

İstatistik, makine öğrenmesi, veri analizi, veri madenciliği ve veri görselleştirmesi ile ilgilenen kişiler için soru cevap


2
Kolmogorov-Smirnov testinin p-değeri nasıl yorumlanır (python)?
Aynı dağılımdan alınmışlarsa (python kullanarak) test etmek istediğim iki örneğim var. Bunu yapmak için scipy.stats'dan gelen ks_2samp istatistiksel fonksiyonunu kullanıyorum. 2 değer döndürüyor ve bunları nasıl yorumlayacağımı zor buluyorum. Yardım lütfen!
30 python 

7
İstatistiğin dalları nedir?
Matematikte cebir, analiz, topoloji vb. Dallar vardır. Makine öğrenmesinde denetimli, denetimsiz ve pekiştirici öğrenme vardır. Bu dalların her birinde, yöntemleri daha da bölen daha ince dallar vardır. İstatistiklerle paralel çizim yapmakta zorlanıyorum. İstatistiğin ana dalları (ve alt dalları) ne olurdu? Mükemmel bir bölüm mümkün değildir, ancak her şey büyük ve …

3
Doğum günü paradoksunu 2 kişiden fazla
Geleneksel Doğum Paradox soru "bir grup iki veya daha fazla kişi bu ne şansı olan nnn kişilik bir doğum günü paylaşan". Bunun bir uzantısı olan bir problem üzerinde sıkışıp kaldım. İki kişinin doğum gününü paylaşma olasılığını bilmek yerine, xxx veya daha fazla kişinin doğum gününü paylaşma olasılığının ne olduğunu bilmek …


7
Zaman serisi analizinin amacı nedir?
Zaman serisi analizinin amacı nedir? Regresyon ve makine öğrenmesi gibi, belirgin kullanım durumları olan birçok başka istatistiksel yöntem vardır: regresyon iki değişken arasındaki ilişki hakkında bilgi sağlayabilirken, makine öğrenmesi tahmin için mükemmeldir. Ancak bu arada, zaman serileri analizinin ne için iyi olduğunu anlamıyorum. Elbette, bir ARIMA modelini takıp tahmin için …

3
Eğer X ve Y ilişkisiz ise, X ^ 2 ve Y ilişkisiz midir?
İki rastgele değişken ve Y ile ilişkisiz ise, X ^ 2 ve Y'nin ilişkisiz olduğunu da bilebilir miyiz ? Hipotezim evet.XXXYYYX2X2X^2YYY X,YX,YX, Y ilişkisiz olan anlamına gelir veyaE[XY]=E[X]E[Y]E[XY]=E[X]E[Y]E[XY]=E[X]E[Y] E[XY]=∫xyfX(x)fY(y)dxdy=∫xfX(x)dx∫yfY(y)dy=E[X]E[Y]E[XY]=∫xyfX(x)fY(y)dxdy=∫xfX(x)dx∫yfY(y)dy=E[X]E[Y] E[XY]=\int xy f_X(x)f_Y(y)dxdy=\int xf_X(x)dx\int yf_Y(y)dy=E[X]E[Y] Bu aynı zamanda aşağıdaki anlamına mı geliyor? E[X2Y]=∫x2yfX(x)fY(y)dxdy=∫x2fX(x)dx∫yfY(y)dy=E[X2]E[Y]E[X2Y]=∫x2yfX(x)fY(y)dxdy=∫x2fX(x)dx∫yfY(y)dy=E[X2]E[Y] E[X^2Y]=\int x^2y f_X(x)f_Y(y)dxdy=\int x^2f_X(x)dx\int yf_Y(y)dy=E[X^2]E[Y]

4
Bir eğitim veri setinde sınıfları ne zaman dengelemeliyim?
Eğitim verilerindeki dengesiz sınıfların sorunlara yol açabileceğini öğrendiğim çevrimiçi bir kurs aldım, çünkü sınıflandırma algoritmaları dengesizliğin çok fazla olması halinde iyi sonuçlar verdiği için çoğunluk kuralı için de geçerlidir. Bir ödevde kişi çoğunluk sınıfını örnekleyerek verileri dengelemek zorundaydı. Ancak bu blogda, birileri dengeli verilerin daha da kötü olduğunu iddia ediyor: …

5
İstatistik ve makine öğreniminde iki grup arasında ayrım yapılması: hipotez testi vs. sınıflandırma vs. kümeleme
A ve B olarak etiketlenmiş iki veri grubum olduğunu varsayalım (her biri 200 örnek ve 1 özellik içeren) ve farklı olup olmadıklarını bilmek istiyorum. Yapabilirdim: a) istatistiksel olarak farklı olup olmadıklarını görmek için istatistiksel bir test (ör. t-testi) yapın. b) denetimli makine öğrenmesini kullanın (örn. destek vektör sınıflandırıcısı veya rastgele …


4
Science dergisi, Forking Pathes Analizleri Bahçesini onayladı mı?
Uyarlanabilir veri analizi fikri, daha fazla bilgi edindikçe verileri analiz etme planınızı değiştirdiğinizdir. Açıklayıcı veri analizi (EDA) söz konusu olduğunda, bu genellikle iyi bir fikirdir (genellikle verilerde öngörülemeyen kalıplar ararsınız), ancak doğrulayıcı bir çalışma için bu, çok hatalı bir analiz yöntemi olarak kabul edilir (hepsi hariç) adımlar açıkça tanımlanmış ve …

3
Yalnızca minimum / maksimum değerin bilindiği veriler için istatistiksel yöntemler
Kesin değerlerin bilinmediği verilerle ilgilenen bir istatistik dalı var mı , ancak her birey için değere bağlı bir maksimum veya minimum değer biliyoruz ? Sorunumun büyük ölçüde onu istatistiksel terimlerle ifade etmek için mücadele etmemden kaynaklandığından şüpheliyim, ancak umarım bir örnek açıklığa kavuşturmaya yardımcı olacaktır: Diyelim ki iki ve topluluğu …

5
Normal dağılışı takip eden bu kadar doğal olgunun neden bir açıklaması var mı?
Bunun büyüleyici bir konu olduğunu düşünüyorum ve tam olarak anlamıyorum. Hangi fizik kanunu bu kadar doğal fenomenin normal dağılıma sahip olmasını sağlar? Düzgün dağılıma sahip olmaları daha sezgisel görünebilir. Bunu anlamak benim için çok zor ve bazı bilgileri kaçırdığımı hissediyorum. Biri bana iyi bir açıklama yapması için yardımcı olabilir mi …


5
Makine öğrenmesinde hiyerarşik / iç içe geçmiş verilerle nasıl baş edilir
Sorunumu bir örnekle açıklayacağım. Bazı nitelikler verilen bir bireyin gelirini tahmin etmek istediğinizi varsayalım: {Yaş, Cinsiyet, Ülke, Bölge, Şehir}. Bunun gibi bir eğitim veri setine sahipsiniz train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.