İstatistikler ve Büyük Veri data-mining

2

Bir gruptaki en büyük katılımcının belirlenmesi

İstatistikler hakkında fazla bir şey bilmiyorum, bu yüzden bana katlan. Diyelim ki 1000 kişilik bir işçim var. En zor çalışanın kim olduğunu bulmak istiyorum ama sadece bir saat değerinde 1-100 kişilik gruplar halinde yapılan iş miktarını ölçebilirim. Her bir işçinin her zaman aynı miktarda çalışma yaptığını varsayarsak, çok sayıda deneme …

9 r regression data-mining

2

Destek vektör makineleri ile Gamma parametresinin kullanımı

Kullanırken libsvm, parametresi çekirdek işlevi için bir parametredir. Varsayılan değeri Olarak ayarlanmıştırγγ\gammaγ=1özellik sayısı.γ=1özellik sayısı.\gamma = \frac{1}{\text{number of features.}} Bu parametreyi ayarlamak için mevcut yöntemlerin yanı sıra ızgara arama gibi herhangi bir teorik rehberlik var mı?

9 machine-learning svm data-mining libsvm kernel-trick

2

Duygu analizini anlama ve uygulama

Bana bazı belge koleksiyonları için duyarlılık analizi yürütme projesi atanmıştı. Googling ile, duygularla ilgili birçok araştırma ortaya çıktı. Sorularım: Makine öğrenimi ve istatistiksel analiz alanında duyarlılık analizi için başlıca yöntemler / algoritmalar nelerdir? İyi belirlenmiş sonuçlar var mı? Duygu analizini gerçekleştirebilecek herhangi bir açık kaynaklı yazılım var mı?

9 machine-learning data-mining text-mining information-retrieval sentiment-analysis

2

Sınıflandırma için eğitim setinden kopyaları kaldırın

Diyelim ki bir sınıflandırma problemi için birkaç satırım var: X1, . . .XN-, YX1,...XN,YX_1, ... X_N, Y Nerede X1, . . . ,XN-X1,...,XNX_1, ..., X_N özellikler / öngörücüler ve YYY satırın özellik kombinasyonunun ait olduğu sınıftır. Birçok özellik kombinasyonu ve sınıfları bir sınıflandırıcı sığdırmak için kullandığım veri kümesinde tekrarlanır. Ben …

9 machine-learning classification data-mining logistic stratification

5

Pearson korelasyonunun ötesinde ne yapabilirim?

İki değişkenin korelasyon gösterip göstermediğini kontrol ederken Pearson korelasyonu uygulamanın 0,1'e kadar düşük bir sayı verdiğini gözlemledim. Bu iddiayı güçlendirmek için yapabileceğim bir şey var mı? Baktığım veri kümesi (gönderme sınırları nedeniyle alt küme) şudur: 6162.178176 0.049820046 4675.14432 0.145022261 5969.056896 0.47210138 5357.506176 0.052263122 33.796224 16.45154204 6162.178176 0.064262991 6725.448576 0.419005508 3247.656192 …

9 correlation data-mining pearson-r

3

Çok büyük bir veri kümesinden önemli değişkenler nasıl hızlı bir şekilde seçilir?

Yaklaşık 2.000 ikili değişken / 200.000 satır içeren bir veri kümesi var ve tek bir ikili bağımlı değişken tahmin etmeye çalışıyorum. Bu aşamadaki ana amacım tahmin doğruluğu elde etmek değil, bu değişkenlerden hangisinin önemli yordayıcılar olduğunu tanımlamaktır. Son modelimdeki değişken sayısını yaklaşık 100'e düşürmek istiyorum. En önemli değişkenleri elde etmenin …

9 machine-learning data-mining large-data

3

Sade İngilizce Apriori algoritması?

Apriori hakkında wiki makalesini okudum. Kuru erik ve Katıl adımını anlamada sorun yaşıyorum. Herkes bana Apriori algoritmasının basit terimlerle nasıl çalıştığını açıklayabilir mi (benim gibi Acemi'nin kolayca anlayabileceği şekilde)? Birinin içinde yer alan adım adım süreci açıklaması iyi olacaktır.

9 data-mining algorithms frequentist

2

Bisiklet kullanmaya başlama

Bisikletçiler hakkında sıradan internet araştırmaları yapıyorum. (Wiki makalesini birkaç kez okudum.) Şimdiye kadar, birkaç tanım veya standart terminoloji varmış gibi görünüyor. Bisiklet bulmak için algoritmalarla ilgilenen herkesin okuması gereken standart kağıtlar veya kitaplar olup olmadığını merak ediyordum. Alandaki en son teknolojinin ne olduğunu söylemek mümkün müdür? Genetik algoritmalar kullanarak bisikletçi …

9 clustering data-mining

2

Veriler için ROC eğrisini hesapla

Bu yüzden, Hamming Distance kullanarak biyometrik özellikteki bir kişinin kimliğini doğrulamaya çalıştığım 16 denemem var. Eşik değer 3,5'e ayarlandı. Verilerim aşağıda ve yalnızca deneme 1 Gerçek Olumludur: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 …

9 mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

«data-mining» etiketlenmiş sorular