«data-mining» etiketlenmiş sorular

Veri madenciliği, daha önce bilinmeyen kalıpları keşfetmek için veritabanı bağlamında yapay zeka yöntemlerini kullanır. Bu haliyle, yöntemler genellikle denetimsizdir. Bu yakından ilişkilidir ancak makine öğrenimi ile aynı değildir. Veri madenciliğinin temel görevleri küme analizi, aykırı değer tespiti ve ilişkilendirme kurallarının madenciliğidir.

2
Bir gruptaki en büyük katılımcının belirlenmesi
İstatistikler hakkında fazla bir şey bilmiyorum, bu yüzden bana katlan. Diyelim ki 1000 kişilik bir işçim var. En zor çalışanın kim olduğunu bulmak istiyorum ama sadece bir saat değerinde 1-100 kişilik gruplar halinde yapılan iş miktarını ölçebilirim. Her bir işçinin her zaman aynı miktarda çalışma yaptığını varsayarsak, çok sayıda deneme …


2
Duygu analizini anlama ve uygulama
Bana bazı belge koleksiyonları için duyarlılık analizi yürütme projesi atanmıştı. Googling ile, duygularla ilgili birçok araştırma ortaya çıktı. Sorularım: Makine öğrenimi ve istatistiksel analiz alanında duyarlılık analizi için başlıca yöntemler / algoritmalar nelerdir? İyi belirlenmiş sonuçlar var mı? Duygu analizini gerçekleştirebilecek herhangi bir açık kaynaklı yazılım var mı?

2
Sınıflandırma için eğitim setinden kopyaları kaldırın
Diyelim ki bir sınıflandırma problemi için birkaç satırım var: X1, . . .XN-, YX1,...XN,YX_1, ... X_N, Y Nerede X1, . . . ,XN-X1,...,XNX_1, ..., X_N özellikler / öngörücüler ve YYY satırın özellik kombinasyonunun ait olduğu sınıftır. Birçok özellik kombinasyonu ve sınıfları bir sınıflandırıcı sığdırmak için kullandığım veri kümesinde tekrarlanır. Ben …

5
Pearson korelasyonunun ötesinde ne yapabilirim?
İki değişkenin korelasyon gösterip göstermediğini kontrol ederken Pearson korelasyonu uygulamanın 0,1'e kadar düşük bir sayı verdiğini gözlemledim. Bu iddiayı güçlendirmek için yapabileceğim bir şey var mı? Baktığım veri kümesi (gönderme sınırları nedeniyle alt küme) şudur: 6162.178176 0.049820046 4675.14432 0.145022261 5969.056896 0.47210138 5357.506176 0.052263122 33.796224 16.45154204 6162.178176 0.064262991 6725.448576 0.419005508 3247.656192 …

3
Çok büyük bir veri kümesinden önemli değişkenler nasıl hızlı bir şekilde seçilir?
Yaklaşık 2.000 ikili değişken / 200.000 satır içeren bir veri kümesi var ve tek bir ikili bağımlı değişken tahmin etmeye çalışıyorum. Bu aşamadaki ana amacım tahmin doğruluğu elde etmek değil, bu değişkenlerden hangisinin önemli yordayıcılar olduğunu tanımlamaktır. Son modelimdeki değişken sayısını yaklaşık 100'e düşürmek istiyorum. En önemli değişkenleri elde etmenin …

3
Sade İngilizce Apriori algoritması?
Apriori hakkında wiki makalesini okudum. Kuru erik ve Katıl adımını anlamada sorun yaşıyorum. Herkes bana Apriori algoritmasının basit terimlerle nasıl çalıştığını açıklayabilir mi (benim gibi Acemi'nin kolayca anlayabileceği şekilde)? Birinin içinde yer alan adım adım süreci açıklaması iyi olacaktır.

2
Bisiklet kullanmaya başlama
Bisikletçiler hakkında sıradan internet araştırmaları yapıyorum. (Wiki makalesini birkaç kez okudum.) Şimdiye kadar, birkaç tanım veya standart terminoloji varmış gibi görünüyor. Bisiklet bulmak için algoritmalarla ilgilenen herkesin okuması gereken standart kağıtlar veya kitaplar olup olmadığını merak ediyordum. Alandaki en son teknolojinin ne olduğunu söylemek mümkün müdür? Genetik algoritmalar kullanarak bisikletçi …

2
Veriler için ROC eğrisini hesapla
Bu yüzden, Hamming Distance kullanarak biyometrik özellikteki bir kişinin kimliğini doğrulamaya çalıştığım 16 denemem var. Eşik değer 3,5'e ayarlandı. Verilerim aşağıda ve yalnızca deneme 1 Gerçek Olumludur: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 …
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.