«data-mining» etiketlenmiş sorular

Veri madenciliği, daha önce bilinmeyen kalıpları keşfetmek için veritabanı bağlamında yapay zeka yöntemlerini kullanır. Bu haliyle, yöntemler genellikle denetimsizdir. Bu yakından ilişkilidir ancak makine öğrenimi ile aynı değildir. Veri madenciliğinin temel görevleri küme analizi, aykırı değer tespiti ve ilişkilendirme kurallarının madenciliğidir.

2
Dizeleri ortak temalara göre nasıl gruplandırabilirim?
Örneğin, programlama ile ilgili diğer dizelerle programlama hakkında dizeleri, fizikle ilgili dizeleri fizikle ilgili diğer dizelerle vb. Gruplandırmaya çalışıyorum. Sorunun göze çarpan teorik dilsel yönüne rağmen, aslında bunu programlama / yazılım kullanarak yapmak istiyorum. Özet: Çok sayıda dizge göz önüne alındığında, bunları semantik temaya göre gruplandırmaya nasıl giderim? Özel uygulama: …

3
Veri kümesine ilk hızlı bakış
Lütfen cehaletimi affedin, ama ... Kendimi bulmayı başardığım bir sürü yeni veriyle karşı karşıya olduğum bir durumda bulmaya devam ediyorum. Bu veriler genellikle şöyle görünür: Date Number1 Number2 Category1 Category2 20120125 11 101 Dog Brown 20120126 21 90 Cat Black 20120126 31 134 Cat Brown (...) Genellikle ilk bakışta burada …

1
Çökmeler ve sistem ortamları arasındaki ilişkileri nasıl bulabilirim?
Boş zamanlarımda, Delphi Windows uygulamalarından gönderilen çökme raporlarını (ancak çökmeyen hata raporlarını değil) toplayan küçük bir web tabanlı sistem üzerinde çalışıyorum. Sorun giderme için, kullanıcılar donanım veya işletim sistemi sürümleri ile belirli hata ve / veya kilitlenme arasındaki ilişkileri bulmak için bir veri madenciliği özelliğine sahip olmak ister. Örnek olarak …

1
Ekonometrik yöntemlerin gerçek dünyadaki başarılı uygulamalarının belgelenmiş / tekrarlanabilir örnekleri?
Bu soru kulağa çok geniş gelebilir, ama işte aradığım şey bu. Ekonometrik yöntemlerle ilgili çok sayıda mükemmel kitap ve ekonometrik tekniklerle ilgili pek çok mükemmel açıklayıcı makale olduğunu biliyorum. Bu Çapraz Doğrulanmış soruda açıklandığı gibi ekonometrinin mükemmel tekrarlanabilir örnekleri bile vardır . Aslında bu sorudaki örnekler aradığım şeye çok yakın …

2
Fonksiyonel veri analizi ile yüksek boyutlu veri analizi arasındaki fark nedir
İstatistik literatüründe " fonksiyonel veriler " (yani eğriler olan veriler) ve paralel olarak " yüksek boyutlu veriler " (yani veriler yüksek boyutlu vektörler olduğunda) ile ilgili birçok referans vardır . Benim sorum iki veri türü arasındaki fark hakkında. Vaka 1'de uygulanan uygulamalı istatistik metodolojileri hakkında konuşurken, vaka 2'den bir fonksiyonlar …

6
Bir eğilimi belirlemek için sinyal işleme prensiplerinin kuşkulu kullanımı
Çok gürültülü bazı uzun vadeli verilerde bir eğilim bulmaya çalışıyorum. Veriler temel olarak yaklaşık 8 aylık bir süre boyunca yaklaşık 5 mm hareket eden bir şeyin haftalık ölçümleridir. Veriler 1 mm'lik bir doğruluktur ve haftada +/- 1 veya 2 mm'lik düzenli olarak değişen çok gürültülüdür. Veriler sadece en yakın mm'ye …

1
K-anlamı: Pratik durumlarda kaç tekrarlama var?
Veri madenciliği veya büyük verilerde endüstri deneyimim yok, bu yüzden biraz deneyim paylaştığınızı duymak isterim. İnsanlar gerçekten büyük bir veri kümesinde k-ortalamaları, PAM, CLARA, vs. çalıştırıyor mu? Yoksa rastgele bir örnek mi seçtiler? Sadece veri kümesinin bir örneğini alırlarsa, veri kümesi normal olarak dağıtılmazsa sonuç güvenilir olur mu? Bu algoritmaları …


1
R doğrusal regresyon kategorik değişkeni “gizli” değer
Bu sadece birkaç kez karşılaştığım bir örnektir, bu yüzden örnek verilerim yok. R'de doğrusal regresyon modeli çalıştırmak: a.lm = lm(Y ~ x1 + x2) x1sürekli bir değişkendir. x2kategoriktir ve üç değeri vardır, örneğin "Düşük", "Orta" ve "Yüksek". Bununla birlikte, R tarafından verilen çıktı aşağıdaki gibi olacaktır: summary(a.lm) Estimate Std. Error …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 


2
Artırma için çantadan çıkma hatası tahmini?
Rastgele Orman'da her ağaç, verilerin benzersiz bir takviye örneğine paralel olarak büyütülür. Her takviye örneğinin benzersiz gözlemlerin yaklaşık% 63'ünü içermesi beklendiğinden, bu, ağacın test edilmesi için kullanılabilecek gözlemlerin yaklaşık% 37'sini dışarıda bırakır. Şimdi, Stokastik Degrade benzer bir tahmini var gibi görünüyor :OOBerrorOOBerrorOOB_{error} Bag.fraction 0 değerinden daha büyük olarak ayarlanırsa (0,5 …

2
CART ağaçları tahmin ediciler arasındaki etkileşimleri yakalar mı?
Bu makale , CART'ta, her adımda tek bir ortak değişken üzerinde ikili bir bölünme gerçekleştirildiğinden, tüm bölünmelerin dik olduğunu ve bu nedenle ortak değişkenler arasındaki etkileşimlerin dikkate alınmadığını iddia etmektedir. Bununla birlikte, birçok ciddi referans, aksine, bir ağacın hiyerarşik yapısının, öngörücüler arasındaki etkileşimlerin otomatik olarak modellenmesini (örneğin, bu makale ve …

1
Yerel Aykırı Faktör (LOF) algılama analizi için k-değeri seçme
Üç boyutlu veri kümesi var ve en benzersiz veya garip değerleri belirlemek için yerel aykırı faktör analizi kullanmaya çalışıyorum. LOF analizinde kullanılacak k-değerine nasıl karar verilir? K-değerinin ne belirlediğini anlıyorum ve bu yüzden farklı k'ler kullanarak biraz farklı sonuçlar gördüğüme şaşırmadım, ancak veri setimin beni başkaları üzerinde bir değere doğru …

1
Ekonometri için metin madenciliği / doğal dil işleme araçlarını kullanma
Bu sorunun burada tam olarak uygun olup olmadığından emin değilim, eğer değilse lütfen silin. Ben ekonomi alanında yüksek lisans öğrencisiyim. Sosyal sigortalardaki sorunları araştıran bir proje için, uygunluk değerlendirmelerini ele alan çok sayıda idari vaka raporuna (> 200k) erişebiliyorum. Bu raporlar muhtemelen bireysel idari bilgilere bağlanabilir. Bu raporlardan nicel analizde …

5
Ön düzelme daha iyi bir öngörücü model oluşturmaya yardımcı olur mu?
Yayık modelleme görevi için şunları düşünüyordum: Veriler için k kümelerini hesaplama Her küme için ayrı ayrı k modelleri oluşturun. Bunun mantığı, kanıtlayacak hiçbir şeyin olmaması, alt kuruluşların nüfusunun homojen olmasıdır, bu nedenle veri üreten sürecin farklı "gruplar" için farklı olabileceğini varsaymak mantıklıdır. Sorum şu, bu uygun bir yöntem mi? Herhangi …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.