«data-mining» etiketlenmiş sorular

Veri madenciliği, daha önce bilinmeyen kalıpları keşfetmek için veritabanı bağlamında yapay zeka yöntemlerini kullanır. Bu haliyle, yöntemler genellikle denetimsizdir. Bu yakından ilişkilidir ancak makine öğrenimi ile aynı değildir. Veri madenciliğinin temel görevleri küme analizi, aykırı değer tespiti ve ilişkilendirme kurallarının madenciliğidir.


3
Kmeans çalıştırmadan önce korelasyonlu / doğrusal olan değişkenleri düşürmem gerekir mi?
Müşteri kümelerini tanımlamak için kmeans kullanıyorum. Kümeleri tanımlamak için yaklaşık 100 değişkenim var. Bu değişkenlerin her biri, bir müşterinin bir kategoriye yaptığı harcama yüzdesini temsil eder. Yani, 100 kategorim varsa, bu değişkenlerin toplamı her müşteri için% 100 olacak şekilde 100 değişkenim var. Şimdi, bu değişkenler birbiriyle güçlü bir şekilde ilişkilidir. …


2
Veri madenciliğinde kaos teorisinin bilinen, mevcut pratik uygulamaları nelerdir?
Son birkaç yılda kaos teorisi üzerinde bazı kitlesel pazar çalışmalarını rasgele okurken, veri madenciliği ve sinir ağları, örüntü tanıma, belirsizlik yönetimi vb. Gibi ilgili alanlara çeşitli yönlerinin nasıl uygulanabileceğini merak etmeye başladım. yayınlanmış araştırmada bu tür uygulamaların o kadar az örneğiyle karşılaştım ki, a) bilinen, yayınlanmış deney ve projelerde gerçekten …

3
Rasgele Orman ve Yükseltme parametrik mi yoksa parametrik değil mi?
Mükemmel İstatistiksel modellemeyi okuyarak : İki kültür (Breiman 2001) , geleneksel istatistiksel modeller (örneğin, doğrusal regresyon) ve makine öğrenme algoritmaları (örneğin, Torbalama, Rastgele Orman, Artırılmış ağaçlar ...) arasındaki tüm farkı ele geçirebiliriz. Breiman, veri modellerini (parametrik) eleştirir, çünkü gözlemlerin, İstatistikçi tarafından reçete edilen, Doğayı zayıf bir şekilde taklit edebilecek bilinen, …

2
Bireysel çalışma beni ne kadar ileri götürür?
Resmi veya yapılandırılmış bir veri analizi veya makine öğrenimi kursuna (son çevrimiçi teklifler dışında) hiç katılmadım ve bildiklerimin çoğunu okuma ve denemeden öğrendim. İş bulamamaktan çok uzak olduğumu biliyorum. Sorum daha iyi olan şey değil ( bu soru gibi ) , daha ziyade, bir işe başvurabileceğim bir seviyeye ulaşabilir miyim …

2
Nadir olay tahmin modelleri için aşırı örnekleme ile torbalama
Aşağıdakilerin tanımlanıp tanımlanmadığını ve (her iki şekilde) çok dengesiz bir hedef değişkeni olan öngörülü bir modeli öğrenmek için makul bir yöntem gibi geldiğini bilen var mı? Genellikle veri madenciliğinin CRM uygulamalarında, olumlu olayın (başarı) çoğunluğa (negatif sınıf) göre çok nadir olduğu bir model ararız. Örneğin, yalnızca% 0,1'inin pozitif ilgi sınıfında …

2
Uzamsal-zamansal tahmin hatalarının açıklayıcı analizi
Veriler: Son zamanlarda, rüzgar enerjisi üretim tahmin hatalarının uzaysal-zamansal alanının stokastik özelliklerini analiz etmek için çalıştım. Resmi olarak, bir işlem iki kez ( ve ) dizinlenmiş ve bir kez boşluk ( ) içinde ileriye doğru bakma sayısıdır (etrafındaki bir şeye eşittir) , düzenli olarak örneklenir), "tahmin sürelerinin" sayısıdır (yani, tahminin …

4
Verileri toplama ve analiz etmenin en iyi yolları
Kısa süre önce kendime öğretmeye başladım Makine Öğrenimi ve Veri Analizi Kendimi büyük veri kümeleri oluşturma ve sorgulama ihtiyacı üzerine bir tuğla duvara çarptım. Mesleki ve kişisel hayatımda topladığım verileri almak ve analiz etmek istiyorum, ancak aşağıdakileri yapmanın en iyi yolundan emin değilim: Bu verileri nasıl saklamalıyım? Excel? SQL? ?? …

3
Verilerin sıfır ortalaması olması fikri
Sıklıkla, bir veri kümesinin bir boyutunu / özelliğini, ortalamanın tüm öğelerden kaldırılmasıyla sıfır ortalama olarak görüyorum. Ama bunu neden yapacağımı hiç anlamadım? Bunu bir önişleme adımı olarak yapmanın etkisi nedir? Sınıflandırma performansını artırıyor mu? Veri kümesi hakkında bir şeyler yanıtlamaya yardımcı olur mu? Verileri anlamak için bir görselleştirme yaparken yardımcı …

5
Terim sıklığı / ters belge sıklığı (TF / IDF): ağırlıklandırma
1000 belgeyi ve içinde görünen tüm kelimeleri temsil eden bir veri setim var. Böylece satırlar belgeleri ve sütunlar kelimeleri temsil eder. Yani, örneğin, hücrede değer kez kelimenin açılımı belgede oluşur . Şimdi, tf / idf yöntemini kullanarak kelimelerin 'ağırlıklarını' bulmak zorundayım, ama aslında bunu nasıl yapacağımı bilmiyorum. Birisi bana yardım …


1
R - serbestlik derecesinde PROC Mixed ve lme / lmer arasındaki farklar
Not: önceki sorumun yasal nedenlerle silinmesi gerektiğinden, bu soru bir gönderidir. Fonksiyonlu SAS PROC MIXED karşılaştırarak birlikte lmegelen nlmeR paketin, bazı çok kafa farklılıklar tökezledi. Daha spesifik olarak, farklı testlerdeki özgürlük dereceleri ve arasında farklılık gösterir PROC MIXEDve lmenedenini merak ettim. Aşağıdaki veri kümesinden başlayın (R kodu aşağıda verilmiştir): ind: …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

1
PR için yalnızca bir değere sahip olduğumda Hassas Geri Çağırma eğrisi nasıl oluşturulur?
İçeriğe dayalı görüntü alma sistemi yaptığım veri madenciliği görevim var. 5 hayvandan 20 görüntüm var. Yani toplam 100 görüntü. Sistemim en alakalı 10 görüntüyü giriş görüntüsüne döndürür. Şimdi sistemimin performansını bir Hassas-Geri Çağırma eğrisi ile değerlendirmem gerekiyor. Ancak, Hassas-Geri Çağırma eğrisi kavramını anlamıyorum. Diyelim ki sistemim bir goril görüntüsü için …

1
Hessian Matrix ve Kovaryans Matrix arasındaki ilişki
Maksimum Olabilirlik Tahminini çalışırken, Maksimum Olabilirlik Tahmininde çıkarım yapmak için varyansı bilmemiz gerekir. Varyansı bulmak için, eğrilikte İkinci Türev ile bir Hessen Matrisi gibi görünen Cramer'ın Rao Alt Sınırını bilmem gerekiyor. Ben kovaryans matrisi ile kendir matrisi arasındaki ilişkiyi tanımlamak için biraz karışıkım. Soru hakkında bazı açıklamalar duymayı umuyoruz. Basit …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.