«data-mining» etiketlenmiş sorular

Veri madenciliği, daha önce bilinmeyen kalıpları keşfetmek için veritabanı bağlamında yapay zeka yöntemlerini kullanır. Bu haliyle, yöntemler genellikle denetimsizdir. Bu yakından ilişkilidir ancak makine öğrenimi ile aynı değildir. Veri madenciliğinin temel görevleri küme analizi, aykırı değer tespiti ve ilişkilendirme kurallarının madenciliğidir.


5
Veri madenciliğinde kaldırma ölçüsü
Tam olarak ne yapacağını bilmek için pek çok web sitesi aradım? Tüm bulduğum sonuçlar, onu kendinde değil uygulamalarda kullanmakla ilgiliydi. Destek ve güven fonksiyonunu biliyorum. Wikipedia'dan veri madenciliğinde asansör, bir modelin vakaları öngörme veya sınıflandırmadaki ve rastgele seçim modeline göre ölçen performansının bir ölçüsüdür. Ama nasıl? Güven * desteği asansörün …

5
Bir bayesian gibi düşünün, sık görüşme yapın: Bu ne anlama geliyor?
Burada bulunabilecek bir veri bilimi dersinde bazı ders slaytlarına bakıyorum: https://github.com/cs109/2015/blob/master/Lectures/01-Introduction.pdf Maalesef bu ders için videoyu göremiyorum ve slaytın bir noktasında sunum yapan kişi şu metni içeriyor: Bazı Anahtar İlkeler Bir Bayesian gibi düşünün, bir Frequentist (uzlaşma) gibi kontrol edin Bunun ne anlama geldiğini bilen var mı? Bundan toplanacak bu …

3
Neden bir lojistik regresyonun% 95 güven aralığında manuel olarak hesaplanması ile R'deki confint () fonksiyonunun kullanılması arasında bir fark var?
Sevgili millet - Açıklayamayacağım tuhaf bir şey fark ettim, ya sen? Özetle: bir lojistik regresyon modelinde bir güven aralığı hesaplamaya yönelik manuel yaklaşım ve R işlevi confint()farklı sonuçlar verir. Hosmer ve Lemeshow'un Applied Logistic Regresyon (2. Basım) bölümünden geçiyorum . 3. bölümde, oran oranını ve% 95 güven aralığını hesaplama örneği …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 


1
Yükseltme için göreceli değişken önemi
Göreceli değişken öneminin aşırı genel / basit olmayan Gradient Boostted Trees içinde nasıl hesaplandığına dair bir açıklama arıyorum: Ölçümler, bir değişkenin bölünme için seçilme sayısına dayanır, her bölünmenin sonucu olarak karenin iyileştirilmesiyle ağırlıklandırılır ve tüm ağaçların ortalaması alınır . [ Elith ve diğ. 2008, Regresyon ağaçlarının güçlendirilmesi için bir çalışma …


8
Veri madenciliği ve makine öğrenmesi için hangi matematik dersleri hazırlamayı önerirsiniz?
Veri madenciliği ve makine öğrenmesini öğrenmek için kendi kendine yönlendirilen bir matematik müfredatını oluşturmaya çalışıyorum. Bu, Andrew Ng'un makine öğrenme dersini Coursera'da başlatıp ilerlemeden önce matematik becerilerimi geliştirmek için gerekli olduğumu hissetmekle motive oluyor . Bir süre önce üniversiteden mezun oldum, bu yüzden cebirim ve istatistiklerim (özellikle siyaset bilimi / …

2
Kademeli bir seçim yaptıktan sonra p değerleri neden yanıltıcıdır?
Örneğin doğrusal bir regresyon modeli düşünelim. Veri madenciliğinde, AIC kriterine göre kademeli bir seçim yaptıktan sonra, her gerçek regresyon katsayısının sıfır olduğunu belirten boş hipotezi test etmek için p değerlerine bakmak yanıltıcı olduğunu duydum. Modelde kalan tüm değişkenlerin sıfırdan farklı gerçek bir regresyon katsayısına sahip olduğu düşünülmeli. Biri bana nedenini …

1
Standart ve küresel k-ortalama algoritmaları arasındaki fark
Standart ve küresel k-ortalama kümeleme algoritmaları arasındaki temel uygulama farkının ne olduğunu anlamak isterim. Her adımda, k-aracı eleman vektörleri ve küme centroidleri arasındaki mesafeleri hesaplar ve ortağı en yakın olan bu kümeye belgeyi yeniden atar. Daha sonra, tüm centroidler yeniden hesaplanır. Küresel k araçlarında, tüm vektörler normalize edilir ve mesafe …

9
Büyük veri kümeleriyle başa çıkmak için istatistik ve veri madenciliği yazılım araçları
Şu anda yaklaşık 20M kayıtları analiz etmeli ve tahmin modelleri oluşturmalıyım. Şimdiye kadar Statistica, SPSS, RapidMiner ve R'yi denedim. Bu Statistica arasında veri madenciliği ile uğraşmak en uygun gibi görünüyor ve RapidMiner kullanıcı arayüzü de çok kullanışlı, ancak Statistica, RapidMiner ve SPSS'in sadece daha küçük veri setleri için uygun olduğu …


3
LSA vs. PCA (belge kümeleme)
Belge kümelemede kullanılan çeşitli teknikleri araştırıyorum ve PCA (temel bileşen analizi) ve LSA (gizli anlamsal analiz) ile ilgili bazı şüphelerimi silmek istiyorum. İlk şey - aralarındaki farklar nelerdir? PCA'da SVD ayrışmasının kovaryans matrisine uygulandığını biliyorum, LSA'da ise terim matrisi. Başka bir şey var mı? İkincisi - belge kümeleme prosedüründeki rolü …

3
Çok etiketli verilerin doğruluğu için ölçü nedir?
KnownLabel Matrix ve PredictedLabel matrisinin verildiği bir senaryo düşünün. PredictedLabel matrisinin iyiliğini KnownLabel Matrisine göre ölçmek istiyorum. Ancak buradaki zorluk, BilinenLabel Matrix'in yalnızca bir tane 1 ve diğer birkaç satırda çok sayıda 1 olması (bu örnek çoklu etiketli). KnownLabel Matrix örneği aşağıda verilmiştir. A =[1 0 0 0 0 1 …


Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.