«data-mining» etiketlenmiş sorular

Büyük, karmaşık veri kümelerinde kalıp arayan bir etkinlik. Genellikle algoritmik teknikleri vurgular, ancak aynı zamanda bu amaca yönelik herhangi bir ilgili beceri, uygulama veya metodolojiyi içerebilir.

13
K-Karma sayısal ve kategorik veriler için kümeleme anlamına gelir
Veri kümem, bir dizi sayısal özellik ve bir kategorik içerir. Söyle NumericAttr1, NumericAttr2, ..., NumericAttrN, CategoricalAttr, nerede CategoricalAttrüç olası değerlerden birini alır: CategoricalAttrValue1, CategoricalAttrValue2veya CategoricalAttrValue3. Octave https://blog.west.uni-koblenz.de/2012-07-14/a-working-k-means-code-for-octave/ için varsayılan k-aracı kümeleme algoritması uygulamasını kullanıyorum . Sadece sayısal verilerle çalışır. Öyleyse sorum: kategorik niteliği CategoricalAttrüç sayısal (ikili) değişkene bölmek doğru IsCategoricalAttrValue1, …

8
Python'da açık kaynaklı Anomali Tespiti
Sorun Arka Planı: BT izleme alanında bulunanlara benzer günlük dosyaları içeren bir proje üzerinde çalışıyorum (BT alanını en iyi anladığım kadarıyla). Bu günlük dosyaları, yüzlerce / binlerce sıradaki çeşitli parametreler halinde düzenlenmiş zaman serisi verileridir. Her parametre sayısaldır (kayan nokta) ve her zaman noktası için önemsiz / hata olmayan bir …

2
Destek Vektör Makineleri hala nişlerinde “en son teknoloji” sayılıyor mu?
Bu soru, başka bir soruda gördüğüm yoruma cevap olarak geliyor. Yorum, Coursera'daki Makine Öğrenimi kursu müfredatıyla ve “SVM'ler bugünlerde çok fazla kullanılmamaktadır”. İlgili dersleri yeni bitirdim ve SVM'leri anlamam, sınıflandırma için sağlam ve verimli bir öğrenme algoritması olduklarını ve bir çekirdek kullanırken, belki de 10 ila 1000 arasında bir dizi …


1
Xgboost neden GradientBoostingClassifier'ı sklearn'den çok daha hızlı?
100 sayısal özellikli 50k örneklerin üzerinde bir degrade yükseltme modeli yetiştirmeye çalışıyorum. XGBClassifieriken benim makinede 43 saniye içinde kolları 500 ağaçları, GradientBoostingClassifierkolları sadece 10 ağaç (!) 1 dakika ve 2 saniye :( Ben rahatsız etmedi o saat sürer olarak 500 ağaç büyümeye çalışan. Aynı kullanıyorum learning_rateve max_depthayarları , aşağıya bakınız. …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

6
SVD ve PCA büyük verilerle nasıl yapılır?
Çok büyük miktarda veriye sahibim (yaklaşık 8GB). Analiz etmek için makine öğrenmeyi kullanmak istiyorum. Bu nedenle, verimlilik için veri boyutsallığını azaltmak için önce SVD'yi, sonra PCA'yı kullanmam gerektiğini düşünüyorum. Ancak, MATLAB ve Octave, bu kadar büyük bir veri setini yükleyemiyor. SVD'yi bu kadar büyük miktarda veriyle yapmak için hangi araçları …

3
Gini katsayısı vs Gini katışıklığı - karar ağaçları
Sorun, karar ağaçlarının oluşturulmasına işaret ediyor. Wikipedia'ya göre ' Gini katsayısı ' ' Gini katışıklığı ' ile karıştırılmamalıdır . Bununla birlikte, karar ağacı oluştururken her iki önlem de kullanılabilir - bunlar öğeler grubunu bölerken seçimlerimizi destekleyebilir. 1) 'Gini kirliliği' - standart bir karar ağacı yarma metriğidir (yukarıdaki bağlantıya bakınız); 2) …

3
Neden XGBoost ve Random Forest'a ihtiyacımız var?
Birkaç kavram konusunda net değildim: XGBoost, zayıf öğrencileri güçlü öğrencilere dönüştürür. Bunu yapmanın avantajı nedir? Tek bir ağacı kullanmak yerine birçok zayıf öğrenciyi birleştirmek mi? Rastgele Orman bir ağaç oluşturmak için ağaçtan çeşitli örnekler kullanır. Sadece tekil bir ağaç kullanmak yerine bu yöntemin avantajı nedir?


4
Gizli özelliklerin anlamı?
Tavsiye sistemleri için matris faktörleştirmeyi öğreniyorum ve terimin latent featuresçok sık meydana geldiğini görüyorum ama bunun ne anlama geldiğini anlayamıyorum. Bir özelliğin ne olduğunu biliyorum ama gizli özellikler fikrini anlamıyorum. Lütfen açıklayabilir misiniz? Ya da en azından beni okuyabileceğim bir yere / yere yönlendir.

4
Veri Bilimi Veri Madenciliği ile Aynı mı?
Bu forumda tartışılacak olan veri biliminin birkaç eş anlamlı ya da en azından büyük verilerin analiz edildiği ilgili alanlara sahip olduğundan eminim. Benim özel sorum Veri Madenciliği ile ilgili. Birkaç yıl önce Data Mining'de yüksek lisans dersi aldım. Veri Bilimi ve Veri Madenciliği arasındaki farklar nelerdir ve özellikle Veri Madenciliği …

2
Mevsimsellikte veya diğer düzenlerde değişen zaman serileri ile nasıl başa çıkılır?
Arka fon Enerji sayacı okumalarının zaman serisi veri kümesi üzerinde çalışıyorum. Serinin uzunluğu metreye göre değişir - bazıları için birkaç yıl, diğerleri sadece birkaç ay, vb. Üzerinde çalıştığım şeylerden biri, bu zaman serilerinin kümelenmesi. İşim şu an için akademik ve aynı zamanda verilerin analizini yaparken, bazı kümelenmeler yapmak konusunda özel …


4
Tek bir olayın boyuna verileri etkileme olasılığını analiz etmek için hangi istatistiksel modeli kullanmalıyım?
Belirli bir olayın bazı boyuna verileri etkileme olasılığını analiz etmek için kullanılacak bir formül, yöntem veya model bulmaya çalışıyorum. Google'da ne arayacağımı bulmakta zorlanıyorum. Örnek bir senaryo: Her gün ortalama 100 gömme müşteriye sahip bir işletmenizin olduğunu görün. Bir gün, mağazanıza her gün gelen müşteri sayısını artırmak istediğinize karar verirsiniz, …


Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.