Veri Bilimi data-mining

13

K-Karma sayısal ve kategorik veriler için kümeleme anlamına gelir

Veri kümem, bir dizi sayısal özellik ve bir kategorik içerir. Söyle NumericAttr1, NumericAttr2, ..., NumericAttrN, CategoricalAttr, nerede CategoricalAttrüç olası değerlerden birini alır: CategoricalAttrValue1, CategoricalAttrValue2veya CategoricalAttrValue3. Octave https://blog.west.uni-koblenz.de/2012-07-14/a-working-k-means-code-for-octave/ için varsayılan k-aracı kümeleme algoritması uygulamasını kullanıyorum . Sadece sayısal verilerle çalışır. Öyleyse sorum: kategorik niteliği CategoricalAttrüç sayısal (ikili) değişkene bölmek doğru IsCategoricalAttrValue1, …

133 data-mining clustering octave k-means categorical-data

8

Python'da açık kaynaklı Anomali Tespiti

Sorun Arka Planı: BT izleme alanında bulunanlara benzer günlük dosyaları içeren bir proje üzerinde çalışıyorum (BT alanını en iyi anladığım kadarıyla). Bu günlük dosyaları, yüzlerce / binlerce sıradaki çeşitli parametreler halinde düzenlenmiş zaman serisi verileridir. Her parametre sayısaldır (kayan nokta) ve her zaman noktası için önemsiz / hata olmayan bir …

61 machine-learning python data-mining anomaly-detection library

2

Destek Vektör Makineleri hala nişlerinde “en son teknoloji” sayılıyor mu?

Bu soru, başka bir soruda gördüğüm yoruma cevap olarak geliyor. Yorum, Coursera'daki Makine Öğrenimi kursu müfredatıyla ve “SVM'ler bugünlerde çok fazla kullanılmamaktadır”. İlgili dersleri yeni bitirdim ve SVM'leri anlamam, sınıflandırma için sağlam ve verimli bir öğrenme algoritması olduklarını ve bir çekirdek kullanırken, belki de 10 ila 1000 arasında bir dizi …

58 data-mining svm state-of-the-art

5

Belgeler arasındaki mesafeyi hesaplamanın bazı standart yolları nelerdir?

"Belge" derken, Wikipedia makaleleri ve haber hikayeleri gibi web sayfalarını da düşündüm. Vanilyalı sözcük uzaklık ölçütlerini ya da en gelişmiş anlamsal uzaklık ölçütlerini veren yanıtları tercih ediyorum, ikincisi için daha güçlü bir tercih.

34 machine-learning data-mining nlp text-mining similarity

1

Xgboost neden GradientBoostingClassifier'ı sklearn'den çok daha hızlı?

100 sayısal özellikli 50k örneklerin üzerinde bir degrade yükseltme modeli yetiştirmeye çalışıyorum. XGBClassifieriken benim makinede 43 saniye içinde kolları 500 ağaçları, GradientBoostingClassifierkolları sadece 10 ağaç (!) 1 dakika ve 2 saniye :( Ben rahatsız etmedi o saat sürer olarak 500 ağaç büyümeye çalışan. Aynı kullanıyorum learning_rateve max_depthayarları , aşağıya bakınız. …

29 scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

6

SVD ve PCA büyük verilerle nasıl yapılır?

Çok büyük miktarda veriye sahibim (yaklaşık 8GB). Analiz etmek için makine öğrenmeyi kullanmak istiyorum. Bu nedenle, verimlilik için veri boyutsallığını azaltmak için önce SVD'yi, sonra PCA'yı kullanmam gerektiğini düşünüyorum. Ancak, MATLAB ve Octave, bu kadar büyük bir veri setini yükleyemiyor. SVD'yi bu kadar büyük miktarda veriyle yapmak için hangi araçları …

29 bigdata data-mining dimensionality-reduction

3

Gini katsayısı vs Gini katışıklığı - karar ağaçları

Sorun, karar ağaçlarının oluşturulmasına işaret ediyor. Wikipedia'ya göre ' Gini katsayısı ' ' Gini katışıklığı ' ile karıştırılmamalıdır . Bununla birlikte, karar ağacı oluştururken her iki önlem de kullanılabilir - bunlar öğeler grubunu bölerken seçimlerimizi destekleyebilir. 1) 'Gini kirliliği' - standart bir karar ağacı yarma metriğidir (yukarıdaki bağlantıya bakınız); 2) …

25 data-mining

3

Neden XGBoost ve Random Forest'a ihtiyacımız var?

Birkaç kavram konusunda net değildim: XGBoost, zayıf öğrencileri güçlü öğrencilere dönüştürür. Bunu yapmanın avantajı nedir? Tek bir ağacı kullanmak yerine birçok zayıf öğrenciyi birleştirmek mi? Rastgele Orman bir ağaç oluşturmak için ağaçtan çeşitli örnekler kullanır. Sadece tekil bir ağaç kullanmak yerine bu yöntemin avantajı nedir?

25 machine-learning data-mining random-forest decision-trees xgboost

3

NLP ve Makine Öğrenmesi toplulukları neden derin öğrenmeyle ilgileniyor?

Umarım bu konuda bazı sorularım olduğu için bana yardımcı olabilirsiniz. Derin öğrenme alanında yeniyim ve bazı dersler verirken kavramları birbirinden ayıramaz veya birbirinden ayıramıyorum.

24 machine-learning data-mining neural-network nlp deep-learning

4

Gizli özelliklerin anlamı?

Tavsiye sistemleri için matris faktörleştirmeyi öğreniyorum ve terimin latent featuresçok sık meydana geldiğini görüyorum ama bunun ne anlama geldiğini anlayamıyorum. Bir özelliğin ne olduğunu biliyorum ama gizli özellikler fikrini anlamıyorum. Lütfen açıklayabilir misiniz? Ya da en azından beni okuyabileceğim bir yere / yere yönlendir.

24 machine-learning data-mining recommender-system

4

Veri Bilimi Veri Madenciliği ile Aynı mı?

Bu forumda tartışılacak olan veri biliminin birkaç eş anlamlı ya da en azından büyük verilerin analiz edildiği ilgili alanlara sahip olduğundan eminim. Benim özel sorum Veri Madenciliği ile ilgili. Birkaç yıl önce Data Mining'de yüksek lisans dersi aldım. Veri Bilimi ve Veri Madenciliği arasındaki farklar nelerdir ve özellikle Veri Madenciliği …

22 data-mining definitions

2

Mevsimsellikte veya diğer düzenlerde değişen zaman serileri ile nasıl başa çıkılır?

Arka fon Enerji sayacı okumalarının zaman serisi veri kümesi üzerinde çalışıyorum. Serinin uzunluğu metreye göre değişir - bazıları için birkaç yıl, diğerleri sadece birkaç ay, vb. Üzerinde çalıştığım şeylerden biri, bu zaman serilerinin kümelenmesi. İşim şu an için akademik ve aynı zamanda verilerin analizini yaparken, bazı kümelenmeler yapmak konusunda özel …

22 data-mining clustering time-series beginner

1

Hellinger Distance nedir ve ne zaman kullanılır?

Hellinger Distance'da gerçekten ne olduğunu bilmekle ilgileniyorum (basit terimlerle). Ayrıca Hellinger Distance ile kullanabileceğimiz sorunların neler olduğunu bilmekle de ilgileniyorum. Hellinger Distance kullanmanın faydaları nelerdir?

19 machine-learning data-mining text-mining distance

4

Tek bir olayın boyuna verileri etkileme olasılığını analiz etmek için hangi istatistiksel modeli kullanmalıyım?

Belirli bir olayın bazı boyuna verileri etkileme olasılığını analiz etmek için kullanılacak bir formül, yöntem veya model bulmaya çalışıyorum. Google'da ne arayacağımı bulmakta zorlanıyorum. Örnek bir senaryo: Her gün ortalama 100 gömme müşteriye sahip bir işletmenizin olduğunu görün. Bir gün, mağazanıza her gün gelen müşteri sayısını artırmak istediğinize karar verirsiniz, …

19 machine-learning data-mining statistics

1

Word2Vec ve Cümle2Vec ve Doc2Vec

Geçenlerde açısından rastladım Word2Vec , Sentence2Vec ve Doc2Vec ve ben vektör semantik yeni olduğum gibi karıştı tür. Birisi lütfen bu yöntemlerin farklılığını basit kelimelerle detaylandırabilir mi? Her yöntem için en uygun görevler nelerdir?

18 machine-learning data-mining clustering nlp unsupervised-learning

«data-mining» etiketlenmiş sorular