Veri Bilimi clustering

13

K-Karma sayısal ve kategorik veriler için kümeleme anlamına gelir

Veri kümem, bir dizi sayısal özellik ve bir kategorik içerir. Söyle NumericAttr1, NumericAttr2, ..., NumericAttrN, CategoricalAttr, nerede CategoricalAttrüç olası değerlerden birini alır: CategoricalAttrValue1, CategoricalAttrValue2veya CategoricalAttrValue3. Octave https://blog.west.uni-koblenz.de/2012-07-14/a-working-k-means-code-for-octave/ için varsayılan k-aracı kümeleme algoritması uygulamasını kullanıyorum . Sadece sayısal verilerle çalışır. Öyleyse sorum: kategorik niteliği CategoricalAttrüç sayısal (ikili) değişkene bölmek doğru IsCategoricalAttrValue1, …

133 data-mining clustering octave k-means categorical-data

8

Kümelenme coğrafi konum koordinatları (enlem, uzun çiftler)

Coğrafi konum kümelenmesi için doğru yaklaşım ve kümeleme algoritması nedir? Coğrafi konum koordinatlarını kümelemek için aşağıdaki kodu kullanıyorum: import numpy as np import matplotlib.pyplot as plt from scipy.cluster.vq import kmeans2, whiten coordinates= np.array([ [lat, long], [lat, long], ... [lat, long] ]) x, y = kmeans2(whiten(coordinates), 3, iter = 20) plt.scatter(coordinates[:,0], …

51 machine-learning python clustering k-means geospatial

1

Çok sınıflı sınıflandırma için en iyi Keras modeli nedir?

Ben araştırma, üzerinde çalışıyorum nerede üç olay KAZANAN ait sınıflandırmak birine ihtiyacı = ( win, draw, lose) WINNER LEAGUE HOME AWAY MATCH_HOME MATCH_DRAW MATCH_AWAY MATCH_U2_50 MATCH_O2_50 3 13 550 571 1.86 3.34 4.23 1.66 2.11 3 7 322 334 7.55 4.1 1.4 2.17 1.61 Şu anki modelim: def build_model(input_dim, output_classes): …

30 python neural-network classification clustering keras

1

Xgboost neden GradientBoostingClassifier'ı sklearn'den çok daha hızlı?

100 sayısal özellikli 50k örneklerin üzerinde bir degrade yükseltme modeli yetiştirmeye çalışıyorum. XGBClassifieriken benim makinede 43 saniye içinde kolları 500 ağaçları, GradientBoostingClassifierkolları sadece 10 ağaç (!) 1 dakika ve 2 saniye :( Ben rahatsız etmedi o saat sürer olarak 500 ağaç büyümeye çalışan. Aynı kullanıyorum learning_rateve max_depthayarları , aşağıya bakınız. …

29 scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

4

Kümelemeden önce verilerinizi standartlaştırmak gerekli midir?

Kümeden önce verilerinizi standart hale getirmek gerekli midir? Dan örnekte scikit learnDBSCAN hakkında, burada onlar doğrultusunda bunu: X = StandardScaler().fit_transform(X) Ama neden gerekli olduğunu anlamıyorum. Sonuçta, kümeleme herhangi bir veri dağılımını varsaymaz - denetimsiz bir öğrenme yöntemidir, bu nedenle amacı verileri araştırmaktır. Verileri dönüştürmek neden gerekli olsun?

23 python clustering clusters anomaly-detection

3

K-Elbow yöntemi ile B'yi seçen tutarlı olmayan davranış, BIC, varyans açıklanır ve siluet anlamına gelir

Bazı vektörleri 90 özellikli K-aracıyla kümelemeye çalışıyorum. Bu algoritma bana küme sayısını sorduğundan, seçimimi güzel bir matematikle doğrulamak istiyorum. 8-10 küme olmasını bekliyorum. Özellikler Z-skoruna göre ölçeklendirilir. Dirsek yöntemi ve varyans açıklandı from scipy.spatial.distance import cdist, pdist from sklearn.cluster import KMeans K = range(1,50) KM = [KMeans(n_clusters=k).fit(dt_trans) for k in …

23 clustering k-means

5

Python'da KL Ayrışmasının Hesaplanması

Bunun için yeniyim ve bunun arkasındaki teorik kavramları tam olarak anladığımı söyleyemem. Python'daki birkaç nokta listesi arasındaki KL Diverjansını hesaplamaya çalışıyorum. Bunu denemek ve yapmak için http://scikit-learn.org/stable/modules/generated/sklearn.metrics.mutual_info_score.html adresini kullanıyorum . Karşılaştığım sorun, döndürülen değerin 2 sayı listesi için aynı olması (bunun 1.3862943611198906). Burada bir çeşit teorik hata yapıyorum ama farkedemiyorum. …

22 python clustering scikit-learn

2

Mevsimsellikte veya diğer düzenlerde değişen zaman serileri ile nasıl başa çıkılır?

Arka fon Enerji sayacı okumalarının zaman serisi veri kümesi üzerinde çalışıyorum. Serinin uzunluğu metreye göre değişir - bazıları için birkaç yıl, diğerleri sadece birkaç ay, vb. Üzerinde çalıştığım şeylerden biri, bu zaman serilerinin kümelenmesi. İşim şu an için akademik ve aynı zamanda verilerin analizini yaparken, bazı kümelenmeler yapmak konusunda özel …

22 data-mining clustering time-series beginner

4

Benzerlik puanlarına dayalı kümeleme

Biz elemanları bir dizi olduğunu varsayalım E ve bir benzerlik ( değil mesafe ) işlevi sim (örnek, ej) iki eleman arasında ei, ej ∈ e . Sim kullanarak E öğelerini (verimli bir şekilde) nasıl kümelendirebiliriz ? k , örneğin, belirli bir k gerektirir, Kanopi Kümelemesi iki eşik değeri gerektirir. Bu …

19 clustering algorithms similarity

1

Word2Vec ve Cümle2Vec ve Doc2Vec

Geçenlerde açısından rastladım Word2Vec , Sentence2Vec ve Doc2Vec ve ben vektör semantik yeni olduğum gibi karıştı tür. Birisi lütfen bu yöntemlerin farklılığını basit kelimelerle detaylandırabilir mi? Her yöntem için en uygun görevler nelerdir?

18 machine-learning data-mining clustering nlp unsupervised-learning

5

Cümle benzerliği için en iyi pratik algoritma

İki cümleyim var, S1 ve S2. Uygulanması muhtemelen kolay olan en pratik ve başarılı (makine öğrenimi) algoritmaları nelerdir (mimari Google Inception gibi karmaşık olmadığı sürece sinir ağı tamamdır). Çok fazla zaman harcamadan iyi çalışacak bir algoritma arıyorum. Başarılı ve kullanımı kolay bulduğunuz herhangi bir algoritma var mı? Bu, kümelenme kategorisine …

18 nlp clustering word2vec similarity

4

K-anlamı: Verimli bir başlangıç sentroid seti seçmenin iyi yolları nelerdir?

Centroidlerin rastgele başlatılması kullanıldığında, K-araçlarının farklı çalışmaları farklı toplam SSE'ler üretir. Ve algoritmanın performansında çok önemlidir. Bu sorunun çözümünde bazı etkili yaklaşımlar nelerdir? Son yaklaşımlar takdir edilmektedir.

17 data-mining clustering k-means

1

Metin kümeleme için algoritmalar

Çok sayıda cümleyi anlamlarına göre gruplara ayırma problemim var. Bu, çok sayıda cümleniz olduğunda ve anlamlarına göre gruplandırmak istediğinizde bir soruna benzer. Bunu yapmak için hangi algoritmalar öneriliyor? Önceden kümelerin sayısını bilmiyorum (ve daha fazla veri geliyor gibi kümeler de değişebilir), normalde her cümleyi temsil etmek için hangi özellikler kullanılır? …

17 clustering text-mining algorithms scikit-learn

5

deniz dibi ısı haritasını büyüt

corr()Orijinal bir df dışında bir df oluşturun . corr()Df 70 X 70 çıktı ve ısı haritası görselleştirmek mümkün değildir ... sns.heatmap(df). Göstermeye çalışırsam corr = df.corr(), tablo ekrana sığmaz ve tüm korelasyonları görebilirim. Boyutundan dfbağımsız olarak tümünü yazdırmanın veya ısı haritasının boyutunu kontrol etmenin bir yolu var mı ?

17 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

2

K-araçlarına karşı çevrimiçi K-araçlarına

K-ortalamaları kümeleme için iyi bilinen bir algoritmadır, fakat aynı zamanda bu tür bir algoritmanın çevrimiçi varyasyonu da vardır (çevrimiçi K-ortalamaları). Bu yaklaşımların artıları ve eksileri nelerdir ve her biri ne zaman tercih edilmelidir?

15 clustering algorithms k-means

«clustering» etiketlenmiş sorular