Veri Bilimi k-means

13

K-Karma sayısal ve kategorik veriler için kümeleme anlamına gelir

Veri kümem, bir dizi sayısal özellik ve bir kategorik içerir. Söyle NumericAttr1, NumericAttr2, ..., NumericAttrN, CategoricalAttr, nerede CategoricalAttrüç olası değerlerden birini alır: CategoricalAttrValue1, CategoricalAttrValue2veya CategoricalAttrValue3. Octave https://blog.west.uni-koblenz.de/2012-07-14/a-working-k-means-code-for-octave/ için varsayılan k-aracı kümeleme algoritması uygulamasını kullanıyorum . Sadece sayısal verilerle çalışır. Öyleyse sorum: kategorik niteliği CategoricalAttrüç sayısal (ikili) değişkene bölmek doğru IsCategoricalAttrValue1, …

133 data-mining clustering octave k-means categorical-data

8

Kümelenme coğrafi konum koordinatları (enlem, uzun çiftler)

Coğrafi konum kümelenmesi için doğru yaklaşım ve kümeleme algoritması nedir? Coğrafi konum koordinatlarını kümelemek için aşağıdaki kodu kullanıyorum: import numpy as np import matplotlib.pyplot as plt from scipy.cluster.vq import kmeans2, whiten coordinates= np.array([ [lat, long], [lat, long], ... [lat, long] ]) x, y = kmeans2(whiten(coordinates), 3, iter = 20) plt.scatter(coordinates[:,0], …

51 machine-learning python clustering k-means geospatial

1

Xgboost neden GradientBoostingClassifier'ı sklearn'den çok daha hızlı?

100 sayısal özellikli 50k örneklerin üzerinde bir degrade yükseltme modeli yetiştirmeye çalışıyorum. XGBClassifieriken benim makinede 43 saniye içinde kolları 500 ağaçları, GradientBoostingClassifierkolları sadece 10 ağaç (!) 1 dakika ve 2 saniye :( Ben rahatsız etmedi o saat sürer olarak 500 ağaç büyümeye çalışan. Aynı kullanıyorum learning_rateve max_depthayarları , aşağıya bakınız. …

29 scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

3

K-Elbow yöntemi ile B'yi seçen tutarlı olmayan davranış, BIC, varyans açıklanır ve siluet anlamına gelir

Bazı vektörleri 90 özellikli K-aracıyla kümelemeye çalışıyorum. Bu algoritma bana küme sayısını sorduğundan, seçimimi güzel bir matematikle doğrulamak istiyorum. 8-10 küme olmasını bekliyorum. Özellikler Z-skoruna göre ölçeklendirilir. Dirsek yöntemi ve varyans açıklandı from scipy.spatial.distance import cdist, pdist from sklearn.cluster import KMeans K = range(1,50) KM = [KMeans(n_clusters=k).fit(dt_trans) for k in …

23 clustering k-means

4

K-anlamı: Verimli bir başlangıç sentroid seti seçmenin iyi yolları nelerdir?

Centroidlerin rastgele başlatılması kullanıldığında, K-araçlarının farklı çalışmaları farklı toplam SSE'ler üretir. Ve algoritmanın performansında çok önemlidir. Bu sorunun çözümünde bazı etkili yaklaşımlar nelerdir? Son yaklaşımlar takdir edilmektedir.

17 data-mining clustering k-means

5

deniz dibi ısı haritasını büyüt

corr()Orijinal bir df dışında bir df oluşturun . corr()Df 70 X 70 çıktı ve ısı haritası görselleştirmek mümkün değildir ... sns.heatmap(df). Göstermeye çalışırsam corr = df.corr(), tablo ekrana sığmaz ve tüm korelasyonları görebilirim. Boyutundan dfbağımsız olarak tümünü yazdırmanın veya ısı haritasının boyutunu kontrol etmenin bir yolu var mı ?

17 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

2

K-araçlarına karşı çevrimiçi K-araçlarına

K-ortalamaları kümeleme için iyi bilinen bir algoritmadır, fakat aynı zamanda bu tür bir algoritmanın çevrimiçi varyasyonu da vardır (çevrimiçi K-ortalamaları). Bu yaklaşımların artıları ve eksileri nelerdir ve her biri ne zaman tercih edilmelidir?

15 clustering algorithms k-means

2

Hızlı k-10 ^ 10 puan için algoritma gibi mi?

10 boyutlu noktalarda k-demek kümeleme yapmak istiyorum. Yakalama: 10 ^ 10 puan var . Sadece en büyük kümelerin merkezini ve boyutunu arıyorum (diyelim ki 10 ila 100 küme); Her noktanın hangi kümede bittiği umurumda değil. K-araçlarını kullanmak önemli değil; Ben sadece benzer bir etki arıyorum, herhangi bir yaklaşık k-araçları veya …

14 clustering k-means

3

Python için kullanıma hazır iyi dil modelleri var mı?

Ben bir uygulama prototip ve bazı oluşturulan cümleler üzerinde şaşkınlık hesaplamak için bir dil modeline ihtiyacım var. Python'da kolayca kullanabileceğim eğitimli bir dil modeli var mı? Gibi basit bir şey model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 …

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

1

Hartigan-Wong k-ortalamaları yöntemi ve diğer algoritmalarda yakınsama

Esasen dil statspaketinde uygulanan farklı k-ortalama kümeleme algoritmalarını anlamaya çalışıyorum R. Lloyd'un algoritmasını ve MacQueen'in çevrimiçi algoritmasını anlıyorum. Onları anlama şeklim şu şekildedir: Lloyd Algoritması: Başlangıçta 'k' kümelerinin sentroidleri olarak işlev görecek 'k' rastgele gözlemler seçilir. Daha sonra sentroidler birleşene kadar yineleme aşağıdaki adımlar gerçekleşir. Her bir gözlem ile seçilen …

10 r clustering k-means

«k-means» etiketlenmiş sorular