«similarity» etiketlenmiş sorular


4
Jaccard benzerliği ve Cosine Benzerliği için uygulamalar ve farklılıklar
Jaccard benzerliği ve kosinüs benzerliği , ürün benzerliklerini karşılaştırırken çok yaygın iki ölçümdür. Ancak hangi durumda hangisinin diğerinden daha fazla olması gerektiği konusunda çok net değilim. Birisi bu iki ölçümün (tanım veya hesaplamanın değil kavram ya da prensipteki farkın) ve bunların tercih edilen uygulamalarındaki farkları netleştirmeye yardımcı olabilir mi?
27 similarity 

4
Benzerlik puanlarına dayalı kümeleme
Biz elemanları bir dizi olduğunu varsayalım E ve bir benzerlik ( değil mesafe ) işlevi sim (örnek, ej) iki eleman arasında ei, ej ∈ e . Sim kullanarak E öğelerini (verimli bir şekilde) nasıl kümelendirebiliriz ? k , örneğin, belirli bir k gerektirir, Kanopi Kümelemesi iki eşik değeri gerektirir. Bu …

5
Cümle benzerliği için en iyi pratik algoritma
İki cümleyim var, S1 ve S2. Uygulanması muhtemelen kolay olan en pratik ve başarılı (makine öğrenimi) algoritmaları nelerdir (mimari Google Inception gibi karmaşık olmadığı sürece sinir ağı tamamdır). Çok fazla zaman harcamadan iyi çalışacak bir algoritma arıyorum. Başarılı ve kullanımı kolay bulduğunuz herhangi bir algoritma var mı? Bu, kümelenme kategorisine …

5
deniz dibi ısı haritasını büyüt
corr()Orijinal bir df dışında bir df oluşturun . corr()Df 70 X 70 çıktı ve ısı haritası görselleştirmek mümkün değildir ... sns.heatmap(df). Göstermeye çalışırsam corr = df.corr(), tablo ekrana sığmaz ve tüm korelasyonları görebilirim. Boyutundan dfbağımsız olarak tümünü yazdırmanın veya ısı haritasının boyutunu kontrol etmenin bir yolu var mı ?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

5
Cümle benzerlik tahmini
Aşağıdaki sorunu çözmek istiyorum: Veri kümem olarak bir dizi cümleyim var ve yeni bir cümle yazabilmek ve yeni kümenin veri kümesindeki en çok benzediği cümleyi bulmak istiyorum. Bir örnek şöyle görünecektir: Yeni cümle: " I opened a new mailbox" Veri kümesine dayalı tahmin: Sentence | Similarity A dog ate poop …

4
Farklı biçimlerdeki belgeleri karşılaştırırken TF-IDF ve Kosinüs Benzerliğine alternatifler
Bir kullanıcının iş becerilerini alan ve bu becerilere dayanarak onlar için en ideal kariyeri öneren küçük, kişisel bir proje üzerinde çalışıyorum. Bunu başarmak için bir iş listesi veri tabanı kullanıyorum. Şu anda, kod aşağıdaki gibi çalışır: 1) Listede belirtilen becerileri elde etmek için her iş listesinin metnini işleyin 2) Her …

1
MinHashing vs SimHashing
Kümelenmek istediğim beş setim olduğunu varsayalım. Burada açıklanan SimHashing tekniğinin: https://moultano.wordpress.com/2010/01/21/simple-simhashing-3kbzhsxyg4467-6/ üç küme (verim olabilir {A}, {B,C,D}ve {E}örneğin,), sonuçları olsaydı: A -> h01 B -> h02 C -> h02 D -> h02 E -> h03 Benzer şekilde, MMDS kitabının 3. Bölümünde açıklanan MinHashing tekniği: http://infolab.stanford.edu/~ullman/mmds/ch3.pdf sonuçları şu olsaydı aynı üç …

3
Benzer belgeleri bulmak için vektör uzay modeli kosinüs tf-idf
Milyondan fazla belgeye sahip olmak Belirli bir belge için vektör uzay modelinde olduğu gibi kosinüs kullanarak benzer belgeler bulmak istiyorum d1⋅d2/(||d1||||d2||)d1⋅d2/(||d1||||d2||)d_1 \cdot d_2 / ( ||d_1|| ||d_2|| ) Tüm tf, bu tf-idf'deki gibi daha uzun belgelere yönelik önyargıları önlemek için artırılmış frekans kullanılarak normalleştirilmiştir : tf(t,d)=0.5+0.5f(t,d)max{f(t,d):t∈d}tf(t,d)=0.5+0.5f(t,d)max{f(t,d):t∈d}tf(t,d)=0.5+0.5\frac{f(t,d)}{\mathrm{max}\{f(t,d): t\in d\}} Tümünü önceden …

2
Gürültülü dizeler listesinden standart dizeyi ayıkla
Binlerce dizgi listem var ve her listenin yaklaşık 10 dizesi var. Belirli bir listedeki dizelerin çoğu çok benzerdir, ancak bazı dizeler diğerleriyle tamamen ilgisizdir ve bazı dizeler alakasız kelimeler içerir. Kanonik bir ipin gürültülü varyasyonları olarak düşünülebilir. Her liste bu standart dizeye dönüştürecek bir algoritma veya kütüphane arıyorum. İşte böyle …
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.