«clustering» etiketlenmiş sorular

Küme analizi veya kümeleme, bir grup nesneyi, aynı gruptaki nesnelerin (küme olarak adlandırılır) diğer gruplara (kümeler) kıyasla birbirine daha yakın (bir anlamda veya başka) olacak şekilde gruplandırma görevidir. . Keşifsel veri madenciliğinin ana görevidir ve makine öğrenimi, örüntü tanıma, görüntü analizi, bilgi alma vb. Gibi birçok alanda kullanılan istatistiksel veri analizi için ortak bir tekniktir.

2
Benzersiz ziyaretçileri useragent, ip, session_id ile gruplandırma
Formdaki web sitesi erişim verileri session_id, ip, user_agentve isteğe bağlı olarak zaman damgası verildiğinde, aşağıdaki koşulları izleyerek, oturumları benzersiz ziyaretçilere en iyi nasıl kümeleyebilirsiniz? session_id: her yeni ziyaretçiye verilen bir kimliktir. Süresi dolmaz, ancak kullanıcı çerezleri kabul etmez / çerezleri temizler / tarayıcıyı değiştirir / cihazı değiştirirse, artık tanınmayacak IP …
15 clustering 

2
Hızlı k-10 ^ 10 puan için algoritma gibi mi?
10 boyutlu noktalarda k-demek kümeleme yapmak istiyorum. Yakalama: 10 ^ 10 puan var . Sadece en büyük kümelerin merkezini ve boyutunu arıyorum (diyelim ki 10 ila 100 küme); Her noktanın hangi kümede bittiği umurumda değil. K-araçlarını kullanmak önemli değil; Ben sadece benzer bir etki arıyorum, herhangi bir yaklaşık k-araçları veya …

2
Kullanıcı profillerini sınıflandırmak / kümelemek için nitelikleri kullanma
Bir web sitesinden ürün satın alan bir kullanıcı veri setim var. Sahip olduğum özellikler kullanıcı kimliği, kullanıcının bölge (eyalet), ürün kategorisi kimliği, ürünün anahtar kelime kimliği, web sitesinin anahtar kelime kimliği ve ürünün harcanan satış tutarıdır. Amaç, "erkek genç oyuncu" veya "evde anne kalmak" gibi kullanıcıların kimliğini belirlemek için bir …

1
Bulanık dizilerdeki bir dilbilgisini tanıma
Temelde Öğeler listesini içeren metin belgelerim var. Her Öğe, farklı türlerden birkaç simgeden oluşan bir gruptur: FirstName, LastName, BirthDate, PhoneNumber, City, Occupation, vb. Bir token, bir grup kelimedir. Öğeler birkaç satırda uzanabilir. Bir belgedeki öğeler yaklaşık olarak aynı belirteç sözdizimine sahiptir, ancak tam olarak aynı olmaları gerekmez. Öğeler arasında ve …

1
Müşterileri 2 özelliğe ve Zaman serisine göre sınıflandırın
Tasarladığım bir algoritmada bir sonraki adımımın ne olması gerektiği konusunda yardıma ihtiyacım var. NDA'lar nedeniyle fazla bir şey açıklayamıyorum, ancak genel ve anlaşılır olmaya çalışacağım. Temel olarak, algoritmalarda birkaç adımdan sonra, bu var: Sahip olduğum her müşteri ve bir ay boyunca yaptıkları etkinlikler için, ilk adımlar sırasında etkinlikleri birkaç kategoriye …

1
MinHashing vs SimHashing
Kümelenmek istediğim beş setim olduğunu varsayalım. Burada açıklanan SimHashing tekniğinin: https://moultano.wordpress.com/2010/01/21/simple-simhashing-3kbzhsxyg4467-6/ üç küme (verim olabilir {A}, {B,C,D}ve {E}örneğin,), sonuçları olsaydı: A -> h01 B -> h02 C -> h02 D -> h02 E -> h03 Benzer şekilde, MMDS kitabının 3. Bölümünde açıklanan MinHashing tekniği: http://infolab.stanford.edu/~ullman/mmds/ch3.pdf sonuçları şu olsaydı aynı üç …

1
Kaç LSTM hücresi kullanmalıyım?
Kullanmam gereken minimum, maksimum ve "makul" miktarda LSTM hücresi ile ilgili herhangi bir temel kural (veya gerçek kurallar) var mı? Özellikle ben ilişkin am BasicLSTMCell TensorFlow ve gelen num_unitsmülk. Lütfen şu şekilde tanımlanan bir sınıflandırma sorunum olduğunu varsayalım: t - number of time steps n - length of input vector …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

1
Sürekli Çevrimiçi Küme Tanımlaması için Çözümler?
Size varsayımsal bir çevrimiçi kümeleme uygulaması örneği göstereyim: Mavi küme A'ya n puanları 1,2,3,4 ve kırmızı küme B'ye b, 5,6,7 noktaları tahsis edilir. N + 1 zamanında, mavi kümeye A atanan ancak aynı zamanda b noktasının mavi kümeye A atanmasına neden olan yeni bir a noktası eklenir. Bitiş noktalarında 1,2,3,4, …

4
Metin işlemede Kümelemeyi kullanma
Merhaba, Veri Bilimi yığınındaki ilk sorum bu. Metin sınıflandırması için bir algoritma oluşturmak istiyorum. Büyük bir metin ve makale setim olduğunu varsayalım. 5000 düz metin yazalım. İlk olarak dört ve yukarıdaki karakter kelimelerinin tümünün sıklığını belirlemek için basit bir işlev kullanıyorum. Daha sonra bunu her eğitim örneğinin özelliği olarak kullanıyorum. …

3
Bilimsel hesaplama için en iyi diller [kapalı]
Kapalı . Bu sorunun daha fazla odaklanması gerekiyor . Şu anda cevapları kabul etmiyor. Bu soruyu geliştirmek ister misiniz? Soruyu, yalnızca bu yayını düzenleyerek tek bir soruna odaklanacak şekilde güncelleyin . 5 yıl önce kapalı . Çoğu dilde bazı bilimsel bilgi işlem kütüphaneleri var gibi görünüyor. Python var Scipy Rust …
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

1
Hartigan-Wong k-ortalamaları yöntemi ve diğer algoritmalarda yakınsama
Esasen dil statspaketinde uygulanan farklı k-ortalama kümeleme algoritmalarını anlamaya çalışıyorum R. Lloyd'un algoritmasını ve MacQueen'in çevrimiçi algoritmasını anlıyorum. Onları anlama şeklim şu şekildedir: Lloyd Algoritması: Başlangıçta 'k' kümelerinin sentroidleri olarak işlev görecek 'k' rastgele gözlemler seçilir. Daha sonra sentroidler birleşene kadar yineleme aşağıdaki adımlar gerçekleşir. Her bir gözlem ile seçilen …
10 r  clustering  k-means 

3
Günlük dosyası analizi: değer kısmını bilgi bölümünden ayıklama
Ürünlerimizden birinin birkaç günlük dosyası üzerinde veri kümesi oluşturmaya çalışıyorum. Farklı günlük dosyalarının kendi düzeni ve içeriği vardır; Onları başarıyla grupladım, sadece bir adım kaldı ... Gerçekten, günlük "mesajlar" en iyi bilgidir. Tüm bu mesajların kapsamlı bir listesine sahip değilim ve bu liste her gün değişebilir çünkü bu dayalı sabit …

1
Elastik Arama'da depolanan müşteri verilerini kümeleme
Bir sürü müşteri profilim var. elasticsearchKüme. Bu profiller artık e-posta aboneliklerimiz için hedef gruplar oluşturmak için kullanılıyor. Hedef gruplar artık elasticsearch yönlü arama özellikleri kullanılarak manuel olarak oluşturulmaktadır (23 yaşında tüm erkek müşterileri bir araba ve 3 çocuk ile almak gibi). Veri bilimini, makine öğrenimini, kümelemeyi veya başka bir şeyi …

2
Gizli Dirichlet Tahsisinden elde edilen konuları kullanarak belgelerin kümelenmesi
Latent Dirichlet Tahsisini bir proje için kullanmak istiyorum ve Python'u gensim kütüphanesi ile kullanıyorum. Konuları bulduktan sonra, belgeleri k-means gibi bir algoritma kullanarak kümelemek istiyorum (İdeal olarak üst üste binen kümeler için iyi bir tane kullanmak istiyorum, böylece herhangi bir öneri memnuniyetle karşılanmaktadır). Konuları almayı başardım ama bunlar şu şekildedir: …

4
Metin sınıflandırıcı eğitim veri kümeleri önerin
Bir metin sınıflandırıcısını eğitmek için hangi serbestçe kullanılabilen veri kümelerini kullanabilirim? Onun için en alakalı içeriği önererek kullanıcılarımızın katılımını artırmaya çalışıyoruz, bu yüzden içeriğimizi önceden tanımlanmış bir kelime torbasına göre sınıflandırırsak, önceden sınıflandırılmış rastgele sayıda gönderi hakkında geri bildirim alarak içeriğine ilgi çekici bir şekilde geri dönmesini önerebiliriz. önce. Bu …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.