«data-mining» etiketlenmiş sorular

Büyük, karmaşık veri kümelerinde kalıp arayan bir etkinlik. Genellikle algoritmik teknikleri vurgular, ancak aynı zamanda bu amaca yönelik herhangi bir ilgili beceri, uygulama veya metodolojiyi içerebilir.


5
deniz dibi ısı haritasını büyüt
corr()Orijinal bir df dışında bir df oluşturun . corr()Df 70 X 70 çıktı ve ısı haritası görselleştirmek mümkün değildir ... sns.heatmap(df). Göstermeye çalışırsam corr = df.corr(), tablo ekrana sığmaz ve tüm korelasyonları görebilirim. Boyutundan dfbağımsız olarak tümünü yazdırmanın veya ısı haritasının boyutunu kontrol etmenin bir yolu var mı ?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

3
Dengesiz, heterojen Negatif arka plana sahip Tek Sınıf ayrımcı sınıflandırma?
{Protein} dizilerini belirli bir sınıfa (Neuropeptide hormon öncüleri) ait olarak sınıflandırmak için mevcut bir denetimli sınıflandırıcıyı geliştirmeye çalışıyorum. Yaklaşık 13 milyon protein sekansının ("Bilinmeyen / zayıf açıklamalı arkaplan") arka planına karşı yaklaşık 1.150 bilinen "pozitif" veya çeşitli özelliklerle açıklamalı yaklaşık 100.000 gözden geçirilmiş, ilgili protein vardır (ancak açıkça çok az …

2
Mahout'ta madde ve kullanıcı bazlı öneri farkı
Ben kullanıcı tabanlı ve öğe tabanlı öneri birbirinden tam olarak nasıl farklı bilmek istiyorum. Bunu tanımlar Kullanıcı tabanlı : Benzer kullanıcıları bularak öğeleri önerin. Bu, kullanıcıların dinamik yapısı nedeniyle ölçeklendirmek genellikle daha zordur. Öğe tabanlı : Öğeler arasındaki benzerliği hesaplayın ve önerilerde bulunun. Öğeler genellikle çok fazla değişmez, bu nedenle …



2
Kullanıcı profillerini sınıflandırmak / kümelemek için nitelikleri kullanma
Bir web sitesinden ürün satın alan bir kullanıcı veri setim var. Sahip olduğum özellikler kullanıcı kimliği, kullanıcının bölge (eyalet), ürün kategorisi kimliği, ürünün anahtar kelime kimliği, web sitesinin anahtar kelime kimliği ve ürünün harcanan satış tutarıdır. Amaç, "erkek genç oyuncu" veya "evde anne kalmak" gibi kullanıcıların kimliğini belirlemek için bir …

1
Bulanık dizilerdeki bir dilbilgisini tanıma
Temelde Öğeler listesini içeren metin belgelerim var. Her Öğe, farklı türlerden birkaç simgeden oluşan bir gruptur: FirstName, LastName, BirthDate, PhoneNumber, City, Occupation, vb. Bir token, bir grup kelimedir. Öğeler birkaç satırda uzanabilir. Bir belgedeki öğeler yaklaşık olarak aynı belirteç sözdizimine sahiptir, ancak tam olarak aynı olmaları gerekmez. Öğeler arasında ve …

1
Neo4j vs OrientDB ve Titan
Sosyal ilişki madenciliği ile ilgili bir veri bilimi projesi üzerinde çalışıyorum ve bazı grafik veritabanlarında veri depolamam gerekiyor. Başlangıçta veritabanı olarak Neo4j'yi seçtim. Ama Neo4j iyi ölçeklemiyor dikişler. Bulduğum alternatif Titan ve oriebtDB. İçinden gitti bu bu üç Veritabanları üzerinde karşılaştırma, Ama bu veritabanları üzerinde daha fazla bilgi almak istiyorum. …

4
Büyük veri vaka çalışması veya kullanım örneği
Farklı veri türlerinin Büyük Veri Analitiğini nasıl kullandığına dair birçok blog \ makalesi okudum. Ancak bu makalenin çoğunda bahsedilemiyor Bu şirketlerin kullandığı veriler. Verilerin boyutu neydi Verileri işlemek için ne tür araçlar teknolojileri kullandılar Karşılaştıkları sorun neydi ve verileri nasıl elde ettikleri hakkında bilgi, sorunu çözmelerine yardımcı oldu. İhtiyaçlarına göre …


2
Bildiri özetini taramak için herhangi bir API var mı?
Kağıt adlarının çok uzun bir listesi varsa, bu makalelerin özetini internetten veya herhangi bir veritabanından nasıl alabilirim? Bildiri isimleri "Halk Sağlığı Alanı için Web Madenciliğinde Fayda Değerlendirmesi" gibidir. Herhangi biri bana çözüm bulabilecek herhangi bir API biliyor mu? Google bilginini taramaya çalıştım, ancak google tarayıcımı engelledi.

2
Havayolu Ücretleri - Rekabetçi fiyat belirleme davranışını ve fiyat korelasyonlarını tespit etmek için hangi analiz kullanılmalıdır?
Havayollarının fiyat belirleme davranışını - özellikle havayollarının rakiplerin fiyatlandırmasına nasıl tepki verdiğini araştırmak istiyorum. Daha karmaşık analiz hakkındaki bilgimin oldukça sınırlı olduğunu söyleyeceğim gibi, verilerin genel bir görünümünü toplamak için çoğunlukla tüm temel yöntemleri yaptım. Bu, benzer desenleri tanımlamaya zaten yardımcı olan basit grafikler içerir. Ayrıca SAS Enterprise 9.4 kullanıyorum. …

2
FPGrowth, sık sık kalıp madenciliğinde hala “son teknoloji” olarak kabul ediliyor mu?
Sıkça Desen Madenciliği (FPM) problemini çözmek için algoritma geliştirmeyi bildiğim kadarıyla, iyileştirme yolunun bazı ana kontrol noktaları var. İlk olarak, Apriori algoritması 1993 yılında Agrawal ve ark. , sorunun resmileştirilmesiyle birlikte. Algoritma mümkün şerit kapalı bir miktar setleri 2^n - 1setleri (Powerset) verileri korumak için bir kafes kullanılarak gerçekleştirilir. Yaklaşmanın …


Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.