Veri Bilimi data-mining

4

K-anlamı: Verimli bir başlangıç sentroid seti seçmenin iyi yolları nelerdir?

Centroidlerin rastgele başlatılması kullanıldığında, K-araçlarının farklı çalışmaları farklı toplam SSE'ler üretir. Ve algoritmanın performansında çok önemlidir. Bu sorunun çözümünde bazı etkili yaklaşımlar nelerdir? Son yaklaşımlar takdir edilmektedir.

17 data-mining clustering k-means

5

deniz dibi ısı haritasını büyüt

corr()Orijinal bir df dışında bir df oluşturun . corr()Df 70 X 70 çıktı ve ısı haritası görselleştirmek mümkün değildir ... sns.heatmap(df). Göstermeye çalışırsam corr = df.corr(), tablo ekrana sığmaz ve tüm korelasyonları görebilirim. Boyutundan dfbağımsız olarak tümünü yazdırmanın veya ısı haritasının boyutunu kontrol etmenin bir yolu var mı ?

17 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

3

Dengesiz, heterojen Negatif arka plana sahip Tek Sınıf ayrımcı sınıflandırma?

{Protein} dizilerini belirli bir sınıfa (Neuropeptide hormon öncüleri) ait olarak sınıflandırmak için mevcut bir denetimli sınıflandırıcıyı geliştirmeye çalışıyorum. Yaklaşık 13 milyon protein sekansının ("Bilinmeyen / zayıf açıklamalı arkaplan") arka planına karşı yaklaşık 1.150 bilinen "pozitif" veya çeşitli özelliklerle açıklamalı yaklaşık 100.000 gözden geçirilmiş, ilgili protein vardır (ancak açıkça çok az …

16 machine-learning data-mining python classification

2

Mahout'ta madde ve kullanıcı bazlı öneri farkı

Ben kullanıcı tabanlı ve öğe tabanlı öneri birbirinden tam olarak nasıl farklı bilmek istiyorum. Bunu tanımlar Kullanıcı tabanlı : Benzer kullanıcıları bularak öğeleri önerin. Bu, kullanıcıların dinamik yapısı nedeniyle ölçeklendirmek genellikle daha zordur. Öğe tabanlı : Öğeler arasındaki benzerliği hesaplayın ve önerilerde bulunun. Öğeler genellikle çok fazla değişmez, bu nedenle …

15 machine-learning data-mining algorithms recommender-system

4

Karar ağacı ile KNN karşılaştırması

Hangi durumlarda bir Karar ağacı ve diğer durumlarda bir KNN kullanmak daha iyidir? Neden belirli durumlarda bunlardan birini kullanıyorsunuz? Peki ya diğer durumlarda? (İşleyişine bakarak algoritmaya değil) Bununla ilgili bazı açıklamalar veya referanslar var mı?

15 machine-learning data-mining decision-trees

3

Topluluklar neden bu kadar mantıksız bir şekilde etkili?

Bir grup öğrenicinin mümkün olan en iyi model sonuçlarına yol açtığı aksiyomatik hale gelmiş gibi görünüyor ve örneğin, tek modellerin Kaggle gibi yarışmalar kazanması çok daha nadir hale geliyor. Toplulukların neden bu kadar lanet etkili olduğuna dair teorik bir açıklama var mı?

14 machine-learning data-mining predictive-modeling

2

Kullanıcı profillerini sınıflandırmak / kümelemek için nitelikleri kullanma

Bir web sitesinden ürün satın alan bir kullanıcı veri setim var. Sahip olduğum özellikler kullanıcı kimliği, kullanıcının bölge (eyalet), ürün kategorisi kimliği, ürünün anahtar kelime kimliği, web sitesinin anahtar kelime kimliği ve ürünün harcanan satış tutarıdır. Amaç, "erkek genç oyuncu" veya "evde anne kalmak" gibi kullanıcıların kimliğini belirlemek için bir …

14 machine-learning data-mining classification clustering

1

Bulanık dizilerdeki bir dilbilgisini tanıma

Temelde Öğeler listesini içeren metin belgelerim var. Her Öğe, farklı türlerden birkaç simgeden oluşan bir gruptur: FirstName, LastName, BirthDate, PhoneNumber, City, Occupation, vb. Bir token, bir grup kelimedir. Öğeler birkaç satırda uzanabilir. Bir belgedeki öğeler yaklaşık olarak aynı belirteç sözdizimine sahiptir, ancak tam olarak aynı olmaları gerekmez. Öğeler arasında ve …

13 data-mining clustering text-mining time-series correlation

1

Neo4j vs OrientDB ve Titan

Sosyal ilişki madenciliği ile ilgili bir veri bilimi projesi üzerinde çalışıyorum ve bazı grafik veritabanlarında veri depolamam gerekiyor. Başlangıçta veritabanı olarak Neo4j'yi seçtim. Ama Neo4j iyi ölçeklemiyor dikişler. Bulduğum alternatif Titan ve oriebtDB. İçinden gitti bu bu üç Veritabanları üzerinde karşılaştırma, Ama bu veritabanları üzerinde daha fazla bilgi almak istiyorum. …

13 data-mining graphs databases social-network-analysis

4

Büyük veri vaka çalışması veya kullanım örneği

Farklı veri türlerinin Büyük Veri Analitiğini nasıl kullandığına dair birçok blog \ makalesi okudum. Ancak bu makalenin çoğunda bahsedilemiyor Bu şirketlerin kullandığı veriler. Verilerin boyutu neydi Verileri işlemek için ne tür araçlar teknolojileri kullandılar Karşılaştıkları sorun neydi ve verileri nasıl elde ettikleri hakkında bilgi, sorunu çözmelerine yardımcı oldu. İhtiyaçlarına göre …

13 data-mining bigdata usecase

1

Bir hot encoding ve one out encoding arasındaki fark nedir?

Ben bir sunum okuyorum ve bir dışarı kodlama bırakın kullanmamanızı önerir, ama bir sıcak kodlama ile sorun değil. İkisinin de aynı olduğunu düşündüm. Herkes aralarındaki farkların ne olduğunu açıklayabilir mi?

13 machine-learning data-mining feature-selection feature-extraction feature-engineering

2

Bildiri özetini taramak için herhangi bir API var mı?

Kağıt adlarının çok uzun bir listesi varsa, bu makalelerin özetini internetten veya herhangi bir veritabanından nasıl alabilirim? Bildiri isimleri "Halk Sağlığı Alanı için Web Madenciliğinde Fayda Değerlendirmesi" gibidir. Herhangi biri bana çözüm bulabilecek herhangi bir API biliyor mu? Google bilginini taramaya çalıştım, ancak google tarayıcımı engelledi.

13 data-mining machine-learning

2

Havayolu Ücretleri - Rekabetçi fiyat belirleme davranışını ve fiyat korelasyonlarını tespit etmek için hangi analiz kullanılmalıdır?

Havayollarının fiyat belirleme davranışını - özellikle havayollarının rakiplerin fiyatlandırmasına nasıl tepki verdiğini araştırmak istiyorum. Daha karmaşık analiz hakkındaki bilgimin oldukça sınırlı olduğunu söyleyeceğim gibi, verilerin genel bir görünümünü toplamak için çoğunlukla tüm temel yöntemleri yaptım. Bu, benzer desenleri tanımlamaya zaten yardımcı olan basit grafikler içerir. Ayrıca SAS Enterprise 9.4 kullanıyorum. …

12 data-mining dataset regression correlation visualization

2

FPGrowth, sık sık kalıp madenciliğinde hala “son teknoloji” olarak kabul ediliyor mu?

Sıkça Desen Madenciliği (FPM) problemini çözmek için algoritma geliştirmeyi bildiğim kadarıyla, iyileştirme yolunun bazı ana kontrol noktaları var. İlk olarak, Apriori algoritması 1993 yılında Agrawal ve ark. , sorunun resmileştirilmesiyle birlikte. Algoritma mümkün şerit kapalı bir miktar setleri 2^n - 1setleri (Powerset) verileri korumak için bir kafes kullanılarak gerçekleştirilir. Yaklaşmanın …

12 bigdata data-mining efficiency state-of-the-art

2

Rasgele orman sınıflandırması için kategorik veri türlerine nasıl uyabilirim?

Random Forest Algorithm uygulayarak bir eğitim veri kümesinin doğruluğunu bulmam gerekiyor. Ama benim veri setimin türü hem kategorik hem de sayısal. Bu verileri sığdırmaya çalıştığımda bir hata alıyorum. 'Girdi NaN, sonsuzluk veya dtype (' float32 ') için çok büyük bir değer içeriyor'. Sorun nesne veri türleri için olabilir. RF uygulamak …

12 python data-mining random-forest

«data-mining» etiketlenmiş sorular