Veri Bilimi

Veri bilimi uzmanları, Makine Öğrenimi uzmanları ve alan hakkında daha fazla bilgi edinmek isteyenler için soru cevap

3
Rastgele Ormanlarla modelleme çapraz doğrulama gerektiriyor mu?
Gördüğüm kadarıyla, bu konuda görüşler farklılaşıyor. En iyi uygulama, kesinlikle çapraz doğrulama kullanarak (özellikle de RF'leri aynı veri setindeki diğer algoritmalarla karşılaştırıyorsanız) kullanmaya zorlayacaktır. Öte yandan, orijinal kaynak OOB hatasının model eğitimi sırasında hesaplanmasının test set performansının bir göstergesi için yeterli olduğunu belirtmektedir. Trevor Hastie bile, nispeten yakın tarihli bir …


4
Kümelemeden önce verilerinizi standartlaştırmak gerekli midir?
Kümeden önce verilerinizi standart hale getirmek gerekli midir? Dan örnekte scikit learnDBSCAN hakkında, burada onlar doğrultusunda bunu: X = StandardScaler().fit_transform(X) Ama neden gerekli olduğunu anlamıyorum. Sonuçta, kümeleme herhangi bir veri dağılımını varsaymaz - denetimsiz bir öğrenme yöntemidir, bu nedenle amacı verileri araştırmaktır. Verileri dönüştürmek neden gerekli olsun?

3
K-Elbow yöntemi ile B'yi seçen tutarlı olmayan davranış, BIC, varyans açıklanır ve siluet anlamına gelir
Bazı vektörleri 90 özellikli K-aracıyla kümelemeye çalışıyorum. Bu algoritma bana küme sayısını sorduğundan, seçimimi güzel bir matematikle doğrulamak istiyorum. 8-10 küme olmasını bekliyorum. Özellikler Z-skoruna göre ölçeklendirilir. Dirsek yöntemi ve varyans açıklandı from scipy.spatial.distance import cdist, pdist from sklearn.cluster import KMeans K = range(1,50) KM = [KMeans(n_clusters=k).fit(dt_trans) for k in …

7
Yüksek boyutlu verileri görselleştirmenin amacı?
T-SNE, isomap, PCA, denetimli PCA, vb. Gibi yüksek boyutlu veri kümelerini görselleştirmek için birçok teknik var. Verileri 2B veya 3B alana yansıtma hareketlerini gerçekleştiriyoruz, bu yüzden "güzel resimlerimiz var" ". Bu yerleştirme (manifold öğrenme) yöntemlerinden bazıları burada açıklanmaktadır . Ama bu "güzel resim" aslında anlamlı mı? Birisi bu gömülü alanı …


6
Kategorisel veya sayısal olarak ay ve saat gibi kodlama özellikleri?
Makine öğrenim modelinde ay ve saat gibi özellikleri faktör veya sayısal olarak kodlamak daha mı iyidir? Bir yandan, sayısal kodlamanın makul olabileceğini düşünüyorum, çünkü zaman ileriye doğru ilerleyen bir süreç (beşinci ayın ardından altıncı ay), ancak diğer yandan kategorik kodlamanın döngüsel yapı nedeniyle daha makul olabileceğini düşünüyorum yıllar ve günler …

4
XGBoost çoklu bağlantıyı tek başına ele alıyor mu?
Şu anda XGBoost'u 21 özellikli bir veri setinde kullanıyorum (yaklaşık 150 özellik listesinden seçildi), sonra ~ 98 özellik elde etmek için bir sıcak kodlu. Bu 98 özellikten birkaçı biraz fazladır, örneğin: değişken (özellik) da B olarak görünürbirbirA veCBbirBbir\frac{B}{A} .CbirCbir\frac{C}{A} Sorularım: Nasıl ( varsa? ) Karar Ağaçları kolu çoklu doğrusal Boosted …

2
GridSearch çıktısı nasıl kullanılır?
Şu anda Python ve Scikit ile sınıflandırma amacıyla öğrenmek için çalışıyorum ve GridSearch etrafında biraz okuma yapıyorum, bu en iyi sonuçları elde etmek için benim tahmin parametreleri optimize etmek için harika bir yol olduğunu düşündüm. Benim metodolojim şudur: Verilerimi eğitim / teste böl. Tahmincilerimi (Rastgele Orman, Gradient Boost, diğerleri arasında …


3
Girdi verilerinde özellik dönüşümü
Bu OTTO Kaggle mücadelesinin çözümü hakkında okuyordum ve ilk etapta çözüm giriş verileri X için birkaç dönüşüm kullanıyor gibi görünüyor, örneğin Log (X + 1), sqrt (X + 3/8), vb. Çeşitli sınıflandırıcılara hangi tür dönüşümlerin ne zaman uygulanacağı hakkında genel bir kılavuz? Ortalama-var ve min-max normalizasyon kavramlarını anlıyorum. Bununla birlikte, …

6
Konvolüsyonel sinir ağları neden çalışıyor?
İnsanların evrişimsel sinir ağlarının neden hala yeterince anlaşılmadığını söylediğini sık sık duydum. Konvolüsyonel sinir ağlarının neden katmanları yükseltirken gittikçe daha da karmaşıklaşan özellikler öğrenmeye başladığı biliniyor mu? Böyle bir özellik yığını yaratmalarına neden olan şey nedir ve bu, diğer derin sinir ağları türleri için de geçerli olabilir mi?

6
Jupyter not defterlerini bir ekip içinde paylaşma
Veri bilim ekibini şu şekilde destekleyebilecek bir sunucu kurmak istiyorum: Jupyter not defterlerini saklamak, sürümlemek, paylaşmak ve mümkün olmak için merkezi bir nokta olmak. İstenilen bazı özellikler: Farklı kullanıcılar sunucuya erişebilir ve kendileri veya diğer ekip üyeleri tarafından depolanan defterleri açıp çalıştırabilir. Burada ilginç bir soru bir defter kullanıcı X …



Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.