Veri Bilimi

Veri bilimi uzmanları, Makine Öğrenimi uzmanları ve alan hakkında daha fazla bilgi edinmek isteyenler için soru cevap

5
AlphaGo'nun politika ağı ile değer ağı arasındaki fark
Google’ın AlphaGo’su hakkında yüksek düzeyde bir özet okuyordum ( http://googleresearch.blogspot.co.uk/2016/01/alphago-mastering-ancient-game-of-go.html ) ve "politika" terimlerini karşıladım ağ "ve" değer ağı ". Yüksek düzeyde, politika ağının hareketler önermek için kullanıldığını ve değer ağının "Arama ağacının derinliğini azaltın (ve her yere arama yapmak yerine kazananı tahmin etmesini) kullanıldığını biliyorum. oyunun sonu." Bu iki …

4
Pandas.DataFrame.isin'i paralel olarak çalıştırmanın basit bir yolu var mı?
DataFrame.isinBirkaç bin belirli sayfanın her biri için bireysel kullanıcıların kayıtlarını "beğenen" facebook listelerinde arama yaparak, pandaların işlevini yoğun kullanan bir modelleme ve puanlama programım var . Bu, programlamanın en zaman alan kısmı, modelleme veya puanlama parçalarından çok, sadece geri kalanı eşzamanlı olarak birkaç düzine çalıştırırken sadece bir çekirdekte çalıştığı için. …

3
Gini katsayısı vs Gini katışıklığı - karar ağaçları
Sorun, karar ağaçlarının oluşturulmasına işaret ediyor. Wikipedia'ya göre ' Gini katsayısı ' ' Gini katışıklığı ' ile karıştırılmamalıdır . Bununla birlikte, karar ağacı oluştururken her iki önlem de kullanılabilir - bunlar öğeler grubunu bölerken seçimlerimizi destekleyebilir. 1) 'Gini kirliliği' - standart bir karar ağacı yarma metriğidir (yukarıdaki bağlantıya bakınız); 2) …

4
Adlandırılmış Varlık Tanıma için Word2Vec
Adlandırılmış bir varlık tanıma sistemi oluşturmak için google’ın word2vec uygulamasını kullanmak istiyorum. Yapısal geri yayılımlı özyinelemeli sinir ağlarının adlandırılmış varlık tanıma görevleri için uygun olduğunu duydum, ancak bu tür bir model için iyi bir uygulama ya da iyi bir eğitim bulamadım. Atipik bir korpusla çalışıyorum, NLTK ve benzeri standart NER …

3
Neden XGBoost ve Random Forest'a ihtiyacımız var?
Birkaç kavram konusunda net değildim: XGBoost, zayıf öğrencileri güçlü öğrencilere dönüştürür. Bunu yapmanın avantajı nedir? Tek bir ağacı kullanmak yerine birçok zayıf öğrenciyi birleştirmek mi? Rastgele Orman bir ağaç oluşturmak için ağaçtan çeşitli örnekler kullanır. Sadece tekil bir ağaç kullanmak yerine bu yöntemin avantajı nedir?

5
Veri bilimi projeleri için VM görüntüsü
Veri bilimi görevleri için çok sayıda araç bulunduğundan ve her şeyi kurmak ve mükemmel bir sistem oluşturmak zordur. İnsanların hemen kullanabileceği Python, R ve diğer açık kaynaklı veri bilim araçlarının kurulu olduğu bir Linux / Mac OS görüntüsü var mı? Bir Ubuntu veya en son Python, R (IDE'ler dahil) ve …
24 python  r  tools 


4
Rastgele Orman kıyafeti kullanıyor mu?
Rastgele Ormanlar hakkında okuyordum ama fazla uydurma sorunu hakkında kesin bir cevap bulamıyorum. Orijinal Breiman gazetesine göre, ormandaki ağaç sayısını arttırırken fazladan giydirilmemeli, ancak bu konuda bir fikir birliği olmadığı görülüyor. Bu konuda bana biraz kafa karışıklığı yaratıyor. Belki benden daha uzman biri bana daha somut bir cevap verebilir veya …

4
Scikit-learn: Lojistik Regresyonun yanı sıra tahmin etmek için SGDClassifier'ı edinmek
Lojistik Regresyon'u eğitmenin bir yolu, scikit-learn'ın bir arayüz sunduğu stokastik degrade inişini kullanmaktır. Yapmak istediğim bir scikit- learn'ın SGDClassifier'ı almak ve burada Lojistik Regresyon ile aynı puanı almak . Ancak puanlarım eşit olmadığından bazı makine öğrenme geliştirmelerini kaçırmam gerekiyor. Bu benim şu anki kodum. Lojistik Regresyon ile aynı sonuçları vermesini …


3
Python makine öğrenme modellerini saklamak için en iyi yöntemler
Makine öğrenimi modellerini kaydetmek, saklamak ve paylaşmak için en iyi uygulamalar nelerdir? Python'da genel olarak turşu veya joblib kullanarak modelin ikili gösterimini saklıyoruz. Modeller, benim durumumda, ~ 100Mo büyük olabilir. Ayrıca, joblib ayarlanmadıkça bir modeli birden fazla dosyaya kaydedebilir compress=1( /programming/33497314/sklearn-dumping-model-using-joblib-dumps-multiple-files-which-one-is-the- kore ). Ancak, modellere erişim haklarını kontrol etmek ve …

4
Gizli özelliklerin anlamı?
Tavsiye sistemleri için matris faktörleştirmeyi öğreniyorum ve terimin latent featuresçok sık meydana geldiğini görüyorum ama bunun ne anlama geldiğini anlayamıyorum. Bir özelliğin ne olduğunu biliyorum ama gizli özellikler fikrini anlamıyorum. Lütfen açıklayabilir misiniz? Ya da en azından beni okuyabileceğim bir yere / yere yönlendir.

4
Son modeli eğitmek için tüm veri setini kullanmak her zaman daha iyi olur mu?
Eğitim, doğrulama ve tercih Makine Öğrenme modeli test ettikten sonra ortak bir teknik yetiştirmek, test alt kümesi dahil tam bir veri kümesi kullanmaktır nihai modeli için dağıtmak örneğin bir ürünün onu. Sorum şu: Bunu yapmak her zaman en iyisi midir? Ya performans gerçekten bozulursa? Örneğin, test alt setini sınıflandırırken modelin% …


3
Veri Bilimi Proje Fikirleri [kapalı]
Kapalı . Bu soru görüşe dayalı . Şu anda cevapları kabul etmiyor. Bu soruyu geliştirmek ister misiniz? Soruyu güncelleyin, böylece bu yayını düzenleyerek gerçekleri ve alıntıları yanıtlayabileceksiniz . 5 yıl önce kapandı . Bu soruyu sormak için doğru bir yer olup olmadığını bilmiyorum, ama Veri Bilimine adanmış bir topluluk bence …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.