Veri Bilimi

1

R kullanarak karar ağaçları oluştururken verileri normalleştirmek zorunda mısınız?

Yani, bu haftaki veri setimizde 14 özellik var ve her sütun çok farklı değerlere sahip. Bir sütun 1'in altında değerlere sahipken, başka bir sütun üç ila dört tam basamaktan oluşan değerlere sahiptir. Geçen hafta normalizasyonu öğrendik ve çok farklı değerlere sahip olduklarında verileri normalleştirmeniz gerekiyor gibi görünüyor. Karar ağaçları için …

10 r beginner

3

Ontolojiler ve Anlambilimsel Ağ öldü mü? [kapalı]

Kapalı . Bu sorunun daha fazla odaklanması gerekiyor . Şu anda cevapları kabul etmiyor. Bu soruyu geliştirmek ister misiniz? Soruyu, yalnızca bu yayını düzenleyerek tek bir soruna odaklanacak şekilde güncelleyin . 3 yıl önce kapalı . Anlamsal Ağ öldü mü? Ontolojiler öldü mü? "Sulak alanların etrafındaki ilgi gruplarına yönelik bir …

10 knowledge-base

1

Önceki Evrişimsel Katmanın delta terimleri ve ağırlıkları göz önüne alındığında, bir Evrişimsel Katmanın delta terimini nasıl hesaplayabilirim?

İki kıvrımlı katman (c1, c2) ve iki gizli katman (c1, c2) ile yapay bir sinir ağı eğitmeye çalışıyorum. Standart backpropagation yaklaşımını kullanıyorum. Geriye doğru geçişte, bir katmanın (delta) hata terimini bir önceki katmanın hatasına, bir önceki katmanın ağırlıklarına ve aktif katmanın geçerli katmanın aktivasyon fonksiyonuna göre gradyanına göre hesaplarım. Daha …

10 machine-learning data-mining neural-network deep-learning

2

Bölgeye Duyarlı Bir Karmayı Güçlendirme

Ben kosinüs yer duyarlı bir hash inşa etmeye çalışıyorum, böylece olası her çift karşılaştırmak zorunda kalmadan aday benzer ürün çiftleri bulabilirsiniz. Temelde çalışıyorum, ancak verilerimdeki çiftlerin çoğunun -0.2 ila +0.2 aralığında kosinüs benzerliği var gibi görünüyor, bu yüzden oldukça ince zar atmaya ve kosinüs benzerliği 0.1 ve üzeri olan şeyleri …

10 machine-learning

2

Vektör işlemlerine dayalı stokastik degrade iniş?

Diyelim ki N örneği olan bir veri kümesi kullanarak stokastik bir degrade iniş regresyon algoritması eğitmek istiyorum. Veri kümesinin boyutu sabit olduğundan, veri T zamanlarını yeniden kullanacağım. Her yinelemede veya "dönem" de, tüm eğitim setini rastgele yeniden sıraladıktan sonra her eğitim örneğini tam olarak bir kez kullanıyorum. Benim uygulama Python …

10 python gradient-descent regression

2

Scikit sınıflandırıcılarının sınıflandırılması ne kadar zaman alır?

1 milyon etiketli belgeden oluşan bir grupta metin sınıflandırması için scikit doğrusal destek vektör makinesi (SVM) sınıflandırıcısı kullanmayı planlıyorum. Ne yapmayı planlıyorum, bir kullanıcı bazı anahtar kelime girdiğinde, sınıflandırıcı ilk önce bir kategoride sınıflandıracak ve daha sonra bu kategori kategorisinin belgelerinde sonraki bilgi alma sorgusu gerçekleşecektir. Bir kaç sorum var: …

10 machine-learning classification python scikit-learn

3

Ağ analizi klasik veri kümeleri

Makine öğrenimi sınıflandırma / regresyon görevleri için birkaç klasik veri kümesi vardır. En popüler olanları: İris Çiçek Veri Seti ; Titanik Veri Seti ; Motor Trend Otomobilleri ; vb. Ancak ağ analizi / grafik teorisi için benzer veri kümelerini bilen var mı? Daha somut - Karşılaştırma / değerlendirme / öğrenme …

10 dataset graphs

4

Boylam ve enlem koordinatları verilen optimize edilmiş bir yürüyüş listesini nasıl oluşturursunuz?

Önümüzdeki birkaç hafta boyunca düzinelerce gönüllünün kapı vurma promosyonu düzenleyeceği siyasi bir kampanya üzerinde çalışıyorum. Adları, adresleri ve uzun / lat koordinatlarını içeren bir liste verildiğinde, optimize edilmiş bir yürüyüş listesi oluşturmak için hangi algoritmalar kullanılabilir.

10 algorithms

2

Çapraz doğrulama: K-katına karşı Tekrarlanan rastgele alt örnekleme

Sınıflandırma problemi için hangi model çapraz doğrulamayı seçeceğinizi merak ediyorum: K-katlamalı veya rastgele alt örnekleme (bootstrap örneklemesi)? En iyi tahminim, veri setinin 2 / 3'ünü (~ 1000 öğedir) ve 1/3'ü doğrulama için kullanmaktır. Bu durumda K-katlama sadece üç iterasyon (katlama) verir, bu da kararlı ortalama hatayı görmek için yeterli değildir. …

10 cross-validation sampling

1

Elastik Arama'da depolanan müşteri verilerini kümeleme

Bir sürü müşteri profilim var. elasticsearchKüme. Bu profiller artık e-posta aboneliklerimiz için hedef gruplar oluşturmak için kullanılıyor. Hedef gruplar artık elasticsearch yönlü arama özellikleri kullanılarak manuel olarak oluşturulmaktadır (23 yaşında tüm erkek müşterileri bir araba ve 3 çocuk ile almak gibi). Veri bilimini, makine öğrenimini, kümelemeyi veya başka bir şeyi …

10 data-mining clustering

4

Veri analizinde hata ayıklama nasıl yapılır?

Aşağıdaki sorunla karşılaştım, keşif oldukça tipik. Birkaç milyon satır gibi büyük verilerim var. Bazı önemsiz analiz, örneğin birkaç alt sorgudan oluşan bir SQL sorgusu çalıştırın. Örneğin X özelliğinin zaman içinde arttığını belirten bir sonuç elde ediyorum. Şimdi, buna yol açabilecek iki olası şey var: X gerçekten zaman içinde artıyor Analizimde …

10 data-mining sql experiments

1

Öneride örtük verilerle nasıl başa çıkılmalıdır?

Bir öneri sistemi, belirli bir kullanıcıya hangi önerilerin yapıldığının ve kullanıcının öneriyi kabul edip etmediğinin günlüğünü tutar. Gibi user_id item_id result 1 4 1 1 7 -1 5 19 1 5 80 1 burada 1, kullanıcının öneriyi kabul ettiği, -1 ise kullanıcının öneriye yanıt vermediği anlamına gelir. Soru: Yukarıda açıklanan …

10 recommender-system

2

Yapay Sinir Ağlarında Hata Ayıklama

Ben scipy.optimize.minimize (degrade konjuge) optimizasyon işlevini kullanarak python yapay bir sinir ağı inşa ettik. Degrade denetimi uyguladım, her şeyi iki kez kontrol ettim ve doğru çalıştığından eminim. Birkaç kez çalıştırdım ve 'Optimizasyon başarıyla sonlandırıldı' değerine ulaştı, ancak gizli katmanların sayısını artırdığımda, hipotezin maliyeti başarılı bir şekilde sona erdikten sonra artar …

10 machine-learning python neural-network

5

Anahtar kelimelerin iyi bir listesi nasıl oluşturulur

Bir engellenecek kelimeler listesinin nasıl seçileceğine dair bazı ipuçları arıyorum. Birisi önişleme ve filtreleme için veri kümesinin kendisinden engellenecek kelime listelerini çıkarmak için iyi bir yöntem biliyor mu / önerebilir mi? Veri: birkaç yıl içinde değişken uzunlukta (arama ve tam cümleler (200 karaktere kadar)) çok sayıda insan metni girişi. Metin …

9 data-mining nlp information-retrieval language-model

1

Degrade artırıcı kütüphane için Distributed ne anlama geliyor?

XGBoost belgelerine bakıyorum ve XGBoost'un optimize edilmiş dağıtılmış gradyan artırıcı kütüphane olduğu belirtiliyor. Dağıtılmış ile ne kastedilmektedir? İyi günler

9 xgboost distributed boosting