Veri Bilimi

Veri bilimi uzmanları, Makine Öğrenimi uzmanları ve alan hakkında daha fazla bilgi edinmek isteyenler için soru cevap

4
Word2vec, görünmeyen kelimeleri tanımlamak ve bunları önceden eğitilmiş verilerle ilişkilendirmek için nasıl kullanılabilir?
Word2vec gensim modeli üzerinde çalışıyordum ve gerçekten ilginç buldum. Modelle kontrol edildiğinde bilinmeyen / görünmeyen bir kelimenin nasıl eğitimli modelden benzer terimleri alabileceğini bulmakla meşgul oldum. Mümkün mü? Bunun için word2vec değiştirilebilir mi? Ya da eğitim topluluğunun benzerliklerini bulmak istediğim tüm kelimelere sahip olması gerekir.




7
LinkedIn web kazıma
Yakın zamanda LinkedIn API'sine bağlanmak için yeni bir R paketi keşfettim . Ne yazık ki LinkedIn API'sı başlangıç ​​olarak oldukça sınırlı görünüyor; örneğin, yalnızca şirketlerle ilgili temel verileri alabilirsiniz ve bu, bireylerle ilgili verilerden ayrılır. Sitede manuel olarak yapabileceğiniz ancak API aracılığıyla mümkün olmayan belirli bir şirketin tüm çalışanları hakkında …

2
Seyrek verilerle bir denklem sisteminin çözümü
40 bağımsız değişkeni (x1, ..., x40) ve bir bağımlı değişkeni (y) olan bir denklem dizisini çözmeye çalışıyorum. Denklemlerin toplam sayısı (satır sayısı) ~ 300'dür ve y ile öngörülen değer arasındaki toplam kare toplamı hatasını en aza indiren 40 katsayı seti için çözmek istiyorum. Benim sorunum matris çok seyrek ve seyrek …


1
Sürekli Çevrimiçi Küme Tanımlaması için Çözümler?
Size varsayımsal bir çevrimiçi kümeleme uygulaması örneği göstereyim: Mavi küme A'ya n puanları 1,2,3,4 ve kırmızı küme B'ye b, 5,6,7 noktaları tahsis edilir. N + 1 zamanında, mavi kümeye A atanan ancak aynı zamanda b noktasının mavi kümeye A atanmasına neden olan yeni bir a noktası eklenir. Bitiş noktalarında 1,2,3,4, …

3
Yalnızca pozitif ve etiketlenmemiş verilerle bir ikili sınıflandırıcı oluşturun
2 veri setim var, biri tespit etmek istediğim şeyin pozitif örneklerine sahip, diğeri ise etiketlenmemiş örneklere sahip. Hangi yöntemleri kullanabilirim? Örnek olarak, birkaç yapılandırılmış e-posta özelliğine dayalı olarak spam e-postasını algılamayı anlamak istediğimizi düşünelim. 10000 spam e-postasının bir veri kümesine ve spam olup olmadığını bilmediğimiz bir 100000 e-posta veri kümesine …

2
Sunucu izleme için sinir ağı
Sunucu monitör alarmları almak ve bir sorunun kök nedenini belirlemek için pybrain bakıyorum. Denetimli öğrenmeyi kullanarak ve eğitim veri setlerini iyileştirerek eğitimden memnunum. Veriler şu şekilde yapılandırılmıştır: Sunucu Tipi A # 1 Alarm türü 1 Alarm tipi 2 Sunucu Tipi A # 2 Alarm türü 1 Alarm tipi 2 Sunucu …

1
Fisher Skorlaması v / s MLE için Koordinat İnişi
R temel işlevi glm()MLE için Fishers Scoring kullanırken glmnet, aynı denklemi çözmek için koordinat iniş yöntemini kullanıyor gibi görünüyor. Koordinat inişi Fisher Scoring'den daha zaman verimlidir, çünkü Fisher Scoring diğer bazı matris işlemlerine ek olarak ikinci dereceden türev matrisini hesaplar. Bu da koordinat inişini aynı görevi O (np) zamanında yapabilir. …

5
Aylık, günlük ve haftalık veriler nasıl birleştirilir?
Google Trends haftalık verileri döndürür, böylece günlük / aylık verilerimle birleştirmenin bir yolunu bulmam gerekir. Şimdiye kadar yaptığım, örnek için her seriyi günlük verilere bölmek: dan: 2013-03-03 - 2013-03-09 37 için: 2013-03-03 37 2013-03-04 37 2013-03-05 37 2013-03-06 37 2013-03-07 37 2013-03-08 37 2013-03-09 37 Ama bu benim problemime çok …

4
Özellik Çıkarma Tekniği - Bir Veri Dizisini Özetleme
Sıklıkla diziler olan bazı tahmin değişkenlerinin olduğu bir model (sınıflandırma veya regresyon) yapıyorum ve bunları modelde yordayıcılar olarak dahil etmek için mümkün olan en iyi şekilde özetlemek için teknik öneriler bulmaya çalışıyorum. Somut bir örnek olarak, bir müşterinin önümüzdeki 90 gün içinde şirketi terk edip etmeyeceğini tahmin etmek için bir …


3
MongoDB için yazılan harita küçültme algoritmaları daha sonra Hadoop'a taşınabilir mi?
Şirketimizde, raporlar ve diğer analizler oluşturmak için harita azaltma algoritmaları çalıştırmamız gereken çok sayıda yapılandırılmamış veri içeren bir MongoDB veritabanımız var. Gerekli analizleri uygulamak için seçim yapabileceğimiz iki yaklaşımımız var: Bir yaklaşım MongoDB'den bir Hadoop kümesine veri çıkarmak ve analizi tamamen Hadoop platformunda yapmaktır. Bununla birlikte, bu, platformun (yazılım ve …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.