Veri Bilimi

Veri bilimi uzmanları, Makine Öğrenimi uzmanları ve alan hakkında daha fazla bilgi edinmek isteyenler için soru cevap

4
Metin işlemede Kümelemeyi kullanma
Merhaba, Veri Bilimi yığınındaki ilk sorum bu. Metin sınıflandırması için bir algoritma oluşturmak istiyorum. Büyük bir metin ve makale setim olduğunu varsayalım. 5000 düz metin yazalım. İlk olarak dört ve yukarıdaki karakter kelimelerinin tümünün sıklığını belirlemek için basit bir işlev kullanıyorum. Daha sonra bunu her eğitim örneğinin özelliği olarak kullanıyorum. …

3
KS, AUROC ve Gini arasındaki ilişki
Kolmogorov-Smirnov testi (KS), AUROC ve Gini katsayısı gibi yaygın model doğrulama istatistiklerinin tümü işlevsel olarak ilişkilidir. Ancak, sorum bunların hepsinin nasıl ilişkili olduğunu kanıtlamakla ilgilidir. Birinin bu ilişkileri kanıtlamama yardım edip edemeyeceğini merak ediyorum. Çevrimiçi olarak hiçbir şey bulamadım, ancak kanıtların nasıl çalıştığıyla gerçekten ilgileniyorum. Örneğin, Gini = 2AUROC-1'i biliyorum, …

2
Deneme çalışmalarının ve sonuçlarının defter tutulması
Ben araştırmacıya el koyuyorum ve uygulanabilir çözümleri test etmeyi seviyorum, bu yüzden birçok deney yapıyorum. Örneğin, belgeler arasında benzerlik puanı hesaplıyorsam, birçok önlem denemek isteyebilirim. Aslında, her ölçü için bazı parametrelerin etkisini test etmek için birkaç çalışma yapmam gerekebilir. Şimdiye kadar, sonuçları girdiler hakkında çok fazla bilgi içeren dosyalara yazarak …

1
t-SNE Python uygulaması: Kullback-Leibler sapması
t-SNE, [1] 'de olduğu gibi, belirli bir koşul karşılanıncaya kadar Kullback-Leibler (KL) sapmasını giderek azaltarak çalışır. T-SNE'nin yaratıcıları, KL diverjansını görselleştirmeler için bir performans kriteri olarak kullanmanızı önerir: t-SNE'nin bildirdiği Kullback-Leibler sapmalarını karşılaştırabilirsiniz. T-SNE'yi on kez çalıştırmak ve en düşük KL diverjansına sahip çözümü seçmek son derece iyidir [2] T-SNE'nin …

3
NER için denetimsiz özellik öğrenme
Oldukça iyi sonuçlar veren el işi özelliklerimle CRF algoritması kullanarak NER sistemini uyguladım. Mesele şu ki POS etiketleri ve lemmalar da dahil olmak üzere birçok farklı özellik kullandım. Şimdi aynı NER'i farklı dil için yapmak istiyorum. Burada sorun POS etiketleri ve lemmaları kullanamıyorum. Derin öğrenme ve denetimsiz özellik öğrenme hakkında …

3
Desen analizi için veri görselleştirme (dilden bağımsız, ancak R tercih edilir)
Onları bir desen anlamak için bir disk görüntü baytlar çizmek istiyorum. Bu temelde akademik bir görevdir, çünkü bu kalıbın bir disk test programı tarafından oluşturulduğundan neredeyse eminim, ancak yine de tersine mühendislik yapmak istiyorum. Desenin 256 karakterlik bir periyodiklikle hizalandığını zaten biliyorum. Bu bilgiyi görselleştirmenin iki yolunu hayal edebilirim: ya …
11 r  visualization 

4
HPC kümeleriyle çalışma
Üniversitemde bir HPC bilgi işlem kümemiz var. Kümeyi sınıflandırıcıları eğitmek için kullanıyorum vb. Yani, genellikle, (örneğin python scikit-learn komut dosyası) kümeye bir iş göndermek için, (diğerleri arasında) gibi bir komut içeren bir Bash komut dosyası yazmak gerekir qsub script.py. Ancak, bu süreci çok sinir bozucu buluyorum. Genellikle ne olur benim …

4
Hisse senetleri için geçmiş piyasa değeri ve günlük ciro verilerini nereden indirebilirim?
Geçmiş stok verilerini sağlayan birçok kaynak vardır, ancak sadece OHLC alanlarını hacim ile birlikte sağlarlar ve yakın ayarlanmışlardır. Ayrıca bulduğum birkaç kaynak piyasa değeri veri setleri sağlıyor ancak ABD hisse senetleriyle sınırlı. Yahoo Finance, bu verileri çevrimiçi olarak sağlar, ancak indirme (veya farkında olmadığım) seçeneği yoktur. Bu adları, kısaltma adlarını …
11 dataset 

3
İstatistik Yüksek Lisans tezi için Veri Bilimi odaklı veri seti / araştırma sorusu
'Veri bilimi'ni keşfetmek istiyorum. Terim bana biraz belirsiz görünüyor, ancak bunu gerektiriyor: makine öğrenimi (geleneksel istatistiklerden ziyade); kümeler üzerinde analizler yürütmeniz için yeterince büyük bir veri kümesi. Veri bilimi alanını keşfetmek için kullanabileceğim, programlama geçmişine sahip bir istatistikçinin erişebileceği bazı iyi veri kümeleri ve problemler nelerdir? Bunu olabildiğince dar tutmak …


3
Doğal dil sorguları nasıl işlenir?
Doğal dil sorgulamayı merak ediyorum. Stanford, doğal dili işlemek için güçlü bir yazılım seti gibi görünüyor . Ayrıca Apache OpenNLP kütüphanesini ve Metin Mühendisliği Genel Mimarisini gördüm . Doğal dil işleme için inanılmaz miktarda kullanım vardır ve bu, bu projelerin belgelerinin hızla emilmesini zorlaştırır. Benim için işleri biraz basitleştirebilir ve …
11 nlp 



2
Çok uzun süre antrenman yaparken Adam optimizer ile garip davranış
Ben 64 rastgele oluşturulan veri noktalarında tek bir algılayıcı (1000 giriş birimleri, 1 çıkış, hiçbir gizli katmanları) eğitmek çalışıyorum. Adam optimizer kullanarak Pytorch kullanıyorum: import torch from torch.autograd import Variable torch.manual_seed(545345) N, D_in, D_out = 64, 1000, 1 x = Variable(torch.randn(N, D_in)) y = Variable(torch.randn(N, D_out)) model = torch.nn.Linear(D_in, D_out) …

1
CNN'deki yoğun katmanların sayısı ve boyutu
Gördüğüm çoğu ağ, son softmax katmanından önce bir veya iki yoğun katmana sahip. Yoğun katmanların sayısını ve boyutunu seçmenin ilkeli bir yolu var mı? İki yoğun katman, aynı sayıda parametre için birden fazla temsil edici midir? Bırakma her yoğun katmandan önce mi yoksa sadece bir kez mi uygulanmalıdır?
11 convnet 

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.