Veri Bilimi

4

Merhaba, Veri Bilimi yığınındaki ilk sorum bu. Metin sınıflandırması için bir algoritma oluşturmak istiyorum. Büyük bir metin ve makale setim olduğunu varsayalım. 5000 düz metin yazalım. İlk olarak dört ve yukarıdaki karakter kelimelerinin tümünün sıklığını belirlemek için basit bir işlev kullanıyorum. Daha sonra bunu her eğitim örneğinin özelliği olarak kullanıyorum. …

11 text-mining clustering

3

KS, AUROC ve Gini arasındaki ilişki

Kolmogorov-Smirnov testi (KS), AUROC ve Gini katsayısı gibi yaygın model doğrulama istatistiklerinin tümü işlevsel olarak ilişkilidir. Ancak, sorum bunların hepsinin nasıl ilişkili olduğunu kanıtlamakla ilgilidir. Birinin bu ilişkileri kanıtlamama yardım edip edemeyeceğini merak ediyorum. Çevrimiçi olarak hiçbir şey bulamadım, ancak kanıtların nasıl çalıştığıyla gerçekten ilgileniyorum. Örneğin, Gini = 2AUROC-1'i biliyorum, …

11 data-mining statistics predictive-modeling accuracy

2

Deneme çalışmalarının ve sonuçlarının defter tutulması

Ben araştırmacıya el koyuyorum ve uygulanabilir çözümleri test etmeyi seviyorum, bu yüzden birçok deney yapıyorum. Örneğin, belgeler arasında benzerlik puanı hesaplıyorsam, birçok önlem denemek isteyebilirim. Aslında, her ölçü için bazı parametrelerin etkisini test etmek için birkaç çalışma yapmam gerekebilir. Şimdiye kadar, sonuçları girdiler hakkında çok fazla bilgi içeren dosyalara yazarak …

11 tools experiments

1

t-SNE Python uygulaması: Kullback-Leibler sapması

t-SNE, [1] 'de olduğu gibi, belirli bir koşul karşılanıncaya kadar Kullback-Leibler (KL) sapmasını giderek azaltarak çalışır. T-SNE'nin yaratıcıları, KL diverjansını görselleştirmeler için bir performans kriteri olarak kullanmanızı önerir: t-SNE'nin bildirdiği Kullback-Leibler sapmalarını karşılaştırabilirsiniz. T-SNE'yi on kez çalıştırmak ve en düşük KL diverjansına sahip çözümü seçmek son derece iyidir [2] T-SNE'nin …

11 machine-learning python

3

NER için denetimsiz özellik öğrenme

Oldukça iyi sonuçlar veren el işi özelliklerimle CRF algoritması kullanarak NER sistemini uyguladım. Mesele şu ki POS etiketleri ve lemmalar da dahil olmak üzere birçok farklı özellik kullandım. Şimdi aynı NER'i farklı dil için yapmak istiyorum. Burada sorun POS etiketleri ve lemmaları kullanamıyorum. Derin öğrenme ve denetimsiz özellik öğrenme hakkında …

11 nlp text-mining feature-extraction

3

Desen analizi için veri görselleştirme (dilden bağımsız, ancak R tercih edilir)

Onları bir desen anlamak için bir disk görüntü baytlar çizmek istiyorum. Bu temelde akademik bir görevdir, çünkü bu kalıbın bir disk test programı tarafından oluşturulduğundan neredeyse eminim, ancak yine de tersine mühendislik yapmak istiyorum. Desenin 256 karakterlik bir periyodiklikle hizalandığını zaten biliyorum. Bu bilgiyi görselleştirmenin iki yolunu hayal edebilirim: ya …

11 r visualization

4

HPC kümeleriyle çalışma

Üniversitemde bir HPC bilgi işlem kümemiz var. Kümeyi sınıflandırıcıları eğitmek için kullanıyorum vb. Yani, genellikle, (örneğin python scikit-learn komut dosyası) kümeye bir iş göndermek için, (diğerleri arasında) gibi bir komut içeren bir Bash komut dosyası yazmak gerekir qsub script.py. Ancak, bu süreci çok sinir bozucu buluyorum. Genellikle ne olur benim …

11 bigdata data-mining

4

Hisse senetleri için geçmiş piyasa değeri ve günlük ciro verilerini nereden indirebilirim?

Geçmiş stok verilerini sağlayan birçok kaynak vardır, ancak sadece OHLC alanlarını hacim ile birlikte sağlarlar ve yakın ayarlanmışlardır. Ayrıca bulduğum birkaç kaynak piyasa değeri veri setleri sağlıyor ancak ABD hisse senetleriyle sınırlı. Yahoo Finance, bu verileri çevrimiçi olarak sağlar, ancak indirme (veya farkında olmadığım) seçeneği yoktur. Bu adları, kısaltma adlarını …

11 dataset

3

İstatistik Yüksek Lisans tezi için Veri Bilimi odaklı veri seti / araştırma sorusu

'Veri bilimi'ni keşfetmek istiyorum. Terim bana biraz belirsiz görünüyor, ancak bunu gerektiriyor: makine öğrenimi (geleneksel istatistiklerden ziyade); kümeler üzerinde analizler yürütmeniz için yeterince büyük bir veri kümesi. Veri bilimi alanını keşfetmek için kullanabileceğim, programlama geçmişine sahip bir istatistikçinin erişebileceği bazı iyi veri kümeleri ve problemler nelerdir? Bunu olabildiğince dar tutmak …

11 statistics education knowledge-base definitions

4

Lojistik regresyon aslında bir regresyon algoritması mıdır?

Regresyonun olağan tanımı (bildiğim kadarıyla), belirli bir girdi değişkenleri kümesinden sürekli bir çıktı değişkeni öngörüyor . Lojistik regresyon ikili bir sınıflandırma algoritmasıdır, dolayısıyla kategorik bir çıktı üretir. Gerçekten bir regresyon algoritması mı? Öyleyse neden?

11 algorithms logistic-regression

3

Doğal dil sorguları nasıl işlenir?

Doğal dil sorgulamayı merak ediyorum. Stanford, doğal dili işlemek için güçlü bir yazılım seti gibi görünüyor . Ayrıca Apache OpenNLP kütüphanesini ve Metin Mühendisliği Genel Mimarisini gördüm . Doğal dil işleme için inanılmaz miktarda kullanım vardır ve bu, bu projelerin belgelerinin hızla emilmesini zorlaştırır. Benim için işleri biraz basitleştirebilir ve …

11 nlp

5

İlişkili değişkenler ne zaman kaldırılır

Birisi, özellik mühendisliğinden önce veya özellik mühendisliğinden sonra ilişkili değişkenleri kaldırmak için doğru aşamanın ne olduğunu önerebilir mi?

11 machine-learning feature-selection data-science-model

3

LSTM, BiLSTM nedir ve ne zaman kullanılır?

Derin öğrenme konusunda çok yeniyim ve özellikle LSTM ve BiLSTM'nin ne zaman ve ne zaman kullanılacağını bilmekle ilgileniyorum (büyük uygulama alanları). LSTM ve BILSTM neden RNN'den daha popüler? Bu derin öğrenme mimarilerini denetimsiz problemlerde kullanabilir miyiz?

11 machine-learning deep-learning rnn lstm

2

Çok uzun süre antrenman yaparken Adam optimizer ile garip davranış

Ben 64 rastgele oluşturulan veri noktalarında tek bir algılayıcı (1000 giriş birimleri, 1 çıkış, hiçbir gizli katmanları) eğitmek çalışıyorum. Adam optimizer kullanarak Pytorch kullanıyorum: import torch from torch.autograd import Variable torch.manual_seed(545345) N, D_in, D_out = 64, 1000, 1 x = Variable(torch.randn(N, D_in)) y = Variable(torch.randn(N, D_out)) model = torch.nn.Linear(D_in, D_out) …

11 perceptron pytorch

1

CNN'deki yoğun katmanların sayısı ve boyutu

Gördüğüm çoğu ağ, son softmax katmanından önce bir veya iki yoğun katmana sahip. Yoğun katmanların sayısını ve boyutunu seçmenin ilkeli bir yolu var mı? İki yoğun katman, aynı sayıda parametre için birden fazla temsil edici midir? Bırakma her yoğun katmandan önce mi yoksa sadece bir kez mi uygulanmalıdır?

11 convnet