Veri Bilimi

Veri bilimi uzmanları, Makine Öğrenimi uzmanları ve alan hakkında daha fazla bilgi edinmek isteyenler için soru cevap

2
Veri Notlarını Etik ve Uygun Maliyetli Ölçekleme
Hayattaki birkaç şey bana internetten yapılandırılmış ve yapılandırılmamış verileri kazımak ve modellerimde kullanmaktan zevk veriyor. Örneğin, Veri Bilimi Araç Seti (veya RDSTKR programcıları için) IP'leri veya adresleri kullanarak çok sayıda iyi konum tabanlı veri çekmeme izin verir ve tm.webmining.pluginfor R tmpaketi, finansal ve haber verilerinin kazınmasını düzensiz hale getirir. Bu …

3
Veri kümelerini karışık özellik türleriyle sınıflandırmanın en iyi yolu
Metin ve sayısal gibi karışık özellik türlerinden oluşan bir veri kümesini sınıflandırmanın en iyi yolunun ne olduğunu bilmek istiyorum. Metni boole çevirebileceğimi biliyorum, ancak kelime bilgisi çeşitlidir ve veriler çok seyrek olur. Ayrıca, öznitelik türlerini ayrı ayrı sınıflandırmaya ve sonuçları meta-öğrenme teknikleri ile birleştirmeye çalıştım, ancak iyi çalışmadı.

2
Bildiri özetini taramak için herhangi bir API var mı?
Kağıt adlarının çok uzun bir listesi varsa, bu makalelerin özetini internetten veya herhangi bir veritabanından nasıl alabilirim? Bildiri isimleri "Halk Sağlığı Alanı için Web Madenciliğinde Fayda Değerlendirmesi" gibidir. Herhangi biri bana çözüm bulabilecek herhangi bir API biliyor mu? Google bilginini taramaya çalıştım, ancak google tarayıcımı engelledi.

2
Keras'ta “bire çok” ve “çoktan çoğa” dizi tahmini nasıl uygulanır?
Keras kodlama farkını bir-çok (örneğin, tek görüntülerin sınıflandırılması) ve çok-çok (ör. Görüntü dizilerinin sınıflandırılması) dizi etiketlemesi için yorumlamaya çalışıyorum. Sık sık iki farklı kod türü görüyorum: Tip 1, böyle bir TimeDistributed uygulanmadığı yerdir: model=Sequential() model.add(Convolution2D(nb_filters, kernel_size[0], kernel_size[1], border_mode="valid", input_shape=[1, 56,14])) model.add(Activation("relu")) model.add(Convolution2D(nb_filters, kernel_size[0], kernel_size[1])) model.add(Activation("relu")) model.add(MaxPooling2D(pool_size=pool_size)) model.add(Reshape((56*14,))) model.add(Dropout(0.25)) model.add(LSTM(5)) model.add(Dense(50)) …
13 keras  rnn  lstm  sequence 

3
Çıkarım için GPU veya CPU kullanmalı mıyım?
Bir GPU tarafından eğitilmiş derin bir öğrenme sinir ağı çalıştırıyorum. Şimdi bunu çıkarsama için birden çok ana bilgisayara dağıtmak istiyorum. Soru, çıkarım için GPU'ları mı yoksa CPU'ları mı kullanmam gerektiğine karar vermenin koşulları nelerdir? Aşağıdaki yorumlardan daha fazla ayrıntı ekleniyor. Ben bu konuda yeniyim, bu yüzden rehberlik takdir edilmektedir. Bellek …

3
Derin öğrenme NN'lerinin şimdi (2016) sadece 4 yıl önce (2012) okuduğumdan farkı nedir?
Söylenenlerin Wikipedia ve deeplearning4j NN> 1 gizli katmanı olduğunu NN (DLNN) Derin-öğrenme yönünde. Bu tür NN benim için üniversitede standarttı, DLNN şu anda çok heyecanlıydı. Orada, bunu yaptım - önemli olan ne? Ayrıca yığılmış NN'nin derin öğrenme olarak kabul edildiğini duydum. Derin öğrenme gerçekten nasıl tanımlanır? NN geçmişim işlerden değil …

2
Keras'ta Erken Durdurma geri aramasının kullandığı metriği değiştirmek için uzakta mısınız?
Keras'ta Erken Durdurma geri aramasını kullanırken, bazı metrikler (genellikle doğrulama kaybı) artmadığında eğitim durur. Doğrulama kaybı yerine başka bir metrik (doğruluk, hatırlama, f-ölçü) kullanmanın bir yolu var mı? Şimdiye kadar gördüğüm tüm örnekler buna benziyor: callbacks.EarlyStopping (monitor = 'val_loss', sabır = 5, ayrıntılı = 0, mod = 'otomatik')

3
Bir hiper küp içindeki noktaların çoğunun sınırda olduğunu söylediğimizde ne anlama geliyor?
50 boyutlu bir hiperküpüm varsa. Ve sınırını 0&lt;xj&lt;0.050&lt;xj&lt;0.050<x_j<0.05 veya , burada boyutudur. Daha sonra sınırındaki noktaların oranının hesaplanması olacaktır . Bunun anlamı ne? Alanın geri kalanı boş mu demektir? Eğer noktalarının sınırında olan daha sonra küp içinde noktaları düzgün yayılı edilmemelidir?0.95&lt;xj&lt;10.95&lt;xj&lt;10.95<x_j<1xjxjx_j0.9950.9950.99599%99%99\%

4
CSV dosya içeriklerini pyspark veri çerçevelerine aktarın
Bir .csv dosyasını pyspark veri çerçevelerine nasıl alabilirim? Hatta Pandas csv dosyasını okumaya ve daha sonra createDataFrame kullanarak bir kıvılcım dataframe dönüştürmek çalıştı, ama yine de bazı hata gösteriyor. Birisi bana bu konuda rehberlik edebilir mi? Ayrıca, lütfen bana bir xlsx dosyasını nasıl alabilirim? Panda veri çerçeveleri içine csv içeriği …
13 pyspark 



3
Doğal Dilden SQL sorgusuna
"Doğal Dili SQL Sorgusuna Dönüştürme" adlı bir sistem geliştirmeye çalışıyorum. Benzer soruların cevaplarını okudum, ancak aradığım bilgiyi alamadım. Aşağıda, Garima Singh, Arun Solanki'nin Doğal Dili İlişkisel Veritabanları için SQL Sorgularına Dönüştürmek İçin Bir Algoritmadan Bu Sistem İçin Akış Şeması Konuşma etiketleme adımının bir parçası olana kadar anladım. Ancak kalan adımlara …

4
Büyük kategorik değerler için bir sıcak kodlama alternatifi?
Merhaba 1600 kategoriler üzerinde büyük kategorik değerlere sahip veri çerçevesi var Ben 1600 sütunları yok böylece alternatifleri bulabilirsiniz herhangi bir yolu yoktur. Bunu aşağıda ilginç bir bağlantı buldum http://amunategui.github.io/feature-hashing/#sourcecode Ama istemediğim sınıfa / nesneye dönüşüyorlar. Nihai çıktımı bir veri çerçevesi olarak istiyorum, böylece farklı makine öğrenme modelleri ile test yapabilir …

5
Panda veri çerçevesinin düzenli ilişkisel veritabanına avantajları
Veri Biliminde, birçok kişi veri deposu olarak panda veri çerçevelerini kullanıyor gibi görünüyor . Diğer programlama alanlarında veri depolamak için kullanılan MySQL gibi düzenli ilişkisel veritabanlarına kıyasla onu üstün bir veri deposu yapan pandaların özellikleri nelerdir ? Pandalar veri keşfi için bazı yararlı işlevler sunarken, SQL'i kullanamazsınız ve sorgu optimizasyonu …
13 pandas  databases 

1
Çok boyutlu ve çok değişkenli Zaman Serisi tahmini (RNN / LSTM) Keras
Bir nasıl temsil ve şekil verileri anlamaya çalışıyorlar de çok boyutlu ve çok değişkenli serisi keras (veya TensorFlow) kullanılarak tahmin zaman ama veri sunmayı konusunda birçok blog yayınları / öğreticiler / belgeleri okuduktan sonra hala çok belirsiz duyuyorum doğru şekil (çoğu örnek biraz daha az Veri Kümem: birkaç şehir hangi …
12 python  keras  rnn  lstm 

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.