Veri Bilimi

Veri bilimi uzmanları, Makine Öğrenimi uzmanları ve alan hakkında daha fazla bilgi edinmek isteyenler için soru cevap

1
Keras kullanarak derin öğrenme için verilerin yeniden şekillendirilmesi
Keras'a yeni başladım ve kütüphanenin gerçekte nasıl çalıştığını anlamak için MNIST örneğiyle başladım. Keras örnek klasöründeki MNIST sorunun kod snippet'i şu şekilde verilir: import numpy as np np.random.seed(1337) # for reproducibility from keras.datasets import mnist from keras.models import Sequential from keras.layers import Dense, Dropout, Activation, Flatten from keras.layers import Convolution2D, …

3
Veri kümesini ne zaman dengesiz olarak değerlendirmeliyiz?
Veri kümesindeki olumlu ve olumsuz örneklerin sayısının dengesiz olduğu bir durumla karşı karşıyayım. Benim sorum, veri kümesinde bir tür dengelemeyi zorlamak için büyük kategoriyi ne zaman alt örneklememiz gerektiğini bize gösteren herhangi bir başparmak kuralı var. Örnekler: Olumlu örneklerin sayısı 1.000 ve negatif örneklerin sayısı 10.000 ise, sınıflandırıcımı tam veri …

2
Python Makine Öğrenimi / Veri Bilimi Proje Yapısı
Bir Python Machine Learning projesinin nasıl organize edilmesi gerektiği hakkında bilgi arıyorum. Python olağan projeleri için Cookiecutter ve R ProjectTemplate vardır . Bu benim mevcut klasör yapısı, ama Jupyter Notebook gerçek Python kodu ile karıştırıyorum ve çok net görünmüyor. . ├── cache ├── data ├── my_module ├── logs ├── notebooks …
10 python 

3
Word2Vec ve Doc2Vec hem dağıtım gösterimi hem de dağıtım gösterimi midir?
Dağılım gösteriminin benzer bağlamda ortaya çıkan kelimelerin benzer anlamlara sahip olma eğiliminde olduğu dağılım hipotezine dayandığını okudum. Word2Vec ve Doc2Vec'in her ikisi de bu hipoteze göre modellenmiştir. Ama, orijinal kağıt, hatta başlıklı edilir Distributed representation of words and phrasesve Distributed representation of sentences and documents. Yani, bu algoritmalar dağılımsal temsile …

2
ggvis ve ggplot2 + Parlak; etkileşimli görselleştirme için hangisini seçmeli?
CrossValidated'da benzer bir soru var ve cevapları okudum. Sorum biraz farklı. Verilerimi sadece görselleştirmek istemiyorum ve aslında görselleştirmek istediğim her iki paketle de görselleştirmek kolay değil. Grafiğimde iki nokta kümesi var ( koordinatları). Kenar eklemek ve bir grafiğe benzer yapmak istiyorum. Ben varsa puan, sonra benim sorunun niteliğine bağlı olarak, …

2
SQL tablosunda otomatik anomali tespiti için araçlar?
Aslında bir günlük olan büyük bir SQL tablo var. Veriler oldukça karmaşık ve ben tüm verileri anlamadan anomalileri tanımlamak için bir yol bulmaya çalışıyorum. Anomali Tespiti için birçok araç buldum, ancak bunların çoğu "orta adam" türüne ihtiyaç duyuyor, yani Elastik Arama, Splunk, vb. Herkes otomatik olarak bir taban çizgisi ve …

3
Bayes Network'teki kenarların yönü ilgisiz mi?
Bugün, bir derste bir Bayes ağındaki kenarların yönünün gerçekten önemli olmadığı iddia edildi. Nedenselliği temsil etmek zorunda değiller. Bayes ağındaki herhangi bir kenarı değiştiremeyeceğiniz açıktır. Örneğin, ile ve . Eğer geçiş istiyorsanız için , ardından artık dolayısıyla bir Bayes ağ Acyclic olmalı ve olacaktır. Bu temel olarak olasılıkları tahmin etmek …

2
R'de Veri Bilimi için Yazılım Testi
Python kodumu test ederken, özellikle diğer modüller veya diğer kod parçaları ile entegre edilmesi gerektiğinde , genellikle Burun, Tox veya Unittest kullanıyorum . Ancak, şimdi ML modelleme ve geliştirme için R'yi python'dan daha fazla kullandığımı gördüm. R kodumu gerçekten test etmediğimi fark ettim (Ve daha da önemlisi, bunu nasıl iyi …

1
Hartigan-Wong k-ortalamaları yöntemi ve diğer algoritmalarda yakınsama
Esasen dil statspaketinde uygulanan farklı k-ortalama kümeleme algoritmalarını anlamaya çalışıyorum R. Lloyd'un algoritmasını ve MacQueen'in çevrimiçi algoritmasını anlıyorum. Onları anlama şeklim şu şekildedir: Lloyd Algoritması: Başlangıçta 'k' kümelerinin sentroidleri olarak işlev görecek 'k' rastgele gözlemler seçilir. Daha sonra sentroidler birleşene kadar yineleme aşağıdaki adımlar gerçekleşir. Her bir gözlem ile seçilen …
10 r  clustering  k-means 

1
Makine öğrenimini kullanarak sunucu günlüğü analizi
İstisna günlükleri, veritabanı günlükleri olay günlükleri vb. İçeren uygulamamızın sunucu günlüklerini analiz etmek için bu görevi atadım. Makine öğreniminde yeniyim, Spark'ı elastik arama ve Sparks MLlib (veya PredictionIO) ile kullanıyoruz. sonuç, hangi kullanıcının bir sonraki istisnaya neden olma olasılığının daha yüksek olduğunu ve hangi özelliğin (ve uygulamanın optimizasyonunu takip etmek …


1
Metin-Sınıflandırma-Sorun: Word2Vec / NN en iyi yaklaşım mı?
Ben bir metin paragrafı verilen onu kategorize ve bağlam tanımlamak mümkün olacak bir sistem tasarlamak için arıyorum: Kullanıcı tarafından oluşturulan metin paragrafları (yorumlar / sorular / cevaplar gibi) ile eğitilir Eğitim setindeki her bir öğe ile etiketlenir. Örneğin ("kategori 1", "metin paragrafı") Yüzlerce kategori olacak Böyle bir sistem kurmak için …

1
Otomatik Kodlayıcıları Dönüştürme
Geoff Hinton'ın otomatik kodlayıcıları dönüştürme hakkındaki makalesini yeni okudum Hinton, Krizhevsky ve Wang: Dönüştürücü Otomatik kodlayıcılar . Yapay Sinir Ağları ve Makine Öğreniminde, 2011. ve bunun gibi bir şeyle oynamak istiyor. Ancak bunu okuduktan sonra, gerçekte nasıl uygulayabileceğim konusunda yeterince ayrıntı alamadım. Giriş pikselleri ile kapsüller arasındaki eşlemenin nasıl çalışması …

2
İşbirlikli Takviye Öğrenme
Geliri en üst düzeye çıkarmak için dinamik bir fiyatlandırma sorunu üzerinde çalışan tek bir aracı için zaten işleyen bir uygulamam var. Bununla birlikte çalıştığım sorun, birbirlerinin yerini alan birkaç farklı ürünü içeriyor, bu yüzden hepsini bağımsız öğrencilerle dinamik olarak fiyatlandırmak yanlış görünüyor, çünkü birinin fiyatı diğerinin ödülünü etkiliyor. Amaç, her …

5
LSTM veya R için diğer RNN paketi
Shakespeare benzeri metinler üreten LSTM modellerinden bazı etkileyici sonuçlar gördüm. R için bir LSTM paketinin olup olmadığını merak ediyordum, bunun için googledim, ancak sadece Python ve Julia için paketler buldum. (belki de bu programların neden R'ye göre daha fazla tercih edildiğini açıklayan bazı performans sorunları vardır) R için bir LSTM …
10 r  neural-network  rnn 

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.