Veri Bilimi

5

'Dengeli' bir veri seti mi yoksa 'temsilci' bir veri seti mi kullanmalıyım?

'Makine öğrenmesi' görevim, iyi huylu Internet trafiğini kötü amaçlı trafiğe ayırmak. Gerçek dünya senaryosunda, İnternet trafiğinin çoğu (% 90 veya daha fazla) iyi huyludur. Bu yüzden, modelleriimi de eğitmek için benzer bir veri kurulumu seçmem gerektiğini hissettim. Ancak, modelleri eğitmek için eşit miktarda iyi huylu ve kötü niyetli trafik durumlarını …

48 machine-learning dataset unbalanced-classes

9

Büyük miktarlarda (ikili) verilerin sürüm kontrolü ile nasıl baş edilir

Ben Jeofizik doktora öğrencisiyim ve çok fazla resim verisiyle çalışıyorum (yüzlerce GB, on binlerce dosya). Biliyorum svnve gitoldukça iyi ve birlikte kolayca işe yeteneği ile kombine bir proje öyküsü, değer ve disk yolsuzluğa karşı korumaya sahip geliyorlar. gitTutarlı yedeklemeler için de son derece yararlı buluyorum ancak Git'in büyük miktarlarda ikili …

46 bigdata databases binary version-control

9

R programlama için IDE alternatifleri (RStudio, IntelliJ IDEA, Eclipse, Visual Studio)

R programlama için RStudio kullanıyorum. Visual Studio veya Eclipse gibi diğer teknoloji yığınlarından gelen katı IDE'leri hatırlıyorum. İki sorum var: RStudio'dan başka IDE'ler kullanılıyor (lütfen bunlarla ilgili kısa bir açıklama yapmayı düşünün). Herhangi birinin RStudio'ya göre belirgin avantajları var mı? Ben çoğunlukla kodlamanın yanı sıra, hata ayıklama / derleme / …

45 r tools rstudio programming

10

Makine öğrenmesi - tarih / saat verilerinden mühendislik özellikleri

Makine öğrenimi uygulaması için zaman verilerini ele almak için kullanılan ortak / en iyi uygulamalar nelerdir? Örneğin, veri setinde "2014-05-05" gibi olay zaman damgasına sahip bir sütun varsa, varsa bu sütundan yararlı özellikleri nasıl çıkarabilirsiniz? Şimdiden teşekkürler!

45 machine-learning time-series feature-selection

9

Bir veri bilimcisinin işi ne kadar veri tartışmasıdır?

Halen perakende bir şirkette veri bilimcisi olarak çalışıyorum (DS olarak ilk işim, bu yüzden bu soru deneyim eksikliğimin bir sonucu olabilir). Uygulanırsa büyük olumlu etkileri olabilecek çok önemli veri bilimi projelerinin büyük bir birikimi var. Fakat. Veri boru hatları şirket içinde mevcut değil, standart prosedür bana biraz bilgiye ihtiyacım olduğunda …

44 data-wrangling

3

LSTM modelinde parametre sayısı

Tek bir istiflenmiş LSTM'nin kaç parametresi vardır? Parametre sayısı, gereken eğitim örneği sayısına daha düşük bir sınır uygular ve ayrıca eğitim süresini etkiler. Bu nedenle, parametre sayısını bilmek LSTM'leri kullanan eğitim modelleri için kullanışlıdır.

43 deep-learning rnn

6

Gizli bir veri kümesindeki isimleri isimsiz hale getirmek için nasıl dönüştürebilirim, fakat isimlerin bazı özelliklerini koruyabilir miyim?

Motivasyon Kişisel olarak tanımlanabilir bilgiler içeren veri setleri (PII) ile çalışıyorum ve bazen veri setinin bir bölümünü PII'yi ifşa etmeyecek ve işverenime borç vermeyecek şekilde üçüncü şahıslarla paylaşmaya ihtiyacım var. Buradaki olağan yaklaşımımız, verileri tamamen veya bazı durumlarda çözünürlüğünü azaltmak için tutmaktır; örneğin, tam bir sokak adresinin karşılık gelen ilçe …

42 data-cleaning anonymization

1

LeakyReLU ve PReLU arasındaki fark nedir?

Hem PReLU hem de Leaky ReLU'nun olduğunu düşündüm. f(x)=max(x,αx) with α∈(0,1)f(x)=max(x,αx) with α∈(0,1)f(x) = \max(x, \alpha x) \qquad \text{ with } \alpha \in (0, 1) Keras, ancak, dokümanlar her iki işlevi vardır . Sızdıran ReLU LeakyReLU'nun Kaynağı : return K.relu(inputs, alpha=self.alpha) Dolayısıyla ( relu koduna bakınız ) f1(x)=max(0,x)−αmax(0,−x)f1(x)=max(0,x)−αmax(0,−x)f_1(x) = \max(0, …

42 neural-network

4

Zaman Serisi Modeline LSTM Özellik Ekleme

LSTM'leri ve zaman serileri için kullanımlarını biraz okumakta ve aynı zamanda ilginç fakat zor olmuştur. Anlamakta güçlük çektiğim bir şey, zaman serisi özelliklerinin bir listesine ek özellikler eklemeye yaklaşmak. Veri kümenizi şu şekilde ayarladığınızı varsayalım: t-3, t-2, t-1 Çıkış Şimdi çıktınızı etkileyen bir özelliğiniz olduğunu bilmenizi sağlar, ancak bunun zaman …

42 machine-learning neural-network deep-learning time-series

2

Yapay sinir ağları için görüntüler nasıl hazırlanır / genişletilir?

Görüntü sınıflandırması için bir sinir ağı kullanmak istiyorum. Önceden eğitilmiş CaffeNet ile başlayacağım ve uygulamam için eğiteceğim. Giriş görüntülerini nasıl hazırlamalıyım? Bu durumda, tüm görüntüler aynı nesneye aittir, ancak varyasyonları vardır (düşün: kalite kontrol). Bunlar biraz farklı ölçeklerde / çözünürlüklerde / mesafelerde / aydınlatma koşullarında (ve çoğu durumda ölçeği bilmiyorum). …

41 neural-network image-classification preprocessing convnet

6

Mesafe ölçümleri olarak nokta ürüne karşı kosinüs benzerliği

İki özelliğin kosinüsünün benzerliği, sadece büyüklüklerinin çarpımı ile ölçeklenen nokta ürünüdür. Kosinüs benzerliği ne zaman nokta üründen daha iyi bir mesafe ölçümü yapar? Yani nokta ürün ve kosinüs benzerliğinin farklı durumlarda farklı güçlü veya zayıf yönleri var mı?

41 classification

7

ValueError: Girdi, NaN, sonsuzluk veya dtype için çok büyük bir değer içeriyor ('float32')

RandomForest modelini kullanarak test verilerini tahmin ederken ValueError aldım. Benim kod: clf = RandomForestClassifier(n_estimators=10, max_depth=6, n_jobs=1, verbose=2) clf.fit(X_fit, y_fit) df_test.fillna(df_test.mean()) X_test = df_test.values y_pred = clf.predict(X_test) Hata: ValueError: Input contains NaN, infinity or a value too large for dtype('float32'). Test veri setinde hatalı değerleri nasıl bulabilirim? Ayrıca, bu kayıtları bırakmak …

41 python random-forest pandas

4

Mini seri boyutu neden tüm eğitim verilerinde tek bir "seri" den daha iyidir?

Derin Öğrenme modelleri durumunda, olağan uygulamanın, birkaç eğitim dönemi boyunca mini partiler (genellikle küçük bir, 32/64) uygulamak olduğunu sık sık okurum. Bunun arkasındaki nedeni gerçekten anlayamıyorum. Yanılmıyorsam, toplu iş boyutu, model tarafından bir eğitim yinelemesi sırasında görülebilen eğitim örneği sayısıdır; ve eğitim örnekleri, eğitim durumlarının her biriyle görüldüğünde, devir tam …

40 machine-learning deep-learning

10

Makine Öğrenimi modellerine neden kara kutu deniyor?

Bu blog yazısını okuyordum: The Financial World, AI'nın Kara Kutularını Açmak İstiyor , burada yazarın art arda ML modellerini "kara kutular" olarak adlandırıyor. ML modellerine atıfta bulunurken, bazı yerlerde benzer bir terminoloji kullanılmıştır. Neden bu kadar? ML mühendislerinin sinir ağlarında neler olup bittiğini bilmemeleri gibi değil. Her katman, hangi etkinleştirme …

40 machine-learning terminology

10

Makine öğrenmesi algoritmaları spor puanlarını veya oyunları tahmin edebilir mi?

İyi bir yan proje yapabileceğini düşündüğüm çeşitli NFL veri setlerine sahibim, ancak onlarla henüz bir şey yapmadım. Bu siteye gelmek makine öğrenme algoritmaları hakkında düşünmemi sağladı ve onların futbol oyunlarının sonucunu tahmin etmede ne kadar iyi olabileceğini merak ediyorum. Bana öyle geliyor ki, tespit edilebilecek bazı eğilimler var gibi görünüyor …

40 machine-learning sports