Veri Bilimi

Veri bilimi uzmanları, Makine Öğrenimi uzmanları ve alan hakkında daha fazla bilgi edinmek isteyenler için soru cevap

5
'Dengeli' bir veri seti mi yoksa 'temsilci' bir veri seti mi kullanmalıyım?
'Makine öğrenmesi' görevim, iyi huylu Internet trafiğini kötü amaçlı trafiğe ayırmak. Gerçek dünya senaryosunda, İnternet trafiğinin çoğu (% 90 veya daha fazla) iyi huyludur. Bu yüzden, modelleriimi de eğitmek için benzer bir veri kurulumu seçmem gerektiğini hissettim. Ancak, modelleri eğitmek için eşit miktarda iyi huylu ve kötü niyetli trafik durumlarını …

9
Büyük miktarlarda (ikili) verilerin sürüm kontrolü ile nasıl baş edilir
Ben Jeofizik doktora öğrencisiyim ve çok fazla resim verisiyle çalışıyorum (yüzlerce GB, on binlerce dosya). Biliyorum svnve gitoldukça iyi ve birlikte kolayca işe yeteneği ile kombine bir proje öyküsü, değer ve disk yolsuzluğa karşı korumaya sahip geliyorlar. gitTutarlı yedeklemeler için de son derece yararlı buluyorum ancak Git'in büyük miktarlarda ikili …

9
R programlama için IDE alternatifleri (RStudio, IntelliJ IDEA, Eclipse, Visual Studio)
R programlama için RStudio kullanıyorum. Visual Studio veya Eclipse gibi diğer teknoloji yığınlarından gelen katı IDE'leri hatırlıyorum. İki sorum var: RStudio'dan başka IDE'ler kullanılıyor (lütfen bunlarla ilgili kısa bir açıklama yapmayı düşünün). Herhangi birinin RStudio'ya göre belirgin avantajları var mı? Ben çoğunlukla kodlamanın yanı sıra, hata ayıklama / derleme / …
45 r  tools  rstudio  programming 


9
Bir veri bilimcisinin işi ne kadar veri tartışmasıdır?
Halen perakende bir şirkette veri bilimcisi olarak çalışıyorum (DS olarak ilk işim, bu yüzden bu soru deneyim eksikliğimin bir sonucu olabilir). Uygulanırsa büyük olumlu etkileri olabilecek çok önemli veri bilimi projelerinin büyük bir birikimi var. Fakat. Veri boru hatları şirket içinde mevcut değil, standart prosedür bana biraz bilgiye ihtiyacım olduğunda …

3
LSTM modelinde parametre sayısı
Tek bir istiflenmiş LSTM'nin kaç parametresi vardır? Parametre sayısı, gereken eğitim örneği sayısına daha düşük bir sınır uygular ve ayrıca eğitim süresini etkiler. Bu nedenle, parametre sayısını bilmek LSTM'leri kullanan eğitim modelleri için kullanışlıdır.

6
Gizli bir veri kümesindeki isimleri isimsiz hale getirmek için nasıl dönüştürebilirim, fakat isimlerin bazı özelliklerini koruyabilir miyim?
Motivasyon Kişisel olarak tanımlanabilir bilgiler içeren veri setleri (PII) ile çalışıyorum ve bazen veri setinin bir bölümünü PII'yi ifşa etmeyecek ve işverenime borç vermeyecek şekilde üçüncü şahıslarla paylaşmaya ihtiyacım var. Buradaki olağan yaklaşımımız, verileri tamamen veya bazı durumlarda çözünürlüğünü azaltmak için tutmaktır; örneğin, tam bir sokak adresinin karşılık gelen ilçe …

1
LeakyReLU ve PReLU arasındaki fark nedir?
Hem PReLU hem de Leaky ReLU'nun olduğunu düşündüm. f(x)=max(x,αx) with α∈(0,1)f(x)=max(x,αx) with α∈(0,1)f(x) = \max(x, \alpha x) \qquad \text{ with } \alpha \in (0, 1) Keras, ancak, dokümanlar her iki işlevi vardır . Sızdıran ReLU LeakyReLU'nun Kaynağı : return K.relu(inputs, alpha=self.alpha) Dolayısıyla ( relu koduna bakınız ) f1(x)=max(0,x)−αmax(0,−x)f1(x)=max(0,x)−αmax(0,−x)f_1(x) = \max(0, …

4
Zaman Serisi Modeline LSTM Özellik Ekleme
LSTM'leri ve zaman serileri için kullanımlarını biraz okumakta ve aynı zamanda ilginç fakat zor olmuştur. Anlamakta güçlük çektiğim bir şey, zaman serisi özelliklerinin bir listesine ek özellikler eklemeye yaklaşmak. Veri kümenizi şu şekilde ayarladığınızı varsayalım: t-3, t-2, t-1 Çıkış Şimdi çıktınızı etkileyen bir özelliğiniz olduğunu bilmenizi sağlar, ancak bunun zaman …

2
Yapay sinir ağları için görüntüler nasıl hazırlanır / genişletilir?
Görüntü sınıflandırması için bir sinir ağı kullanmak istiyorum. Önceden eğitilmiş CaffeNet ile başlayacağım ve uygulamam için eğiteceğim. Giriş görüntülerini nasıl hazırlamalıyım? Bu durumda, tüm görüntüler aynı nesneye aittir, ancak varyasyonları vardır (düşün: kalite kontrol). Bunlar biraz farklı ölçeklerde / çözünürlüklerde / mesafelerde / aydınlatma koşullarında (ve çoğu durumda ölçeği bilmiyorum). …


7
ValueError: Girdi, NaN, sonsuzluk veya dtype için çok büyük bir değer içeriyor ('float32')
RandomForest modelini kullanarak test verilerini tahmin ederken ValueError aldım. Benim kod: clf = RandomForestClassifier(n_estimators=10, max_depth=6, n_jobs=1, verbose=2) clf.fit(X_fit, y_fit) df_test.fillna(df_test.mean()) X_test = df_test.values y_pred = clf.predict(X_test) Hata: ValueError: Input contains NaN, infinity or a value too large for dtype('float32'). Test veri setinde hatalı değerleri nasıl bulabilirim? Ayrıca, bu kayıtları bırakmak …

4
Mini seri boyutu neden tüm eğitim verilerinde tek bir "seri" den daha iyidir?
Derin Öğrenme modelleri durumunda, olağan uygulamanın, birkaç eğitim dönemi boyunca mini partiler (genellikle küçük bir, 32/64) uygulamak olduğunu sık sık okurum. Bunun arkasındaki nedeni gerçekten anlayamıyorum. Yanılmıyorsam, toplu iş boyutu, model tarafından bir eğitim yinelemesi sırasında görülebilen eğitim örneği sayısıdır; ve eğitim örnekleri, eğitim durumlarının her biriyle görüldüğünde, devir tam …

10
Makine Öğrenimi modellerine neden kara kutu deniyor?
Bu blog yazısını okuyordum: The Financial World, AI'nın Kara Kutularını Açmak İstiyor , burada yazarın art arda ML modellerini "kara kutular" olarak adlandırıyor. ML modellerine atıfta bulunurken, bazı yerlerde benzer bir terminoloji kullanılmıştır. Neden bu kadar? ML mühendislerinin sinir ağlarında neler olup bittiğini bilmemeleri gibi değil. Her katman, hangi etkinleştirme …

10
Makine öğrenmesi algoritmaları spor puanlarını veya oyunları tahmin edebilir mi?
İyi bir yan proje yapabileceğini düşündüğüm çeşitli NFL veri setlerine sahibim, ancak onlarla henüz bir şey yapmadım. Bu siteye gelmek makine öğrenme algoritmaları hakkında düşünmemi sağladı ve onların futbol oyunlarının sonucunu tahmin etmede ne kadar iyi olabileceğini merak ediyorum. Bana öyle geliyor ki, tespit edilebilecek bazı eğilimler var gibi görünüyor …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.