Veri Bilimi

Veri bilimi uzmanları, Makine Öğrenimi uzmanları ve alan hakkında daha fazla bilgi edinmek isteyenler için soru cevap

3
İstatistik + Bilgisayar Bilimi = Veri Bilimi? [kapalı]
Kapalı. Bu soru konu dışı . Şu anda cevapları kabul etmiyor. Bu soruyu geliştirmek ister misiniz? Soruyu , Data Science Stack Exchange için konuyla ilgili olacak şekilde güncelleyin . 5 yıl önce kapalı . veri bilimcisi olmak istiyorum . Uygulamalı istatistik (aktüeryal bilim) okudum , bu yüzden büyük bir istatistiksel …

4
Neden birkaç model neredeyse aynı sonuçları verebilir?
Ben ~ 400k kayıtları ve 9 değişkenli bir veri seti analiz ediyorum Bağımlı değişken ikili. Bir lojistik regresyon, bir regresyon ağacı, rastgele bir orman ve gradyan artırılmış bir ağaç taktım. Hepsi, başka bir veri kümesinde doğruladığımda sanal olarak aynı uyum iyiliği değerini verir. Neden böyle? Değişken oranlara ilişkin gözlemlerimin çok …

1
Atomik olmayan özelliklerle tahmin
Atomik olmayan verileri tahmin için bir özellik olarak kullanmak istiyorum. Bu özelliklere sahip bir Tablom olduğunu varsayalım: - Column 1: Categorical - House - Column 2: Numerical - 23.22 - Column 3: A Vector - [ 12, 22, 32 ] - Column 4: A Tree - [ [ 2323, 2323 …

2
Sinir ağları ile döviz piyasası tahmini
Ticari para birimlerini, tercihen USD / EUR veya USD / GBP'yi otomatikleştirmek için YSA kullanmak istiyorum. Bunun zor olduğunu ve kolay olmayabileceğini biliyorum. Zaten bazı makaleler okudum ve bazı deneyler yaptım ama çok şansım yoktu. Bu işi yapmak için UZMANLAR'dan tavsiye almak istiyorum. İşte şimdiye kadar yaptığım: Temmuz 2013 ayı …

3
Düzenli olarak artan bir özellik setini yönetme
Bir sahtekarlık tespit sistemi üzerinde çalışıyorum. Bu alanda düzenli olarak yeni sahtekarlıklar ortaya çıkmaktadır, böylece modele sürekli olarak yeni özellikler eklenmelidir. Acaba bununla başa çıkmanın en iyi yolu nedir (geliştirme süreci açısından)? Özellik vektörüne yeni bir özellik eklemek ve sınıflandırıcıyı yeniden eğitmek naif bir yaklaşım gibi görünmektedir, çünkü eski özelliklerin …

4
R'de ordinal regresyonu öğrenmek?
Bir proje üzerinde çalışıyorum ve beni hızlandırmak için kaynaklara ihtiyacım var. Veri seti 30 ya da daha fazla değişken üzerinde 35000 civarında gözlemdir. Değişkenlerin yaklaşık yarısı kategoriktir ve bazıları çok sayıda farklı olası değere sahiptir, yani kategorik değişkenleri kukla değişkenlere ayırırsanız 30'dan fazla değişkene sahip olursunuz. Ama yine de muhtemelen …

1
Alt kümelerin normal bir Euler diyagramında çizilip çizilemeyeceğini nasıl anlayabilirim?
Bazı durumlarda, çakışan tüm alt kümeleri doğru oranlarda temsil etmek için çakışan dairelere sahip Euler diyagramları çizmek mümkün olmayabilir . Bu tür veriler daha sonra her bir seti temsil etmek için çokgenler veya başka şekiller kullanılmasını gerektirir. Çakışan alt kümeleri tanımlayan verilerle uğraşırken, basit bir Euler diyagramının mümkün olup olmadığını …

4
Gaz tüketimi aykırı değerleri tespiti - Sinir ağı projesi. Kötü sonuçlar
Bazı Hollandalı binaların enerji gazı tüketimindeki nöral ağ modeli oluşturarak aykırı değerleri tespit etmeye çalıştım. Çok kötü sonuçlar aldım, ama sebebini bulamıyorum. Ben uzman değilim, bu yüzden size neyi geliştirebileceğimi ve neyi yanlış yaptığımı sormak istiyorum. Bu tam açıklamadır: https://github.com/denadai2/Gas-consumption-outliers . Sinir ağı Geri Yayılan bir FeedFoward Ağıdır. Açıklandığı gibi …

1
En verimli veri indeksleme tekniği nedir
Hepimizin bildiği gibi, Lucene (java için) veya Lucene.NET (.NET için), MurMurHash, B + Ağacı vb. Gibi iyi bilinen dizin oluşturma uygulamaları tarafından kullanılan bazı veri dizinleme teknikleri vardır. No-Sql / Object için Yönlendirilmiş Veritabanı (hangi C # ile biraz yazmaya / oynamaya çalışıyorum), hangi tekniği önerirsiniz? MurMurhash-2 hakkında okudum ve …

3
R'nin bellek kısıtlamaları nelerdir?
“ Uygulamalı Öngörülü Modelleme ” derlemesinde gözden geçiren şöyle diyor : İstatistiksel öğrenme (SL) pedagojisine sahip olduğum bir eleştiri, farklı modelleme tekniklerinin değerlendirilmesinde hesaplama performansının dikkate alınmamasıdır. Modellerin ayarlanması / test edilmesi için önyükleme ve çapraz validasyon konusundaki vurguları ile SL, oldukça bilgi işlem yoğun. Buna, torbalama ve artırma gibi …
10 apache-hadoop  r 

2
Bu Neo4j'nin RDBMS yürütme süresi ile karşılaştırılması doğru mu?
Arka Plan: Aşağıda, Eylem Neo4j kitabında belirtilen bir performans testini kapsayan Grafik Veritabanları kitabı yer almaktadır : Bir grafikteki ilişkiler doğal olarak yollar oluşturur. Grafik sorgulama veya çaprazlama, aşağıdaki yolları içerir. Veri modelinin temel olarak yola yönelik doğası nedeniyle, yola dayalı grafik veritabanı işlemlerinin çoğu, verilerin düzenlenme biçimiyle oldukça uyumludur …
10 databases  nosql  neo4j 

5
Doktora Programlarının Nitelikleri
Yann LeCun yaptığı belirtilen AMA o bir üst şirketinde iş almak için çok önemli bir doktora sahip düşünüyor söyledi. İstatistikte yüksek lisansım var ve lisans öğrenimim ekonomi ve uygulamalı matematikti, ancak şimdi ML Doktora programlarına bakıyorum. Çoğu program kesinlikle gerekli CS dersleri olmadığını söyler; ancak en çok kabul gören öğrencilerin …
10 education 

4
Kütüphaneleri kullanırken verimlilik sağlamak neden zor?
Herhangi bir küçük veritabanı işlemesi, dilin kendisinden kütüphaneler ve / veya yardımcı programlar kullanan Python / Perl / ... komut dosyaları ile kolayca ele alınabilir. Bununla birlikte, performans söz konusu olduğunda, insanlar C / C ++ / düşük seviyeli dillere ulaşma eğilimindedir. Kodu ihtiyaçlara göre uyarlama olasılığı, bu dilleri BigData …

3
Bir sınıfı 24.000 kategoriyle nasıl kodlayabilirim?
Şu anda genomik için lojistik regresyon modeli üzerinde çalışıyorum. Ortak değişken olarak dahil etmek istediğim girdi alanlarından biri genes. Bilinen 24.000 civarında gen vardır. Hesaplamalı biyolojide bu değişkenlik düzeyine sahip birçok özellik vardır ve yüz binlerce örneğe ihtiyaç vardır. Eğer LabelEncoder()bu 24K genleri ve sonra OneHotEncoder()onlar ... 24.000 sütun keras …


Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.