Veri Bilimi

Veri bilimi uzmanları, Makine Öğrenimi uzmanları ve alan hakkında daha fazla bilgi edinmek isteyenler için soru cevap

3
N-gram ile dizinlenmiş verileri depolamak için verimli veritabanı modeli
Büyük bir metin topluluğunda bulunan çok büyük bir n-gram veritabanı oluşturmayı gerektiren bir uygulama üzerinde çalışıyorum. Üç verimli çalışma türüne ihtiyacım var: Arama ve ekleme n-gram kendisi tarafından dizin ve bir alt-n-gram içeren tüm n-gram sorgulama. Bu bana veritabanının devasa bir belge ağacı olması gerektiği gibi geliyor ve örneğin Mongo …
12 nlp  databases 

3
Hasar verilerindeki geçmiş durumlardan sonraki tıbbi durumu tahmin etme
Şu anda bazı laboratuvar ve eczane taleplerini içeren çok çeşitli sağlık sigortası talep verileriyle çalışıyorum. Bununla birlikte, veri setindeki en tutarlı bilgi, tanı (ICD-9CM) ve prosedür kodlarından (CPT, HCSPCS, ICD-9CM) oluşur. Hedeflerim: Kronik böbrek hastalığı gibi tıbbi bir durum için en etkili öncü koşulları (komorbiditeler) belirleyin; Bir hastanın geçmişte sahip …

3
Farklı numune boyutlarına sahip farklı sınıflandırıcıların performansının ölçülmesi
Şu anda metinden ayıklanan çeşitli varlıklar üzerinde birkaç farklı sınıflandırıcılar kullanıyorum ve her ayrı sınıflandırıcının belirli bir veri kümesinde ne kadar iyi performans gösterdiğinin bir özeti olarak kesinlik / geri çağırma kullanıyorum. Bu sınıflandırıcıların performansını benzer bir şekilde karşılaştırmanın anlamlı bir yolu olup olmadığını merak ediyorum, ancak aynı zamanda sınıflandırılan …

2
Tercih Eşleme Algoritması
Üzerinde çalıştığım ve şu soruna bir çözüm oluşturmam gereken bu yan proje var. İki grup insanım var (müşterilerim). Grup , belirli bir ürünü Asatın almak ve gruplamak Bniyetindedir X. Ürün bir dizi özelliğe sahiptir x_ive amacım , tercihleri arasında Ave Beşleştirerek işlemi kolaylaştırmaktır . Ana fikir, ürününün ihtiyaçlarına daha uygun …

3
Amazon RedShift ~ 1XTB verileri için Hadoop'un yerini alıyor mu?
Hadoop ve eko sistemini çevreleyen bol miktarda hype var. Bununla birlikte, terabayt aralığında birçok veri setinin bulunduğu uygulamada, bir Hadoop kümesi oluşturmak için zaman ve çaba harcamak yerine, büyük veri setlerini sorgulamak için Amazon RedShift kullanmak daha makul değil midir? Ayrıca Amazon Redshift, kurulum karmaşıklığı, maliyeti ve performansı açısından Hadoop …

1
Küresel ve evrensel sıkıştırma yöntemleri arasındaki fark nedir?
Sıkıştırma yöntemlerinin iki ana gruba ayrılabileceğini anlıyorum: global yerel İlk küme, işlenen verilerden bağımsız olarak çalışır, yani verilerin herhangi bir özelliğine dayanmazlar ve bu nedenle veri kümesinin herhangi bir parçası üzerinde (sıkıştırma işleminden önce) herhangi bir ön işleme gerek duymazlar. Öte yandan, yerel yöntemler verileri analiz eder ve genellikle sıkıştırma …

9
Öğrenmesi kolay bazı makine öğrenme uygulamaları nelerdir? [kapalı]
Kapalı . Bu soru görüş temelli . Şu anda cevapları kabul etmiyor. Bu soruyu geliştirmek ister misiniz? Bu yayını düzenleyerek gerçekler ve alıntılarla yanıtlanabilmesi için soruyu güncelleyin . 5 yıl önce kapalı . Genel olarak makine öğrenmede yeni olduğum için, oynamaya başlamak ve olasılıkların neler olduğunu görmek istiyorum. Kurulumdan anlamlı …

2
Fırtına ve Hadoop arasındaki ödünleşmeler (MapReduce)
Birisi bana veri işleme için Hadoop Kümesi'nde Fırtına ve MapReduce arasında seçim yaparken oluşan ödünleşimlerden bahsedebilir mi? Tabii ki, bariz olanın yanı sıra, Hadoop (bir Hadoop Kümesinde MapReduce aracılığıyla işleme) bir toplu işleme sistemi ve Storm gerçek zamanlı bir işleme sistemidir. Hadoop Eco Sistemi ile biraz çalıştım, ancak Storm ile …

3
EC2 kullanırken çekirdekler ve çekirdekler
Sıklıkla "orta veri" projeleri olarak adlandırılabilecek projeler üzerinde çalışarak, kodumu (çoğunlukla Python'da modelleme ve tahmin için) 4 ila 32 çekirdek arasındaki herhangi bir yerde tek bir sistemde paralelleştirebildim. Şimdi EC2'deki kümelere (muhtemelen StarCluster / IPython ile, ancak diğer önerilere de açık) ölçeklenmeye bakıyorum ve bir örnek üzerinde bir küme üzerindeki …
12 parallel  clusters  aws 

2
Bir sinir ağı
Ünlü Tensorflow Fizz Buzz şakası ve XOr probleminin ruhuna göre, y= x2y=x2y = x^2 işlevini uygulayan bir sinir ağı tasarlamak mümkün mü? Bir sayının bazı temsili verildiğinde (örn. İkili biçimde bir vektör olarak, bu sayı 5olarak temsil edilir [1,0,1,0,0,0,0,...]), sinir ağı bu durumda karesini - 25 döndürmeyi öğrenmelidir. Ben uygulamak …

3
Sinir ağları tasarlamak için bir başparmak kuralı var mı?
Bir sinir ağı mimarisinin çoğunlukla problemin kendisine ve girdi / çıktı türlerine dayandığını biliyorum, ama yine de - bir tane inşa etmeye başlarken her zaman "kare bir" var. Benim sorum - MxN'nin girdi veri kümesi (M kayıt sayısı, N özellik sayısıdır) ve C olası çıktı sınıfları verildiğinde - kaç katman …

1
Regresyon için yüksek kardinalite kategorik özellikleri ile özellik önemi (sayısal bağımlı değişken)
Tüm özelliklerin kategorik olduğu ve birçoğunun (100-1000 sırasına göre) birçok seviyeye sahip olduğu bir regresyon problemi için bazı ampirik özellik seçimi yapmak için Rastgele Ormanlardan özellik ithalatlarını kullanmaya çalışıyordum. Bir sıcak kodlamanın her seviye için bir kukla değişken oluşturduğu düşünüldüğünde, özellik içe aktarımları her özellik için (sütun) değil her seviye …

1
Derin öğrenmede kare görüntülerin nedeni
VGG, ResNet gibi gelişmiş derin öğrenme modellerinin çoğu, genellikle 224 x 224224x224224x224 piksel boyutunda giriş olarak kare görüntüler gerektirir . Girişin eşit şekle sahip olması için bir neden var mı, yoksa 100 x 200100x200100x200 diyelim ile bir konvnet modeli oluşturabilir miyim (örneğin yüz tanıma yapmak ve portre resimlerim varsa)? 512 …

4
Modelin aşırı takmaya başladığını nasıl bilebilirim?
Umarım aşağıdaki alıntılar sorumun ne olacağına dair bir fikir verecektir. Bunlar http://neuralnetworksanddeeplearning.com/chap3.html adresinden Daha sonra öğrenme yavaş yavaş yavaşlar. Son olarak, 280 dönemi civarında, sınıflandırma doğruluğu gelişmeyi hemen hemen durdurur. Daha sonraki dönemler sadece çağ 280'deki doğruluk değerine yakın küçük stokastik dalgalanmalar görürler. Bunu, eğitim verileriyle ilişkili maliyetin sorunsuz bir …


Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.