Veri Bilimi

Veri bilimi uzmanları, Makine Öğrenimi uzmanları ve alan hakkında daha fazla bilgi edinmek isteyenler için soru cevap

1
İnt panda sütununu zaman damgası veri tipine dönüştürme
Diğer şeylerin yanı sıra, 1970-1-1'den bu yana geçen milisaniye sayısı bir sütun içeren bir veri çerçevesi var. Tamamen 1970-1-1 için datetime değerleri içeren bir dizi zaman damgası sütun serisi ekleyerek daha sonra nihayet datetime veri sütununa dönüştürmek için ints bu sütun veri dönüştürmek gerekir. Dizeleri bir dizi datetime veri (pandas.to_datetime) …

5
Scikit-learn ile özellik önemi Rastgele Orman çok yüksek Standart Sapma gösterir
Ben kullanıyorum Rastgele Orman Sınıflandırıcı scikit-öğrenme ve böyle olduğu gibi özellik önem çizmek istiyorum bu örnekte . Ancak benim sonucum tamamen farklıdır, çünkü özellik önemi standart sapmanın neredeyse her zaman özellik öneminden daha büyüktür (bkz. Ekli resim). Böyle bir davranışa sahip olmak mümkün mü, ya da onu çizerken bazı hatalar …

2
Simetrik olmayan maliyet fonksiyonu ile doğrusal regresyon?
Bazı değerini tahmin etmek istiyorum ve olabildiğince düşük olmakla birlikte yine de den daha büyük olmak için optimize edilen bazı tahmin almaya çalışıyorum . Başka bir deyişle: Y(x)Y(x)Y(x)Y^(x)Y^(x)\hat Y(x)Y(x)Y(x)Y(x)cost{Y(x)≳Y^(x)}>>cost{Y^(x)≳Y(x)}cost{Y(x)≳Y^(x)}>>cost{Y^(x)≳Y(x)}\text{cost}\left\{ Y(x) \gtrsim \hat Y(x) \right\} >> \text{cost}\left\{ \hat Y(x) \gtrsim Y(x) \right\} Bence basit bir doğrusal regresyon tamamen iyi olmalı. Bu …

1
Bulanık dizilerdeki bir dilbilgisini tanıma
Temelde Öğeler listesini içeren metin belgelerim var. Her Öğe, farklı türlerden birkaç simgeden oluşan bir gruptur: FirstName, LastName, BirthDate, PhoneNumber, City, Occupation, vb. Bir token, bir grup kelimedir. Öğeler birkaç satırda uzanabilir. Bir belgedeki öğeler yaklaşık olarak aynı belirteç sözdizimine sahiptir, ancak tam olarak aynı olmaları gerekmez. Öğeler arasında ve …

2
Bir veri çerçevesi sütunun ortalamasını hesaplama ve ilk% 10'u bulma
Scala ve Spark için çok yeniyim ve beyzbol istatistiklerini kullanarak kendi kendine yapılan bazı egzersizler üzerinde çalışıyorum. Ben bir case sınıf bir RDD oluşturmak ve verilere bir şema atamak kullanıyorum ve daha sonra belirli kriterleri karşılayan istatistikleri üzerinden oyuncu grupları seçmek için SparkSQL kullanabilirsiniz böylece bir DataFrame dönüm. Daha fazla …

2
Ayrık sınıflandırıcılardan oluşan bir sınıflandırıcı için ROC eğrisini hesaplamak için etkili algoritma
Aynı girişte hiçbirinin doğru olmayacağı anlamında ayrık olan C_1 ... C_n sınıflandırıcılarına sahip olduğumu varsayalım (örneğin, karar ağacındaki düğümler). Bunların bazı alt kümelerinin birliği olan yeni bir sınıflandırıcı oluşturmak istiyorum (örneğin, bir karar ağacının hangi yapraklarının olumlu bir sınıflandırma vereceğine karar vermek istiyorum). Tabii ki, bunu yaparken duyarlılık ve pozitif …
13 algorithms 

7
Programcıyım, Veri Bilimi alanına nasıl girebilirim?
Her şeyden önce bu terim çok belirsiz görünüyor. Her neyse .. Ben bir yazılım programcısıyım. Kodlayabildiğim dillerden biri Python. Veri Konuşma SQL kullanabilir ve Veri Kazıma yapabilirim. Veri Bilimi'nin iyi olduğu birçok makaleyi okuduktan sonra şu ana kadar anladım: 1- İstatistikler 2- Cebir 3- Veri Analizi 4- Görselleştirme. 5- Makine …
13 beginner  career 


1
Neo4j vs OrientDB ve Titan
Sosyal ilişki madenciliği ile ilgili bir veri bilimi projesi üzerinde çalışıyorum ve bazı grafik veritabanlarında veri depolamam gerekiyor. Başlangıçta veritabanı olarak Neo4j'yi seçtim. Ama Neo4j iyi ölçeklemiyor dikişler. Bulduğum alternatif Titan ve oriebtDB. İçinden gitti bu bu üç Veritabanları üzerinde karşılaştırma, Ama bu veritabanları üzerinde daha fazla bilgi almak istiyorum. …

2
Derin sinir ağı eğitimini görselleştirmek
Eğitim sırasında ağırlıkları çizmek için çok katmanlı ağlar için Hinton Diyagramları eşdeğerini bulmaya çalışıyorum. Eğitimli ağ, bir Derin SRN'ye biraz benzer, yani birkaç Hinton Diyagramının eşzamanlı grafiğini görsel olarak kafa karıştırıcı yapacak çok sayıda çoklu ağırlık matrisine sahiptir. Birden fazla katmanı olan tekrarlayan ağlar için ağırlık güncelleme işlemini görselleştirmenin iyi …

1
Daha fazla Karar Ağacı ekleyerek çevrimiçi rastgele ormanlar
Bir Karar Ormanı (DT) topluluğu tarafından Rastgele Orman (RF) oluşturulur. Torbalama kullanılarak, her DT farklı bir veri alt kümesinde eğitilir. Bu nedenle, yeni verilere daha fazla karar verme eğilimi ekleyerek çevrimiçi rastgele bir orman uygulamanın herhangi bir yolu var mı? Örneğin, 10K örneğimiz var ve 10 DT eğitiyoruz. Sonra 1K …

2
NLP'de sınıflandırma sürecinde Parse ağaçlarından genellikle hangi özellikler kullanılır?
Farklı ayrıştırma ağacı yapılarını araştırıyorum. Yaygın olarak bilinen iki ayrıştırma ağacı yapısı şunlardır: a) Kuruma dayalı ayrıştırma ağacı ve b) Bağımlılığa dayalı ayrıştırma ağacı yapıları. Stanford NLP paketini kullanarak her iki tür ayrıştırma ağacı yapısını oluşturmak için kullanabilirsiniz. Ancak, sınıflandırma görevim için bu ağaç yapılarını nasıl kullanacağımdan emin değilim. Örneğin, …

4
Makine öğrenme algoritmalarının incelenmesi: anlama derinliği ve algoritma sayısı
Son zamanlarda Veri Bilimi alanına girdim (yaklaşık 6 aydır) ve Ii, Andrew Ng tarafından Makine Öğrenimi Kursu ve JHU tarafından Veri Bilimi Uzmanlığı üzerinde çalışmaya başlayan yazı ile başladı. Pratik uygulama cephesinde, yıpranmayı tahmin edecek bir öngörücü model oluşturmaya çalışıyorum. Şimdiye kadar bu yöntemleri öğrenmek ve uygulamak için glm, bayesglm, …

6
En iyi uygulamaları anlayan veri kümeleri
Veri madenciliği alanında CS yüksek lisans öğrencisiyim. Yöneticim bir keresinde bana herhangi bir sınıflandırıcı çalıştırmadan veya veri kümesiyle herhangi bir şey yapmadan önce verileri tam olarak anlamam ve verilerin temiz ve doğru olduğundan emin olmam gerektiğini söyledi. Sorularım: Bir veri kümesini (sayısal ve nominal özniteliklere sahip yüksek boyutlu) anlamak için …


Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.