Veri Bilimi

Veri bilimi uzmanları, Makine Öğrenimi uzmanları ve alan hakkında daha fazla bilgi edinmek isteyenler için soru cevap


11
Scikit öğrenme kullanarak SVM sonsuz çalışır ve yürütmeyi asla tamamlamaz
595605 satır ve 5 sütun (özellikler) içeren bir eğitim veri setinde scikit learn (python) ve 397070 satır içeren test veri setinde SVR kullanmaya çalışıyorum. Veriler önceden işlenmiş ve düzenlenmiştir. Test örneklerini başarılı bir şekilde çalıştırabilirim ancak veri setimi kullanarak çalıştırmaya başladım ve bir saatten fazla çalışmasına izin verdiğimde, programın herhangi …

5
Maliyet fonksiyonları neden kare hatasını kullanıyor?
Makine öğrenmeye yeni başlıyorum ve şimdiye dek tek değişkenli doğrusal regresyon ile uğraşıyorum. Bir hipotez olduğunu öğrendim: hθ( x ) = θ0+ θ1xhθ(x)=θ0+θ1xh_\theta(x)=\theta_0+\theta_1x ve parametreleri için iyi değerleri bulmak için, hesaplanan sonuç ile test verilerimizin gerçek sonucu arasındaki farkı en aza indirmek istiyoruz. Yani çıkardıkθ 1θ0θ0\theta_0θ1θ1\theta_1 hθ( x( i )) …

11
İnsanlar neden Pandaları SQL'e tercih ediyor?
1996'dan beri SQL kullanıyorum, bu yüzden önyargılı olabilirim. MySQL ve SQLite 3'ü kapsamlı bir şekilde kullandım ancak Microsoft SQL Server ve Oracle'ı da kullandım. Pandalarla yaptığım işlemlerin büyük çoğunluğu SQL ile daha kolay yapılabilir. Bu, bir veri kümesini filtrelemeyi, görüntülenecek belirli sütunları seçmeyi, değerlere bir işlev uygulamayı vb. İçerir. SQL, …
69 pandas  sql 


8
Veri bilimci vs makine öğrenim mühendisi
Varsa, bir "veri bilimcisi" ile "makine öğrenim mühendisi" arasındaki farklar nelerdir? Geçen yıl boyunca “makine öğrenim mühendisi” iş ilanlarında çok fazla yer almaya başladı. Bu, özellikle “veri bilimcisi” teriminin ortaya çıktığı yer olan San Francisco'da belirgindir. Bir noktada "veri bilimcisi" "istatistikçiyi" ele geçirdi ve aynı şeyin şimdi "veri bilimcisine" yavaş …

1
Pandalarda isna () ve isnull () arasındaki fark
Bir süredir pandaları kullanıyorum. Fakat pandalar arasındaki isna()ve isnull()arasındaki farkın ne olduğunu anlamadım . Ve, daha önemlisi, veri çerçevesindeki eksik değerleri belirlemek için hangisinin kullanılması gerektiği. Bir değerin nasıl ya nada olarak tespit edilmesinin temelinde yatan temel fark nedir null?

5
ARIMA ve LSTM kullanarak zaman serisi tahmini
Uğraştığım sorun zaman serisi değerlerini tahmin etmektir. Bir seferde bir zaman serisine bakıyorum ve örneğin girdi verilerinin% 15'ine dayanarak gelecekteki değerlerini tahmin etmek istiyorum. Şimdiye kadar iki modelle karşılaştım: LSTM (uzun kısa süreli hafıza; tekrarlayan sinir ağları sınıfı) ARİMA İkisini de denedim ve bunlarla ilgili bazı makaleler okudum. Şimdi ikisini …

3
AUC'nin standart doğruluk vs avantajları
Eğri altındaki alana (AUC) bakmaya başlamıştım ve faydası hakkında biraz kafam karıştı. AUC, bana ilk açıklandığında büyük bir performans ölçüsü gibi görünüyordu, ancak araştırmamda, yüksek standart doğruluk ölçümleri ve düşük AUC ile 'şanslı' modelleri yakalamanın en iyi yol olduğunu, avantajının çoğunlukla marjinal olduğunu iddia ettim. . Öyleyse, modelleri doğrulamak için …

6
karar ağacı / rastgele ormandaki özellikler olarak karakter dizileri
Karar ağacı / rastgele orman uygulamasında bazı problemler yaşıyorum. Sayı gibi karakter dizileri (ülke adı gibi) özellikli bir soruna uymaya çalışıyorum. Şimdi, kütüphane, scikit-learn sadece sayı olarak parametre alır, fakat önemli miktarda bilgi taşıdıkları gibi dizeleri de enjekte etmek istiyorum. Böyle bir senaryoyu nasıl idare ederim? Python'da karma gibi bazı …

1
İki kategorik değişken ile kategorik değişken ve sürekli değişken arasındaki ilişki nasıl elde edilir?
Bir regresyon modeli yapıyorum ve korelasyonları kontrol etmek için aşağıdakileri hesaplamam gerekiyor 2 Çok seviyeli kategorik değişken arasındaki korelasyon Çok seviyeli kategorik değişken ile sürekli değişken arasındaki korelasyon Çok seviyeli kategorik değişkenler için VIF (varyans enflasyon faktörü) Yukarıdaki senaryolarda Pearson korelasyon katsayısının kullanılmasının yanlış olduğuna inanıyorum çünkü Pearson sadece 2 …

3
Max-Pooling Katmanları Üzerinden Backprop?
Bu, bir süredir beni şaşırtan küçük bir kavramsal sorudur: Bir sinir ağındaki max-havuz katmanından nasıl geri yayılabiliriz? Torch 7'nin nn kütüphanesi için bu eğitici yazıda Max Pooling katmanları ile karşılaştım . Kütüphane, gradyan hesaplamasını soyutlar ve derin bir ağın her katmanı için ileri geçişler. Gradyan hesaplamasının bir max-pooling katmanı için …

8
Python'da açık kaynaklı Anomali Tespiti
Sorun Arka Planı: BT izleme alanında bulunanlara benzer günlük dosyaları içeren bir proje üzerinde çalışıyorum (BT alanını en iyi anladığım kadarıyla). Bu günlük dosyaları, yüzlerce / binlerce sıradaki çeşitli parametreler halinde düzenlenmiş zaman serisi verileridir. Her parametre sayısaldır (kayan nokta) ve her zaman noktası için önemsiz / hata olmayan bir …

2
Bir RNN'nin Keras'ta farklı uzunluktaki örneklerle eğitimi
RNN'ler hakkında bilgi almaya başladım ve Keras kullanıyorum. Vanilya RNN ve LSTM katmanlarının temel öncülünü anlıyorum, ancak eğitim için belirli bir teknik noktayı anlamakta güçlük çekiyorum. Gelen keras belgeler , bir RYSA katmanına girdi şekline sahip olmalıdır diyor (batch_size, timesteps, input_dim). Bu, tüm eğitim örneklerinin sabit bir sekans uzunluğuna sahip …
60 python  keras  rnn  training 

9
Sklearn'de Tren / Test / Validasyon Seti
Sklearn ile bir veri matrisini ve ilgili etiket vektörünü rastgele bir X_train, X_test, X_val, y_train, y_test, y_val öğesine nasıl bölebilirim? Bildiğim kadarıyla sklearn.cross_validation.train_test_split, sadece ikiye bölme yeteneğine sahip, üçte değil ...

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.