«data-mining» etiketlenmiş sorular

Veri madenciliği, daha önce bilinmeyen kalıpları keşfetmek için veritabanı bağlamında yapay zeka yöntemlerini kullanır. Bu haliyle, yöntemler genellikle denetimsizdir. Bu yakından ilişkilidir ancak makine öğrenimi ile aynı değildir. Veri madenciliğinin temel görevleri küme analizi, aykırı değer tespiti ve ilişkilendirme kurallarının madenciliğidir.


8
K-araçlarının (veya yakın akrabalarının) kümelemeyi, sadece nokta-özellik verileriyle değil, yalnızca bir mesafe matrisiyle kümelemeyi gerçekleştirin.
Sahip olduğum nesnelere K-aracı kümelemesi yapmak istiyorum, ancak nesneler uzayda nokta, yani objects x featuresveri kümesi tarafından tanımlanmadı . Ancak, herhangi iki nesne arasındaki mesafeyi hesaplayabiliyorum (benzerlik işlevine dayanıyor). Bu yüzden mesafe matrisini elden çıkarıyorum objects x objects. Daha önce K-araçları kullandım, ancak bu nokta veri kümesi girdisiydi; ve uzaklık …

3
Büyük veri için ilk adım ( , )
Her gözlemin birkaç bin seyrek ve muhtemelen gereksiz sayısal ve kategorik değişkenlere sahip olduğu, günde milyarlarca gözlem ayarında büyük bir veriyi analiz ettiğinizi varsayalım. Diyelim ki bir regresyon problemi, bir dengesiz ikili sınıflandırma problemi ve bir de “hangi tahmin edicilerin en önemli olduğunu bulma” görevi var. Soruna nasıl yaklaşılacağı konusundaki …

5
Veri madenciliğinde yeni devrimci yol?
Aşağıdaki alıntı, sürekli olarak başarılı bir riskten korunma fonu yöneticisi Jaffray Woodriff ile yapılan röportajdan Schwager'in Hedge Fonu Market Wizzards'dan (Mayıs 2012) alınmıştır: "Veri madenciliğinde insanların en büyük hatalarından bazıları neler?" Pek çok insan, eğitim için örnek veriyi ve test için örnek veriyi kullandıkları için iyi olduklarını düşünüyor. Daha sonra …

4
Karar ağaçları neredeyse her zaman ikili ağaç mıdır?
Neredeyse karşılaştığım her karar ağacı örneği ikili bir ağaç oluyor. Bu oldukça evrensel mi? Standart algoritmaların çoğu (C4.5, CART, vb.) Yalnızca ikili ağaçları destekliyor mu? Topladığım kadarıyla, CHAID ikili ağaçlarla sınırlı değil, ama bu bir istisna gibi görünüyor. Çocuklardan birine iki yönlü bir bölünme izleyen iki yönlü bir bölünme, üç …

2
Model seçiminden sonra Çapraz Doğrulama (hata genellemesi)
Not: Dava n >> p İstatistiksel Öğrenme Öğelerini okuyorum ve çapraz doğrulama yapmanın "doğru" yoluyla ilgili çeşitli görüşler var (örneğin sayfa 60, sayfa 245). Spesifik olarak sorum, son modelin (ayrı bir test seti olmadan) k-fold CV kullanarak veya bir model araması yapıldığında önyükleme kullanarak nasıl değerlendirileceğidir? Çoğu durumda (gömülü özellik …

2
K-anlamına gelen kümeleme Gauss karışım modellemesinin bir biçimiyse, veriler normal olmadığında kullanılabilir mi?
Bishop'u GMM için EM algoritması ve GMM ile k-ortalamaları arasındaki ilişki üzerine okuyorum. Bu kitapta k-means'ın GMM'nin zor atanmış bir versiyonu olduğu söyleniyor. Merak ediyorum ki, kümelenmeye çalıştığım veriler Gauss değilse, k-Ortalamaları kullanamam (ya da en azından kullanmak uygun değil)? Örneğin, veriler her biri 0 veya 1 değerine sahip 8 …



2
StackExchange soruları için “ilginçlik” işlevi
StackExchange siteleri için bir veri madenciliği paketi bir araya getirmeye çalışıyorum ve özellikle, "en ilginç" soruları belirlemeye çalışırken sıkışmış. Soru puanını kullanmak istiyorum, ancak görüşlerin sayısı nedeniyle önyargıyı kaldırıyorum, ancak buna titizlikle nasıl yaklaşacağımı bilmiyorum. İdeal dünyada, soruları hesaplayarak sıralayabilirim; burada , oyların toplamı ve , görüntülenme sayısıdır. Ne de …

1
Uzak denetim: denetimli, yarı denetimli veya her ikisi mi?
"Uzaktan denetim", sınıflandırıcının zayıf etiketlenmiş eğitim seti (eğitim verileri sezgisel yöntemlere / kurallara göre otomatik olarak etiketlenir) verildiğinde öğrenildiği bir öğrenme programıdır. Etiketli verileri sezgisel / otomatik olarak etiketlenmişse, hem denetimli öğrenme hem de yarı denetimli öğrenmenin böyle bir "uzaktan denetim" içerebileceğini düşünüyorum. Ancak, bu sayfada , "uzaktan denetim", "yarı-denetimli …

2
Destekleme: öğrenme oranına neden bir düzenleme parametresi denir?
Öğrenme oranı parametresi ( ) Gradyan küçülür -typically her yeni baz model seri olarak bağlanır sığ tree katkısını Arttırılması de. Daha küçük adımlarda olduğu gibi anlaşılabilir olan test seti doğruluğunu önemli ölçüde arttırdığı gösterilmiştir, kayıp fonksiyonunun minimumuna daha hassas bir şekilde ulaşılabilir. ν∈ [ 0 , 1 ]ν∈[0,1]\nu \in [0,1] …

3
Veri madenciliğinde ilişkilendirme kuralları ve karar ağaçları arasındaki pratik fark nedir?
Bu iki teknik arasındaki pratik farklılıkların gerçekten basit bir açıklaması var mı? Her ikisi de denetimli öğrenme için kullanılmış gibi görünmektedir (ilişkilendirme kuralları denetimsiz olarak da ele alınabilir). Her ikisi de tahmin için kullanılabilir 'İyi' bir açıklama bulduğum en yakın Statsoft Ders Kitabı'ndan . İlişkilendirme Kurallarının aşağıdakiler için kullanıldığını söylüyorlar …


6
Veri madenciliği ve istatistiksel analiz arasındaki fark nedir?
Veri madenciliği ve istatistiksel analiz arasındaki fark nedir? Bazı geçmişler için, istatistiksel eğitimim bence oldukça gelenekseldi. Belirli bir soru yöneltilir, araştırma tasarlanır ve bu soru hakkında bir fikir vermek için veriler toplanır ve analiz edilir. Sonuç olarak, her zaman "veri tarama" olarak nitelendirdiğim şeyden kuşkuluyordum, yani büyük bir veri kümesindeki …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.