K-anlamı: Pratik durumlarda kaç tekrarlama var?


10

Veri madenciliği veya büyük verilerde endüstri deneyimim yok, bu yüzden biraz deneyim paylaştığınızı duymak isterim.

İnsanlar gerçekten büyük bir veri kümesinde k-ortalamaları, PAM, CLARA, vs. çalıştırıyor mu? Yoksa rastgele bir örnek mi seçtiler? Sadece veri kümesinin bir örneğini alırlarsa, veri kümesi normal olarak dağıtılmazsa sonuç güvenilir olur mu?

Bu algoritmaları çalıştırırken pratik durumlarda, yakınsama gerçekleşene kadar normalde kaç yineleme olacağını söyleyebilir miyiz? Veya yineleme sayısı her zaman veri boyutuyla birlikte artar mı?

Bunu soruyorum çünkü yakınsamadan önce yinelemeli algoritmaları sonlandırmak için bir yaklaşım geliştirmeyi düşünüyorum ve yine de sonuçlar hala kabul edilebilir. Sanırım yineleme sayısının 1000'den fazla olması denemeye değer, bu nedenle bazı hesaplama maliyetlerinden ve zamanlarından tasarruf edebiliriz. Ne düşünüyorsun?


number of iterations always grow with the data sizeŞart değil.
ttnphns

K-ortalamalarında yinelemeleri durdurmak için çeşitli kriterler vardır. İlginç bir şekilde, yineleme sayısını sabit bir değere (örneğin, 10 veya 20) ayarlamak makul yollar arasındadır. K-means hızlı bir yöntem olmaya adanmıştır, bu nedenle her yinelemeden sonra bir yakınsama ölçütünün kontrol edilmesini istiyorsanız, ölçütün hesaplanması kolay / hızlı olmalıdır.
ttnphns

1
Yürütülecek maksimum yineleme sayısını belirlemenin herhangi bir "bilimsel" yolu var mı?
Foo

Son yorumunuz iyi bir soru. Dürüst olmak gerekirse, bilmiyorum. belki başkaları buna cevap verir.
ttnphns

Yanıtlar:


6
  1. K-araçları ucuzdur. Birçok yineleme için çalıştırmayı göze alabilirsin .

  2. Kötü algoritmalar (standart olan) ve iyi algoritmalar vardır. İyi algoritmalar için, sonraki yinelemeler genellikle ilk yinelemenin% 1'inden çok daha düşük maliyetlidir.

  3. Gerçekten yavaş uygulamalar var. Onları kullanma.

  4. K-"büyük" veriler üzerinde mevcut değildir. Çünkü sadece düşük boyutlu vektör verileri üzerinde çalışır. Bu tür verileri içeren modern bir sunucunun belleğini aşmayacaksınız. evet, daha büyük veriler var - ancak bir ay Twitter verisi olarak k-araçlarını kullanamazsınız, çünkü size yararlı bir şey vermez.

İyi bir uygulama ile, modern bir sunucuda, k-araçlarının hala faydalı bir sonuç verdiği yerde bulabileceğiniz en büyük veri kümesi, yakınsamaya kadar hesaplamak için muhtemelen 1 dakikadan daha az süreye ihtiyaç duyar. Öyleyse neden yineleme sınırı hakkında düşünmeye zahmet ediyorsunuz?


1
Katılıyorum. Bu makalede ( Ölçeklenebilir K-Ortalamalara göre sıralama anlamına gelir), yazarlar K-araçlarının test ettikleri yüksek boyutlu veri kümelerinde bile tüm pratik durumlarda 20-50 yinelemeden sonra yakınsadıklarını belirtmişlerdir. Peki K-araçlarının yanı sıra, yakınsamaya kadar çok sayıda yineleme gerektiren herhangi bir algoritma biliyor musunuz?
foo

Belki bir SVM eğitimi alıyorsunuz? Destek vektörlerinin en iyi (ve tahminleri buna bağlı olduğundan!) En küçük bulmaya çalışmanın yinelemeli olduğuna inanıyorum.
ÇIKIŞ - Anony-Mousse

Yüksek boyutlu veri kümelerinde k-araçlarını çalıştırmanın bariz çözümü önce PCA veya diğer boyutsal küçültme yöntemini çalıştırmak, sonra k-araçlarını çalıştırmaktır
nico
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.