Ayrılabilir veriler için K-araçları dışındaki kümeleme formalizasyonları


11

Gerçek dünya verileri bazen doğal sayıda kümeye sahiptir (bazı sihirli k'lardan daha az bir kümeye kümelemeye çalışmak, kümelenme maliyetinde önemli bir artışa neden olur). Bugün Dr. Adam Meyerson'ın verdiği bir konferansa katıldım ve bu tür verileri "ayrılabilir veri" olarak adlandırdı.

K-araçları dışında, verilerdeki doğal ayrılabilirliği kullanacak olan kümeleme algoritmalarına (yaklaşımlar veya sezgisel tarama) uygun olabilecek bazı kümeleme biçimlendirmeleri nelerdir?

Yanıtlar:


11

Bir Son Model böyle bir kavramı ele geçirmeye çalışırken Balcan, Blum ve Gupta '09 gereğidir. Veriler belirli bir varsayımı karşıladığında çeşitli kümelenme hedefleri için algoritmalar verir: yani veriler kümeleme hedefi için herhangi bir yaklaştırması en uygun kümelemeye -close olacaksa , hatta değerleri için neredeyse-optimal kümeleme, bulma kendisi için -approximation NP Sert olduğunu. Bu, verilerin bir şekilde "hoş" veya "ayrılabilir" olduğu varsayımıdır. Lipton'un bu konuda güzel bir blog yazısı var.ϵ c ccϵcc

Bilu ve Linial '10 tarafından bir makalede verilen verilerle ilgili bir diğer benzer koşul , bozulma kararlılığıdır. Temel olarak, eğer veriler yeterince büyük değerleri için veri bozulduğunda (bazı parametresiyle ) en uygun kümelemenin değişmeyecek şekilde olduğunu gösterirse, orijinal veriler için en uygun kümelemeyi etkili bir şekilde bulabilir, sorun genelde NP-Hard olduğunda bile. Bu, verilerin stabilitesi veya ayrılabilirliği konusundaki başka bir kavramdır.ααα

Eminim daha erken çalışma ve daha önceki ilgili kavramlar vardır, ancak bunlar sorunuzla ilgili yeni teorik sonuçlardır.


8

Dışında eserleri arasından Ostrovsky'nin vd , ve tarafından işten Arthur ve Vassilvitskii k-araçlarının davranışı üzerinde, üzerinde teorik çalışmaların bir vücut var Öklit k-medyan ve k-ortalama giden altından Kümeleme için zaman algoritmaları "doğrusal" bu formülasyonlar. Bu son çalışmalarla ilgili ilginç olan şey, analizde bir araç olarak ayrılabilirliği kullanmaları, ancak verilerde gerektirmemesidir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.