Bir uyumsuzluk ölçüsü için ağırlıklar nasıl bulunur?


9

Kümeleme için kullanabileceğim benzerlik ölçümüm için ağırlıklarını öğrenmek (çıkarmak) istiyorum.

Bazı örnekler vardır (aynı kümedeki olmalıdır) "içindeki", hem de bazı örnekler olarak nesnelerin çiftlerinin "benzemeyen" nesnelerin çiftlerinin (olmamalıdır aynı kümede olması). Her nesnenin birtakım nitelikleri vardır: İsterseniz, her bir nesneyi , her özelliğin negatif olmayan bir tamsayı olduğu, boyutlu bir özellik vektörü olarak düşünebiliriz . Benzer / farklı nesnelerin bu tür örneklerini, benzerlik ölçümü için en uygun özellik ağırlıklarını tahmin etmek için kullanma teknikleri var mı?(ai,bi)(ci,di)d

Eğer yardımcı olursa, uygulamamda, ağırlıklı bir L2 normu olan farklılık ölçüsünü öğrenmeye odaklanmak makul olacaktır:

d(x,y)=jαj(x[j]y[j])2.

burada ağırlıkları bilinmemektedir ve öğrenilmelidir. (Ya da, bir tür ağırlıklı kosinüs benzerlik ölçüsü de makul olabilir.) Örnekler göz önüne alındığında, böyle bir ölçü için ağırlıkları öğrenmek için iyi algoritmalar var mı? Yoksa göz önünde bulundurmam gereken bir benzerlik ölçüsü / farklılık ölçüsü öğrenmek için başka yöntemler var mı?αjαj

Boyutların sayısı maalesef çok fazladır (binlerce veya daha yüksek; kelime torbası özelliklerinden türetilmiştir). Ancak on binlerce örneğim var. Daha sonra kümelemek istediğim yüz binlerce nesneye sahibim, bu yüzden iyi bir farklılık metriği öğrenmek için örneklerden genelleştirmek önemlidir.

Bunun yarı denetimli kümelenmenin rubricine düştüğünü ve bunun "benzerlik uyarlayıcı" damardan olabileceğini düşünüyorum, ancak bu amaçla kullanılacak algoritmaların açık tanımlarını bulamadım.


Çok ilginç bir problem. Eğer probleminizi düzeltirsem, size esas olarak boş bir matris verilir. Bazı öğeler doldurulur ancak çoğu eksiktir. İlk önce bu matrisi doldurmaya çalışırdım (örneğin düşük seviyeli varsayım kullanarak).
Vladislavs Dovgalecs

@xeon, bu bir yaklaşım olabilir, ancak özellikleri görmezden gelir. Benim hipotezim, bazı özelliklerin son derece alakalı ve bazı özelliklerin alakalı olmadığı ve ilgili özelliklerdeki farka bakmanın makul bir benzerlik metriği sağladığıdır - ancak bu metriği nasıl buluruz? Önerdiğiniz gibi matrisi tamamlamaya çalışmak bu yapıyı görmezden gelir ve bu nedenle elimizdeki verilerden tam olarak yararlanamaz.
DW

Son hedefin nedir? Sadece mesafe metriğini öğrenmek değil, değil mi? Veri noktalarını kategorilere ayırmak istiyorsunuz, değil mi?
Vladislavs Dovgalecs

1
Çok açık bir şekilde açıklanmadığınızı düşündüğüm şeyler var. Tüm örnek çiftleri tam bir ikili (1 = benzer; 0 = farklı) bir matris mi oluşturuyor veya bazı hücre bilgileri eksik mi? Matris "çelişkili" midir - yani, örnek örtüşmeyen sınıflara bölünüyor mu? Ayrıca, hiçbir öğrenme yönteminin size ölçüm türünü (örneğin, L2 veya L1 normu gibi) tavsiye edemeyeceğini (veya kullanmanız gerektiğini) unutmayın, çünkü bu seçim teoriktir (nitelik türüne, özelliğin kavramsallaştırılmasına bağlıdır) boşluk, o zaman kullanacağınız kümeleme yöntemi).
ttnphns

Bu, burada makul bir şekilde cevap verilemeyecek kadar geniştir . Hem ağırlıklandırma, seçme hem de mesafe fonksiyonlarının öğrenilmesine yönelik çok sayıda literatür vardır. Sanırım benzerlik hakkında bir konferans bile gördüm!
ÇIKIŞ - Anony-Mousse

Yanıtlar:


6

Makine öğreniminin bazı alanlarında bu büyük bir sorundur. İstediğim kadar tanıdık değilim ama sanırım bunlar başlasın.

Verilerinizin çok yüksek boyutlu (ve muhtemelen seyrek?) Olduğu göz önüne alındığında, doğrusal olmayan bir şeye ihtiyacınız olmayabilir. Belki mahalle bileşenleri analizi başlamak için en iyi yerdir? önerdiğiniz gibi, ağırlıklı bir normu fikrine en yakın olanıdır .L2


Evet, veriler seyrek. Bu son derece yararlı görünüyor, teşekkür ederim. matrisinin diyagonal olarak kısıtlandığı mahalle bileşenleri analizinin bir varyantı var mı (eşdeğer olarak diyagonaldir)? (Bu, yukarıdaki QA
DW

Bu kısıtlamayı neden ekleyemediğinizi anlamıyorum. Sonuçta ortaya çıkan modelin bir adı olup olmadığından emin değilim.
David J. Harris

1

Bir takma için benzerlik ölçüsü olarak bir özellik ağırlığı çok denk veri kümesi ölçekleme ile .ai1/wi

Başka bir deyişle, veri önişleme ve ölçeklendirme hakkında sorular soruyorsunuz. Bu, tek bir soruda iyi cevaplanamayacak kadar geniştir. Aramak:

  • Öznitelik Seçimi
  • özellik ağırlıklandırma
  • normalleştirme
  • Boyutsal küçülme
  • diğer projeksiyon teknikleri
  • diğer mesafe fonksiyonları
  • "sıralamayı öğrenme"

Büyük miktarda literatür ve hatta buna adanmış konferans yolları var. Başlamanız için bazı yöntemler:

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.