Kümeleme için kullanabileceğim benzerlik ölçümüm için ağırlıklarını öğrenmek (çıkarmak) istiyorum.
Bazı örnekler vardır (aynı kümedeki olmalıdır) "içindeki", hem de bazı örnekler olarak nesnelerin çiftlerinin "benzemeyen" nesnelerin çiftlerinin (olmamalıdır aynı kümede olması). Her nesnenin birtakım nitelikleri vardır: İsterseniz, her bir nesneyi , her özelliğin negatif olmayan bir tamsayı olduğu, boyutlu bir özellik vektörü olarak düşünebiliriz . Benzer / farklı nesnelerin bu tür örneklerini, benzerlik ölçümü için en uygun özellik ağırlıklarını tahmin etmek için kullanma teknikleri var mı?
Eğer yardımcı olursa, uygulamamda, ağırlıklı bir L2 normu olan farklılık ölçüsünü öğrenmeye odaklanmak makul olacaktır:
burada ağırlıkları bilinmemektedir ve öğrenilmelidir. (Ya da, bir tür ağırlıklı kosinüs benzerlik ölçüsü de makul olabilir.) Örnekler göz önüne alındığında, böyle bir ölçü için ağırlıkları öğrenmek için iyi algoritmalar var mı? Yoksa göz önünde bulundurmam gereken bir benzerlik ölçüsü / farklılık ölçüsü öğrenmek için başka yöntemler var mı?
Boyutların sayısı maalesef çok fazladır (binlerce veya daha yüksek; kelime torbası özelliklerinden türetilmiştir). Ancak on binlerce örneğim var. Daha sonra kümelemek istediğim yüz binlerce nesneye sahibim, bu yüzden iyi bir farklılık metriği öğrenmek için örneklerden genelleştirmek önemlidir.
Bunun yarı denetimli kümelenmenin rubricine düştüğünü ve bunun "benzerlik uyarlayıcı" damardan olabileceğini düşünüyorum, ancak bu amaçla kullanılacak algoritmaların açık tanımlarını bulamadım.