Tamam, hadi oyuncaklarını kümeleyen çocuğun örneğini analiz edelim.
Çocuğun sadece 3 oyuncağı olduğunu düşünün:
- mavi bir futbol topu
- mavi bir freesbe
- yeşil bir küp (tamam belki hayal edebileceğiniz en eğlenceli oyuncak değildir)
Bir oyuncağın nasıl yapılabileceği ile ilgili şu ilk hipotezi yapalım:
- Olası renkler: kırmızı, yeşil, mavi
- Olası şekiller şunlardır: daire, kare, üçgen
Şimdi (num_colors * num_shapes) = 3 * 3 = 9 olası kümelere sahip olabiliriz.
Çocuk oyuncakları şu şekilde toplar:
- CLUSTER A) mavi top ve mavi frebebe içerir, çünkü aynı renk ve şekle sahiptir.
- KÜMELE B) süper komik yeşil küpü içerir
Sadece bu 2 boyutu (renk, şekil) kullanarak 2 boş olmayan kümeye sahibiz: bu nedenle bu ilk durumda alanımızın% 7 / 9'u% 77'si boş.
Şimdi çocuğun göz önünde bulundurması gereken boyut sayısını artıralım. Bir oyuncağın nasıl yapılabileceği ile ilgili şu hipotezi de yaparız:
- Oyuncunun boyutu birkaç santimetre ile 1 metre arasında değişebilir, on santimetre adımda: 0-10cm, 11-20cm, ..., 91cm-1m
- Oyuncağın ağırlığı, 100 kilogramlık adımlarla 1 kilograma kadar benzer şekilde değişebilir: 0-100g, 101-200g, ..., 901g-1kg.
ŞİMDİ oyuncaklarımızı kümelemek istiyorsak, (num_colors * num_shapes * num_sizes * num_weights) = 3 * 3 * 10 * 10 = 900 olası kümelerimiz var.
Çocuk oyuncakları şu şekilde toplar:
- CLUSTER A) mavi futbol topunu içerir çünkü mavi ve ağırdır
- KÜMELE B) mavi renklidir, çünkü mavi ve ışıklıdır.
- CLUSTER C) süper komik yeşil küpü içeriyor
Mevcut 4 boyutun kullanılması (şekil, renk, boyut, ağırlık) sadece 3 küme boş değil: bu durumda boşluğun% 897/900 ~ 99,7'si boş.
Bu Vikipedi'de bulduklarınıza bir örnektir ( https://en.wikipedia.org/wiki/Curse_of_dimensionality ):
... boyutluluk arttıkça, alanın hacmi o kadar hızlı artar ki, mevcut veriler seyrekleşir.
Düzenleme: Çocuğa neden yüksek-boyutlu alanlarda mesafenin bazen yanlış gittiğini gerçekten açıklayabileceğimden emin değilim, ama hadi çocuk ve oyuncakları örneğimize devam etmeye çalışalım.
Sadece ilk 2 özelliği {color, shape} düşünün, herkes mavi topun mavi küpün yeşil küpten daha fazla benzer olduğunu kabul eder.
Şimdi diğer 98 özelliği ekleyelim: {say: boyut, ağırlık, day_of_production_of_the_toy, malzeme, yumuşaklık, day_in_which_the_toy_was_bought_by_daddy, fiyat vb.
Yani:
- Çok sayıda özellik, benzerliğin belirli bir karşılaştırmasında önemsiz olabilir ve bu da sinyal-gürültü oranının bozulmasına neden olabilir.
- Yüksek boyutlarda, tüm örnekler "benziyor".
Beni dinlerseniz, iyi bir ders "Makine Öğrenmesi Hakkında Bilmeniz Gereken Birkaç Yararlı Şey" dir ( http://homes.cs.washington.edu/~pedrod/papers/cacm12.pdf ), özellikle 6. paragraf bunu Bir çeşit akıl yürütme.
Bu yardımcı olur umarım!