T-SNE çıkışında kümeleme

78

Kümelerin içindeki alt grup etkilerini aramadan önce gürültülü bir veri kümesini kümelemenin kullanışlı olacağı bir uygulama buldum. İlk önce PCA'ya baktım, ancak değişkenliğin% 90'ını elde etmek ~ 30 bileşen alıyor, bu nedenle yalnızca birkaç PC'ye kümelemek çok fazla bilgiyi atıyor.

Daha sonra t-SNE'yi denedim (ilk defa), bu bana k-araçlarıyla kümelemeye çok uygun iki boyutta tuhaf bir şekil verir. Dahası, sonuç olarak küme atamasıyla veriler üzerinde rastgele bir orman çalıştırmak, kümelerin ham verileri oluşturan değişkenler açısından sorunun bağlamında verilen oldukça mantıklı bir yorumuna sahip olduğunu göstermektedir.

Ama eğer bu kümeler hakkında rapor vereceksem, onları nasıl tarif ederim? K-aracı temel bileşenler üzerindeki kümeler, veri kümesindeki varyansın% X'ini oluşturan türetilmiş değişkenler açısından birbirine yakın olan bireyleri ortaya koymaktadır. T-SNE kümeleri hakkında hangi eşdeğer ifadeler yapılabilir?

Belki de etkisine bir şey:

t-SNE, altında yatan yüksek boyutlu bir manifoldda yaklaşık bitişikliği gösterir, böylece yüksek boyutlu alanın düşük boyutlu gösterimi üzerindeki kümeler, bitişik bireylerin aynı kümede olmayacağı "olasılığını" en üst düzeye çıkarır

Bundan daha iyi bir bulanıklık öneren var mı?

— generic_user
kaynak

1

Bu hilenin, kümeleri, azaltılmış uzayda değişkenlerden ziyade orijinal değişkenlere dayanarak tanımlamak olduğunu düşünürdüm.

— Tim

1

Doğru, ancak küme ataması algoritmasının hangi amacı en aza indirdiğine dair kısa ve sezgisel bir açıklama yoksa, istediğim sonuçları elde etmeyi kolaylaştıran bir kümeleme algoritması seçme suçlamalarına açık olabilirim.

— generic_user

1

Bazı uyarılar ve t-SNE ile ilgili güzel görseller için distill.pub/2016/misread-tsne

— Tom Wenseleers 19:18

96

T-SNE ile ilgili sorun, mesafeleri veya yoğunluğu korumamasıdır. Sadece bir dereceye kadar en yakın komşuları korur. Fark ince, ancak herhangi bir yoğunluk veya mesafe tabanlı algoritmayı etkiler.

Bu etkiyi görmek için, sadece çok değişkenli bir Gauss dağılımı oluşturun. Bunu görselleştirirseniz, çok uzaktaki bazı ayraçlarla birlikte, yoğun ve dışarıdan çok daha az yoğunlaşan bir topunuz olacaktır.

Şimdi bu veri üzerinde t-SNE'yi çalıştırın. Genellikle düzgün bir yoğunlukta bir daire elde edersiniz. Düşük bir şaşkınlık kullanırsanız, orada bazı garip desenleri bile olabilir. Ama artık aykırı şeyleri gerçekten anlatamazsın.

Şimdi işleri daha karmaşık hale getirelim. Normal dağılımda (-2,0) 250 puan, normal dağılımda (-2.0) 750 puan kullanalım.

Bunun EM gibi kolay bir veri kümesi olması gerekiyordu:

T-SNE'yi 40 varsayılan sapma ile çalıştırırsak, garip şekilli bir desen elde ederiz:

Fena değil, aynı zamanda kümelenmesi de o kadar kolay değil, değil mi? Burada tam olarak istediğiniz şekilde çalışan bir kümeleme algoritması bulmakta zorlanacaksınız. Ve insanlardan bu verileri kümelemesini isteseniz bile, büyük olasılıkla burada 2'den fazla küme bulacaklardır.

T-SNE'yi 20 gibi çok küçük bir şaşkınlıkla çalıştırırsak, var olmayan bu kalıplardan daha fazlasını elde ederiz:

Bu, örneğin DBSCAN ile kümelenecek, ancak dört küme verecek. Bu yüzden dikkatli olun, t-SNE "sahte" desenler üretebilir!

Optimum şaşkınlık bu veri seti için 80 civarında bir yer gibi gözüküyor; ancak bu parametrenin diğer tüm veri kümeleri için çalışması gerektiğini düşünmüyorum.

Şimdi bu görsel olarak hoş, ancak analiz için daha iyi değil . Bir insan noteri muhtemelen bir kesim seçip düzgün bir sonuç alabilir; k-aracı bu çok kolay senaryoda bile başarısız olur ! Yoğunluk bilgilerinin kaybolduğunu zaten görebiliyorsunuz , tüm veriler aynı yoğunlukta bir alanda yaşıyor gibi görünüyor. Bunun yerine şaşkınlığı daha da arttırırsak, bütünlük artar ve ayrılık tekrar düşer.

Sonuç olarak, görselleştirme için t-SNE kullanın (ve görsel olarak hoş bir şey elde etmek için farklı parametreler deneyin!), Ancak daha sonra özellikle kümelenmeyi çalıştırmayın , özellikle de bu bilginin kasıtlı olarak (!) Olduğu gibi mesafe veya yoğunluk tabanlı algoritmalar kullanmayın. kayıp. Mahalle grafiği temelli yaklaşımlar iyi olabilir, ancak önce t-SNE'yi önceden çalıştırmanız gerekmez, hemen komşuları kullanın (çünkü t-SNE bu nn grafiğini büyük ölçüde bozulmadan tutmaya çalışır).

Daha fazla örnek

Bu örnekler için hazırlanmıştır sunum (ama bulunamaz kağıt içinde daha sonra bu deneyi yaptığı gibi, henüz kağıt)

Erich Schubert ve Michael Gertz.
İçsel-Stokastik Komşu Görselleştirme ve Ölü Tespit Tespiti için Gömülü - Boyutluluk Lanetine Karşı Bir Çözüm?
In: 10. Uluslararası Benzerlik Arama ve Uygulamaları Konferansı (SISAP), Münih, Almanya. 2017

İlk önce, bu girdi verisine sahibiz:

Tahmin edebileceğiniz gibi, bu çocuklar için bir "renk beni" görüntüden türetilmiştir.

Bunu SNE'den geçirirsek ( t-SNE değil, önceki sürüm ):

Vay, balıklarımız oldukça deniz canavarı oldu! Çekirdek boyutu yerel olarak seçildiğinden, yoğunluk bilgilerinin çoğunu kaybederiz.

Ancak t-SNE'nin çıktısı sizi gerçekten şaşırtacak:

Aslında iki uygulamayı denedim (ELKI ve sklearn uygulamaları) ve ikisi de böyle bir sonuç üretti. Bağlantısız bazı parçalar, ancak her biri orijinal verilerle bir şekilde tutarlı görünüyor.

Bunu açıklamak için iki önemli nokta:

SGD yinelemeli bir iyileştirme prosedürüne dayanır ve yerel optimuma sıkışabilir. Bu, özellikle, algoritmanın, yansıtılmış olan verinin bir bölümünü "çevirmesini" zorlaştırır, çünkü bu, ayrı olması gereken başkaları arasında hareket eden noktaları gerektirir. Dolayısıyla, balığın bazı kısımları yansıtılmışsa ve diğer kısımları yansıtılmamışsa, bunu düzeltemeyebilir.
t-SNE, yansıtılan alandaki t-dağılımını kullanır. Düzenli SNE tarafından kullanılan Gauss dağılımının aksine, bu, çoğu noktanın birbirini iteceği anlamına gelir , çünkü bunlar giriş alanındaki 0 yakınlığına sahiptir (Gaussian hızlı bir şekilde sıfır alır), ancak çıktı alanındaki> 0 yakınlığına sahiptir. Bazen (MNIST'te olduğu gibi) bu daha güzel görselleştirme yapar. Özellikle, bir veri kümesini girdi alanından biraz daha fazla "bölmeye" yardımcı olabilir . Bu ilave itme, çoğu zaman, noktaları istenen bir şekilde kullanmanın daha düzgün bir şekilde kullanılmasına neden olur. Ancak burada bu örnekte, itici etkiler aslında balık parçalarının ayrılmasına neden olur.

Biz (bu konu hakkında yardımcı olabilir oyuncak (genellikle T-SNE ile kullanıldığı gibi) yerine rasgele koordinatları daha ilk kez yerleştirildiğinde orijinal koordinatlar kullanılarak veri setinin) ilk konu. Bu kez, görüntü ELKI yerine sklearn, çünkü sklearn sürümü zaten başlangıç koordinatlarını geçmek için bir parametreye sahipti:

Gördüğünüz gibi, "mükemmel" ilk yerleşimde bile, t-SNE, balıkları başlangıçta bağlanmış olan birkaç yerde "kıracak" çünkü çıktı alanındaki Student-t itmesi girdideki Gaussian afinitesinden daha güçlü alan, boş yer, mekan.

Gördüğünüz gibi, t-SNE (ve SNE de!) İlginç görselleştirme teknikleridir ancak dikkatle ele alınmaları gerekir. Sonuçta K-aracı kullanmamayı tercih ederim! çünkü sonuç ağır şekilde çarpıtılır ve mesafeler veya yoğunluk iyi korunmaz. Bunun yerine, görselleştirme için kullanmak yerine.

— Erich Schubert
kaynak

1

Cevap için teşekkürler. Mahalle temelli uyarlamalı kümeleme yöntemlerini hayal edebiliyorum, ancak önerebileceğiniz herhangi bir iyi gelişmiş yöntem var mı?

— generic_user

1

CHAMAELEON muhtemelen en çok atıfta bulunulan, ancak çekirdek adım için sadece bir ikili var gibi görünüyor. Fikir kulağa hoş geliyor, ancak t-SNE'nin görünür kıldığı efektleri hemen deneyimleyeceksiniz. Bu eğilim olarak vb hub ve anti-göbekleri, p = 20, problemlerle görüldüğü gibi "flok" için

— Erich Schubert

2

@AlexR: Eğiklik, t-sne'nin 2D olarak eşleştirmeye çalıştığı yüksek boyutlu alandaki benzerlikleri hesaplamak için kullanılır. Şaşkınlığın değiştirilmesi benzerliklerin değiştirilmesi anlamına gelir, bu nedenle ortaya çıkan KL farklılıklarının karşılaştırılmasının ne kadar anlamlı olabileceğini anlamıyorum.

— amip

1

@AlexR. “Yalnızca düşük boyutlu boşluğun koşullu olasılığı şaşkınlığa bağlıdır” - bu ifade yanlıştır. Şaşkınlık, denklem (1) için ihtiyaç duyulan sigmaları seçmek için kullanılır, bu nedenle cond'i etkiler. probs. içinde tam boşluk.

— amip

1

Bazı uyarılar ve t-SNE ile ilgili güzel görseller için distill.pub/2016/misread-tsne

— Tom Wenseleers 19:18

34

@ErichSchubert tarafından iyi tartışılan (+1) ve son derece olumlu cevapları hakkında biraz muhalif bir görüş bildirmek istiyorum. Erich yok değil t-SNE çıkışına kümeleme tavsiye ve yanıltıcı olabilir bazı oyuncak örnekleri gösterir. Önerisi, bunun yerine orijinal verilere kümelemeyi uygulamak.

görselleştirme için t-SNE kullanın (ve görsel olarak hoş bir şey elde etmek için farklı parametreler deneyin!), ancak daha sonra özellikle kümelenmeyi çalıştırmayın, özellikle bu bilgi kasıtlı olarak (!) kaybolduğu için mesafe veya yoğunluk tabanlı algoritmalar kullanmayın.

T-SNE çıktılarının yanıltıcı olabileceğinin farkındayım (bkz. Https://distill.pub/2016/misread-tsne/ ) ve bazı durumlarda garip sonuçlar verebileceğini kabul ediyorum.

Fakat bazı gerçek yüksek boyutlu verileri düşünelim.

MNIST verilerini alın : 70000 tek haneli görüntüler. Verilerde 10 sınıf olduğunu biliyoruz. Bu sınıflar, bir insan gözlemciye iyi ayrılmış gibi görünmektedir. Ancak, MNIST verilerinin 10 kümeye kümelenmesi çok zor bir problemdir. Verileri 10 kümeye doğru şekilde kümeleyen herhangi bir kümeleme algoritmasının farkında değilim ; Daha da önemlisi, verilerde 10 (az değil) küme olduğunu gösteren herhangi bir kümelenme sezgiselinin farkında değilim. En yaygın yaklaşımların bunu gösteremeyeceğinden eminim.

Ama onun yerine t-SNE yapalım. (Kişi çevrimiçi olarak MNIST'e uygulanan birçok t-SNE rakamı bulabilir, ancak bunlar genellikle düşüktür. Tecrübelerime göre, iyi sonuçlar almak için epeyce erken abartı yapmak gerekiyor. Aşağıda kullanıyorum perplexity=50, max_iter=2000, early_exag_coeff=12, stop_lying_iter=1000). İşte ne elde edersem, etiketlenmemiş solda ve sağdaki gerçeğe göre renklendirilmiş:

Etiketlenmemiş t-SNE temsilinin 10 küme önerdiğini iddia ediyorum. HDBSCAN gibi iyi bir yoğunluğa dayalı kümeleme algoritmasının dikkatlice seçilmiş parametrelerle kullanılması bu 2B verilerin 10 kümeye kümelenmesine olanak sağlayacaktır.

Burada birisi gerçekten yukarıda sol arsa 10 kümeleri önerir şüphe edecek, burada ben ayrıca çalıştırmak "geç abartı" hile ile elde ediyoruz max_iter=200ile yinelemeleri exaggeration=4: (bu hüner bu büyük kağıt sürülmektedir https://arxiv.org /abs/1712.09005 ):

Şimdi 10 küme olduğu çok açık olmalıdır .

T-SNE'den sonra kümelenmeyi düşünen herkesi, nispeten iyi bir sonuç elde edecek bir kümeleme algoritması göstermek için kötü bir fikir olduğunu teşvik ediyorum.

Ve şimdi daha da gerçek veriler.

MNIST vakasında temel gerçeği biliyoruz. Şimdi bilinmeyen temel gerçeği olan bazı verileri düşünün. Kümeleme ve t-SNE, tek hücreli RNA-sekans verilerindeki hücre değişkenliğini tanımlamak için rutin olarak kullanılır. Örneğin Shekhar ve diğ. 2016, 27000 retinal hücre arasındaki kümeleri belirlemeye çalıştı (fare genomunda yaklaşık 20k gen var, bu nedenle verinin boyutsallığı prensipte 20k civarındadır, ancak genellikle PCA ile boyutsallığın 50'ye kadar düşürülmesiyle başlar). T-SNE yaparlar ve ayrıca kümeleme yaparlar (bazı küme birleşmeleri vb. Tarafından takip edilen karmaşık bir kümeleme boru hattı). Nihai sonuç hoş görünüyor:

Çok hoş görünmesinin nedeni, t-SNE'nin açıkça belirgin kümeler üretmesi ve kümeleme algoritmasının aynı kümeleri vermesidir. Güzel.

Ancak, eklere bakarsanız, yazarların birçok farklı kümeleme yaklaşımını denediklerini göreceksiniz. Birçoğu t-SNE arsa üzerinde berbat görünüyor, çünkü büyük merkezi küme birçok alt kümeye bölünüyor:

Öyleyse neye inanıyorsunuz: Favori kümelenme algoritmanızın, küme sayısını belirlemek için favori buluşmanızla birlikte çıktısını ya da t-SNE grafiği üzerinde ne gördüğünüzü düşünüyorsunuz? Dürüst olmak gerekirse, t-SNE'nin tüm eksikliklerine rağmen, t-SNE'ye daha fazla inanma eğilimindeyim. Ya da her durumda, neden daha az inanmam gerektiğini anlamıyorum .

— amip
kaynak

2

Ve son örnek için, esasen yukarıda @ErichSchubert'in gözlemlediği şey bu değil: görsel olarak "hoş" sonuçlar elde edebilirsiniz - bu açıkça yanlış mı? Şaşkınlık 20 ile olduğu gibi? Bu tSNE'nin ayrılmayan kısımlarını (balıktaki gibi) ayırmayı sevdiğini mi? Peki gördüğünüz kümelerin gerçekten ayrı kümeler olduğunu biliyor musunuz? Buradaki kara kutuyu sevmiyorum. Evet, bu tür alanlara daha fazla inanmaya meyilliyiz , ama ya yanılıyorsa?

— Anony-Mousse

1

Eh, tSNE NN tabanlıdır. Bununla bir anlaşmaya varılması bekleniyor. tSNE, NN'yi görselleştirmek için iyi bir seçimdir. Yine de benzerlikleri iyi korumaz, bu yüzden anladığım kadarıyla dikkatle yorumlanmalı. TSNE'deki bir boşluk, büyük bir mesafe anlamına gelmez.

— Anony-Mousse

1

+1 UMAP'nin t-SNE ile karşılaştırıldığında nasıl bir performans sergilediğini merak ediyorum .

— Paul

1

@ Paul: yazar, hesaplama süresi açısından UMAP'ın üstünlüğünü iddia eder. MNIST veri kümesinde UMAP'in t-SNE'den daha iyi gömülme oluşturduğunu ancak diğer veri kümelerinden emin olmadığımı biliyorum. Bildiğim kadarıyla, son zamanlarda önceki en hızlı t-SNE'den çok daha hızlı olan t-SNE'nin bir CUDA sürümü var, ancak kurup test edemedim.

— SiXUlm

1

@SiXUlm github.com/KlugerLab/FIt-SNE Barnes-Hut t-SNE çok daha hızlı çalışır ve genellikle hızlı UMAP daha. Ayrıca, birçok durumda, bazı ek tweaks kullanılarak t-SNE ile çok benzer bir gömme elde edilebilir, örneğin MNIST'de küçük abartılı t-SNE, UMAP ile hemen hemen aynı şeyi verir, FIt-SNE deposundaki Python not defterine bakın.

— amip

6

Büyük çaplı şaşkınlıkla t-SNE'nin https://distill.pub/2016/misread-tsne/ de belirtildiği gibi küresel topolojiyi yeniden yapılandırabileceğini düşünüyorum .

Balık görüntüsünden, t-SNE için 4000 puan örneklemiştim. Büyük bir şaşkınlıkla (2000), balık görüntüsü neredeyse yeniden inşa edildi.

Orijinal görüntü burada.

Burada, t-SNE tarafından şaşkınlık = 2000 ile yeniden oluşturulan görüntü.

— renxwise
kaynak

8

Böyle yüksek bir şaşkınlık seçerseniz, artık gerçekten tSNE değildir. Her nokta yaklaşık olarak her gün komşudur. Artık yerel değil. Evet, 2d'lik bir görüntü daha sonra yaklaşık olarak yeniden oluşturulabilir, çünkü 2d'dir. Ama her şeyi yapmamak hiç kolay değil.

— Anony-Mousse

1

Benim düşüncem tSNE'nin büyük bir şaşkınlıkla küresel topolojiyi yeniden yapılandırabileceğidir. 2d imgesi, gerçek boyutsallığı 2 olduğu için bir örnektir. Gerçek tSNE uygulaması, yerel veya küresel özellikleri yakalamak amacına göre uygun bir şaşkınlık seçmelidir.

— renxwise

1

Bu yüksek şaşkınlıklar aşırı büyük bir "çekirdek" kullandığınız ve etkili bir şekilde yalnızca mesafeler kullandığınız anlamına gelir. Daha sonra muhtemelen yaklaşık ve çok pahalı bir MDS'ye dejenere olur. Sadece MDS kullanın o zaman. SNE / tSNE gerçekten küçük şaşkınlıklar ve yerel mahallelerle kullanılmalıdır.

— Erich Schubert,

3

Kesinlikle. Şaşkınlık yeterince büyük olduğunda, tSNE gerçekten de tSNE'nin küresel yapıyı da yakalayabildiğini gösteren MDS'ye yaklaşık bir değerdir. Bu nedenle, tSNE'nin yalnızca yerel yapıları yakalayabildiği ifadeleri doğru değildir. MDS'den farklı olarak, tSNE, şaşkınlık seçimi yoluyla yerel ve küresel yapılar arasında denge kurabilir. Açıkçası, şaşkınlık seçimi veri setine bağlıdır.

— saat

Mantıklı şaşkınlığı seçmek için herhangi bir kural var mı?

— Catbuilts,

5

Elimizdeki matematiksel kanıtlara dayanarak, bu yöntem teknik olarak mesafeleri koruyabilir! neden hepiniz bu özelliği yok sayıyorsunuz! t- SNE, numuneler arasındaki yüksek boyutlu Öklid mesafelerini benzerlikleri temsil eden koşullu olasılıklara dönüştürüyor. Denedim t GMM kümelenme ile önemlisi Spektral kümeleme, Affinity dahil olmak üzere farklı konsensüs kümeleme algoritmaları ile paralel olarak (genomik bağlamında) fazla 11.000 örnekleri ile -SNE (yoğunluk tabanlı kümeleme algoritmasıdır!). Sonuç olarak, iki yaklaşım arasındaki çok iyi uyumlu bir sonuç bulunamadı ( t-SNE vs. konsensüs kümeleme algoritmaları). T-SNE'yi konsensüs kümeleme algoritmalarıyla entegre etmenin mevcut yerel ve küresel veri yapılarının en iyi kanıtını sağlayabileceğine inanıyorum.

— Reza Rafiee
kaynak

T-SNE'nin mesafeleri koruma olasılığını etkileyecek parametreler var mı?

— Keith Hughitt

Bunlar fikir birliği kümeleme algoritmaları değildir. Konsensüs kümeleme, son kümeleme sonucunu elde etmek için kümeleme algoritmasını parametreler veya girdi verilerindeki bazı değişikliklerle yinelemenin sonuçlarını toplayan bir tür topluluk öğrenmedir. Mutabakat kümeleme yaklaşımlarını spektral kümeleme ya da GMM ile ya da gerçekten herhangi bir kümeleme algoritmasıyla kullanabilirsiniz, ancak terminolojinizdeki nokta biraz kapalı, hepsi bu kadar :)

— Christopher John

1

DBSCAN kümeleme algoritmasını deneyebilirsiniz. Ayrıca, tsne'nin katkısı beklenen en küçük küme ile aynı boyutta olmalıdır.

— James LI
kaynak

0

Şahsen, bunu bir kez yaşadım, ancak t-SNE veya PCA ile değil. Orijinal verilerim 15 boyutlu uzayda. 2B ve 3B gömme işlemlerine azaltmak için UMAP kullanarak, hem 2B hem de 3B grafiklerde 2 mükemmel ve görsel olarak ayrılabilir kümeye sahibim. Gerçek olamayacak kadar iyi. Ancak, kalıcılık şemasındaki orjinal verilere "baktığımda", sadece 2 değil, çok daha "önemli" kümeler olduğunu fark ettim.

Boyut küçültme tekniğinin çıktısı üzerine kümeleme çok dikkatli yapılmalıdır, aksi takdirde herhangi bir yorum çok yanıltıcı ya da yanlış olabilir, çünkü boyut küçültme kesinlikle özellik kaybına neden olabilir (belki gürültülü ya da gerçek özellikler, ancak bir öncelik hangisini bilmiyorum). Kanımca, kümeleri güvenebilir / yorumlayabilirsiniz, eğer:

Yansıtılan verideki kümeler, bir priori tanımlayan bazı sınıflandırmalara karşılık gelir / onaylar (önceden belirlenmiş veri kümelerinin rakamların sınıflandırmasıyla çok iyi uyuştuğu MNIST veri kümesini düşünün) ve / veya
Kalıcılık diyagramları gibi diğer yöntemleri kullanarak bu kümelerin orjinal verilerdeki varlığını onaylayabilirsiniz. Sadece bağlı bileşenlerin sayısının sayılması oldukça makul bir sürede yapılabilir.

— SiXUlm
kaynak

Neden UDAP'tan daha çok "kalıcılık şemasına" güveniyorsunuz? Kalıcılık şemasına bakmanın "orijinal verilere bakma" olarak tanımlanabileceğini sanmıyorum ...

— amip

Haklısın. Kalıcılık diyagramı sadece orijinal verilerin bazı özelliklerini, en sık bağlı bileşenlerin, 1 boyutlu deliklerin ve pahalı hesaplamalar nedeniyle çok daha nadir, 2 veya daha fazla boyutlu deliklerin özelliklerini gösterir. Bu yüzden , ilgili kalıcılık şemasına bakarak orijinal verilere sadece kısmen bakabileceğimi söylemeliydim . Ancak, bu kalıcılık diyagramından gözlemlediklerime güvenebilirim çünkü doğrudan orijinal verilerden inşa edilmiştir.

— SiXUlm

Aksine, UMAP veya başka herhangi bir boyut küçültme tekniğini kullanarak, yalnızca orijinal verilerin yansıtılan / değiştirilmiş bir sürümüyle çalışırız. En çok oylanan cevabın işaret ettiği gibi, kümelenme farklı parametre seçenekleri için farklı olabilir.

— SiXUlm