Yüksek boyutlu verileri görselleştirmenin amacı?


23

T-SNE, isomap, PCA, denetimli PCA, vb. Gibi yüksek boyutlu veri kümelerini görselleştirmek için birçok teknik var. Verileri 2B veya 3B alana yansıtma hareketlerini gerçekleştiriyoruz, bu yüzden "güzel resimlerimiz var" ". Bu yerleştirme (manifold öğrenme) yöntemlerinden bazıları burada açıklanmaktadır .

görüntü tanımını buraya girin

Ama bu "güzel resim" aslında anlamlı mı? Birisi bu gömülü alanı görselleştirmeye çalışırken hangi kavrayışları yakalayabilir?

Soruyorum çünkü bu gömülü alana yansıtma genellikle anlamsız. Örneğin, verilerinizi PCA tarafından oluşturulan ana bileşenlere yansıtırsanız, bu ana bileşenler (eiganvectors) veri kümesindeki özelliklere karşılık gelmez; onlar kendi özellik alanlarıdır.

Benzer şekilde, t-SNE verilerinizi, bazı KL farklılıklarını en aza indirgerlerse öğelerin birbirine yakın olduğu bir alana yansıtır. Bu artık orijinal özellik alanı değil. (Yanlışysam beni düzelt, ancak ML topluluğu tarafından sınıflamaya yardımcı olmak için t-SNE'yi kullanma konusunda büyük bir çaba olduğunu sanmıyorum; bu yine de veri görselleştirmesinden farklı bir sorun.)

İnsanların bu görselleştirmelerden bazıları hakkında neden bu kadar önemli olduklarına çok karıştı.


Bu sadece "güzel resim" ile ilgili değil, aynı zamanda yüksek boyutlu verileri görselleştirmenin amacı normal 2/3 boyutlu verileri görselleştirmek için aynıdır. örneğin korelasyon, sınırlar ve aykırı değerler.
eliasah

@eliasah: Bunu anlıyorum. Ancak, verilerinizi yansıttığınız alan artık orijinal alan değildir; bu, yüksek boyutlardaki bazı şekilleri bozabilir. Diyelim ki 4 boyutlu bir blobunuz var. 2D ya da 3D'ye yansıttığınız anda, yapınız zaten tahrip olmuştur.
hlin117

Veriler, sizin çiziminizde olduğu gibi düşük boyutlu bir manifoldda yatıyorsa olmaz. Bu manifoldu belirlemek manifold öğrenmenin amacıdır.
Emre,

Yanıtlar:


9

Doğal Dil İşleme'yi örnek olarak alıyorum, çünkü bu benim daha fazla deneyime sahip olduğum alandır, bu yüzden başkalarını bilgisayar vizyonu, Bilgisayarla Görme, Biyoistatistik, zaman serileri vb. Gibi diğer alanlarda paylaşmaya teşvik ediyorum. benzer örnekler.

Bazen model görselleştirmelerinin anlamsız olabileceğine katılıyorum, ancak bu tür görselleştirmelerin asıl amacının modelin gerçekten insan sezgisine mi yoksa başka bir (hesaplama dışı) modelle mi ilgili olduğunu kontrol etmemize yardımcı olduğunu düşünüyorum. Ek olarak, veri üzerinde Keşif Veri Analizi yapılabilir.

Gensim kullanarak Wikipedia'nın corpus'undan inşa edilmiş bir kelime gömme modelimiz olduğunu varsayalım.

model = gensim.models.Word2Vec(sentences, min_count=2)

O zaman o korpusta temsil edilen her kelime için en az iki kez mevcut olan 100 boyutlu bir vektöre sahip olurduk. Dolayısıyla, bu kelimeleri görselleştirmek isteseydik, t-sne algoritmasını kullanarak onları 2 veya 3 boyuta indirgememiz gerekirdi. Burası çok ilginç özelliklerin ortaya çıktığı yerdir.

Örnek al:

vektör ("kral") + vektör ("erkek") - vektör ("kadın") = vektör ("kraliçe")

http://multithreaded.stitchfix.com/blog/2015/03/11/word-is-worth-a-thousand-vectors/

Burada her yön belirli anlamsal özellikleri kodlar. Aynı 3d yapılabilir

https://www.tensorflow.org/versions/master/images/linear-relationships.png
(kaynak: tensorflow.org )

Bu örnekte geçmiş zamanın, katılımcısına ilişkin belirli bir konumda nasıl bulunduğunu görün. Cinsiyet için aynı. Ülkeler ve başkentlerle aynı.

Dünyayı gömme kelimesinde, daha yaşlı ve daha naif modeller bu özelliğe sahip değildi.

Daha fazla bilgi için bu Stanford konferansına bakın. Basit Kelime Vektör temsilleri: word2vec, GloVe

Sadece anlambilim açısından bakılmaksızın benzer kelimeleri bir araya getirmekle sınırlı kaldılar (cinsiyet veya fiil zamanları yön olarak kodlanmadı). Şaşırtıcı olmayan bir şekilde, düşük boyutlardaki yönler olarak semantik kodlamaya sahip modeller daha doğrudur. Daha da önemlisi, her veri noktasını daha uygun bir şekilde keşfetmek için kullanılabilirler.

Bu özel durumda, t-SNE'nin sınıflandırmaya yardımcı olmak için kullanıldığını sanmıyorum, daha çok modeliniz için bir akıl sağlığı kontrolü gibi ve bazen kullandığınız korpus hakkında fikir edinmek için kullanılıyor. Vektörlerin problemine gelince, artık orijinal özellik alanında bulunmamakta. Richard Socher, derste (yukarıda verilen bağlantıda) düşük boyutlu vektörlerin, istatistiksel dağılımları kendi daha büyük gösterimleriyle, vektörleri daha düşük boyutlarda görsel olarak analiz etmeyi kolaylaştıran diğer istatistiksel özelliklerle paylaştığını açıklar.

Ek kaynaklar ve İmaj Kaynakları:

  1. http://multithreaded.stitchfix.com/blog/2015/03/11/word-is-worth-a-thousand-vectors/

  2. https://www.tensorflow.org/tutorials/word2vec/index.html#motivation_why_learn_word_embeddings%3F

  3. http://deeplearning4j.org/word2vec.html

  4. https://www.tensorflow.org/tutorials/word2vec/index.html#motivation_why_learn_word_embeddings%3F


11

Her şeyden önce, yöntemler hakkındaki açıklamalarınız doğrudur. Nokta Gömme algoritmaları sadece görselleştirmek için değil ama temelde, yani İstatistiksel Veri Analizi iki ana sorunları ile başa çıkmak için dimentionality azaltarak olmasıdır Dimentionaliy ait Lanet ve Düşük Numune Boyutu Problem fiziksel özellikleri anlayarak tuttukları depict gerekiyordu böylece sadece anlamlı değil, aynı zamanda veri analizi için de gereklidir!

Aslında görselleştirme, gömme yöntemlerinin neredeyse son kullanımıdır. Yüksek boyutlu verilerin daha düşük boyutlu bir alana yansıtılması, yüksek boyutlarda çarpık olan ya da farklı özelliklerin varyansına gömülü en fazla bilgiyi yakalayan gerçek çift mesafeli mesafeleri (özellikle Öklid'ci) korumaya yardımcı olur.


10

Richard Hamming şu cümleyle atfedilmiştir: "Hesaplamanın amacı içgörüdür, sayılar değil." Bu 1973 akademik makalesinde (bkz. Tartışma, tamamen farklı görünen ancak benzer özet istatistiklere sahip olan ünlü veri kümesi nedir?)Francis Anscombe “grafiklerin iyi istatistiksel analiz için gerekli olduğunu” savunuyor. Anscombe'nın dörtlüsü uzun zamanların favorisi: aynı istatistikler ve gerileme, düşük boyut, ancak gürültü, aykırı değer, bağımlılık konusunda çok farklı davranışlar. 11 boyutta verinin aşağıda gösterilen iki boyuta yansıtılması oldukça yanıltıcıdır: birinin korelasyonu ve dağılımı vardır, ikincisi (aşağıdan aşağıya), biri hariç olmak üzere tam eşleşmeye sahiptir. Üçüncüsü açık bir ilişkiye sahiptir ancak doğrusal değildir. Dördüncü, değişkenlerin eşik dışında potansiyel olarak ilişkili olmadığını göstermektedir.

görüntü tanımını buraya girin

Bruce L. Brown ve ark. , Biyo-Davranış ve Sosyal Bilimler için Çok Değişkenli Analiz kitabında . , bulabiliriz:

Latour, 1990’daki “Şeyleri Bir Arada Çizme” adlı çalışmasında, sert bilim adamlarının zihniyetinin, grafiğe karşı yoğun bir “takıntı” olduğunu söylüyor

Üç boyutlu alanla, altı boyutsal çizime (alan, renk, şekil ve zaman) kadar, hatta onuncu boyutu hayal edip etmediklerine bakılmaksızın insanlar sınırlı manzaralara sahipler. Gözlenebilir fenomenler arasındaki ilişkiler: hayır.

Ek olarak, boyutların laneti birkaç tane vermek için düşük boyut paradoksları ile bile karıştırılır:

Tüm normlar sonlu boyutlarda eşdeğer olsa bile değişkenler arasındaki ilişkiler yanıltıcı olabilir. Bu, mesafeleri bir uzaydan diğerine korumak için bir nedendir. Bu tür kavramlar, sinyaller (örneğin , yüksek boyutludan düşük boyutlu Öklid uzayına noktaların düşük distorsiyonlu gömülmelerine ilişkin sıkıştırma algılaması ve Johnson-Lindenstauss lemması gibi ) veya özelliklerin ( sınıflandırmalar için saçılma dönüşümleri) için düşük boyutlu yerleştirmelerin kalbidir. .

Bu yüzden görselleştirme, verilerde iç görü elde etmede bir başka yardımcıdır ve boyut küçültme dahil hesaplamalar ile el ele gider.

nn

Pizza kutusu paradoks

İki boyutta, ortadaki mavi top küçüktür. 3D de. Fakat çok hızlı bir şekilde, merkez top büyür ve yarıçapı küpünkinden fazladır. Bu içgörü, örneğin kümelenme için hayati öneme sahiptir.


4

Yapılan açıklamalara ve tartışmalara dayanarak, ayırt edilmesi gereken önemli bir nokta olduğunu düşünüyorum. Daha düşük boyutlu bir alana dönüşüm , bilgiyi anlamsız hale getirmekten farklı bir şey olan bilgiyi azaltabilir . Aşağıdaki analojiyi kullanmama izin verin:

Dünyamızın (2B) resimlerini gözlemlemek (3B) olağan bir uygulamadır. Bir görselleştirme yöntemi, yüksek boyutlu bir boşluk görmek için yalnızca farklı “gözlükler” sağlar.

Bir görselleştirme yöntemine “güvenmek” için iyi bir şey, iç kısımları anlamaktır. En sevdiğim örnek MDS . Bazı optimizasyon araçlarını kullanarak bu yöntemi kendi başınıza uygulamak kolaydır (örn. R optim ). Yapabilecekleriniz Yani bakın nasıl bir yöntem kelimeleri, belgeyi hatayı ölçmek sonucun vb

Sonunda, orijinal verilerin benzerliğini bir derece hassasiyetle koruyan bir resim elde edersiniz. Daha fazla değil, daha az değil.


4

Bazen yüksek fiziki verileri görselleştirmek anlamlıdır çünkü bize fizik gösterebilir.

Astrofizikte, verilerinizi PCA tarafından üretilen temel bileşenlere yansıttığınız ve bu temel bileşenler galaksiler hakkında çok fazla fiziksel kavrayışa karşılık gelen en az bir örnek var. Ayrıntılar için, http://www.astroml.org/sklearn_tutorial/dimensionality_reduction.html#id2

ve kağıt

http://iopscience.iop.org/article/10.1086/425626/pdf

İşte temel fikir. Yazarlar PCA'yı teleskoptan birçok spektraya (örneğin, 10.000) uygular. Her tayf ~ 1000 niteliğe sahiptir. Bu veri setinin büyük boyutları olduğundan, görselleştirmek zordur. Bununla birlikte, PCA'nın ilk 4 bileşeni spektrumlar hakkında çok fazla fizik ortaya koymaktadır (bkz. Yukarıdaki bölüm 4.1-4.4).


4

Buradaki diğer büyük cevaplardan biraz farklı bir yaklaşım benimseyen "güzel resim" bin kelimeye bedeldir. Sonuç olarak, bulgularınızı istatistiksel olarak okuryazar olmayan ya da tam durumu kavramak için zamana, ilgiye ya da her neye sahip olmayan birine aktarmanız gerekecektir. Bu, kişinin, en azından genel bir kavramı veya gerçekliğin bir parçasını anlamasına yardımcı olamayacağımız anlamına gelmez. Freakonomics gibi kitapların yaptığı şey budur - çok az matematik vardır, veri setleri yoktur ve yine de bulgular hala sunulmaktadır.

Sanatlardan, Rusya'daki Retreat at Mareşal Ney'e bakın . Napolyon savaşlarının bu aşırı basitleştirilmesi, yine de büyük bir anlam ifade etmekte ve savaşın en bilgisiz bilgisine sahip insanların bile Rusya'nın işgaline izin veren vahşeti, iklimi, manzarayı, ölümü ve dekoru anlamalarını sağlamaktadır.

Sonuçta, çizelgeler basitçe iletişimdir ve daha iyi veya daha kötüsü için, insan iletişimi çoğu zaman konflasyona, sadeleştirmeye ve kısalmaya odaklanır.


3

Mükemmel soru James J. Thomas ve Kristin A. Cook'un "Yolu Aydınlatmak, Görsel Analiz için Araştırma ve Geliştirme Gündemi" nin 4. bölümünde veri gösterimleri ve veri dönüşümleri üzerine bir tartışma var. Araştırmamda bu soruya PCA ve faktör analizi bağlamında yaklaştım. Kısa cevabım, görselleştirme alanından orijinal veri alanına geçmek için veri dönüşümüne sahip olması durumunda görselleştirmelerin yararlı olması. Bu ayrıca görsel bir analitik çerçeve içinde gerçekleştirilecektir.


Yansıtılan uzaydan orijinal uzaya haritalama yapmak mantıklıdır. Ancak, başka kullanım durumları var mı?
hlin117

Ayrıca "Yolu Aydınlatmak, Görsel Analiz için Araştırma ve Geliştirme Gündemi" nin 4. bölümüne baktım. Görünür bir alt uzaydaki yüksek boyutlu görselleştirmeler hakkında hiçbir şeyden bahsetmiyor.
hlin117
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.