Uygulamalı veri biliminde bilgi teorisinin kullanımı


9

Bugün James Stone'un "Bilgi teorisi: Bir öğretici tanıtımı" kitabına rastladım ve uygulamalı veri biliminde bilgi teorisinin kullanım derecesi hakkında bir iki dakika düşündüm (bu hala biraz bulanık terimden memnun değilseniz, IMHO veri biliminin yüceltilmiş bir versiyonu olduğu veri analizini düşünün ). Bilgi teorisi temelli yaklaşımların , yöntemlerin ve önlemlerin , özellikle entropinin , çeşitli istatistiksel teknikler ve veri analiz yöntemleri başlığı altında önemli bir şekilde kullanıldığının farkındayım .

Ancak, uygulamalı bir sosyal bilimcinin bu kavramları, ölçüleri ve araçları teorinin matematiksel kökenlerine çok fazla dalmadan başarılı bir şekilde seçmesi ve uygulaması için gereken bilgi düzeyini / düzeyini merak ediyorum . Yukarıda bahsi geçen kitap (veya diğer benzer kitaplar - tavsiye etmekten çekinmeyin) bağlamında veya genel olarak endişemi giderebilecek cevaplarınızı bekliyoruz.

Ben de tartışmak baskı veya çevrimiçi kaynaklar için bazı öneriler takdir ediyorum enformasyon teorisi ve kavramları, içinde, yöntem ve tedbirleri yaklaşımları bağlamında (içinde karşılaştırma diğer (diğer) ile) geleneksel istatistiksel yaklaşımlar ( frequentist ve Bayes ).


2
Belki de en çok bilinen ve "uygulanan" entropinin kullanım durumlarından biri, bir ağaç kurarken gerçekleşir. Algoritmanın bölündüğü olasılıklardan biri, üst seviye ile alt seviye arasındaki entropi arasındaki fark olan bilgi kazanımı metriğini almaktır. Burada daha fazla bilgi var en.wikipedia.org/wiki/Information_gain_in_decision_trees
D.Castro

@ D.Castro: Yorumunuz için teşekkür ederim - Bu durumun farkındayım (ve hatta bu konuda tam olarak Çapraz Doğrulanmış veya Data Science SE sitesinde bir cevap yayınladı). Konuyu daha kapsamlı bir şekilde ele almayı / tartışmayı umuyorum.
Aleksandr Blekh

1
Benim için ve büyük ölçüde, coğrafi kıtanın yanı sıra, birinin eğitildiği disiplin veya alan meselesidir. Benim görüşüme göre, fizikçiler, matematikçiler ve saf makine öğrenimi uygulayıcılarının bilgi teorisine derinlemesine maruz kalma olasılıkları, örneğin istatistikçiler, ekonomistler veya kantitatif finansal analistlerden daha fazladır. Buna ek olarak, Avrupa'da eğitimli insanlar için bunu ikiye katlayacağım, yani Avrupalıların BT'ye aşina olma olasılığı daha yüksektir. Bununla birlikte, istatistiksel öğrenme modellerinin ortaya çıkması, ABD'deki veri bilimcileri için olan modellerin değişmesine neden olmaktadır.
Mike Hunter

@DJohnson En az dakika puanı, ancak İngiltere'de ve belki de başka yerlerde IT == bilgi teknolojisi. Aksi takdirde izlenimleriniz benimkine benziyor.
Nick Cox

@NickCox Teşekkürler, noktanız Birleşik Devletler için de geçerlidir. Bu uzunca bir yorumdu ve boşluk izin verirse, kelimeleri heceleyecektim ya da daha iyisi, kısaltmanın anlamını daha erken bir noktada ortaya koyardım.
Mike Hunter

Yanıtlar:


4

Sorunun ilk kısmı: Veri bilimcilerinin bilgi teorisini bilmesi gerekiyor mu? Cevabın çok yakın zamana kadar hayır olduğunu düşündüm. Fikrimi değiştirmemin nedeni çok önemli bir bileşendir: gürültü.

Birçok makine öğrenimi modeli (hem stokastik olsun ister olmasın) gürültüyü kodlama ve dönüştürme işlemlerinin bir parçası olarak kullanır ve bu modellerin çoğunda, modelin dönüştürülmüş çıktısının kodunu çözdükten sonra gürültünün etkilenme olasılığını çıkarmanız gerekir. Bunun bilgi teorisinin temel bir parçası olduğunu düşünüyorum. Sadece bu değil, derin öğrenmede KL ıraksaması, Bilgi Teorisinden de gelen çok önemli bir ölçüdür.

Sorunun ikinci kısmı: Sanırım en iyi kaynak David MacKay'ın Bilgi Teorisi, Çıkarım ve Öğrenme Algoritmaları . Bilgi Teorisi ile başlar ve bu fikirleri hem çıkarsamaya, hem de sinir ağlarına taşır. Pdf Dave web sitesinde ücretsiz ve dersler çevrimiçi olan harika


3
Mükemmel bir kitap. İlgilenen herkes de en.wikipedia.org/wiki/David_J._C._MacKay
Nick Cox

Cevabınız için teşekkür ederiz (yakında daha kapsamlı yanıtlar açılmazsa +1 ve potansiyel kabul). Referanslar için özel takdir. Bu unutulmuş ama önemli meselemle karşılaştığınıza şaşırdım. :-)
Aleksandr Blekh

Evet ilginç. Asla bir sorudan vazgeçmemelisin. NIPS2016'ya katıldıktan sonra bana geldi ve enkoderlerde KL sapması ve gürültü etkisi ile ilgili tüm bu görüşmeleri gördüm.
Ambodi
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.