Algoritmik bilgi teorisinde “bilgi” ve “yararlı bilgi” arasındaki fark


16

Wikipedia'ya göre :

Gayri resmi olarak, algoritmik bilgi teorisi açısından, bir ipin bilgi içeriği, o ipin mümkün olan en kısa bağımsız temsilinin uzunluğuna eşittir.

"Yararlı bilgiler" in benzer gayrı resmi titiz tanımı nedir? "Yararlı bilgi" neden daha doğal veya daha temel bir kavram olarak kabul edilmemektedir; safça tamamen rastgele bir dize tanımı gereği sıfır bilgi içermelidir gibi görünüyor, bu yüzden standart tanım tarafından maksimum bilgi olduğu düşünülür aslında kafamı almaya çalışıyorum.


2
Hoşgeldiniz! Kullanıcı adınızı, düzenli bir ziyaretçi olduğunuzda insanların tanıma olasılığı daha yüksek bir şeyle değiştirebileceğinizi lütfen unutmayın.
Raphael

Yanıtlar:


12

Buradaki temel kavram Kolmogorov karmaşıklığı ve daha spesifik olarak sıkıştırılabilirliktir . Sezgisel bir sıkıştırılabilirlik hissi elde etmek için , iki ve dizelerini göz önünde bulundurun . İzin VermekABBBB={0,1}

A=1010 1010 1010 1010 ve

B=1011 0110 0111 1001 .

Not . veya ne kadar bilgiye sahip olduğunu nasıl ölçebiliriz ? Klasik bilgi teorisini düşünürsek, genel olarak, uzunluğunda bir dizi iletmek ortalama olarak bit alır . Bununla birlikte, belirli bir uzunluk uzunluğunu iletmek için kaç bit gerektiğini söyleyemeyiz .|A|=|B|=16ABnnn

Rasgele bir dizenin bilgi içeriği neden sıfır değil?

Daha yakından baktığımızda, aslında . Bununla birlikte, yapısında belirgin bir patern olup olmadığını söylemek , en azından daha rastgele görünüyor ve hissediyor . İçinde bir desen bulabilirsiniz Çünkü , kolayca kompres yapabilirsiniz ve daha az ile temsil bit. Aynı şekilde, herhangi bir paterni tespit etmek kolay olmadığından , onu o kadar sıkıştıramayız. Bu nedenle daha fazla bilgiye sahip olduğunu söyleyebiliriz . Dahası, rastgele bir uzunluk uzunluğuA=108BAAA16BBAnen fazla bilgiye sahiptir, çünkü sıkıştırmamızın bir yolu yoktur ve bu nedenle daha azıylan bitinden .

Peki yararlı bilgi nedir?

İçin yararlı bilgiler , evet, bir Turing makinesi kullanan bir tanım yoktur . Yararlı bilgiler x B * olduğunuTxB

minT { l(T)+C(x|T):T{T0,T1,...}},

burada bir Turing makinesi için kendi kendini sınırlayan bir kodlamanın uzunluğunu belirtir . Gösterimde genelde, Kolmogorov karmaşıklığını gösterir ve koşullu Kolmogorov karmaşıklığı verilen .l(T)TC(x)xC(x|y)xy

Burada içerdiği yararlı bilgi miktarını temsil . Sorabileceğimiz şey , gereksinimi karşılayanlar arasında hangi seçeceğidir. Sorun, en kısa programı parçalarına ayırmaktır. st uygun bir temsil eder . Aslında asgari açıklama uzunluğunun (MDL) ortaya çıktığı fikri budur .TxTxx=pqpT


4

"Yararlı" tanımlaması zor olduğu için olabilir. Biz son derece yapılandırılmış, bilgi açısından zengin mesaj olduğunu varsayalım kat en fazla sıkıştırılmış olabilir mesajı için . Sezgisel olarak, ve aynı miktarda yararlı bilgi içerir; aslında, normal tanıma göre aynı miktarda bilgi içerirler. Şimdi bir önek hayal ve ile aynı uzunlukta ; daha yararlı bilgi içermemelidir , dolayısıyla fazla bilgi içermemelidir . Bununla birlikte, fazla "rastgele" bir için,xαyxyzxyxyyzzsıkıştırılmış olabilir ve olmaz. Dolayısıyla, "yararlı" bilgileri sıkıştırılabilirlikle ilişkilendirmeye çalışırsak, şu paradoksla karşılaşabiliriz: Bir mesajın öneki, görünüşte bir çelişki gibi, tüm mesajdan daha yüksek "yararlı" bilgilere sahip olabilir.y


Tanımlamak zor olabilir ve "bilgi" nin yaptığı gibi sıkıştırılabilirliğe güvenmeyebilir, ancak daha önemli bir tanım gibi görünebilir! Görüldüğü gibi, "bilgi", diğer bağlamlarda tanım olarak yararlı olması gereken bilgileri olağan anlamda tanımlamak için ciddi bir girişimden ziyade "Kolmogorov karmaşıklığı" için bir takma ad gibi görünmektedir! Burası aktif bir araştırma alanı mı? Önerilen herhangi bir tanım var mı?
user1247

@ user1247 Kolmogorov karmaşıklığının neden ciddi olmadığını düşünüyorsunuz?
Juho

@mrm Bunu çok ciddi ve ilginç bir kavram olarak görüyorum, ancak bu kavrama "bilgi" demekten rahatsız oluyorum. Tamamen rastgele bir dizenin bilgi içermesi ne anlama gelir? "Yararlı bilgi", gerçek dünyada bilgileri (söz konusu "yararlı" örtülü olduğunda), örneğin iletilen veya alınan bilgilerle ilgili felsefi veya kuantum mekanik tartışmalarda daha uygulanabilir ve ilginç görünür.
user1247

1
@ user1247 Cevabımı yorumlamanın muhtemelen ilginç bir yolu şudur: bilgi, nasıl yorumlandığına bağlı olarak sadece yararlı veya yararsızdır. Sabit bir yorum için, bir mesajın diğerinden daha fazla veya daha az yararlı bilgisi olabilir. Herhangi bir yararlı bilgi teorisinin, bence, bu yorumları dikkate alması gerekecektir (entropi gibi düzenli önlemler bunu da örtülü de olsa yapar).
Patrick87

@ Patrick87 İyi bir "yararlı bilgi" teorisinin şifre çözme mekanizmasını dikkate alması konusunda kesinlikle katılıyorum. Bunu ilginç bir problem yapan şey budur! Bana biraz dize gönderirseniz ve prensip olarak şifresini çözemiyorum, o zaman yararlı bilgi içermeyecek şekilde tanımlanmalıdır.
user1247

4

Daha az resmi bir bakış açısından, kendinizi "rastgele" kelimesinden ayırmanız yararlı olabileceğini düşünüyorum, çünkü siz gerçekten rastgele bir dizi kümenin herhangi bir bilgiyi pratik anlamda saklamadığı doğrudur. (Bir dizi adı şifrelersem ve şifrelenmiş değerleri size gönderirsem, çok yüksek Kolmogorov karmaşıklığına sahip olabilirler, ancak adları anlamanıza yardımcı olmaz).

Ama bu şekilde düşünün. Yabancı bir dilde bir web sitesi görürseniz (İsveççe deyin, bunu konuşmadığınızı varsayarak) az çok rastgele görünecektir. Kelimelere bir düzen olacak, ama fazla değil. Ancak, şuna benzer bir metin içeren bir web sayfasına bakarsanız: 123456123456123456123456 ... vb., Daha hızlı bir şekilde anlayabilirsiniz. İsveççe konuşamıyorsanız, İsveççe web sayfası "sırayla tekrarlanan ilk altı sayının" eşdeğerini söylemiş olsa bile, bundan çok daha fazlasını elde edebilirsiniz. Web siteleri aynı bilgileri içerir, ancak bir tanesi size rastgele görünür. Ve alan miktarı için, anladığınız alan, aynı bilgileri saklasa bile İsveç web sayfasından çok daha az verimlidir. Bu bilgiyi "yararlı" bulamayabilirsiniz, çünkü '

"Bilgi" kavramının evrensel olması amaçlanmıştır, bu yüzden size rastgele - ve dolayısıyla işe yaramaz - bitler gibi görünen şey başka birine büyük miktarda bilgi depolayabilir. Bilginin ölçüsü, dizenin kendine özgü bir özelliği olarak tasarlanmıştır ve sizin için neyin anlamlı olduğu ve neyin anlamlı olmadığına ve neleri yorumlayabildiğinize ve yorumlayamadığınıza bağlı olamaz.

Yardımcı olabilecek başka bir (daha teknik) nokta, burada biraz ihtiyatlı olmam. Juho işaret ettiği gibi, bilgi olduğunukimin yorumladığına göre tanımlanır. İsveççe web sayfasını bilgi için bir araç olarak tamamen işe yaramaz bulabilirsiniz, ancak İsveççe konuşan biri çok fazla bilgiye sahip olabilir. Tanım bunu yansıtmaktadır. Bununla birlikte, matematikten, bu web sitesini size iletmek için en kısa (alan için en bilgilendirici) web sayfası ile İsveççe konuşan biriyle iletişim kurabilen en kısa web sayfası arasındaki farkın yalnızca bir katkı sabitiyle değişebileceğini öğrenebiliriz. Neden? Çünkü sizin için, İsveççe olmayan bir konuşmacı olarak, anlayabileceğiniz sayfayı saklamanın en kısa yolu "sırayla tekrarlanan ilk altı tamsayı" dır. Bu İsveçlilere göre biraz daha uzun olabilir.

Ancak İsveççe konuşabilseniz bile, sadece bir katkı sabitini uzunluktan kesebilirsiniz! Neden? Çünkü her zaman bir İsveççe-İngilizce sözlük satın alabilirsiniz. O zaman süper kısa İsveççe web sayfaları sizin için anlamlı olur. Elbette, sadece sözlüğe sahip olduğunuzda mantıklıdırlar, ancak sözlüğün sabit bir uzunluğu vardır. Yani

(Most efficient representation of information in English)(Most efficient representation in Swedish)+(Length of Swedish-English dictionary)
. Bu, orijinal sorunuzdan biraz konu dışı oluyor, ancak yapmaya çalıştığım nokta, bilgiyi kimin okuduğu çok önemli değil. Rastgele görünen İsveççe web sayfası sizin için "yararlı" değildi, ancak başkası için "yararlı" ve siz kendiniz kullanabilmeniz için sabit bir bilgi miktarınız var.
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.