Bir dizenin histogram entropi kestirimini hesaplayın


19

Belirli bir dizenin Shannon entropisini tahmin eden bir program veya işlev yazın.

Bir dizi varsa n karakterler, d ayrı karakterleri x i olan I inci farklı karakter ve P (x i ) dize bu karakter husul olasılığıdır, daha sonra bu dizi için bizim Shannon entropi tahmini ile elde edilir:

H = -n \ toplam \ sınırlar_ {i = 1} ^ d P (x_i) \ log_2 P (x_i)

Bu zorluktaki tahmin için, bir karakter dizisinde meydana gelme olasılığının basitçe gerçekleşme sayısının toplam karakter sayısına bölünmesi olduğunu varsayıyoruz.

Cevabınız noktadan sonra en az 3 rakama kadar doğru olmalıdır.


Test senaryoları:

"This is a test.", 45.094
"00001111", 8.000
"cwmfjordbankglyphsvextquiz", 122.211
"             ", 0.0

Her zamanki zorluklarımın aksine, bu karmaşık görünüyor, ama aslında oldukça basit :)
orlp


Giriş dizesi için yazdırılabilir ASCII varsaymak güvenli midir?
AdmBorkBork

@TimmyD Hayır. Dilinizin dize türünün desteklediği herhangi bir dize.
orlp

Ne yazık ki, Mathematica Entropydize için toplam değil, karakter başına bit sayar; oh well ...
2012rcampion

Yanıtlar:



11

Python 3.3+, 64 bayt

import math
lambda s:sum(math.log2(len(s)/s.count(c))for c in s)

Got math.log2gelen mbomb007 çözümüyle .


Yani @orlp bize tamamen basitleştirilmiş bir formül vermedi, ha?
mbomb007

@ mbomb007 Sadeleştirdiğiniz amaca bağlıdır. Olasılıklar ve farklı karakterler açısından yazmak bir tanım olarak doğaldır, ancak golf oynamak için sayımlarla çalışmak ve tüm karakterler üzerinde tekrarlamak daha kısadır.
xnor

1
Formülünüzle Pyth cevabı: pyth.herokuapp.com/… 8 bayt
Maltysen

2

APL, 18 14 bayt

+/2⍟≢÷(+/∘.=⍨)

Bu, sağdaki bir dizeyi kabul eden ve bir gerçek döndüren isimsiz, monadik bir işlev trenidir.

Hayattaki tüm iyi şeyler gibi, bu da xnor'ın formülünü kullanır . Kullanarak dizedeki her karakterin oluşumlarına karşılık gelen bir booleans matrisi alırız, her karakterin oluşum sayısını elde etmek için ∘.=⍨ilk eksen ( +/) boyunca bunu toplayın, dizenin uzunluğunu her birine bölün ve sonra günlük tabanını 2 alın ( 2⍟) ve toplam.

Burada deneyin

Dennis sayesinde 4 bayt tasarruf etti!



1

JavaScript (ES6), 67 bayt

s=>[...s].map(c=>t+=Math.log2(s.length/~-s.split(c).length),t=0)&&t

Ben ~-s.splitregexps yerine dizeleri kabul çünkü kullanmanız gerekir . Her zamanki gibi bir bayt ile mapatıyor reduce.

s=>[...s].reduce((t,c)=>t+Math.log2(s.length/~-s.split(c).length),0)

1

Perl 5, 58 bayt

Bir altyordam:

{for$a(@a=split'',pop){$t+=(log@a/grep/\Q$a/,@a)/log 2}$t}

Formül için xnor'a şapkamın bir ucu .


-F(Çilek, zaten) çalışmıyor çünkü içerir $/.
msh210

1

MATL , 14 bayt

!Gu=stGn/Zl*s|

Çevrimiçi deneyin!

!      % transpose implicit input into column vector
Gu     % row vector with unique elements of input
=      % test for equality, element-wise with broadcast
s      % sum of each column
tGn/   % duplicate. Divide by number of input characters
Zl     % binary logarithm
*      % element-wise multiplication
s      % sum of array
|      % absolute value. Display implicitly


1

J - 18 16 14 bayt

1#.2^.#%1#.=/~

Dennis'in yönteminde bu fikir kullanılarak kısaltılmıştır.

kullanım

   f =: 1#.2^.#%1#.=/~
   f 'This is a test.'
45.0936
   f '00001111'
8
   f 'cwmfjordbankglyphsvextquiz'
122.211
   f '             '
0

açıklama

1#.2^.#%1#.=/~  Input: string S
           =/~  Create a table testing for equality
        1#.     Convert each row from a list of base 1 digits to decimal
                This is equivalent to taking the sum and forms a list of tallies
      #         Get the length of S
       %        Divide the length by each tally
   2^.          Log base 2 of each
1#.             "Sum" those values and return

1
Bunun bir işlev olduğunu düşünmüyorum. Kodu bir değişkene atarsanız, tamamen farklı bir şey yapar.
Dennis

@Dennis Topladığım kadarıyla, J'nin bir kompozisyon zinciri olarak yorumladığı anlaşılıyor 3 : '... y', aynı sözdizimiyle kullanmak onu bir işlev olarak tanımlamak için geçerli bir yol olacaktır. J, sağdan sola değerlendirdiğini belirtiyor, bu yüzden kodumu bir tren olarak yeniden düzenledim. Kapakları sevmiyorum [:ama tren yapmanın başka bir yolunu bulamıyorum.
mil


0

Jolf, 26 bayt

_*liuΜGμiEd*γ/l miLeHlimzγ

Burada deneyin! (Test takımı işlevinin boş olduğunu unutmayın.)

açıklama

_*liuΜGμiEd*γ/l miLeHlimzγ
       μi                   unique members of i
      G  E                  split on ""
     Μ    d                 map over function
               _miLeH       match i with regex escaped member
             /l      li     divide length of (^) by length of i
            γ               γ = (^)
           *           mzγ  (^) * log_2(γ)
 *li                        (^) * length of i
_                           negate

0

Python 3.3+, 95 91 89 85 bayt

Basit çözüm. Sürüm 3.3 kullanmak için gereklidir math.log2.

import math
def f(s):C=s.count;return-sum(C(x)*math.log2(C(x)/len(s))for x in set(s))

Çevrimiçi deneyin


Burada gereksiz bir şey olduğunu düşünüyor musunuz? n*sum(s.count(c)/n
orlp

@orlp Teşekkürler. Başlangıçta olasılığı bulmak için ayrı bir fonksiyonum vardı, ancak iki kez içine yapıştırdım ve karakterleri kaydetmek için sildim.
mbomb007

nBir değişkeni yalnızca bir kez kullandığınız için depolamanız gerekmez .
Maltysen

0

Java 7, 207 bayt

double C(String x,Map<Character,Integer>f){double H=0,g;for(char c:x.toCharArray())f.put(c,f.containsKey(c)?f.get(c)+1:1);for(char c:f.keySet()){g=f.get(c);H+=g*Math.log(g/x.length())/Math.log(2);}return-H;}

Ayrıntılı çevrimiçi deneyin

double log2(double d) { return Math.log(d) / Math.log(2); }

double C(String x, Map<Character,Integer>f)
{
    double H=0,g;

    // frequency
    for(char c : x.toCharArray())
    {
        f.put(c, f.containsKey(c) ? f.get(c)+1 : 1);
    }

    // calculate entropy
    for(char c : f.keySet())
    {
        g = f.get(c);
        H += g * log2(g / x.length());
    }

    return -H;
}

0

Faktör, 98 bayt

[ [ length ] [ dup [ [ = ] curry dupd count ] { } map-as nip ] bi [ / log 2 log / ] with map sum ]

Bu, bu Python cevabının doğrudan çevirisidir . Akşam yemeğine bir açıklama ekleyeceğim.


0

Raket, 130 bayt

c

#lang racket
(require math)(λ(S)(let([s(string->list S)])(sum(map(λ(c)(/(log(/(length s)(count(λ(x)(char=? c x))s)))(log 2)))s))))

Faktör cevabımın çevirisi, bu Kenny Kenny'nin Python cevabının dolaylı bir çevirisi.


0

k (32 bayt)

{-+/c*(log c%n:+/c:#:'=x)%log 2}

Ya da q, çeviri o kadar kısa değil, daha net:

{neg sum c*2 xlog c%n:sum c:count each group x}

0

Mathematica, 45 bayt

Tr[Log[2,Tr@#/#]#]&@Values@CharacterCounts@#&

kullanım

Bu, kesin sonuçlar döndürür, bu nedenle onları yaklaşık olarak tahmin ederiz N.

  f = Tr[Log[2,Tr@#/#]#]&@Values@CharacterCounts@#&
  f["This is a test."]//N
45.0936
  f["00001111"]//N
8.
  f["cwmfjordbankglyphsvextquiz"]//N
122.211
  f["             "]//N
0.

0

R, 67 bayt

l=length(i<-strsplit(readline(),"")[[1]]);-sum(log2(l/table(i)[i]))

açıklama

Stdin'den girdi alın ve bir karakter listesine bölün. (Bu tıknaz sözdizimi, string golf zorluklarının neden R ...

         i<-strsplit(readline(),"")[[1]])

Bu atama bir lengthkomutun içinde gizlidir , bu yüzden bir tanesinin fiyatı için iki atama alırız. Biz i, karakterlerin listesi ve lonun uzunluğunu.

l=length(i<-strsplit(readline(),"")[[1]]);

Şimdi entropiyi hesaplıyoruz. R, tabletüm benzersiz değerlerin sayısını döndüren güzel bir işleve sahiptir. Giriş için This is a test, table(i)geri dönüş

> table(i)
i
  . a e h i s t T 
3 1 1 1 1 2 3 2 1

Bu, karakterlerle indekslenir, bu da güzeldir, çünkü daha sonra iher karakterin sayısını almak için bir dizin olarak kullanabiliriz :

> table(i)[i]
i
T h i s   i s   a   t e s t . 
1 1 2 3 3 2 3 3 1 3 2 1 3 2 1 

Kodun geri kalanı, entropi formülünün basit bir uygulamasıdır ve biraz çevrilir.

                                           -sum(log2(l/table(i)[i]))

İki bayt kaydedin (ayrıca gönderiminiz
TIO'da


0

C #, 159 bayt

golfed:

string f(string s){var l=s.Length;double sum=0;foreach(var item in s.GroupBy(o=>o)){double p=(double)item.Count()/l;sum+=p*Math.Log(p,2);}return(sum*=-l)+"";}}

Ungolfed:

string f(string s)
{
  var l = s.Length;
  double sum = 0;
  foreach (var item in s.GroupBy(o => o))
  {
    double p = (double)item.Count() / l;
    sum += p * Math.Log(p, 2);
  }
  return (sum *= -l) + "";
}

Ölçek:

var codeGolf = new StringHistogramEntropyEstimation();
    Console.WriteLine(codeGolf.f("This is a test.")); //45.0935839298008
    Console.WriteLine(codeGolf.f("00001111")); //8
    Console.WriteLine(codeGolf.f("cwmfjordbankglyphsvextquiz")); //122.211432671668
    Console.WriteLine(codeGolf.f("             ")); //0

0

Groovy, 100 Bayt

{a->n=a.size();a.toList().unique().collect{p=a.count(it)/n;p*(Math.log(p)/Math.log(2.0f))}.sum()*-n}

Testler:

This is a test. = 45.09358393449714
00001111 = 8.0
cwmfjordbankglyphsvextquiz = 122.21143275636976
aaaaaaaa = -0.0
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.