Informationsmaße: Unterschied zwischen den Versionen

Aus PhysikWiki
Zur Navigation springen Zur Suche springen
 
Zeile 377: Zeile 377:
Mittlere Bitzahl (mit der korrigierten Wahrscheinlichkeitsverteilung gewichtet):
Mittlere Bitzahl (mit der korrigierten Wahrscheinlichkeitsverteilung gewichtet):


:<math>K\left( P,P\acute{\ } \right)=\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}</math>
{{Def|:<math>K\left( P,P\acute{\ } \right)=\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}</math>


'''Informationsgewinn ''' → Kullback Information!
'''Informationsgewinn ''' → Kullback Information!|Kullback Information}}


'''Bemerkungen'''
'''Bemerkungen'''


# mittlere Bitzahl / Informationsgewinn ist asymmetrisch bezüglich P↔P´
mittlere Bitzahl / Informationsgewinn ist asymmetrisch bezüglich P↔P´
# es gilt: <math>K\left( P,P\acute{\ } \right)\ge 0</math>
es gilt: <math>K\left( P,P\acute{\ } \right)\ge 0</math> wegen
wegen
:<math>\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}\ge \sum\limits_{i}^{{}}{{}}{{P}_{i}}\left( 1-\frac{{{P}_{i}}\acute{\ }}{{{P}_{i}}} \right)=\sum\limits_{i}^{{}}{{}}{{P}_{i}}-\sum\limits_{i}^{{}}{{}}{{P}_{i}}\acute{\ }=1-1=0</math>
:<math>\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}\ge \sum\limits_{i}^{{}}{{}}{{P}_{i}}\left( 1-\frac{{{P}_{i}}\acute{\ }}{{{P}_{i}}} \right)=\sum\limits_{i}^{{}}{{}}{{P}_{i}}-\sum\limits_{i}^{{}}{{}}{{P}_{i}}\acute{\ }=1-1=0</math>


Zeile 400: Zeile 399:
\end{align}</math>
\end{align}</math>


# <math>{{P}_{i}}\acute{\ }=0</math>
<math>{{P}_{i}}\acute{\ }=0</math>
ist auszuschließen, damit <math>K\left( P,P\acute{\ } \right)<\infty </math>
ist auszuschließen, damit <math>K\left( P,P\acute{\ } \right)<\infty </math>
#
 
# Für <math>{{P}_{i}}\acute{\ }=\frac{1}{N}</math>
Für <math>{{P}_{i}}\acute{\ }=\frac{1}{N}</math>
# (Gleichverteilung)
(Gleichverteilung)
:<math>\begin{align}
:<math>\begin{align}



Aktuelle Version vom 27. September 2010, 17:32 Uhr




Die Informationstheorie (Shannon, Wiener) entstand im 2. Weltkrieg im Zusammenhang mit der Entschlüsselung codierter Nachrichten!

Definition:

Ein Maß μ

auf einer Algebra A´ ist eine Abbildung μ:A´[0,]

mit den Eigenschaften

μ(0)=0μ(i=1Ai)=i=1μ(Ai)

für disjunkte Ereignisse Ai, also

AiAj=Aiδij

Nebenbemerkung: Eine σ

- Algebra A´ ist eine Algebra A´ mit der Eigenschaft, dass abzählbar viele

AiA´,i=1,....,i=1AiA´

Also: Die Vereinigung der Ereignisse ist Element der Algebra!

Im Folgenden sei unsere Algebra A´ stets eine Sigma- Algebra!

Beispiel eines Maßes: Wahrscheinlichkeit P

Speziell:

P(A)1

Idee des Informationsmaßes:

Vergleich verschiedener Wahrscheinlichkeitsverteilungen über einer Ereignisalgebra A´

Frage: Welche von 2 Verteilungen enthält mehr Information, bzw. Kenntnis darüber, welches Ereignis eintreten wird ?

Mathematische Grundbegriffe: Reed/ Simon: Methods of Modern Math. Physics, Vol. I: Functional Analysis!

Beispiel:

Zonk- Problem:

Hauptgewinn ist hinter einer von 3 Türen versteckt!

A,B,CA´
  1. Verteilung: Alle drei Türen zu je 1/3:
P(1)=δ(x1)+δ(x2)+δ(x3)

Als Gleichverteilung → minimale Kenntnis

  1. Verteilung:
P(2)=δ(x2)

scharfe Verteilung → maximale Kenntnis / Sicherheit

Bitzahl:

Ausgangspunkt: diskrete Ereignisalgebra:

A´={Ai}iI

Frage: Wie lange muss eine Nachricht sein, die einem Beobachter mitteilt, dass ein Ereignis eingetreten ist ??

Länge der Nachricht = Maß für die fehlende Kenntnis des Beobachters

Beispiel:

Auswahl eines Ereignisses aus

A´={A1,A2,...,AN}

falls der Beobachter keine Vorkenntnis hat.

1)A´={A1,A2}
einafche Alternative

= kleinste Informationseinheit

= 1 bit (binary digit)

Nachricht: 0 oder 1

  1. A´ sei menge mit 2n
  2. Elementen:

n Alternativentscheidungen notwendig:

z.B. 0011 → insgesamt n Stellen in Binärdarstellung nötig!

Länge der Nachricht:

n=log2N

(nötige Bitzahl)

Informationsmaß der Nachricht:

Bitzahl!

Also: b(N)=log2N

falls keine Vorkenntnis vorhanden ist!

Verallgemeinerung auf Wahrscheinlichkeitsverteilungen Pi

Falls der Beobachter die Pi

kennt, muss nur die fehlende Information mitgeteilt werden: Also die Bitzahl b(Pi) .


Postulate für die Konstruktion von b(Pi)

:

  1. b(P)
  2. sei eine universelle Funktion, hängt von A also nur über P(A) ab!
  3. Seien {Ai}
  4. und {Aj´}
  5. 2 verschiedene (disjunkte) sample sets, z.B. 2 Subsysteme eines zusammengesetzten Systems: So gilt:

Für 2 völlig unkorrelierte Subsysteme eines zusammengesetzten Systems gilt:

b ist additiv, also:

b(P´´)=b(P)+b(P´)

wobei nach Definition der Unkorreliertheit (stochastische Unabhängigkeit) gilt:

P´´(AiAj´)=P(Ai)P´(Aj´)

dabei ist

AiAj´

das direkte Produkt der beiden Zufallsvariablen, gegeben durch das Ereignistupel {AiAj´} .


3) b(P)=0 für P=1, also für das sichere Ereignis

b(P)=log2Nfu¨rP=1N

also im Falle von Gleichverteilung, welches maximale Unbestimmtheit darstellt!

4) b(P)

ist stetig und wohldefiniert für 0P1

Wegen der Additivität macht es Sinn:

b(P)=f(logP)

zu definieren. Es muss f noch bestimmt werden!

Wegen 1) und 2) folgt:

f(logP´´)=f(logP+logP´)=!=f(logP)+f(logP´)f(logP)=a*logP

Also: die Funktion sollte linear in log P sein!

Bemerkung:

Für 2 unkorrelierte Systeme ist die Länge der Nachricht = Informationsmaß bei maximaler Unbestimmtheit additiv.

Dies motiviert Postulat 2)

Aus 3) folgt:

f(logP´´)=f(logP+logP´)=!=f(logP)+f(logP´)f(logP)=a*logPb(P)=alog(P)=alogN=!=log2Nfu¨rP=1Na=1log=log2

Konvention:

Einheit für ein bit:

ln2=lnPlog2P

"bin"

b(Pi)=lnPi

Informationsmaß für die Nachricht, dass Ai eingetreten ist,

falls

Pi=P(Ai)

bekannt ist!

Informationsmaß einer Wahrscheinlichkeitsverteilung {Pi}

Übermittlung vieler Nachrichten:

Ai

tritt mit relativer Häufigkeit Pi

auf!

mittlere benötigte (= da fehlende!) Information pro Ereignis:

b(Pi)=lnPi

somit:

b(Pi)=iPilnPi


Definition: Shannon-Information einer Verteilung {Pi}:
I(P)=i=1NPilnPi


P=(P1...PN)

I ist Funktional der Verteilung

b ist Funktion von Pi b(Pi)

Es gilt stets I(P)0

Maximum: I(P)=0

für pi=δij

Also maximal für scharfe Verteilung mit sicherem Ereignis Aj

Minimum: Variation der Pi

um δPi unter der Nebenbedingung

iδPi=0

wegen Normierung:

iPi=1

Somit:

δI(P)=i=1N(lnPi+1)δPi=0

Addition der Nebenbedingung iδPi=0

mit dem Lagrange- Multiplikator λ:

i=1N(lnPi+1+λ)δPi=0

unabhängige Variation δPiilnPi=(1+λ)=const.

Normierung iPi=1=NPiPi=1N, also Gleichverteilung

Übung: Man vergleiche I(P) für verschiedene Verteilungen

Kontinuierliche Ereignismenge

xRd,ρ(x)
  • Zelleneinteilung des Rd
  • in Zellen i mit Volumen
  • Δdx

Wahrscheinlichkeit für ein Ereignis in Zelle i:

Pi=ρ(xi)ΔdxI(P)=iΔdxρ(xi)ln(Δdxρ(xi))=iΔdxρ(xi)ln(ρ(xi))+iΔdxρ(xi)ln(Δdx)iΔdxρ(xi)=1iΔdxρ(xi)ln(Δdx)=const.

für eine feste Zellengröße.

Damit kann dieser Term weggelassen werden und wir gewinnen:

I(P)=iΔdxρ(xi)ln(ρ(xi))Δdx0I(ρ)=ddxρlnρ

Bemerkungen

  1. Shannon- Informationsmaß misst die Kenntnis bezüglich der Frage: Welches Ereignis tritt ein ?

keine Unterscheidung, wi die verteilung zustande kommt, z.B. bei Gleichverteilung: genaue Beobachtung ODER vorurteilsfreie Schätzung bei gänzlich fehlender Kenntnis

(Laplacsches Prinzip vom unzureichenden Grund)

2) Definition : Statistisches Informationsmaß des NICHTWISSENS: (der fehlenden Information):

S(ρ)=kddxρlnρ

k geeignete Einheit

Interpretation in der Thermodynamik als Entropie

  1. verallgeminerte Informationsmaße (Renyi)S(ρ)=kddxρlnρ
Iq=11qln(i(pi)q1)q=1,2,....

wird gleich dem Shannon- Informationsmaß für q1

Informationsgewinn

Maß für die Zusatzinformationen einer Wahrscheinlichkeitsverteilung {Pi}

im Vergleich zu einer Referenzverteilung {Pi´}

über derselben Ereignismenge:

b(Pi´)b(Pi)=lnPiPi´

Dies ist zu verstehen als die notwendige Bitzahl, um Pi´ in Pi zu verwandeln, also die Information, die als Nachricht hierfür gegeben werden muss :

Mittlere Bitzahl (mit der korrigierten Wahrscheinlichkeitsverteilung gewichtet):


:K(P,P´)=iPilnPiPi´

Informationsgewinn → Kullback Information!


Bemerkungen

mittlere Bitzahl / Informationsgewinn ist asymmetrisch bezüglich P↔P´
es gilt: K(P,P´)0 wegen
iPilnPiPi´iPi(1Pi´Pi)=iPiiPi´=11=0

es gilt:

lnx11xfu¨rx>0

Pi´=0 ist auszuschließen, damit K(P,P´)<

Für Pi´=1N (Gleichverteilung)

K(P,P´)=iPilnNPi=iPilnPi+iPilnN=I(P)+lnNwegeniPi=1K(P,P´)=I(P)+lnN

bei Gleichverteilung!

5) Minimum von K:

Variation der Pi

umδPi

unter Nebenbedingung iδPi=0

δK(P,P´)=i(lnPiPi´+1)δPii(lnPiPi´+1+λ)δPi=0ln(PiPi´)=(+1+λ)=const.Pi~Pi´

Wegen Normierung:

iPi=iPi´=1Pi=Pi´K=0
  1. K(P,P´)
  2. ist konvexe Funktion von P, da
2K(P,P´)PiPj=Pj(lnPiPi´+1)=1Piδij0

somit ist dann auch

I(P)=K(P,1N)lnN

konvex (Informationsgewinn)

Kontinuierliche Ereignismengen

xRd,ρ(x)
  • Zelleneinteilung des Rd
  • in Zellen i mit Volumen
  • Δdx

Wahrscheinlichkeit für ein Ereignis in Zelle i:

Pi=ρ(xi)ΔdxK(P,P´)=iΔdxρ(xi)lnρ(xi)ρ´(xi)

invariant gegen die Trafo

xx~ρ(x)ρ(x~)Det(xx~)ΔdxΔdx~Det(xx~)1

Während

I(P)

nicht invariant ist!

Δdx0K(ρ,ρ´)=ddxρlnρρ´

Bemerkung:

Interpretation von kK˙(ρ,ρ´)

in der Thermodynamik als Entropieproduktion und von

kTK(ρ,ρ´)

als Exergie (availability)