Informationsmaße

Aus PhysikWiki

Wechseln zu: Navigation, Suche




Die Informationstheorie (Shannon, Wiener) entstand im 2. Weltkrieg im Zusammenhang mit der Entschlüsselung codierter Nachrichten!

Definition:

Ein Maß μ

auf einer Algebra A´ ist eine Abbildung \mu :A\acute{\ }\to \left[ 0,\infty  \right]

mit den Eigenschaften

\begin{align}

& \mu (0)=0 \\

& \mu (\bigcup\limits_{i=1}^{\infty }{{}}{{A}_{i}})=\sum\limits_{i=1}^{\infty }{{}}\mu \left( {{A}_{i}} \right) \\

\end{align}

für disjunkte Ereignisse Ai, also

{{A}_{i}}\cap {{A}_{j}}={{A}_{i}}{{\delta }_{ij}}

Nebenbemerkung: Eine σ

- Algebra A´ ist eine Algebra A´ mit der Eigenschaft, dass abzählbar viele

\begin{align}

& {{A}_{i}}\in A\acute{\ },i=1,....,\infty  \\

& \Rightarrow \bigcup\limits_{i=1}^{\infty }{{}}{{A}_{i}}\in A\acute{\ } \\

\end{align}

Also: Die Vereinigung der Ereignisse ist Element der Algebra!

Im Folgenden sei unsere Algebra A´ stets eine Sigma- Algebra!

Beispiel eines Maßes: Wahrscheinlichkeit P

Speziell:

P(A)\le 1

Idee des Informationsmaßes:

Vergleich verschiedener Wahrscheinlichkeitsverteilungen über einer Ereignisalgebra A´

Frage: Welche von 2 Verteilungen enthält mehr Information, bzw. Kenntnis darüber, welches Ereignis eintreten wird ?

Mathematische Grundbegriffe: Reed/ Simon: Methods of Modern Math. Physics, Vol. I: Functional Analysis!

Beispiel:

Zonk- Problem:

Hauptgewinn ist hinter einer von 3 Türen versteckt!

A,B,C\in A\acute{\ }
  1. Verteilung: Alle drei Türen zu je 1/3:
P(1) = δ(x − 1) + δ(x − 2) + δ(x − 3)

Als Gleichverteilung → minimale Kenntnis

  1. Verteilung:
P(2) = δ(x − 2)

scharfe Verteilung → maximale Kenntnis / Sicherheit

Bitzahl:

Ausgangspunkt: diskrete Ereignisalgebra:

A\acute{\ }={{\left\{ {{A}_{i}} \right\}}_{i\in I}}

Frage: Wie lange muss eine Nachricht sein, die einem Beobachter mitteilt, dass ein Ereignis eingetreten ist ??

Länge der Nachricht = Maß für die fehlende Kenntnis des Beobachters

Beispiel:

Auswahl eines Ereignisses aus

A\acute{\ }=\left\{ {{A}_{1}},{{A}_{2}},...,{{A}_{N}} \right\}

falls der Beobachter keine Vorkenntnis hat.

1)A\acute{\ }=\left\{ {{A}_{1}},{{A}_{2}} \right\}
einafche Alternative

= kleinste Informationseinheit

= 1 bit (binary digit)

Nachricht: 0 oder 1

  1. A´ sei menge mit 2n
  2. Elementen:

n Alternativentscheidungen notwendig:

z.B. 0011 → insgesamt n Stellen in Binärdarstellung nötig!

Länge der Nachricht:

n = log2N

(nötige Bitzahl)

Informationsmaß der Nachricht:

Bitzahl!

Also: b(N) = log2N

falls keine Vorkenntnis vorhanden ist!

Verallgemeinerung auf Wahrscheinlichkeitsverteilungen Pi

Falls der Beobachter die Pi

kennt, muss nur die fehlende Information mitgeteilt werden: Also die Bitzahl b(Pi) .


Postulate für die Konstruktion von b(Pi)

:

  1. b(P)
  2. sei eine universelle Funktion, hängt von A also nur über P(A) ab!
  3. Seien \left\{ {{A}_{i}} \right\}
  4. und \left\{ {{A}_{j}}\acute{\ } \right\}
  5. 2 verschiedene (disjunkte) sample sets, z.B. 2 Subsysteme eines zusammengesetzten Systems: So gilt:

Für 2 völlig unkorrelierte Subsysteme eines zusammengesetzten Systems gilt:

b ist additiv, also:

b(P\acute{\ }\acute{\ })=b(P)+b(P\acute{\ })

wobei nach Definition der Unkorreliertheit (stochastische Unabhängigkeit) gilt:

P\acute{\ }\acute{\ }({{A}_{i}}{{A}_{j}}\acute{\ })=P({{A}_{i}})P\acute{\ }({{A}_{j}}\acute{\ })

dabei ist

{{A}_{i}}{{A}_{j}}\acute{\ }

das direkte Produkt der beiden Zufallsvariablen, gegeben durch das Ereignistupel \left\{ {{A}_{i}}{{A}_{j}}\acute{\ } \right\} .


3) b(P)=0 für P=1, also für das sichere Ereignis

\begin{align}

& b(P)={{\log }_{2}}N \\

& f\ddot{u}rP=\frac{1}{N} \\

\end{align}

also im Falle von Gleichverteilung, welches maximale Unbestimmtheit darstellt!

4) b(P)

ist stetig und wohldefiniert für 0\le P\le 1

Wegen der Additivität macht es Sinn:

b(P)=f\left( \log P \right)

zu definieren. Es muss f noch bestimmt werden!

Wegen 1) und 2) folgt:

\begin{align}

& f(\log P\acute{\ }\acute{\ })=f\left( \log P+\log P\acute{\ } \right)=!=f(\log P)+f(\log P\acute{\ }) \\

& \Rightarrow f(\log P)=a*\log P \\

\end{align}

Also: die Funktion sollte linear in log P sein!

Bemerkung:

Für 2 unkorrelierte Systeme ist die Länge der Nachricht = Informationsmaß bei maximaler Unbestimmtheit additiv.

Dies motiviert Postulat 2)

Aus 3) folgt:

\begin{align}

& f(\log P\acute{\ }\acute{\ })=f\left( \log P+\log P\acute{\ } \right)=!=f(\log P)+f(\log P\acute{\ }) \\

& \Rightarrow f(\log P)=a*\log P \\

& b(P)=a\log (P)=-a\log N=!={{\log }_{2}}N \\

& f\ddot{u}rP=\frac{1}{N} \\

& \Rightarrow a=-1 \\

& \log ={{\log }_{2}} \\

\end{align}

Konvention:

Einheit für ein bit:

\ln 2=\frac{\ln P}{{{\log }_{2}}P}

"bin"

b(Pi) = − lnPi

Informationsmaß für die Nachricht, dass Ai eingetreten ist,

falls

Pi = P(Ai)

bekannt ist!

Informationsmaß einer Wahrscheinlichkeitsverteilung \left\{ {{P}_{i}} \right\}

Übermittlung vieler Nachrichten:

Ai

tritt mit relativer Häufigkeit Pi

auf!

mittlere benötigte (= da fehlende!) Information pro Ereignis:

b(Pi) = − lnPi

somit:

\left\langle b({{P}_{i}}) \right\rangle =-\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln {{P}_{i}}


Definition: Shannon-Information einer Verteilung \left\{ {{P}_{i}} \right\}:
I(P)=\sum\limits_{i=1}^{N}{{}}{{P}_{i}}\ln {{P}_{i}}


\begin{align}

& P=\left( {{P}_{1}}...{{P}_{N}} \right) \\

\end{align}

I ist Funktional der Verteilung

b ist Funktion von Pi b(Pi)

Es gilt stets I(P)\le 0

Maximum: I(P) = 0

für pi = δij

Also maximal für scharfe Verteilung mit sicherem Ereignis Aj

Minimum: Variation der Pi

um δPi unter der Nebenbedingung

\sum\limits_{i}^{{}}{{}}\delta {{P}_{i}}=0

wegen Normierung:

\sum\limits_{i}^{{}}{{}}{{P}_{i}}=1

Somit:

\delta I(P)=\sum\limits_{i=1}^{N}{{}}\left( \ln {{P}_{i}}+1 \right)\delta {{P}_{i}}=0

Addition der Nebenbedingung \sum\limits_{i}^{{}}{{}}\delta {{P}_{i}}=0

mit dem Lagrange- Multiplikator λ:

\sum\limits_{i=1}^{N}{{}}\left( \ln {{P}_{i}}+1+\lambda  \right)\delta {{P}_{i}}=0

unabhängige Variation \delta {{P}_{i}}\Rightarrow \forall i\Rightarrow \ln {{P}_{i}}=-\left( 1+\lambda  \right)=const.

Normierung \sum\limits_{i}^{{}}{{}}{{P}_{i}}=1=N{{P}_{i}}\Rightarrow {{P}_{i}}=\frac{1}{N}, also Gleichverteilung

Übung: Man vergleiche I(P) für verschiedene Verteilungen

Kontinuierliche Ereignismenge

x\in {{R}^{d}},\rho (x)
  • Zelleneinteilung des Rd
  • in Zellen i mit Volumen
  • Δdx

Wahrscheinlichkeit für ein Ereignis in Zelle i:

\begin{align}

& {{P}_{i}}=\rho \left( {{x}^{i}} \right){{\Delta }^{d}}x \\

& I(P)=\sum\limits_{i}^{{}}{{}}{{\Delta }^{d}}x\rho \left( {{x}^{i}} \right)\ln \left( {{\Delta }^{d}}x\rho \left( {{x}^{i}} \right) \right)=\sum\limits_{i}^{{}}{{}}{{\Delta }^{d}}x\rho \left( {{x}^{i}} \right)\ln \left( \rho \left( {{x}^{i}} \right) \right)+\sum\limits_{i}^{{}}{{}}{{\Delta }^{d}}x\rho \left( {{x}^{i}} \right)\ln \left( {{\Delta }^{d}}x \right) \\

& \sum\limits_{i}^{{}}{{}}{{\Delta }^{d}}x\rho \left( {{x}^{i}} \right)=1 \\

& \sum\limits_{i}^{{}}{{}}{{\Delta }^{d}}x\rho \left( {{x}^{i}} \right)\ln \left( {{\Delta }^{d}}x \right)=const. \\

\end{align}

für eine feste Zellengröße.

Damit kann dieser Term weggelassen werden und wir gewinnen:

\begin{align}

& I(P)=\sum\limits_{i}^{{}}{{}}{{\Delta }^{d}}x\rho \left( {{x}^{i}} \right)\ln \left( \rho \left( {{x}^{i}} \right) \right) \\

& {{\Delta }^{d}}x\to 0 \\

& I(\rho )=\int_{{}}^{{}}{{{d}^{d}}x}\rho \ln \rho  \\

\end{align}

Bemerkungen

  1. Shannon- Informationsmaß misst die Kenntnis bezüglich der Frage: Welches Ereignis tritt ein ?

keine Unterscheidung, wi die verteilung zustande kommt, z.B. bei Gleichverteilung: genaue Beobachtung ODER vorurteilsfreie Schätzung bei gänzlich fehlender Kenntnis

(Laplacsches Prinzip vom unzureichenden Grund)

2) Definition : Statistisches Informationsmaß des NICHTWISSENS: (der fehlenden Information):

S(\rho )=-k\int_{{}}^{{}}{{{d}^{d}}x}\rho \ln \rho

k geeignete Einheit

Interpretation in der Thermodynamik als Entropie

  1. verallgeminerte Informationsmaße (Renyi)S(\rho )=-k\int_{{}}^{{}}{{{d}^{d}}x}\rho \ln \rho
\begin{align}

& {{I}_{q}}=-\frac{1}{1-q}\ln \left( \sum\limits_{i}^{{}}{{}}{{\left( {{p}_{i}} \right)}^{q-1}} \right) \\

& q=1,2,.... \\

\end{align}

wird gleich dem Shannon- Informationsmaß für q\to 1

Informationsgewinn

Maß für die Zusatzinformationen einer Wahrscheinlichkeitsverteilung \left\{ {{P}_{i}} \right\}

im Vergleich zu einer Referenzverteilung \left\{ {{P}_{i}}\acute{\ } \right\}

über derselben Ereignismenge:

b\left( {{P}_{i}}\acute{\ } \right)-b\left( {{P}_{i}} \right)=\ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}

Dies ist zu verstehen als die notwendige Bitzahl, um Pi´ in Pi zu verwandeln, also die Information, die als Nachricht hierfür gegeben werden muss :

Mittlere Bitzahl (mit der korrigierten Wahrscheinlichkeitsverteilung gewichtet):


 :K\left( P,P\acute{\ } \right)=\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}

Informationsgewinn → Kullback Information!


Bemerkungen

mittlere Bitzahl / Informationsgewinn ist asymmetrisch bezüglich P↔P´
es gilt: K\left( P,P\acute{\ } \right)\ge 0 wegen
\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}\ge \sum\limits_{i}^{{}}{{}}{{P}_{i}}\left( 1-\frac{{{P}_{i}}\acute{\ }}{{{P}_{i}}} \right)=\sum\limits_{i}^{{}}{{}}{{P}_{i}}-\sum\limits_{i}^{{}}{{}}{{P}_{i}}\acute{\ }=1-1=0

es gilt:

\begin{align}

& \ln x\ge 1-\frac{1}{x} \\

& f\ddot{u}r \\

& x>0 \\

\end{align}

{{P}_{i}}\acute{\ }=0 ist auszuschließen, damit K\left( P,P\acute{\ } \right)<\infty

Für {{P}_{i}}\acute{\ }=\frac{1}{N} (Gleichverteilung)

\begin{align}

& K\left( P,P\acute{\ } \right)=\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln N{{P}_{i}}=\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln {{P}_{i}}+\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln N=I(P)+\ln N \\

& wegen\sum\limits_{i}^{{}}{{}}{{P}_{i}}=1 \\

& \Rightarrow K\left( P,P\acute{\ } \right)=I(P)+\ln N \\

\end{align}

bei Gleichverteilung!

5) Minimum von K:

Variation der Pi

umδPi

unter Nebenbedingung \sum\limits_{i}^{{}}{{}}\delta {{P}_{i}}=0

\begin{align}

& \delta K\left( P,P\acute{\ } \right)=\sum\limits_{i}^{{}}{{}}\left( \ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}+1 \right)\delta {{P}_{i}} \\

& \sum\limits_{i}^{{}}{{}}\left( \ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}+1+\lambda  \right)\delta {{P}_{i}}=0 \\

& \Rightarrow \ln (\frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }})=-\left( +1+\lambda  \right)=const. \\

& \Rightarrow {{P}_{i}}\tilde{\ }{{P}_{i}}\acute{\ } \\

\end{align}

Wegen Normierung:

\begin{align}

& \sum\limits_{i}^{{}}{{}}{{P}_{i}}=\sum\limits_{i}^{{}}{{}}{{P}_{i}}\acute{\ }=1 \\

& \Rightarrow {{P}_{i}}={{P}_{i}}\acute{\ }\Rightarrow K=0 \\

\end{align}
  1. K\left( P,P\acute{\ } \right)
  2. ist konvexe Funktion von P, da
\frac{{{\partial }^{2}}K\left( P,P\acute{\ } \right)}{\partial {{P}_{i}}\partial {{P}_{j}}}=\frac{\partial }{\partial {{P}_{j}}}\left( \ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}+1 \right)=\frac{1}{{{P}_{i}}}{{\delta }_{ij}}\ge 0

somit ist dann auch

I(P)=K(P,\frac{1}{N})-\ln N

konvex (Informationsgewinn)

Kontinuierliche Ereignismengen

x\in {{R}^{d}},\rho (x)
  • Zelleneinteilung des Rd
  • in Zellen i mit Volumen
  • Δdx

Wahrscheinlichkeit für ein Ereignis in Zelle i:

\begin{align}

& {{P}_{i}}=\rho \left( {{x}^{i}} \right){{\Delta }^{d}}x \\

& K\left( P,P\acute{\ } \right)=\sum\limits_{i}^{{}}{{}}{{\Delta }^{d}}x\rho \left( {{x}^{i}} \right)\ln \frac{\rho \left( {{x}^{i}} \right)}{\rho \acute{\ }\left( {{x}^{i}} \right)} \\

\end{align}

invariant gegen die Trafo

\begin{align}

& x\to \tilde{x} \\

& \rho \left( x \right)\to \rho \left( {\tilde{x}} \right)Det\left( \frac{\partial x}{\partial \tilde{x}} \right) \\

& {{\Delta }^{d}}x\to {{\Delta }^{d}}\tilde{x}Det{{\left( \frac{\partial x}{\partial \tilde{x}} \right)}^{-1}} \\

\end{align}

Während

I(P)

nicht invariant ist!

\begin{align}

& {{\Delta }^{d}}x\to 0 \\

& \Rightarrow K\left( \rho ,\rho \acute{\ } \right)=\int_{{}}^{{}}{{}}{{d}^{d}}x\rho \ln \frac{\rho }{\rho \acute{\ }} \\

\end{align}

Bemerkung:

Interpretation von -k\dot{K}\left( \rho ,\rho \acute{\ } \right)

in der Thermodynamik als Entropieproduktion und von

kTK\left( \rho ,\rho \acute{\ } \right)

als Exergie (availability)

Persönliche Werkzeuge