Informationsmaße

Thermodynamikvorlesung von Prof. Dr. E. Schöll, PhD

Der Artikel Informationsmaße basiert auf der Vorlesungsmitschrift von Franz- Josef Schmitt des 1.Kapitels (Abschnitt 2) der Thermodynamikvorlesung von Prof. Dr. E. Schöll, PhD.

Informationsmaße	Grundlagen der Statistik	Thermodynamik und Statistik
Inhaltsverzeichnis 1 Idee des Informationsmaßes: 2 Bitzahl: 3 Verallgemeinerung auf Wahrscheinlichkeitsverteilungen '"`UNIQ--postMath-00000011-QINU`"' 4 Postulate für die Konstruktion von '"`UNIQ--postMath-00000014-QINU`"' 5 : 6 Informationsmaß einer Wahrscheinlichkeitsverteilung '"`UNIQ--postMath-00000025-QINU`"' 7 Kontinuierliche Ereignismenge 8 Informationsgewinn 9 Kontinuierliche Ereignismengen	Wahrscheinlichkeitsbegriff Informationsmaße Verallgemeinerte kanonische Verteilung	Grundlagen der Statistik Statistische Begründung der Gleichgewichtsthermodynamik Phänomenologische Thermodynamik Klassische Modellsysteme Quantenmechanische Modellsysteme

Die Informationstheorie (Shannon, Wiener) entstand im 2. Weltkrieg im Zusammenhang mit der Entschlüsselung codierter Nachrichten!

Definition:

Ein Maß $\mu$

auf einer Algebra A´ ist eine Abbildung $\mu :A{\acute {\ }}\to \left[0,\infty \right]$

mit den Eigenschaften

{\begin{aligned}&\mu (0)=0\\&\mu (\bigcup \limits _{i=1}^{\infty }{}{{A}_{i}})=\sum \limits _{i=1}^{\infty }{}\mu \left({{A}_{i}}\right)\\\end{aligned}}

für disjunkte Ereignisse Ai, also

{{A}_{i}}\cap {{A}_{j}}={{A}_{i}}{{\delta }_{ij}}

Nebenbemerkung: Eine $\sigma$

- Algebra A´ ist eine Algebra A´ mit der Eigenschaft, dass abzählbar viele

{\begin{aligned}&{{A}_{i}}\in A{\acute {\ }},i=1,....,\infty \\&\Rightarrow \bigcup \limits _{i=1}^{\infty }{}{{A}_{i}}\in A{\acute {\ }}\\\end{aligned}}

Also: Die Vereinigung der Ereignisse ist Element der Algebra!

Im Folgenden sei unsere Algebra A´ stets eine Sigma- Algebra!

Beispiel eines Maßes: Wahrscheinlichkeit P

Speziell:

P(A)\leq 1

Idee des Informationsmaßes:

Vergleich verschiedener Wahrscheinlichkeitsverteilungen über einer Ereignisalgebra A´

Frage: Welche von 2 Verteilungen enthält mehr Information, bzw. Kenntnis darüber, welches Ereignis eintreten wird ?

Mathematische Grundbegriffe: Reed/ Simon: Methods of Modern Math. Physics, Vol. I: Functional Analysis!

Beispiel:

Zonk- Problem:

Hauptgewinn ist hinter einer von 3 Türen versteckt!

A,B,C\in A{\acute {\ }}

Verteilung: Alle drei Türen zu je 1/3:

{{P}^{(1)}}=\delta (x-1)+\delta (x-2)+\delta (x-3)

Als Gleichverteilung → minimale Kenntnis

Verteilung:

{{P}^{(2)}}=\delta (x-2)

scharfe Verteilung → maximale Kenntnis / Sicherheit

Bitzahl:

Ausgangspunkt: diskrete Ereignisalgebra:

A{\acute {\ }}={{\left\{{{A}_{i}}\right\}}_{i\in I}}

Frage: Wie lange muss eine Nachricht sein, die einem Beobachter mitteilt, dass ein Ereignis eingetreten ist ??

Länge der Nachricht = Maß für die fehlende Kenntnis des Beobachters

Beispiel:

Auswahl eines Ereignisses aus

A{\acute {\ }}=\left\{{{A}_{1}},{{A}_{2}},...,{{A}_{N}}\right\}

falls der Beobachter keine Vorkenntnis hat.

1)A{\acute {\ }}=\left\{{{A}_{1}},{{A}_{2}}\right\}

einafche Alternative

= kleinste Informationseinheit

= 1 bit (binary digit)

Nachricht: 0 oder 1

A´ sei menge mit ${{2}^{n}}$
Elementen:

n Alternativentscheidungen notwendig:

z.B. 0011 → insgesamt n Stellen in Binärdarstellung nötig!

Länge der Nachricht:

n={{\log }_{2}}N

(nötige Bitzahl)

Informationsmaß der Nachricht:

Bitzahl!

Also: $b(N)={{\log }_{2}}N$

falls keine Vorkenntnis vorhanden ist!

Verallgemeinerung auf Wahrscheinlichkeitsverteilungen ${{P}_{i}}$

Falls der Beobachter die ${{P}_{i}}$

kennt, muss nur die fehlende Information mitgeteilt werden: Also die Bitzahl $b({{P}_{i}})$ .

Postulate für die Konstruktion von $b({{P}_{i}})$

:

$b(P)$
sei eine universelle Funktion, hängt von A also nur über P(A) ab!
Seien $\left\{{{A}_{i}}\right\}$
und $\left\{{{A}_{j}}{\acute {\ }}\right\}$
2 verschiedene (disjunkte) sample sets, z.B. 2 Subsysteme eines zusammengesetzten Systems: So gilt:

Für 2 völlig unkorrelierte Subsysteme eines zusammengesetzten Systems gilt:

b ist additiv, also:

b(P{\acute {\ }}{\acute {\ }})=b(P)+b(P{\acute {\ }})

wobei nach Definition der Unkorreliertheit (stochastische Unabhängigkeit) gilt:

P{\acute {\ }}{\acute {\ }}({{A}_{i}}{{A}_{j}}{\acute {\ }})=P({{A}_{i}})P{\acute {\ }}({{A}_{j}}{\acute {\ }})

dabei ist

{{A}_{i}}{{A}_{j}}{\acute {\ }}

das direkte Produkt der beiden Zufallsvariablen, gegeben durch das Ereignistupel $\left\{{{A}_{i}}{{A}_{j}}{\acute {\ }}\right\}$ .

3) b(P)=0 für P=1, also für das sichere Ereignis

{\begin{aligned}&b(P)={{\log }_{2}}N\\&f{\ddot {u}}rP={\frac {1}{N}}\\\end{aligned}}

also im Falle von Gleichverteilung, welches maximale Unbestimmtheit darstellt!

4) $b(P)$

ist stetig und wohldefiniert für $0\leq P\leq 1$

Wegen der Additivität macht es Sinn:

b(P)=f\left(\log P\right)

zu definieren. Es muss f noch bestimmt werden!

Wegen 1) und 2) folgt:

{\begin{aligned}&f(\log P{\acute {\ }}{\acute {\ }})=f\left(\log P+\log P{\acute {\ }}\right)=!=f(\log P)+f(\log P{\acute {\ }})\\&\Rightarrow f(\log P)=a*\log P\\\end{aligned}}

Also: die Funktion sollte linear in log P sein!

Bemerkung:

Für 2 unkorrelierte Systeme ist die Länge der Nachricht = Informationsmaß bei maximaler Unbestimmtheit additiv.

Dies motiviert Postulat 2)

Aus 3) folgt:

{\begin{aligned}&f(\log P{\acute {\ }}{\acute {\ }})=f\left(\log P+\log P{\acute {\ }}\right)=!=f(\log P)+f(\log P{\acute {\ }})\\&\Rightarrow f(\log P)=a*\log P\\&b(P)=a\log(P)=-a\log N=!={{\log }_{2}}N\\&f{\ddot {u}}rP={\frac {1}{N}}\\&\Rightarrow a=-1\\&\log ={{\log }_{2}}\\\end{aligned}}

Konvention:

Einheit für ein bit:

\ln 2={\frac {\ln P}{{{\log }_{2}}P}}

"bin"

b({{P}_{i}})=-\ln {{P}_{i}}

Informationsmaß für die Nachricht, dass Ai eingetreten ist,

falls

{{P}_{i}}=P({{A}_{i}})

bekannt ist!

Informationsmaß einer Wahrscheinlichkeitsverteilung $\left\{{{P}_{i}}\right\}$

Übermittlung vieler Nachrichten:

{{A}_{i}}

tritt mit relativer Häufigkeit ${{P}_{i}}$

auf!

mittlere benötigte (= da fehlende!) Information pro Ereignis:

b({{P}_{i}})=-\ln {{P}_{i}}

somit:

\left\langle b({{P}_{i}})\right\rangle =-\sum \limits _{i}^{}{}{{P}_{i}}\ln {{P}_{i}}

Definition: Shannon-Information einer Verteilung

\left\{{{P}_{i}}\right\}

:

I(P)=\sum \limits _{i=1}^{N}{}{{P}_{i}}\ln {{P}_{i}}

{\begin{aligned}&P=\left({{P}_{1}}...{{P}_{N}}\right)\\\end{aligned}}

I ist Funktional der Verteilung

b ist Funktion von Pi b(Pi)

Es gilt stets $I(P)\leq 0$

Maximum: $I(P)=0$

für ${{p}_{i}}={{\delta }_{ij}}$

Also maximal für scharfe Verteilung mit sicherem Ereignis ${{A}_{j}}$

Minimum: Variation der ${{P}_{i}}$

um $\delta {{P}_{i}}$ unter der Nebenbedingung

\sum \limits _{i}^{}{}\delta {{P}_{i}}=0

wegen Normierung:

\sum \limits _{i}^{}{}{{P}_{i}}=1

Somit:

\delta I(P)=\sum \limits _{i=1}^{N}{}\left(\ln {{P}_{i}}+1\right)\delta {{P}_{i}}=0

Addition der Nebenbedingung $\sum \limits _{i}^{}{}\delta {{P}_{i}}=0$

mit dem Lagrange- Multiplikator $\lambda$ :

\sum \limits _{i=1}^{N}{}\left(\ln {{P}_{i}}+1+\lambda \right)\delta {{P}_{i}}=0

unabhängige Variation $\delta {{P}_{i}}\Rightarrow \forall i\Rightarrow \ln {{P}_{i}}=-\left(1+\lambda \right)=const.$

Normierung $\sum \limits _{i}^{}{}{{P}_{i}}=1=N{{P}_{i}}\Rightarrow {{P}_{i}}={\frac {1}{N}}$ , also Gleichverteilung

Übung: Man vergleiche I(P) für verschiedene Verteilungen

Kontinuierliche Ereignismenge

x\in {{R}^{d}},\rho (x)

Zelleneinteilung des ${{R}^{d}}$
in Zellen i mit Volumen
${{\Delta }^{d}}x$

Wahrscheinlichkeit für ein Ereignis in Zelle i:

{\begin{aligned}&{{P}_{i}}=\rho \left({{x}^{i}}\right){{\Delta }^{d}}x\\&I(P)=\sum \limits _{i}^{}{}{{\Delta }^{d}}x\rho \left({{x}^{i}}\right)\ln \left({{\Delta }^{d}}x\rho \left({{x}^{i}}\right)\right)=\sum \limits _{i}^{}{}{{\Delta }^{d}}x\rho \left({{x}^{i}}\right)\ln \left(\rho \left({{x}^{i}}\right)\right)+\sum \limits _{i}^{}{}{{\Delta }^{d}}x\rho \left({{x}^{i}}\right)\ln \left({{\Delta }^{d}}x\right)\\&\sum \limits _{i}^{}{}{{\Delta }^{d}}x\rho \left({{x}^{i}}\right)=1\\&\sum \limits _{i}^{}{}{{\Delta }^{d}}x\rho \left({{x}^{i}}\right)\ln \left({{\Delta }^{d}}x\right)=const.\\\end{aligned}}

für eine feste Zellengröße.

Damit kann dieser Term weggelassen werden und wir gewinnen:

{\begin{aligned}&I(P)=\sum \limits _{i}^{}{}{{\Delta }^{d}}x\rho \left({{x}^{i}}\right)\ln \left(\rho \left({{x}^{i}}\right)\right)\\&{{\Delta }^{d}}x\to 0\\&I(\rho )=\int _{}^{}{{{d}^{d}}x}\rho \ln \rho \\\end{aligned}}

Bemerkungen

Shannon- Informationsmaß misst die Kenntnis bezüglich der Frage: Welches Ereignis tritt ein ?

keine Unterscheidung, wi die verteilung zustande kommt, z.B. bei Gleichverteilung: genaue Beobachtung ODER vorurteilsfreie Schätzung bei gänzlich fehlender Kenntnis

(Laplacsches Prinzip vom unzureichenden Grund)

2) Definition : Statistisches Informationsmaß des NICHTWISSENS: (der fehlenden Information):

S(\rho )=-k\int _{}^{}{{{d}^{d}}x}\rho \ln \rho

k geeignete Einheit

Interpretation in der Thermodynamik als Entropie

verallgeminerte Informationsmaße (Renyi) $S(\rho )=-k\int _{}^{}{{{d}^{d}}x}\rho \ln \rho$

{\begin{aligned}&{{I}_{q}}=-{\frac {1}{1-q}}\ln \left(\sum \limits _{i}^{}{}{{\left({{p}_{i}}\right)}^{q-1}}\right)\\&q=1,2,....\\\end{aligned}}

wird gleich dem Shannon- Informationsmaß für $q\to 1$

Informationsgewinn

Maß für die Zusatzinformationen einer Wahrscheinlichkeitsverteilung $\left\{{{P}_{i}}\right\}$

im Vergleich zu einer Referenzverteilung $\left\{{{P}_{i}}{\acute {\ }}\right\}$

über derselben Ereignismenge:

b\left({{P}_{i}}{\acute {\ }}\right)-b\left({{P}_{i}}\right)=\ln {\frac {{P}_{i}}{{{P}_{i}}{\acute {\ }}}}

Dies ist zu verstehen als die notwendige Bitzahl, um Pi´ in Pi zu verwandeln, also die Information, die als Nachricht hierfür gegeben werden muss :

Mittlere Bitzahl (mit der korrigierten Wahrscheinlichkeitsverteilung gewichtet):

:

K\left(P,P{\acute {\ }}\right)=\sum \limits _{i}^{}{}{{P}_{i}}\ln {\frac {{P}_{i}}{{{P}_{i}}{\acute {\ }}}}

Informationsgewinn → Kullback Information!

Bemerkungen

mittlere Bitzahl / Informationsgewinn ist asymmetrisch bezüglich P↔P´
es gilt:  $K\left(P,P{\acute {\ }}\right)\geq 0$  wegen

\sum \limits _{i}^{}{}{{P}_{i}}\ln {\frac {{P}_{i}}{{{P}_{i}}{\acute {\ }}}}\geq \sum \limits _{i}^{}{}{{P}_{i}}\left(1-{\frac {{{P}_{i}}{\acute {\ }}}{{P}_{i}}}\right)=\sum \limits _{i}^{}{}{{P}_{i}}-\sum \limits _{i}^{}{}{{P}_{i}}{\acute {\ }}=1-1=0

es gilt:

{\begin{aligned}&\ln x\geq 1-{\frac {1}{x}}\\&f{\ddot {u}}r\\&x>0\\\end{aligned}}

${{P}_{i}}{\acute {\ }}=0$ ist auszuschließen, damit $K\left(P,P{\acute {\ }}\right)<\infty$

Für ${{P}_{i}}{\acute {\ }}={\frac {1}{N}}$ (Gleichverteilung)

{\begin{aligned}&K\left(P,P{\acute {\ }}\right)=\sum \limits _{i}^{}{}{{P}_{i}}\ln N{{P}_{i}}=\sum \limits _{i}^{}{}{{P}_{i}}\ln {{P}_{i}}+\sum \limits _{i}^{}{}{{P}_{i}}\ln N=I(P)+\ln N\\&wegen\sum \limits _{i}^{}{}{{P}_{i}}=1\\&\Rightarrow K\left(P,P{\acute {\ }}\right)=I(P)+\ln N\\\end{aligned}}

bei Gleichverteilung!

5) Minimum von K:

Variation der ${{P}_{i}}$

um $\delta {{P}_{i}}$

unter Nebenbedingung $\sum \limits _{i}^{}{}\delta {{P}_{i}}=0$

{\begin{aligned}&\delta K\left(P,P{\acute {\ }}\right)=\sum \limits _{i}^{}{}\left(\ln {\frac {{P}_{i}}{{{P}_{i}}{\acute {\ }}}}+1\right)\delta {{P}_{i}}\\&\sum \limits _{i}^{}{}\left(\ln {\frac {{P}_{i}}{{{P}_{i}}{\acute {\ }}}}+1+\lambda \right)\delta {{P}_{i}}=0\\&\Rightarrow \ln({\frac {{P}_{i}}{{{P}_{i}}{\acute {\ }}}})=-\left(+1+\lambda \right)=const.\\&\Rightarrow {{P}_{i}}{\tilde {\ }}{{P}_{i}}{\acute {\ }}\\\end{aligned}}

Wegen Normierung:

{\begin{aligned}&\sum \limits _{i}^{}{}{{P}_{i}}=\sum \limits _{i}^{}{}{{P}_{i}}{\acute {\ }}=1\\&\Rightarrow {{P}_{i}}={{P}_{i}}{\acute {\ }}\Rightarrow K=0\\\end{aligned}}

$K\left(P,P{\acute {\ }}\right)$
ist konvexe Funktion von P, da

{\frac {{{\partial }^{2}}K\left(P,P{\acute {\ }}\right)}{\partial {{P}_{i}}\partial {{P}_{j}}}}={\frac {\partial }{\partial {{P}_{j}}}}\left(\ln {\frac {{P}_{i}}{{{P}_{i}}{\acute {\ }}}}+1\right)={\frac {1}{{P}_{i}}}{{\delta }_{ij}}\geq 0

somit ist dann auch

I(P)=K(P,{\frac {1}{N}})-\ln N

konvex (Informationsgewinn)

Kontinuierliche Ereignismengen

x\in {{R}^{d}},\rho (x)

Zelleneinteilung des ${{R}^{d}}$
in Zellen i mit Volumen
${{\Delta }^{d}}x$

Wahrscheinlichkeit für ein Ereignis in Zelle i:

{\begin{aligned}&{{P}_{i}}=\rho \left({{x}^{i}}\right){{\Delta }^{d}}x\\&K\left(P,P{\acute {\ }}\right)=\sum \limits _{i}^{}{}{{\Delta }^{d}}x\rho \left({{x}^{i}}\right)\ln {\frac {\rho \left({{x}^{i}}\right)}{\rho {\acute {\ }}\left({{x}^{i}}\right)}}\\\end{aligned}}

invariant gegen die Trafo

{\begin{aligned}&x\to {\tilde {x}}\\&\rho \left(x\right)\to \rho \left({\tilde {x}}\right)Det\left({\frac {\partial x}{\partial {\tilde {x}}}}\right)\\&{{\Delta }^{d}}x\to {{\Delta }^{d}}{\tilde {x}}Det{{\left({\frac {\partial x}{\partial {\tilde {x}}}}\right)}^{-1}}\\\end{aligned}}

Während

I(P)

nicht invariant ist!

{\begin{aligned}&{{\Delta }^{d}}x\to 0\\&\Rightarrow K\left(\rho ,\rho {\acute {\ }}\right)=\int _{}^{}{}{{d}^{d}}x\rho \ln {\frac {\rho }{\rho {\acute {\ }}}}\\\end{aligned}}

Bemerkung:

Interpretation von $-k{\dot {K}}\left(\rho ,\rho {\acute {\ }}\right)$

in der Thermodynamik als Entropieproduktion und von

kTK\left(\rho ,\rho {\acute {\ }}\right)

als Exergie (availability)

Informationsmaße

Idee des Informationsmaßes:

Bitzahl:

Verallgemeinerung auf Wahrscheinlichkeitsverteilungen P i {\displaystyle {{P}_{i}}}

Postulate für die Konstruktion von b ( P i ) {\displaystyle b({{P}_{i}})}

:

Informationsmaß einer Wahrscheinlichkeitsverteilung { P i } {\displaystyle \left\{{{P}_{i}}\right\}}