Informationsmaße: Unterschied zwischen den Versionen
Die Seite wurde neu angelegt: „<noinclude>{{Scripthinweis|Thermodynamik|1|2}}</noinclude> Die Informationstheorie ( Shannon, Wiener) entstand im 2. Weltkrieg im Zusammenhang mit der Entschlüs…“ |
|||
(4 dazwischenliegende Versionen von 2 Benutzern werden nicht angezeigt) | |||
Zeile 1: | Zeile 1: | ||
<noinclude>{{Scripthinweis|Thermodynamik|1|2}}</noinclude> | <noinclude>{{Scripthinweis|Thermodynamik|1|2}}</noinclude> | ||
Die Informationstheorie ( Shannon, Wiener) entstand im 2. Weltkrieg im Zusammenhang mit der Entschlüsselung codierter Nachrichten ! | Die Informationstheorie (Shannon, Wiener) entstand im 2. Weltkrieg im Zusammenhang mit der Entschlüsselung codierter Nachrichten! | ||
'''Definition:''' | '''Definition:''' | ||
Zeile 11: | Zeile 11: | ||
mit den Eigenschaften | mit den Eigenschaften | ||
<math>\begin{align} | :<math>\begin{align} | ||
& \mu (0)=0 \\ | & \mu (0)=0 \\ | ||
Zeile 21: | Zeile 21: | ||
für disjunkte Ereignisse Ai, also | für disjunkte Ereignisse Ai, also | ||
<math>{{A}_{i}}\cap {{A}_{j}}={{A}_{i}}{{\delta }_{ij}}</math> | :<math>{{A}_{i}}\cap {{A}_{j}}={{A}_{i}}{{\delta }_{ij}}</math> | ||
'''Nebenbemerkung: '''Eine <math>\sigma </math> | '''Nebenbemerkung: '''Eine <math>\sigma </math> | ||
Zeile 27: | Zeile 27: | ||
- Algebra A´ ist eine Algebra A´ mit der Eigenschaft, dass abzählbar viele | - Algebra A´ ist eine Algebra A´ mit der Eigenschaft, dass abzählbar viele | ||
<math>\begin{align} | :<math>\begin{align} | ||
& {{A}_{i}}\in A\acute{\ },i=1,....,\infty \\ | & {{A}_{i}}\in A\acute{\ },i=1,....,\infty \\ | ||
Zeile 35: | Zeile 35: | ||
\end{align}</math> | \end{align}</math> | ||
Also: Die Vereinigung der Ereignisse ist Element der Algebra ! | Also: Die Vereinigung der Ereignisse ist Element der Algebra! | ||
Im Folgenden sei unsere Algebra A´ stets eine Sigma- Algebra ! | Im Folgenden sei unsere Algebra A´ stets eine Sigma- Algebra! | ||
Beispiel eines Maßes: Wahrscheinlichkeit P | Beispiel eines Maßes: Wahrscheinlichkeit P | ||
Zeile 43: | Zeile 43: | ||
Speziell: | Speziell: | ||
<math>P(A)\le 1</math> | :<math>P(A)\le 1</math> | ||
====Idee des Informationsmaßes:==== | ====Idee des Informationsmaßes:==== | ||
Zeile 49: | Zeile 49: | ||
Vergleich verschiedener Wahrscheinlichkeitsverteilungen über einer Ereignisalgebra A´ | Vergleich verschiedener Wahrscheinlichkeitsverteilungen über einer Ereignisalgebra A´ | ||
Frage: Welche von 2 Verteilungen enthält mehr Information , bzw. Kenntnis darüber, welches Ereignis eintreten wird ? | Frage: Welche von 2 Verteilungen enthält mehr Information, bzw. Kenntnis darüber, welches Ereignis eintreten wird ? | ||
Mathematische Grundbegriffe: Reed/ Simon: Methods of Modern Math. Physics, Vol. I: Functional Analysis ! | Mathematische Grundbegriffe: Reed/ Simon: Methods of Modern Math. Physics, Vol. I: Functional Analysis! | ||
'''Beispiel:''' | '''Beispiel:''' | ||
Zeile 57: | Zeile 57: | ||
Zonk- Problem: | Zonk- Problem: | ||
Hauptgewinn ist hinter einer von 3 Türen versteckt ! | Hauptgewinn ist hinter einer von 3 Türen versteckt! | ||
<math>A,B,C\in A\acute{\ }</math> | :<math>A,B,C\in A\acute{\ }</math> | ||
# Verteilung: Alle drei Türen zu je 1/3: | # Verteilung: Alle drei Türen zu je 1/3: | ||
<math>{{P}^{(1)}}=\delta (x-1)+\delta (x-2)+\delta (x-3)</math> | :<math>{{P}^{(1)}}=\delta (x-1)+\delta (x-2)+\delta (x-3)</math> | ||
Als Gleichverteilung | Als Gleichverteilung → minimale Kenntnis | ||
# Verteilung: | # Verteilung: | ||
<math>{{P}^{(2)}}=\delta (x-2)</math> | :<math>{{P}^{(2)}}=\delta (x-2)</math> | ||
scharfe Verteilung | scharfe Verteilung → maximale Kenntnis / Sicherheit | ||
====Bitzahl:==== | ====Bitzahl:==== | ||
Zeile 76: | Zeile 76: | ||
Ausgangspunkt: diskrete Ereignisalgebra: | Ausgangspunkt: diskrete Ereignisalgebra: | ||
<math>A\acute{\ }={{\left\{ {{A}_{i}} \right\}}_{i\in I}}</math> | :<math>A\acute{\ }={{\left\{ {{A}_{i}} \right\}}_{i\in I}}</math> | ||
Frage: Wie lange muss eine Nachricht sein, die einem Beobachter mitteilt, dass ein Ereignis eingetreten ist ?? | Frage: Wie lange muss eine Nachricht sein, die einem Beobachter mitteilt, dass ein Ereignis eingetreten ist ?? | ||
Zeile 86: | Zeile 86: | ||
Auswahl eines Ereignisses aus | Auswahl eines Ereignisses aus | ||
<math>A\acute{\ }=\left\{ {{A}_{1}},{{A}_{2}},...,{{A}_{N}} \right\}</math> | :<math>A\acute{\ }=\left\{ {{A}_{1}},{{A}_{2}},...,{{A}_{N}} \right\}</math> | ||
falls der Beobachter keine Vorkenntnis hat . | falls der Beobachter keine Vorkenntnis hat. | ||
<math>1)A\acute{\ }=\left\{ {{A}_{1}},{{A}_{2}} \right\}</math> | :<math>1)A\acute{\ }=\left\{ {{A}_{1}},{{A}_{2}} \right\}</math> | ||
: einafche Alternative | : einafche Alternative | ||
Zeile 96: | Zeile 96: | ||
= kleinste Informationseinheit | = kleinste Informationseinheit | ||
= 1 bit ( binary digit) | = 1 bit (binary digit) | ||
Nachricht: 0 oder 1 | Nachricht: 0 oder 1 | ||
Zeile 105: | Zeile 105: | ||
n Alternativentscheidungen notwendig: | n Alternativentscheidungen notwendig: | ||
z.B. 0011 | z.B. 0011 → insgesamt n Stellen in Binärdarstellung nötig! | ||
Länge der Nachricht: | Länge der Nachricht: | ||
<math>n={{\log }_{2}}N</math> | :<math>n={{\log }_{2}}N</math> | ||
( nötige Bitzahl) | (nötige Bitzahl) | ||
Informationsmaß der Nachricht: | Informationsmaß der Nachricht: | ||
Bitzahl ! | Bitzahl! | ||
Also: <math>b(N)={{\log }_{2}}N</math> | Also: <math>b(N)={{\log }_{2}}N</math> | ||
falls keine Vorkenntnis vorhanden ist ! | falls keine Vorkenntnis vorhanden ist! | ||
====Verallgemeinerung auf Wahrscheinlichkeitsverteilungen <math>{{P}_{i}}</math>==== | ====Verallgemeinerung auf Wahrscheinlichkeitsverteilungen <math>{{P}_{i}}</math>==== | ||
Zeile 126: | Zeile 126: | ||
kennt, muss nur die fehlende Information mitgeteilt werden: Also die Bitzahl <math>b({{P}_{i}})</math> | kennt, muss nur die fehlende Information mitgeteilt werden: Also die Bitzahl <math>b({{P}_{i}})</math> | ||
. | |||
====Postulate für die Konstruktion von <math>b({{P}_{i}})</math>==== | ====Postulate für die Konstruktion von <math>b({{P}_{i}})</math>==== | ||
Zeile 133: | Zeile 133: | ||
# <math>b(P)</math> | # <math>b(P)</math> | ||
# sei eine universelle Funktion, hängt von A also nur über P(A) ab ! | # sei eine universelle Funktion, hängt von A also nur über P(A) ab! | ||
# Seien <math>\left\{ {{A}_{i}} \right\}</math> | # Seien <math>\left\{ {{A}_{i}} \right\}</math> | ||
# und <math>\left\{ {{A}_{j}}\acute{\ } \right\}</math> | # und <math>\left\{ {{A}_{j}}\acute{\ } \right\}</math> | ||
# 2 verschiedene ( disjunkte) sample sets, z.B. 2 Subsysteme eines zusammengesetzten Systems: So gilt: | # 2 verschiedene (disjunkte) sample sets, z.B. 2 Subsysteme eines zusammengesetzten Systems: So gilt: | ||
Für 2 völlig unkorrelierte Subsysteme eines zusammengesetzten Systems gilt: | Für 2 völlig unkorrelierte Subsysteme eines zusammengesetzten Systems gilt: | ||
Zeile 142: | Zeile 142: | ||
b ist additiv, also: | b ist additiv, also: | ||
<math>b(P\acute{\ }\acute{\ })=b(P)+b(P\acute{\ })</math> | :<math>b(P\acute{\ }\acute{\ })=b(P)+b(P\acute{\ })</math> | ||
wobei nach Definition der Unkorreliertheit ( stochastische Unabhängigkeit) gilt: | wobei nach Definition der Unkorreliertheit (stochastische Unabhängigkeit) gilt: | ||
<math>P\acute{\ }\acute{\ }({{A}_{i}}{{A}_{j}}\acute{\ })=P({{A}_{i}})P\acute{\ }({{A}_{j}}\acute{\ })</math> | :<math>P\acute{\ }\acute{\ }({{A}_{i}}{{A}_{j}}\acute{\ })=P({{A}_{i}})P\acute{\ }({{A}_{j}}\acute{\ })</math> | ||
dabei ist | dabei ist | ||
<math>{{A}_{i}}{{A}_{j}}\acute{\ }</math> | :<math>{{A}_{i}}{{A}_{j}}\acute{\ }</math> | ||
das direkte Produkt der beiden Zufallsvariablen, gegeben durch das Ereignistupel <math>\left\{ {{A}_{i}}{{A}_{j}}\acute{\ } \right\}</math> | das direkte Produkt der beiden Zufallsvariablen, gegeben durch das Ereignistupel <math>\left\{ {{A}_{i}}{{A}_{j}}\acute{\ } \right\}</math> | ||
. | |||
3) b(P)=0 für P=1, also für das sichere Ereignis | 3) b(P)=0 für P=1, also für das sichere Ereignis | ||
<math>\begin{align} | :<math>\begin{align} | ||
& b(P)={{\log }_{2}}N \\ | & b(P)={{\log }_{2}}N \\ | ||
Zeile 166: | Zeile 166: | ||
\end{align}</math> | \end{align}</math> | ||
also im Falle von Gleichverteilung, welches maximale Unbestimmtheit darstellt ! | also im Falle von Gleichverteilung, welches maximale Unbestimmtheit darstellt! | ||
4) <math>b(P)</math> | 4) <math>b(P)</math> | ||
Zeile 174: | Zeile 174: | ||
'''Wegen der Additivität macht es Sinn:''' | '''Wegen der Additivität macht es Sinn:''' | ||
<math>b(P)=f\left( \log P \right)</math> | :<math>b(P)=f\left( \log P \right)</math> | ||
zu definieren. Es muss f noch bestimmt werden ! | zu definieren. Es muss f noch bestimmt werden! | ||
Wegen 1) und 2) folgt: | Wegen 1) und 2) folgt: | ||
<math>\begin{align} | :<math>\begin{align} | ||
& f(\log P\acute{\ }\acute{\ })=f\left( \log P+\log P\acute{\ } \right)=!=f(\log P)+f(\log P\acute{\ }) \\ | & f(\log P\acute{\ }\acute{\ })=f\left( \log P+\log P\acute{\ } \right)=!=f(\log P)+f(\log P\acute{\ }) \\ | ||
Zeile 188: | Zeile 188: | ||
\end{align}</math> | \end{align}</math> | ||
Also: die Funktion sollte linear in log P sein ! | Also: die Funktion sollte linear in log P sein! | ||
'''Bemerkung:''' | '''Bemerkung:''' | ||
Zeile 198: | Zeile 198: | ||
Aus 3) folgt: | Aus 3) folgt: | ||
<math>\begin{align} | :<math>\begin{align} | ||
& f(\log P\acute{\ }\acute{\ })=f\left( \log P+\log P\acute{\ } \right)=!=f(\log P)+f(\log P\acute{\ }) \\ | & f(\log P\acute{\ }\acute{\ })=f\left( \log P+\log P\acute{\ } \right)=!=f(\log P)+f(\log P\acute{\ }) \\ | ||
Zeile 218: | Zeile 218: | ||
Einheit für ein bit: | Einheit für ein bit: | ||
<math>\ln 2=\frac{\ln P}{{{\log }_{2}}P}</math> | :<math>\ln 2=\frac{\ln P}{{{\log }_{2}}P}</math> | ||
"bin" | "bin" | ||
<math>b({{P}_{i}})=-\ln {{P}_{i}}</math> | :<math>b({{P}_{i}})=-\ln {{P}_{i}}</math> | ||
Informationsmaß für die Nachricht, dass Ai eingetreten ist, | Informationsmaß für die Nachricht, dass Ai eingetreten ist, | ||
Zeile 228: | Zeile 228: | ||
falls | falls | ||
<math>{{P}_{i}}=P({{A}_{i}})</math> | :<math>{{P}_{i}}=P({{A}_{i}})</math> | ||
bekannt ist ! | bekannt ist! | ||
====Informationsmaß einer Wahrscheinlichkeitsverteilung <math>\left\{ {{P}_{i}} \right\}</math>==== | ====Informationsmaß einer Wahrscheinlichkeitsverteilung <math>\left\{ {{P}_{i}} \right\}</math>==== | ||
Zeile 236: | Zeile 236: | ||
Übermittlung vieler Nachrichten: | Übermittlung vieler Nachrichten: | ||
<math>{{A}_{i}}</math> | :<math>{{A}_{i}}</math> | ||
tritt mit relativer Häufigkeit <math>{{P}_{i}}</math> | tritt mit relativer Häufigkeit <math>{{P}_{i}}</math> | ||
auf ! | auf! | ||
mittlere benötigte ( = da fehlende !) Information pro Ereignis: | mittlere benötigte (= da fehlende!) Information pro Ereignis: | ||
<math>b({{P}_{i}})=-\ln {{P}_{i}}</math> | :<math>b({{P}_{i}})=-\ln {{P}_{i}}</math> | ||
somit: | somit: | ||
<math>\left\langle b({{P}_{i}}) \right\rangle =-\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln {{P}_{i}}</math> | :<math>\left\langle b({{P}_{i}}) \right\rangle =-\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln {{P}_{i}}</math> | ||
Definition: Shannon- Information einer Verteilung <math>\left\{ {{P}_{i}} \right\}</math> | {{Def|Definition: '''Shannon-Information''' einer Verteilung <math>\left\{ {{P}_{i}} \right\}</math>: | ||
: | |||
<math>\ | ::<math>I(P)=\sum\limits_{i=1}^{N}{{}}{{P}_{i}}\ln {{P}_{i}}</math>|Shannon-Information}} | ||
:<math>\begin{align} | |||
& P=\left( {{P}_{1}}...{{P}_{N}} \right) \\ | & P=\left( {{P}_{1}}...{{P}_{N}} \right) \\ | ||
Zeile 277: | Zeile 275: | ||
um <math>\delta {{P}_{i}}</math> | um <math>\delta {{P}_{i}}</math> | ||
unter der Nebenbedingung | unter der Nebenbedingung | ||
<math>\sum\limits_{i}^{{}}{{}}\delta {{P}_{i}}=0</math> | :<math>\sum\limits_{i}^{{}}{{}}\delta {{P}_{i}}=0</math> | ||
wegen Normierung: | wegen Normierung: | ||
<math>\sum\limits_{i}^{{}}{{}}{{P}_{i}}=1</math> | :<math>\sum\limits_{i}^{{}}{{}}{{P}_{i}}=1</math> | ||
Somit: | Somit: | ||
<math>\delta I(P)=\sum\limits_{i=1}^{N}{{}}\left( \ln {{P}_{i}}+1 \right)\delta {{P}_{i}}=0</math> | :<math>\delta I(P)=\sum\limits_{i=1}^{N}{{}}\left( \ln {{P}_{i}}+1 \right)\delta {{P}_{i}}=0</math> | ||
Addition der Nebenbedingung <math>\sum\limits_{i}^{{}}{{}}\delta {{P}_{i}}=0</math> | Addition der Nebenbedingung <math>\sum\limits_{i}^{{}}{{}}\delta {{P}_{i}}=0</math> | ||
mit dem Lagrange- Multiplikator <math>\lambda </math> | mit dem Lagrange- Multiplikator <math>\lambda </math>: | ||
: | |||
<math>\sum\limits_{i=1}^{N}{{}}\left( \ln {{P}_{i}}+1+\lambda \right)\delta {{P}_{i}}=0</math> | :<math>\sum\limits_{i=1}^{N}{{}}\left( \ln {{P}_{i}}+1+\lambda \right)\delta {{P}_{i}}=0</math> | ||
unabhängige Variation <math>\delta {{P}_{i}}\Rightarrow \forall i\Rightarrow \ln {{P}_{i}}=-\left( 1+\lambda \right)=const.</math> | unabhängige Variation <math>\delta {{P}_{i}}\Rightarrow \forall i\Rightarrow \ln {{P}_{i}}=-\left( 1+\lambda \right)=const.</math> | ||
Normierung <math>\sum\limits_{i}^{{}}{{}}{{P}_{i}}=1=N{{P}_{i}}\Rightarrow {{P}_{i}}=\frac{1}{N}</math> | Normierung <math>\sum\limits_{i}^{{}}{{}}{{P}_{i}}=1=N{{P}_{i}}\Rightarrow {{P}_{i}}=\frac{1}{N}</math>, also Gleichverteilung | ||
, also Gleichverteilung | |||
'''Übung: '''Man vergleiche I(P) für verschiedene Verteilungen | '''Übung: '''Man vergleiche I(P) für verschiedene Verteilungen | ||
Zeile 308: | Zeile 301: | ||
====Kontinuierliche Ereignismenge==== | ====Kontinuierliche Ereignismenge==== | ||
<math>x\in {{R}^{d}},\rho (x)</math> | :<math>x\in {{R}^{d}},\rho (x)</math> | ||
* Zelleneinteilung des <math>{{R}^{d}}</math> | * Zelleneinteilung des <math>{{R}^{d}}</math> | ||
Zeile 317: | Zeile 310: | ||
Wahrscheinlichkeit für ein Ereignis in Zelle i: | Wahrscheinlichkeit für ein Ereignis in Zelle i: | ||
<math>\begin{align} | :<math>\begin{align} | ||
& {{P}_{i}}=\rho \left( {{x}^{i}} \right){{\Delta }^{d}}x \\ | & {{P}_{i}}=\rho \left( {{x}^{i}} \right){{\Delta }^{d}}x \\ | ||
Zeile 333: | Zeile 326: | ||
Damit kann dieser Term weggelassen werden und wir gewinnen: | Damit kann dieser Term weggelassen werden und wir gewinnen: | ||
<math>\begin{align} | :<math>\begin{align} | ||
& I(P)=\sum\limits_{i}^{{}}{{}}{{\Delta }^{d}}x\rho \left( {{x}^{i}} \right)\ln \left( \rho \left( {{x}^{i}} \right) \right) \\ | & I(P)=\sum\limits_{i}^{{}}{{}}{{\Delta }^{d}}x\rho \left( {{x}^{i}} \right)\ln \left( \rho \left( {{x}^{i}} \right) \right) \\ | ||
Zeile 348: | Zeile 341: | ||
keine Unterscheidung, wi die verteilung zustande kommt, z.B. bei Gleichverteilung: genaue Beobachtung ODER vorurteilsfreie Schätzung bei gänzlich fehlender Kenntnis | keine Unterscheidung, wi die verteilung zustande kommt, z.B. bei Gleichverteilung: genaue Beobachtung ODER vorurteilsfreie Schätzung bei gänzlich fehlender Kenntnis | ||
( Laplacsches Prinzip vom unzureichenden Grund) | (Laplacsches Prinzip vom unzureichenden Grund) | ||
2) '''Definition ''': Statistisches Informationsmaß des NICHTWISSENS: ( der fehlenden Information): | 2) '''Definition ''': Statistisches Informationsmaß des NICHTWISSENS: (der fehlenden Information): | ||
<math>S(\rho )=-k\int_{{}}^{{}}{{{d}^{d}}x}\rho \ln \rho </math> | :<math>S(\rho )=-k\int_{{}}^{{}}{{{d}^{d}}x}\rho \ln \rho </math> | ||
k geeignete Einheit | k geeignete Einheit | ||
Zeile 358: | Zeile 351: | ||
Interpretation in der Thermodynamik als Entropie | Interpretation in der Thermodynamik als Entropie | ||
# verallgeminerte Informationsmaße ( Renyi)<math>S(\rho )=-k\int_{{}}^{{}}{{{d}^{d}}x}\rho \ln \rho </math> | # verallgeminerte Informationsmaße (Renyi)<math>S(\rho )=-k\int_{{}}^{{}}{{{d}^{d}}x}\rho \ln \rho </math> | ||
# | # | ||
<math>\begin{align} | :<math>\begin{align} | ||
& {{I}_{q}}=-\frac{1}{1-q}\ln \left( \sum\limits_{i}^{{}}{{}}{{\left( {{p}_{i}} \right)}^{q-1}} \right) \\ | & {{I}_{q}}=-\frac{1}{1-q}\ln \left( \sum\limits_{i}^{{}}{{}}{{\left( {{p}_{i}} \right)}^{q-1}} \right) \\ | ||
Zeile 378: | Zeile 371: | ||
über derselben Ereignismenge: | über derselben Ereignismenge: | ||
<math>b\left( {{P}_{i}}\acute{\ } \right)-b\left( {{P}_{i}} \right)=\ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}</math> | :<math>b\left( {{P}_{i}}\acute{\ } \right)-b\left( {{P}_{i}} \right)=\ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}</math> | ||
Dies ist zu verstehen als die notwendige Bitzahl, um Pi´ in Pi zu verwandeln , also die Information, die als Nachricht hierfür gegeben werden muss : | Dies ist zu verstehen als die notwendige Bitzahl, um Pi´ in Pi zu verwandeln, also die Information, die als Nachricht hierfür gegeben werden muss : | ||
Mittlere Bitzahl ( mit der korrigierten Wahrscheinlichkeitsverteilung gewichtet): | Mittlere Bitzahl (mit der korrigierten Wahrscheinlichkeitsverteilung gewichtet): | ||
<math>K\left( P,P\acute{\ } \right)=\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}</math> | {{Def|:<math>K\left( P,P\acute{\ } \right)=\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}</math> | ||
'''Informationsgewinn ''' | '''Informationsgewinn ''' → Kullback Information!|Kullback Information}} | ||
'''Bemerkungen''' | '''Bemerkungen''' | ||
mittlere Bitzahl / Informationsgewinn ist asymmetrisch bezüglich P↔P´ | |||
es gilt: <math>K\left( P,P\acute{\ } \right)\ge 0</math> wegen | |||
:<math>\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}\ge \sum\limits_{i}^{{}}{{}}{{P}_{i}}\left( 1-\frac{{{P}_{i}}\acute{\ }}{{{P}_{i}}} \right)=\sum\limits_{i}^{{}}{{}}{{P}_{i}}-\sum\limits_{i}^{{}}{{}}{{P}_{i}}\acute{\ }=1-1=0</math> | |||
<math>\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}\ge \sum\limits_{i}^{{}}{{}}{{P}_{i}}\left( 1-\frac{{{P}_{i}}\acute{\ }}{{{P}_{i}}} \right)=\sum\limits_{i}^{{}}{{}}{{P}_{i}}-\sum\limits_{i}^{{}}{{}}{{P}_{i}}\acute{\ }=1-1=0</math> | |||
es gilt: | es gilt: | ||
<math>\begin{align} | :<math>\begin{align} | ||
& \ln x\ge 1-\frac{1}{x} \\ | & \ln x\ge 1-\frac{1}{x} \\ | ||
Zeile 407: | Zeile 399: | ||
\end{align}</math> | \end{align}</math> | ||
<math>{{P}_{i}}\acute{\ }=0</math> | |||
ist auszuschließen, damit <math>K\left( P,P\acute{\ } \right)<\infty </math> | |||
Für <math>{{P}_{i}}\acute{\ }=\frac{1}{N}</math> | |||
(Gleichverteilung) | |||
<math>\begin{align} | :<math>\begin{align} | ||
& K\left( P,P\acute{\ } \right)=\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln N{{P}_{i}}=\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln {{P}_{i}}+\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln N=I(P)+\ln N \\ | & K\left( P,P\acute{\ } \right)=\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln N{{P}_{i}}=\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln {{P}_{i}}+\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln N=I(P)+\ln N \\ | ||
Zeile 422: | Zeile 414: | ||
\end{align}</math> | \end{align}</math> | ||
bei Gleichverteilung ! | bei Gleichverteilung! | ||
'''5) Minimum von K:''' | '''5) Minimum von K:''' | ||
Zeile 434: | Zeile 426: | ||
unter Nebenbedingung <math>\sum\limits_{i}^{{}}{{}}\delta {{P}_{i}}=0</math> | unter Nebenbedingung <math>\sum\limits_{i}^{{}}{{}}\delta {{P}_{i}}=0</math> | ||
<math>\begin{align} | :<math>\begin{align} | ||
& \delta K\left( P,P\acute{\ } \right)=\sum\limits_{i}^{{}}{{}}\left( \ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}+1 \right)\delta {{P}_{i}} \\ | & \delta K\left( P,P\acute{\ } \right)=\sum\limits_{i}^{{}}{{}}\left( \ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}+1 \right)\delta {{P}_{i}} \\ | ||
Zeile 448: | Zeile 440: | ||
Wegen Normierung: | Wegen Normierung: | ||
<math>\begin{align} | :<math>\begin{align} | ||
& \sum\limits_{i}^{{}}{{}}{{P}_{i}}=\sum\limits_{i}^{{}}{{}}{{P}_{i}}\acute{\ }=1 \\ | & \sum\limits_{i}^{{}}{{}}{{P}_{i}}=\sum\limits_{i}^{{}}{{}}{{P}_{i}}\acute{\ }=1 \\ | ||
Zeile 458: | Zeile 450: | ||
# <math>K\left( P,P\acute{\ } \right)</math> | # <math>K\left( P,P\acute{\ } \right)</math> | ||
# ist konvexe Funktion von P, da | # ist konvexe Funktion von P, da | ||
<math>\frac{{{\partial }^{2}}K\left( P,P\acute{\ } \right)}{\partial {{P}_{i}}\partial {{P}_{j}}}=\frac{\partial }{\partial {{P}_{j}}}\left( \ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}+1 \right)=\frac{1}{{{P}_{i}}}{{\delta }_{ij}}\ge 0</math> | :<math>\frac{{{\partial }^{2}}K\left( P,P\acute{\ } \right)}{\partial {{P}_{i}}\partial {{P}_{j}}}=\frac{\partial }{\partial {{P}_{j}}}\left( \ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}+1 \right)=\frac{1}{{{P}_{i}}}{{\delta }_{ij}}\ge 0</math> | ||
somit ist dann auch | somit ist dann auch | ||
<math>I(P)=K(P,\frac{1}{N})-\ln N</math> | :<math>I(P)=K(P,\frac{1}{N})-\ln N</math> | ||
konvex ( Informationsgewinn) | konvex (Informationsgewinn) | ||
====Kontinuierliche Ereignismengen==== | ====Kontinuierliche Ereignismengen==== | ||
<math>x\in {{R}^{d}},\rho (x)</math> | :<math>x\in {{R}^{d}},\rho (x)</math> | ||
* Zelleneinteilung des <math>{{R}^{d}}</math> | * Zelleneinteilung des <math>{{R}^{d}}</math> | ||
Zeile 477: | Zeile 469: | ||
Wahrscheinlichkeit für ein Ereignis in Zelle i: | Wahrscheinlichkeit für ein Ereignis in Zelle i: | ||
<math>\begin{align} | :<math>\begin{align} | ||
& {{P}_{i}}=\rho \left( {{x}^{i}} \right){{\Delta }^{d}}x \\ | & {{P}_{i}}=\rho \left( {{x}^{i}} \right){{\Delta }^{d}}x \\ | ||
Zeile 487: | Zeile 479: | ||
invariant gegen die Trafo | invariant gegen die Trafo | ||
<math>\begin{align} | :<math>\begin{align} | ||
& x\to \tilde{x} \\ | & x\to \tilde{x} \\ | ||
Zeile 499: | Zeile 491: | ||
Während | Während | ||
<math>I(P)</math> | :<math>I(P)</math> | ||
nicht invariant ist ! | nicht invariant ist! | ||
<math>\begin{align} | :<math>\begin{align} | ||
& {{\Delta }^{d}}x\to 0 \\ | & {{\Delta }^{d}}x\to 0 \\ | ||
Zeile 517: | Zeile 509: | ||
in der Thermodynamik als Entropieproduktion und von | in der Thermodynamik als Entropieproduktion und von | ||
<math>kTK\left( \rho ,\rho \acute{\ } \right)</math> | :<math>kTK\left( \rho ,\rho \acute{\ } \right)</math> | ||
als Exergie ( availability) | als Exergie (availability) |
Aktuelle Version vom 27. September 2010, 17:32 Uhr
Der Artikel Informationsmaße basiert auf der Vorlesungsmitschrift von Franz- Josef Schmitt des 1.Kapitels (Abschnitt 2) der Thermodynamikvorlesung von Prof. Dr. E. Schöll, PhD. |
|}}
Die Informationstheorie (Shannon, Wiener) entstand im 2. Weltkrieg im Zusammenhang mit der Entschlüsselung codierter Nachrichten!
Definition:
auf einer Algebra A´ ist eine Abbildung
mit den Eigenschaften
für disjunkte Ereignisse Ai, also
- Algebra A´ ist eine Algebra A´ mit der Eigenschaft, dass abzählbar viele
Also: Die Vereinigung der Ereignisse ist Element der Algebra!
Im Folgenden sei unsere Algebra A´ stets eine Sigma- Algebra!
Beispiel eines Maßes: Wahrscheinlichkeit P
Speziell:
Idee des Informationsmaßes:
Vergleich verschiedener Wahrscheinlichkeitsverteilungen über einer Ereignisalgebra A´
Frage: Welche von 2 Verteilungen enthält mehr Information, bzw. Kenntnis darüber, welches Ereignis eintreten wird ?
Mathematische Grundbegriffe: Reed/ Simon: Methods of Modern Math. Physics, Vol. I: Functional Analysis!
Beispiel:
Zonk- Problem:
Hauptgewinn ist hinter einer von 3 Türen versteckt!
- Verteilung: Alle drei Türen zu je 1/3:
Als Gleichverteilung → minimale Kenntnis
- Verteilung:
scharfe Verteilung → maximale Kenntnis / Sicherheit
Bitzahl:
Ausgangspunkt: diskrete Ereignisalgebra:
Frage: Wie lange muss eine Nachricht sein, die einem Beobachter mitteilt, dass ein Ereignis eingetreten ist ??
Länge der Nachricht = Maß für die fehlende Kenntnis des Beobachters
Beispiel:
Auswahl eines Ereignisses aus
falls der Beobachter keine Vorkenntnis hat.
- einafche Alternative
= kleinste Informationseinheit
= 1 bit (binary digit)
Nachricht: 0 oder 1
n Alternativentscheidungen notwendig:
z.B. 0011 → insgesamt n Stellen in Binärdarstellung nötig!
Länge der Nachricht:
(nötige Bitzahl)
Informationsmaß der Nachricht:
Bitzahl!
falls keine Vorkenntnis vorhanden ist!
Verallgemeinerung auf Wahrscheinlichkeitsverteilungen
kennt, muss nur die fehlende Information mitgeteilt werden: Also die Bitzahl .
Postulate für die Konstruktion von
:
- sei eine universelle Funktion, hängt von A also nur über P(A) ab!
- Seien
- und
- 2 verschiedene (disjunkte) sample sets, z.B. 2 Subsysteme eines zusammengesetzten Systems: So gilt:
Für 2 völlig unkorrelierte Subsysteme eines zusammengesetzten Systems gilt:
b ist additiv, also:
wobei nach Definition der Unkorreliertheit (stochastische Unabhängigkeit) gilt:
dabei ist
das direkte Produkt der beiden Zufallsvariablen, gegeben durch das Ereignistupel .
3) b(P)=0 für P=1, also für das sichere Ereignis
also im Falle von Gleichverteilung, welches maximale Unbestimmtheit darstellt!
ist stetig und wohldefiniert für
Wegen der Additivität macht es Sinn:
zu definieren. Es muss f noch bestimmt werden!
Wegen 1) und 2) folgt:
Also: die Funktion sollte linear in log P sein!
Bemerkung:
Für 2 unkorrelierte Systeme ist die Länge der Nachricht = Informationsmaß bei maximaler Unbestimmtheit additiv.
Dies motiviert Postulat 2)
Aus 3) folgt:
Konvention:
Einheit für ein bit:
"bin"
Informationsmaß für die Nachricht, dass Ai eingetreten ist,
falls
bekannt ist!
Informationsmaß einer Wahrscheinlichkeitsverteilung
Übermittlung vieler Nachrichten:
tritt mit relativer Häufigkeit
auf!
mittlere benötigte (= da fehlende!) Information pro Ereignis:
somit:
Definition: Shannon-Information einer Verteilung : |
I ist Funktional der Verteilung
b ist Funktion von Pi b(Pi)
Also maximal für scharfe Verteilung mit sicherem Ereignis
wegen Normierung:
Somit:
mit dem Lagrange- Multiplikator :
Normierung , also Gleichverteilung
Übung: Man vergleiche I(P) für verschiedene Verteilungen
Kontinuierliche Ereignismenge
Wahrscheinlichkeit für ein Ereignis in Zelle i:
für eine feste Zellengröße.
Damit kann dieser Term weggelassen werden und wir gewinnen:
Bemerkungen
- Shannon- Informationsmaß misst die Kenntnis bezüglich der Frage: Welches Ereignis tritt ein ?
keine Unterscheidung, wi die verteilung zustande kommt, z.B. bei Gleichverteilung: genaue Beobachtung ODER vorurteilsfreie Schätzung bei gänzlich fehlender Kenntnis
(Laplacsches Prinzip vom unzureichenden Grund)
2) Definition : Statistisches Informationsmaß des NICHTWISSENS: (der fehlenden Information):
k geeignete Einheit
Interpretation in der Thermodynamik als Entropie
wird gleich dem Shannon- Informationsmaß für
Informationsgewinn
Maß für die Zusatzinformationen einer Wahrscheinlichkeitsverteilung
im Vergleich zu einer Referenzverteilung
über derselben Ereignismenge:
Dies ist zu verstehen als die notwendige Bitzahl, um Pi´ in Pi zu verwandeln, also die Information, die als Nachricht hierfür gegeben werden muss :
Mittlere Bitzahl (mit der korrigierten Wahrscheinlichkeitsverteilung gewichtet):
:
Informationsgewinn → Kullback Information! |
Bemerkungen
mittlere Bitzahl / Informationsgewinn ist asymmetrisch bezüglich P↔P´
es gilt: wegen
es gilt:
bei Gleichverteilung!
5) Minimum von K:
Wegen Normierung:
somit ist dann auch
konvex (Informationsgewinn)
Kontinuierliche Ereignismengen
Wahrscheinlichkeit für ein Ereignis in Zelle i:
invariant gegen die Trafo
Während
nicht invariant ist!
Bemerkung:
in der Thermodynamik als Entropieproduktion und von
als Exergie (availability)