Grundlagen der Statistik

Aus PhysikWiki

Wechseln zu: Navigation, Suche
  1. begriff der Wahrscheinlichkeit
  2. Begriff der Informationsmaße

- führen dann zu sehr allgemeinen Zusammenhängen, die eine Anwendung in daraus abgeleiteten makroskopisch thermodynamischen Relationen (z.B. Hauptsätzen) haben:

Nebenbemerkung:

Diese statistischen zusammenhänge haben auch Anwendungen in nichtphysikalischen Systemen (Computersimulationen).

Dies begründet die Anwendbarkeit von Simulationen nicht nur auf physikalische Systeme, sondern z.B. auch auf Ökonomie etc... ("Problem des Handlungsreisenden), formal äquivalent zu Spingläsern oder assoziativem Lernen".


Wahrscheinlichkeitsbegriff


Ereignis
Messergebnis von Observablen (event) oder fester Mikrozustand (der realisiert wird).

Ereignisse bilden einen Abelschen Verband (Ereignisalgebra)

Merke: Ereignisalgebra = Abelscher verband A\acute{\ }

mit Mengentheoretischen Verknüpfungen

\cup ,\cap

Vereinigung (oder) und Durchschnitt (und)

Für A,B,C \in A\acute{\ } gilt:

\begin{align}

& A\cup B=B\cup A \\

& A\cap B=B\cap A \\

\end{align}

(Kommutativitätsgesetz)

\begin{align}

& A\cap \left( B\cap C \right)=\left( A\cap B \right)\cap C \\

& A\cup \left( B\cup C \right)=\left( A\cup B \right)\cup C \\

\end{align}

Assoziativität

\begin{align}

& A\cap \left( A\cup B \right)=A \\

& A\cup \left( A\cap B \right)=A \\

\end{align}

(Verschmelzungsgesetz)

\begin{align}

& A\cap \left( B\cup C \right)=\left( A\cap B \right)\cup \left( A\cap C \right) \\

& A\cup \left( B\cap C \right)=\left( A\cup B \right)\cap \left( A\cup C \right) \\

\end{align}

Distributivgesetz

\begin{align}

& \exists S\Rightarrow A\cap S=A \\

& \exists 0\Rightarrow A\cup 0=A \\

\end{align}

Existenz der Eins (sicheres Ereignis) und Existenz des Nullelements: "leeres Ereignis"

\forall A\in A\acute{\ }\exists B\Rightarrow A\cap B=0,A\cup B=S

Existenz des Komplements

B=\neg A=\bar{A}

Induzierte Halbordnung

A\subseteq B A impliziert B, falls A\cap B=A

Also: menge A liegt in B

A und B sind disjunkt, falls A\cap B=0

Vollständig disjunkte Ereignismenge (sample set)

\begin{align}

& \left\{ {{A}_{1}},{{A}_{2}},...,{{A}_{n}} \right\}mit \\

& {{A}_{i}}\cap {{A}_{j}}={{A}_{i}}{{\delta }_{ij}} \\

& \bigcup\limits_{i=1}^{n}{{}}{{A}_{i}}=S \\

\end{align}

Beispiel:

Ereignismenge

\left\{ 1,2,3,4,5,6 \right\}

Bemerkung: Diese Menge M ist keine Algebra, da

\begin{align}

& A\cup B\notin M \\

& \bar{A}\notin M \\

\end{align}

Wahrscheinlichkeit

Empirische Definition

P(A)=\begin{matrix}

\lim   \\

N\to \infty   \\

\end{matrix}\frac{N\left( A \right)}{N}

mit

\frac{N\left( A \right)}{N}

relative Häufigkeit des Ereignisses A

N(A) ist die Zahl der Experimente mit dem Ergebnis A

N ist die Zahl der Experimente insgesamt

axiomatische Definition (Kolmogoroff)

Sei A\in A\acute{\ }

(Boolscher Verband)

Sei

S\in A\acute{\ }

das sichere Ereignis.

Dann erfüllt die Wahrscheinlichkeit P(A)

die Axiome:

\begin{align}

& P(A)\ge 0 \\

& P(S)=1 \\

\end{align}

Für disjunkte Ereignisse:

A\cap B=0\Rightarrow P(A\cup B)=P(A)+P(B)

Folgerung

\begin{align}

& P(A)+P(\bar{A})=P(A\cup \bar{A})=1 \\

& \Rightarrow P\left( A \right)\le 1 \\

\end{align}

Zerlegung in disjunkte Ereignisse

für beliebige A1, A2:

\begin{align}

& {{A}_{1}}\cup {{A}_{2}}={{A}_{1}}+{{{\bar{A}}}_{1}}\cap {{A}_{2}}={{A}_{1}}+{{A}_{2}}-{{A}_{1}}\cap {{A}_{2}} \\

& {{{\bar{A}}}_{1}}\cap {{A}_{2}}={{A}_{2}}-{{A}_{1}}\cap {{A}_{2}} \\

& {{A}_{2}}={{A}_{1}}\cap {{A}_{2}}+{{{\bar{A}}}_{1}}\cap {{A}_{2}} \\

\end{align}

Also folgt für Wahrscheinlichkeiten:

\begin{align}

& P\left( {{A}_{1}}\cup {{A}_{2}} \right)=P({{A}_{1}})+P({{{\bar{A}}}_{1}}\cap {{A}_{2}})=P({{A}_{1}})+P({{A}_{2}})-P({{A}_{1}}\cap {{A}_{2}}) \\

& P({{A}_{2}})=P({{A}_{1}}\cap {{A}_{2}})+P({{{\bar{A}}}_{1}}\cap {{A}_{2}}) \\

\end{align}

Also:

\begin{align}

& P\left( {{A}_{1}}\cup {{A}_{2}} \right)+P({{A}_{1}}\cap {{A}_{2}})=P({{A}_{1}})+P({{A}_{2}}) \\

& P({{A}_{1}}\cap {{A}_{2}})\ge 0 \\

& \Rightarrow P\left( {{A}_{1}}\cup {{A}_{2}} \right)\le P({{A}_{1}})+P({{A}_{2}}) \\

\end{align}

Speziell

P({{A}_{1}})\le P({{A}_{2}}),
falls {{A}_{1}}\subseteq {{A}_{2}}

bedingte Wahrscheinlichkeit

Die Bedingte Wahrscheinlichkeit (A unter der Bedingung, dass B), ergibt sich gemäß

Also A unter der Bedingung, dass B eingetreten ist!

P\left( A/B \right)=\frac{P\left( A\cap B \right)}{P(B)}

Falls A von B unabhängig ist, so gilt:

\begin{align}

& P\left( A\cap B \right)=P(A)P(B) \\

& P\left( A/B \right)=\frac{P\left( A\cap B \right)}{P(B)}=P(A) \\

\end{align}

Nebenbemerkung, ebenso gilt:

P\left( B/A \right)=\frac{P\left( A\cap B \right)}{P(A)}=P(B)

Zufallsvariablen

Eine Zufallsvariable ist gegeben durch

  1. eine Menge M von vollständig disjunkten Ereignissen (sample set) Xi
  2. eine Wahrscheinlichkeitsverteilung P(Xi)
  3. über M

es gilt die Normierung

\sum\limits_{i}{{}}P({{X}_{i}})=1

Definiert man sich dies für eine kontinuierliche Menge, also x\in R,


so gilt:

P(x\acute{\ }\le x\le x\acute{\ }+dx\acute{\ })=\rho \left( x\acute{\ } \right)dx\acute{\ }

definiert eine Wahrscheinlichkeitsdichte oder auch Wahrscheinlichkeitsverteilung \rho \left( x \right).


Übergang zu diskreten Ereignissen:

\rho \left( x \right)=\sum\limits_{i=1}^{n}{{}}\delta \left( x-{{x}^{(i)}} \right){{P}_{i}}

mit Normierung

\int_{a}^{b}{{}}\rho \left( x \right)dx=1

Physikalische Interpretation

Die Wahrscheinlichkeitsverteilung kann man sich realisiert denken durch ein Ensemble von vielen äquivalenten Systemen, also durch eine Dichteverteilung \rho \left( x \right)dx

der Mitglieder des Ensembles mit Werten zwischen x und x+dx

Verallgemeinerung auf d Zufallsvariablen

\begin{align}

& x=\left( {{x}_{1}},{{x}_{2}},...,{{x}_{d}} \right)\in {{R}^{d}} \\

& {{d}^{d}}x=d{{x}_{1}}d{{x}_{2}}...d{{x}_{d}} \\

\end{align}

Die Normierung geschieht dann in einem d- Dimensionalen Raum.

\int_{{}}^{{}}{{}}\rho \left( x \right){{d}^{d}}x=1

Mittelwert (Erwartungswert) einer Zufallsvariablen x:

\left\langle x \right\rangle =\int_{{}}^{{}}{{}}\rho \left( x \right)x{{d}^{d}}x

für eine beliebige Funktion f(x):

\left\langle f \right\rangle =\int_{{}}^{{}}{{}}\rho \left( x \right)f(x){{d}^{d}}x

Nebenbemerkung

Der Mittelwert ist ein lineares Funktional {{f}_{\rho }}:[\to R

[\in f\to \left\langle f \right\rangle

Linearität:

\left\langle {{c}_{1}}{{f}_{1}}+{{c}_{2}}{{f}_{2}} \right\rangle ={{c}_{1}}\left\langle {{f}_{1}} \right\rangle +{{c}_{2}}\left\langle {{f}_{2}} \right\rangle

Unkorrelierte Zufallsvariable:

x1 und x2 heißen unkorreliert, falls

\rho \left( {{x}_{1}},{{x}_{2}} \right)={{\rho }_{1}}\left( {{x}_{1}} \right){{\rho }_{2}}\left( {{x}_{2}} \right)

Dann gilt:

\left\langle {{x}_{1}}{{x}_{2}} \right\rangle =\left\langle {{x}_{1}} \right\rangle \left\langle {{x}_{2}} \right\rangle

Beweis:

Merke: In Bezug auf die Wahrscheinlichkeitsverteilungen ist unkorreliert gleichbedeutend mit separabel _> die Phasen werden addiert!

Sind die Zustände verschränkt, so können die Phasen nicht addiert werden.

Die Einführung einer Symplektik ist nötig! (siehe unten).

Zusammenhang zwischen Wahrscheinlichkeitsverteilung und Mittelwerten

Wir verstehen als n.tes Moment einer Wahrscheinlichkeitsverteilung:

{{M}_{n}}:=\left\langle {{x}^{n}} \right\rangle

Momentenerzeugende:

\begin{align}

& Z(a)=\left\langle {{e}^{ax}} \right\rangle =\left\langle \sum\limits_{0}^{{}}{{}}\frac{{{\left( ax \right)}^{n}}}{n!} \right\rangle =\sum\limits_{0}^{{}}{{}}\frac{{{\left( a \right)}^{n}}}{n!}{{M}_{n}} \\

& {{M}_{n}}={{\left. \frac{{{\partial }^{n}}}{\partial {{a}^{n}}}Z(a) \right|}_{a=0}}={{M}_{n}} \\
\end{align}

Durch die Angabe aller nicht verschwindender Momente ist eine Wahrscheinlichkeitsverteilung vollständig festgelegt!

Verallgemeinerung auf d Zufallsvariablen:

{{M}_{n1,n2,...nd}}:=\left\langle {{x}_{1}}^{n1}{{x}_{2}}^{n2}....{{x}_{d}}^{nd} \right\rangle

ein Moment der Ordnung

n: = n1 + n2 + ... + nd

Momentenerzeugende:

\begin{align}
& Z(a)=\left\langle {{e}^{ax}} \right\rangle =\left\langle \sum\limits_{n1,n2...nd=0}^{{}}{{}}\frac{\left( {{\left( {{a}_{1}}x1 \right)}^{n1}}{{\left( {{a}_{2}}x2 \right)}^{n2}}...{{\left( {{a}_{d}}xd \right)}^{nd}} \right)}{n1!n2!...nd!} \right\rangle =\sum\limits_{n1,n2...nd=0}^{{}}{{}}\frac{\left( {{\left( {{a}_{1}} \right)}^{n1}}{{\left( {{a}_{2}} \right)}^{n2}}...{{\left( {{a}_{d}} \right)}^{nd}} \right)}{n1!n2!...nd!}{{M}_{n1..nd}} \\
& a=\left( {{a}_{1}},{{a}_{2}},...,{{a}_{d}} \right) \\
\end{align}

Kumulante

{{C}_{n1,n2,...nd}}:={{\left\langle {{x}_{1}}^{n1}{{x}_{2}}^{n2}....{{x}_{d}}^{nd} \right\rangle }_{C}}

ist definiert durch die Kumulantenerzeugende:

\Gamma \left( a \right)=\ln \left\langle {{e}^{ax}} \right\rangle
\begin{align}
& {{\left. \frac{{{\partial }^{n1}}....{{\partial }^{nd}}}{\partial {{a}_{1}}^{n1}....{{a}_{d}}^{nd}}\Gamma \left( a \right) \right|}_{a=0}}={{C}_{n1,n2,...nd}} \\
& \Rightarrow \Gamma \left( a \right)=\ln \left\langle {{e}^{ax}} \right\rangle =\sum\limits_{n1...nd}^{{}}{{}}\frac{{{a}_{1}}^{n1}...{{a}_{d}}^{nd}}{n1!...nd!}{{C}_{n1,n2,...nd}} \\
\end{align}

Eigenschaft

Kumulanten sind ADDITIV für unkorrelierte Zufallsvariablen (Dies gilt nicht für die Momente!!)

Beweis: seien x1, x2 unkorreliert:

\begin{align}
& Z(a)=\left\langle {{e}^{ax}} \right\rangle =\int_{{}}^{{}}{d{{x}_{1}}d{{x}_{2}}\rho \left( {{x}_{1}} \right)}\rho \left( {{x}_{2}} \right){{e}^{{{a}_{1}}{{x}_{1}}}}{{e}^{{{a}_{2}}{{x}_{2}}}}=\left\langle {{e}^{{{a}_{1}}{{x}_{1}}}} \right\rangle \left\langle {{e}^{{{a}_{2}}{{x}_{2}}}} \right\rangle  \\
& \Rightarrow \Gamma \left( a \right)=\ln Z(a)=\ln \left\langle {{e}^{{{a}_{1}}{{x}_{1}}}} \right\rangle +\ln \left\langle {{e}^{{{a}_{2}}{{x}_{2}}}} \right\rangle =\Gamma \left( {{a}_{1}} \right)+\Gamma \left( {{a}_{2}} \right) \\
& {{\left. \frac{{{\partial }^{n}}}{\partial {{a}^{n}}}\Gamma \left( a \right) \right|}_{a=0}}\Rightarrow {{\left\langle {{\left( {{x}_{1}}+{{x}_{2}} \right)}^{n}} \right\rangle }_{C}}={{\left\langle {{x}^{n}} \right\rangle }_{C}}={{\left\langle {{x}_{1}}^{n} \right\rangle }_{C}}+{{\left\langle {{x}_{2}}^{n} \right\rangle }_{C}} \\
\end{align}

Fluktuation:

\Delta x:=x-\left\langle x \right\rangle

mit

\left\langle \Delta x \right\rangle =0

Bildung der Varianz:

\left\langle {{\left( \Delta x \right)}^{2}} \right\rangle =\left\langle {{\left( x-\left\langle x \right\rangle  \right)}^{2}} \right\rangle =\left\langle {{x}^{2}} \right\rangle -2\left\langle x \right\rangle \left\langle x \right\rangle +{{\left\langle x \right\rangle }^{2}}=\left\langle {{x}^{2}} \right\rangle -{{\left\langle x \right\rangle }^{2}}

Als Maß für die Breite einer Verteilung

Korrelationsmatrix:

\left\langle \Delta {{x}_{k}}\Delta {{x}_{l}} \right\rangle =\left\langle {{x}_{k}}{{x}_{l}} \right\rangle -\left\langle {{x}_{k}} \right\rangle \left\langle {{x}_{l}} \right\rangle

Nichtdiagonalelemente verschwinden für unkorrelierte Zufallsvariablen. Denn dann: separieren die Momente der WSK- Verteilung! Siehe oben

  • Korrelationsmatrix beschreibt die qm- Korrelationen über ihre Außerdiagonalelemente

Zusammenhang zwischen Kumulanten und Momenten:

\begin{align}
& {{\left\langle x \right\rangle }_{C}}=\left\langle x \right\rangle  \\
& {{\left\langle {{x}^{2}} \right\rangle }_{C}}=\left\langle {{\left( \Delta x \right)}^{2}} \right\rangle =\left\langle {{x}^{2}} \right\rangle -{{\left\langle x \right\rangle }^{2}} \\
& {{\left\langle {{x}^{3}} \right\rangle }_{C}}=\left\langle {{\left( \Delta x \right)}^{3}} \right\rangle  \\
& {{\left\langle {{x}^{4}} \right\rangle }_{C}}=\left\langle {{\left( \Delta x \right)}^{4}} \right\rangle -3{{\left\langle {{\left( \Delta x \right)}^{2}} \right\rangle }^{2}} \\
\end{align}

Gaußverteilung / Normalverteilung

\begin{align}
& \rho (x)=A\exp \left( -\frac{{{\left( x-\left\langle x \right\rangle  \right)}^{2}}}{2{{\sigma }^{2}}} \right) \\
& {{\sigma }^{2}}:=\left\langle {{\left( \Delta x \right)}^{2}} \right\rangle ={{\left\langle {{x}^{2}} \right\rangle }_{C}} \\
\end{align}

Mit Sigma als Standardabweichung

Normierung:

\begin{align}
& \int_{-\infty }^{\infty }{{}}dx\rho (x)=A\sigma \sqrt{2}\int_{-\infty }^{\infty }{{}}du\exp \left( -{{u}^{2}} \right)=!=1 \\
& u:=\frac{x}{\sigma \sqrt{2}} \\
\end{align}

Wegen:

\begin{align}
& \int_{-\infty }^{\infty }{{}}du\exp \left( -{{u}^{2}} \right)=\sqrt{\pi } \\
& \Rightarrow A=\frac{1}{\sigma \sqrt{2\pi }} \\
\end{align}

Nebenbemerkung, die Gaußverteilung ρ(x) ist bestimmt durch {{\left\langle x \right\rangle }_{C}},{{\left\langle {{x}^{2}} \right\rangle }_{C}}.

Alle höheren Kumulanten verschwinden!

Informationsmaße


Die Informationstheorie (Shannon, Wiener) entstand im 2. Weltkrieg im Zusammenhang mit der Entschlüsselung codierter Nachrichten!

Definition:

Ein Maß μ

auf einer Algebra A´ ist eine Abbildung \mu :A\acute{\ }\to \left[ 0,\infty  \right]

mit den Eigenschaften

\begin{align}

& \mu (0)=0 \\

& \mu (\bigcup\limits_{i=1}^{\infty }{{}}{{A}_{i}})=\sum\limits_{i=1}^{\infty }{{}}\mu \left( {{A}_{i}} \right) \\

\end{align}

für disjunkte Ereignisse Ai, also

{{A}_{i}}\cap {{A}_{j}}={{A}_{i}}{{\delta }_{ij}}

Nebenbemerkung: Eine σ

- Algebra A´ ist eine Algebra A´ mit der Eigenschaft, dass abzählbar viele

\begin{align}

& {{A}_{i}}\in A\acute{\ },i=1,....,\infty  \\

& \Rightarrow \bigcup\limits_{i=1}^{\infty }{{}}{{A}_{i}}\in A\acute{\ } \\

\end{align}

Also: Die Vereinigung der Ereignisse ist Element der Algebra!

Im Folgenden sei unsere Algebra A´ stets eine Sigma- Algebra!

Beispiel eines Maßes: Wahrscheinlichkeit P

Speziell:

P(A)\le 1

Idee des Informationsmaßes:

Vergleich verschiedener Wahrscheinlichkeitsverteilungen über einer Ereignisalgebra A´

Frage: Welche von 2 Verteilungen enthält mehr Information, bzw. Kenntnis darüber, welches Ereignis eintreten wird ?

Mathematische Grundbegriffe: Reed/ Simon: Methods of Modern Math. Physics, Vol. I: Functional Analysis!

Beispiel:

Zonk- Problem:

Hauptgewinn ist hinter einer von 3 Türen versteckt!

A,B,C\in A\acute{\ }
  1. Verteilung: Alle drei Türen zu je 1/3:
P(1) = δ(x − 1) + δ(x − 2) + δ(x − 3)

Als Gleichverteilung → minimale Kenntnis

  1. Verteilung:
P(2) = δ(x − 2)

scharfe Verteilung → maximale Kenntnis / Sicherheit

Bitzahl:

Ausgangspunkt: diskrete Ereignisalgebra:

A\acute{\ }={{\left\{ {{A}_{i}} \right\}}_{i\in I}}

Frage: Wie lange muss eine Nachricht sein, die einem Beobachter mitteilt, dass ein Ereignis eingetreten ist ??

Länge der Nachricht = Maß für die fehlende Kenntnis des Beobachters

Beispiel:

Auswahl eines Ereignisses aus

A\acute{\ }=\left\{ {{A}_{1}},{{A}_{2}},...,{{A}_{N}} \right\}

falls der Beobachter keine Vorkenntnis hat.

1)A\acute{\ }=\left\{ {{A}_{1}},{{A}_{2}} \right\}
einafche Alternative

= kleinste Informationseinheit

= 1 bit (binary digit)

Nachricht: 0 oder 1

  1. A´ sei menge mit 2n
  2. Elementen:

n Alternativentscheidungen notwendig:

z.B. 0011 → insgesamt n Stellen in Binärdarstellung nötig!

Länge der Nachricht:

n = log2N

(nötige Bitzahl)

Informationsmaß der Nachricht:

Bitzahl!

Also: b(N) = log2N

falls keine Vorkenntnis vorhanden ist!

Verallgemeinerung auf Wahrscheinlichkeitsverteilungen Pi

Falls der Beobachter die Pi

kennt, muss nur die fehlende Information mitgeteilt werden: Also die Bitzahl b(Pi) .


Postulate für die Konstruktion von b(Pi)

:

  1. b(P)
  2. sei eine universelle Funktion, hängt von A also nur über P(A) ab!
  3. Seien \left\{ {{A}_{i}} \right\}
  4. und \left\{ {{A}_{j}}\acute{\ } \right\}
  5. 2 verschiedene (disjunkte) sample sets, z.B. 2 Subsysteme eines zusammengesetzten Systems: So gilt:

Für 2 völlig unkorrelierte Subsysteme eines zusammengesetzten Systems gilt:

b ist additiv, also:

b(P\acute{\ }\acute{\ })=b(P)+b(P\acute{\ })

wobei nach Definition der Unkorreliertheit (stochastische Unabhängigkeit) gilt:

P\acute{\ }\acute{\ }({{A}_{i}}{{A}_{j}}\acute{\ })=P({{A}_{i}})P\acute{\ }({{A}_{j}}\acute{\ })

dabei ist

{{A}_{i}}{{A}_{j}}\acute{\ }

das direkte Produkt der beiden Zufallsvariablen, gegeben durch das Ereignistupel \left\{ {{A}_{i}}{{A}_{j}}\acute{\ } \right\} .


3) b(P)=0 für P=1, also für das sichere Ereignis

\begin{align}

& b(P)={{\log }_{2}}N \\

& f\ddot{u}rP=\frac{1}{N} \\

\end{align}

also im Falle von Gleichverteilung, welches maximale Unbestimmtheit darstellt!

4) b(P)

ist stetig und wohldefiniert für 0\le P\le 1

Wegen der Additivität macht es Sinn:

b(P)=f\left( \log P \right)

zu definieren. Es muss f noch bestimmt werden!

Wegen 1) und 2) folgt:

\begin{align}

& f(\log P\acute{\ }\acute{\ })=f\left( \log P+\log P\acute{\ } \right)=!=f(\log P)+f(\log P\acute{\ }) \\

& \Rightarrow f(\log P)=a*\log P \\

\end{align}

Also: die Funktion sollte linear in log P sein!

Bemerkung:

Für 2 unkorrelierte Systeme ist die Länge der Nachricht = Informationsmaß bei maximaler Unbestimmtheit additiv.

Dies motiviert Postulat 2)

Aus 3) folgt:

\begin{align}

& f(\log P\acute{\ }\acute{\ })=f\left( \log P+\log P\acute{\ } \right)=!=f(\log P)+f(\log P\acute{\ }) \\

& \Rightarrow f(\log P)=a*\log P \\

& b(P)=a\log (P)=-a\log N=!={{\log }_{2}}N \\

& f\ddot{u}rP=\frac{1}{N} \\

& \Rightarrow a=-1 \\

& \log ={{\log }_{2}} \\

\end{align}

Konvention:

Einheit für ein bit:

\ln 2=\frac{\ln P}{{{\log }_{2}}P}

"bin"

b(Pi) = − lnPi

Informationsmaß für die Nachricht, dass Ai eingetreten ist,

falls

Pi = P(Ai)

bekannt ist!

Informationsmaß einer Wahrscheinlichkeitsverteilung \left\{ {{P}_{i}} \right\}

Übermittlung vieler Nachrichten:

Ai

tritt mit relativer Häufigkeit Pi

auf!

mittlere benötigte (= da fehlende!) Information pro Ereignis:

b(Pi) = − lnPi

somit:

\left\langle b({{P}_{i}}) \right\rangle =-\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln {{P}_{i}}


Definition: Shannon-Information einer Verteilung \left\{ {{P}_{i}} \right\}:
I(P)=\sum\limits_{i=1}^{N}{{}}{{P}_{i}}\ln {{P}_{i}}


\begin{align}

& P=\left( {{P}_{1}}...{{P}_{N}} \right) \\

\end{align}

I ist Funktional der Verteilung

b ist Funktion von Pi b(Pi)

Es gilt stets I(P)\le 0

Maximum: I(P) = 0

für pi = δij

Also maximal für scharfe Verteilung mit sicherem Ereignis Aj

Minimum: Variation der Pi

um δPi unter der Nebenbedingung

\sum\limits_{i}^{{}}{{}}\delta {{P}_{i}}=0

wegen Normierung:

\sum\limits_{i}^{{}}{{}}{{P}_{i}}=1

Somit:

\delta I(P)=\sum\limits_{i=1}^{N}{{}}\left( \ln {{P}_{i}}+1 \right)\delta {{P}_{i}}=0

Addition der Nebenbedingung \sum\limits_{i}^{{}}{{}}\delta {{P}_{i}}=0

mit dem Lagrange- Multiplikator λ:

\sum\limits_{i=1}^{N}{{}}\left( \ln {{P}_{i}}+1+\lambda  \right)\delta {{P}_{i}}=0

unabhängige Variation \delta {{P}_{i}}\Rightarrow \forall i\Rightarrow \ln {{P}_{i}}=-\left( 1+\lambda  \right)=const.

Normierung \sum\limits_{i}^{{}}{{}}{{P}_{i}}=1=N{{P}_{i}}\Rightarrow {{P}_{i}}=\frac{1}{N}, also Gleichverteilung

Übung: Man vergleiche I(P) für verschiedene Verteilungen

Kontinuierliche Ereignismenge

x\in {{R}^{d}},\rho (x)
  • Zelleneinteilung des Rd
  • in Zellen i mit Volumen
  • Δdx

Wahrscheinlichkeit für ein Ereignis in Zelle i:

\begin{align}

& {{P}_{i}}=\rho \left( {{x}^{i}} \right){{\Delta }^{d}}x \\

& I(P)=\sum\limits_{i}^{{}}{{}}{{\Delta }^{d}}x\rho \left( {{x}^{i}} \right)\ln \left( {{\Delta }^{d}}x\rho \left( {{x}^{i}} \right) \right)=\sum\limits_{i}^{{}}{{}}{{\Delta }^{d}}x\rho \left( {{x}^{i}} \right)\ln \left( \rho \left( {{x}^{i}} \right) \right)+\sum\limits_{i}^{{}}{{}}{{\Delta }^{d}}x\rho \left( {{x}^{i}} \right)\ln \left( {{\Delta }^{d}}x \right) \\

& \sum\limits_{i}^{{}}{{}}{{\Delta }^{d}}x\rho \left( {{x}^{i}} \right)=1 \\

& \sum\limits_{i}^{{}}{{}}{{\Delta }^{d}}x\rho \left( {{x}^{i}} \right)\ln \left( {{\Delta }^{d}}x \right)=const. \\

\end{align}

für eine feste Zellengröße.

Damit kann dieser Term weggelassen werden und wir gewinnen:

\begin{align}

& I(P)=\sum\limits_{i}^{{}}{{}}{{\Delta }^{d}}x\rho \left( {{x}^{i}} \right)\ln \left( \rho \left( {{x}^{i}} \right) \right) \\

& {{\Delta }^{d}}x\to 0 \\

& I(\rho )=\int_{{}}^{{}}{{{d}^{d}}x}\rho \ln \rho  \\

\end{align}

Bemerkungen

  1. Shannon- Informationsmaß misst die Kenntnis bezüglich der Frage: Welches Ereignis tritt ein ?

keine Unterscheidung, wi die verteilung zustande kommt, z.B. bei Gleichverteilung: genaue Beobachtung ODER vorurteilsfreie Schätzung bei gänzlich fehlender Kenntnis

(Laplacsches Prinzip vom unzureichenden Grund)

2) Definition : Statistisches Informationsmaß des NICHTWISSENS: (der fehlenden Information):

S(\rho )=-k\int_{{}}^{{}}{{{d}^{d}}x}\rho \ln \rho

k geeignete Einheit

Interpretation in der Thermodynamik als Entropie

  1. verallgeminerte Informationsmaße (Renyi)S(\rho )=-k\int_{{}}^{{}}{{{d}^{d}}x}\rho \ln \rho
\begin{align}

& {{I}_{q}}=-\frac{1}{1-q}\ln \left( \sum\limits_{i}^{{}}{{}}{{\left( {{p}_{i}} \right)}^{q-1}} \right) \\

& q=1,2,.... \\

\end{align}

wird gleich dem Shannon- Informationsmaß für q\to 1

Informationsgewinn

Maß für die Zusatzinformationen einer Wahrscheinlichkeitsverteilung \left\{ {{P}_{i}} \right\}

im Vergleich zu einer Referenzverteilung \left\{ {{P}_{i}}\acute{\ } \right\}

über derselben Ereignismenge:

b\left( {{P}_{i}}\acute{\ } \right)-b\left( {{P}_{i}} \right)=\ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}

Dies ist zu verstehen als die notwendige Bitzahl, um Pi´ in Pi zu verwandeln, also die Information, die als Nachricht hierfür gegeben werden muss :

Mittlere Bitzahl (mit der korrigierten Wahrscheinlichkeitsverteilung gewichtet):


 :K\left( P,P\acute{\ } \right)=\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}

Informationsgewinn → Kullback Information!


Bemerkungen

mittlere Bitzahl / Informationsgewinn ist asymmetrisch bezüglich P↔P´
es gilt: K\left( P,P\acute{\ } \right)\ge 0 wegen
\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}\ge \sum\limits_{i}^{{}}{{}}{{P}_{i}}\left( 1-\frac{{{P}_{i}}\acute{\ }}{{{P}_{i}}} \right)=\sum\limits_{i}^{{}}{{}}{{P}_{i}}-\sum\limits_{i}^{{}}{{}}{{P}_{i}}\acute{\ }=1-1=0

es gilt:

\begin{align}

& \ln x\ge 1-\frac{1}{x} \\

& f\ddot{u}r \\

& x>0 \\

\end{align}

{{P}_{i}}\acute{\ }=0 ist auszuschließen, damit K\left( P,P\acute{\ } \right)<\infty

Für {{P}_{i}}\acute{\ }=\frac{1}{N} (Gleichverteilung)

\begin{align}

& K\left( P,P\acute{\ } \right)=\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln N{{P}_{i}}=\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln {{P}_{i}}+\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln N=I(P)+\ln N \\

& wegen\sum\limits_{i}^{{}}{{}}{{P}_{i}}=1 \\

& \Rightarrow K\left( P,P\acute{\ } \right)=I(P)+\ln N \\

\end{align}

bei Gleichverteilung!

5) Minimum von K:

Variation der Pi

umδPi

unter Nebenbedingung \sum\limits_{i}^{{}}{{}}\delta {{P}_{i}}=0

\begin{align}

& \delta K\left( P,P\acute{\ } \right)=\sum\limits_{i}^{{}}{{}}\left( \ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}+1 \right)\delta {{P}_{i}} \\

& \sum\limits_{i}^{{}}{{}}\left( \ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}+1+\lambda  \right)\delta {{P}_{i}}=0 \\

& \Rightarrow \ln (\frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }})=-\left( +1+\lambda  \right)=const. \\

& \Rightarrow {{P}_{i}}\tilde{\ }{{P}_{i}}\acute{\ } \\

\end{align}

Wegen Normierung:

\begin{align}

& \sum\limits_{i}^{{}}{{}}{{P}_{i}}=\sum\limits_{i}^{{}}{{}}{{P}_{i}}\acute{\ }=1 \\

& \Rightarrow {{P}_{i}}={{P}_{i}}\acute{\ }\Rightarrow K=0 \\

\end{align}
  1. K\left( P,P\acute{\ } \right)
  2. ist konvexe Funktion von P, da
\frac{{{\partial }^{2}}K\left( P,P\acute{\ } \right)}{\partial {{P}_{i}}\partial {{P}_{j}}}=\frac{\partial }{\partial {{P}_{j}}}\left( \ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}+1 \right)=\frac{1}{{{P}_{i}}}{{\delta }_{ij}}\ge 0

somit ist dann auch

I(P)=K(P,\frac{1}{N})-\ln N

konvex (Informationsgewinn)

Kontinuierliche Ereignismengen

x\in {{R}^{d}},\rho (x)
  • Zelleneinteilung des Rd
  • in Zellen i mit Volumen
  • Δdx

Wahrscheinlichkeit für ein Ereignis in Zelle i:

\begin{align}

& {{P}_{i}}=\rho \left( {{x}^{i}} \right){{\Delta }^{d}}x \\

& K\left( P,P\acute{\ } \right)=\sum\limits_{i}^{{}}{{}}{{\Delta }^{d}}x\rho \left( {{x}^{i}} \right)\ln \frac{\rho \left( {{x}^{i}} \right)}{\rho \acute{\ }\left( {{x}^{i}} \right)} \\

\end{align}

invariant gegen die Trafo

\begin{align}

& x\to \tilde{x} \\

& \rho \left( x \right)\to \rho \left( {\tilde{x}} \right)Det\left( \frac{\partial x}{\partial \tilde{x}} \right) \\

& {{\Delta }^{d}}x\to {{\Delta }^{d}}\tilde{x}Det{{\left( \frac{\partial x}{\partial \tilde{x}} \right)}^{-1}} \\

\end{align}

Während

I(P)

nicht invariant ist!

\begin{align}

& {{\Delta }^{d}}x\to 0 \\

& \Rightarrow K\left( \rho ,\rho \acute{\ } \right)=\int_{{}}^{{}}{{}}{{d}^{d}}x\rho \ln \frac{\rho }{\rho \acute{\ }} \\

\end{align}

Bemerkung:

Interpretation von -k\dot{K}\left( \rho ,\rho \acute{\ } \right)

in der Thermodynamik als Entropieproduktion und von

kTK\left( \rho ,\rho \acute{\ } \right)
als Exergie (availability)

Verallgemeinerte kanonische Verteilung


Motivation

Makroskopische thermodynamische Zustände sind gegeben durch die Mittelwerte

\left\langle M(x) \right\rangle

von Mikroobservablen M(x), interpretiert als Zufallsvariable.

Rückschlüsse von

\left\langle M(x) \right\rangle

auf die Wahrscheinlichkeitsverteilung

ρ(x)?


Methode

Vorurteilsfreie Schätzung (Jaynes, 1957): (unbiased guess; Prinzip des maximalen Nichtwissens)

  • Verallgemeinerung des Laplacschen Prinzips vom unzureichenden Grund.
    • (Minimum der Shannon- Information I\left( \rho (x) \right)= Maximum des Nichtwissens S\left( \rho (x) \right) liefert Gleichverteilung)
  • Jetzt: Zusätzlich zur Normierung der Pi sind die Mittelwerte von m Zufallsvariablen:
\begin{align}
  & {{M}_{i}}^{n} \\ 
 & n=1,2,...,m \\ 
 & \Rightarrow \left\langle {{M}^{n}} \right\rangle =\sum\limits_{i=1}^{N}{{}}{{P}_{i}}{{M}_{i}}^{n} \\ 
 & n=1,...,m \\ 
 & m<<N \\ 
\end{align}


Annahme:

Jedes Elementarereignis Ai hat gleiche a-priori- Wahrscheinlichkeit, das heißt OHNE zusätzliche Kenntnisse \left\langle {{M}^{n}} \right\rangle gilt Gleichverteilung über den Ai.

Informationstheoretisches Prinzip

(nach (Jaynes 1922-1998))

Suche die Wahrscheinlichkeitsverteilung, die unter der Erfüllung aller bekannten Angaben als Nebenbedingung die minimale Information enthält:

Also: I(P)=\sum\limits_{i=1}^{N}{{}}{{P}_{i}}\ln {{P}_{i}}=!=Minimum

Nebenbed.:

\begin{align}
  & \sum\limits_{i=1}^{N}{{}}{{P}_{i}}=1 \\ 
 & \left\langle {{M}^{n}} \right\rangle =\sum\limits_{i=1}^{N}{{}}{{P}_{i}}{{M}_{i}}^{n} \\ 
 & n=1,...,m \\ 
\end{align}

Variation: \delta I=\sum\limits_{i=1}^{N}{{}}\left( \ln {{P}_{i}}+1 \right)\delta {{P}_{i}}


Es gilt: von den N Variationen δPi sind nur N-m-1 unabhängig voneinander!

\sum\limits_{i}^{{}}{{}}\delta {{P}_{i}}=0

Lagrange- Multiplikator \lambda =-\left( \Psi +1 \right)

\sum\limits_{i}^{{}}{{}}{{M}_{i}}^{n}\delta {{P}_{i}}=0


Lagrange- Multiplikator λn

Anleitung: Wähle Ψ,λn so, dass die Koeffizienten von \left( m+1 \right)\delta {{P}_{i}}´s verschwinden, die übrigen N-(m+1) sind dann frei variierbar!

Somit:

\Rightarrow \delta I=\sum\limits_{i=1}^{N}{{}}\left( \ln {{P}_{i}}-\Psi +{{\lambda }_{n}}{{M}_{i}}^{n} \right)\delta {{P}_{i}}=!=0


Vorsicht: Auch Summe über ν (Einsteinsche Summenkonvention!)


 :\Rightarrow {{P}_{i}}=\exp \left( \Psi -{{\lambda }_{n}}{{M}_{i}}^{n} \right) verallgemeinerte kanonische Verteilung


Die Lagrange- Multiplikatoren Ψ,λn sind dann durch die m+1 Nebenbedingungen eindeutig bestimmt!

Kontinuierliche Ereignismenge

I(\rho )=\int_{{}}^{{}}{{{d}^{d}}x\rho (x)\ln \rho (x)}=!=Minimum


unter der Nebenbedingung


\begin{align}
  & \int_{{}}^{{}}{{{d}^{d}}x\rho (x)}=1 \\ 
 & \int_{{}}^{{}}{{{d}^{d}}x\rho (x)}{{M}^{n}}(x)=\left\langle {{M}^{n}} \right\rangle  \\ 
 & n=1,...,m \\ 
\end{align}


Durchführung einer Funktionalvariation:

δρ(x)


\begin{align}
  & \delta I(\rho )=\int_{{}}^{{}}{{{d}^{d}}x\left( \ln \rho (x)+1 \right)\delta \rho (x)}=0 \\ 
 & \Rightarrow \int_{{}}^{{}}{{{d}^{d}}x\delta \rho (x)}=0 \\ 
 & \int_{{}}^{{}}{{{d}^{d}}x{{M}^{n}}(x)\delta \rho (x)}=0 \\ 
 & \Rightarrow \int_{{}}^{{}}{{{d}^{d}}x\left( \ln \rho -\Psi +{{\lambda }_{n}}{{M}^{n}} \right)\delta \rho (x)}=0 \\ 
 & \Rightarrow \rho (x)=\exp (\Psi -{{\lambda }_{n}}{{M}^{n}}) \\ 
\end{align}


Vergleiche: A. Katz, Principles of Statistial Mechanics

ANMERKUNG Schubotz: Siehe auch [1]

Eigenschaften der verallgemeinerten kanonischen Verteilung

hier: noch rein informationstheoretisch,

später: wichtige Anwendungen in der Thermodynamik

Legendre- Transformation:

Sei Ψ(t) eine Bahn!

Dann ist M:=\frac{d\Psi (t)}{dt} die Geschwindigkeit.

Aus Ψ(M) kann die Bahn Ψ(t) noch nicht rekonstruiert werden, jedoch aus

I(M) = Ψ(t) − M(t)t

mit t=t(M):


\begin{align}
  & \frac{dI}{dM}=\frac{d\Psi (t)}{dt}\frac{dtM}{dM}-M\frac{dt}{dM}-t \\ 
 & M:=\frac{d\Psi (t)}{dt} \\ 
 & \Rightarrow \frac{dI}{dM}=-t \\ 
\end{align}


hieraus folgt

M(t)


eingesetzt in

I(M)=\Psi (t)-M(t)t\Rightarrow \Psi (t)


durch Eisnetzen gewinnt man

Ψ(t)


Jedenfalls:


I(M) = Ψ(t) − M(t)t


heißt legendre- Transformierte von

Ψ(t).


Anwendung auf die verallgemeinerte kanonische Verteilung:

\Rightarrow {{P}_{i}}=\exp \left( \Psi -{{\lambda }_{n}}{{M}_{i}}^{n} \right)


Normierung:


\sum\limits_{i}^{{}}{{}}{{P}_{i}}=1\Rightarrow {{e}^{-\Psi }}=\sum_i \exp \left( -{{\lambda }_{n}}{{M}_{i}}^{n} \right)\equiv Z



Also gilt:


\Psi =\Psi \left( {{\lambda }_{1}},...,{{\lambda }_{m}} \right) und Pi sind durch \left( {{\lambda }_{1}},...,{{\lambda }_{m}} \right) vollständig parametrisiert.

Nebenbemerkung

Die Verteilung Pi bzw. \rho \left( x \right) wirkt auf dem Raum der Zufallsvariablen {{M}_{i}}^{n} (diskret) bzw. x\in {{R}^{d}}(kontinuierlich).

\left( {{\lambda }_{1}},...,{{\lambda }_{m}} \right) sind Parameter.


\left\langle {{M}^{n}} \right\rangle sind Erwartungswerte \left\langle {{M}^{n}} \right\rangle \in R


Beispiel:
x=\left( {{q}_{1}},...,{{q}_{3N}},{{p}_{1}}....,{{p}_{3N}} \right)\in \Gamma (Phasenraumelement)

mit Γ als Phasenraum der kanonisch konjugierten Variablen


M\left( x \right)=\sum\limits_{i=1}^{3N}{{}}\left( \frac{{{p}_{i}}^{2}}{2m}+V\left( {{q}_{i}} \right) \right) mikrokanonisch Verteilungsfunktion


\left\langle M\left( x \right) \right\rangle =\left\langle \sum\limits_{i=1}^{3N}{{}}\left( \frac{{{p}_{i}}^{2}}{2m}+V\left( {{q}_{i}} \right) \right) \right\rangle als mittlere Energie

Shannon- Information:


\begin{align}
  & I(P)=\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln {{P}_{i}}=\sum\limits_{i}^{{}}{{}}{{P}_{i}}\left( \Psi -{{\lambda }_{n}}{{M}_{i}}^{n} \right)=\Psi -{{\lambda }_{n}}\sum\limits_{i}^{{}}{{}}{{P}_{i}}{{M}_{i}}^{n} \\ 
 & I=\Psi \left( {{\lambda }_{1}},...{{\lambda }_{m}} \right)-{{\lambda }_{n}}\left\langle {{M}^{n}} \right\rangle  \\ 
\end{align}


Aus \begin{align}
  & \Psi \left( {{\lambda }_{1}},...{{\lambda }_{m}} \right)=-\ln \sum\limits_{i}^{{}}{{}}\exp \left( -{{\lambda }_{n}}{{M}_{i}}^{n} \right) \\ 
 & \Rightarrow \frac{\partial }{\partial {{\lambda }_{n}}}\Psi =-\frac{\sum\limits_{i}^{{}}{{}}\left( -{{M}_{i}}^{n} \right)\exp \left( -{{\lambda }_{n}}{{M}_{i}}^{n} \right)}{\sum\limits_{i}^{{}}{{}}\exp \left( -{{\lambda }_{n}}{{M}_{i}}^{n} \right)} \\  
 & \sum\limits_{i}^{{}}{{}}\exp \left( -{{\lambda }_{n}}{{M}_{i}}^{n} \right)={{e}^{-\Psi }} \\ 
 & \Rightarrow \frac{\partial }{\partial {{\lambda }_{n}}}\Psi =\sum\limits_{i}^{{}}{{}}\left( {{M}_{i}}^{n} \right)\exp \left( \Psi -{{\lambda }_{n}}{{M}_{i}}^{n} \right) \\ 
 & \exp \left( \Psi -{{\lambda }_{n}}{{M}_{i}}^{n} \right)={{P}_{i}} \\ 
 & \Rightarrow \frac{\partial }{\partial {{\lambda }_{n}}}\Psi =\sum\limits_{i}^{{}}{{}}\left( {{M}_{i}}^{n} \right){{P}_{i}} \\ 
 & \Rightarrow \frac{\partial }{\partial {{\lambda }_{n}}}\Psi =\left\langle {{M}^{n}} \right\rangle  \\ 
\end{align}


Damit können wir die Legendre- Transformation (verallgemeinert auf mehrere Variablen) identifizieren:


\Psi (t)\to \Psi \left( {{\lambda }_{1}},...{{\lambda }_{m}} \right) Variable λn


M\to \left\langle {{M}^{n}} \right\rangle =\frac{\partial \Psi }{\partial {{\lambda }_{n}}} neue Variable \left\langle {{M}^{n}} \right\rangle


I\left( M \right)\to I=\Psi -{{\lambda }_{n}}\left\langle {{M}^{n}} \right\rangle Legendre- Transformierte von Ψ!

Es folgt:


\frac{\partial I}{\partial \left\langle {{M}^{n}} \right\rangle }=-{{\lambda }_{n}}


wegen:


\begin{align}
  & \frac{\partial I}{\partial \left\langle {{M}^{n}} \right\rangle }=\frac{\partial \Psi }{\partial {{\lambda }_{m}}}\frac{\partial {{\lambda }_{m}}}{\partial \left\langle {{M}^{n}} \right\rangle }-\frac{\partial {{\lambda }_{m}}}{\partial \left\langle {{M}^{n}} \right\rangle }\left\langle {{M}^{m}} \right\rangle -{{\lambda }_{n}} \\ 
 & \frac{\partial \Psi }{\partial {{\lambda }_{m}}}=\left\langle {{M}^{m}} \right\rangle  \\ 
 & \Rightarrow \frac{\partial I}{\partial \left\langle {{M}^{n}} \right\rangle }=-{{\lambda }_{n}} \\ 
\end{align}


Zusammengefasst:


dI=-{{\lambda }_{n}}d\left\langle {{M}^{n}} \right\rangle

Dies ist in der Thermodynamik die Gibbsche Fundamentalgleichung!


Betachte Variation:


\left\langle {{M}^{n}} \right\rangle \to \left\langle {{M}^{n}} \right\rangle +\delta \left\langle {{M}^{n}} \right\rangle


dann:


\begin{align}
  & {{\lambda }_{n}}\to {{\lambda }_{n}}+\delta {{\lambda }_{n}} \\ 
 & \Psi \to \Psi +\delta \Psi  \\ 
 & {{P}_{i}}\to {{P}_{i}}+\delta {{P}_{i}} \\ 
\end{align}


Informationsgewinn:


\begin{align}
  & K\left( P+\delta P,P \right)=\sum\limits_{i}^{{}}{{}}\left( {{P}_{i}}+\delta {{P}_{i}} \right)\ln \left( {{P}_{i}}+\delta {{P}_{i}} \right)-\sum\limits_{i}^{{}}{{}}\left( {{P}_{i}}+\delta {{P}_{i}} \right)\ln {{P}_{i}} \\ 
 & \sum\limits_{i}^{{}}{{}}\left( {{P}_{i}}+\delta {{P}_{i}} \right)\ln \left( {{P}_{i}}+\delta {{P}_{i}} \right)=I\left( P+\delta P \right) \\ 
 & \Rightarrow K\left( P+\delta P,P \right)=\left( \Psi +\delta \Psi  \right)-\left( {{\lambda }_{n}}+\delta {{\lambda }_{n}} \right)\left( \left\langle {{M}^{n}} \right\rangle +\delta \left\langle {{M}^{n}} \right\rangle  \right)-\sum\limits_{i}^{{}}{{}}\left( {{P}_{i}}+\delta {{P}_{i}} \right)\left( \Psi -{{\lambda }_{n}}{{M}^{n}}_{i} \right) \\ 
 & \sum\limits_{i}^{{}}{{}}\left( {{P}_{i}}+\delta {{P}_{i}} \right)\left( \Psi -{{\lambda }_{n}}{{M}^{n}}_{i} \right)=\Psi -{{\lambda }_{n}}\sum\limits_{i}^{{}}{{}}\left( {{P}_{i}}+\delta {{P}_{i}} \right){{M}^{n}}_{i}=\Psi -{{\lambda }_{n}}\left( \left\langle {{M}^{n}} \right\rangle +\delta \left\langle {{M}^{n}} \right\rangle  \right) \\ 
 & \Rightarrow K\left( P+\delta P,P \right)=\left( \Psi +\delta \Psi  \right)-\left( {{\lambda }_{n}}+\delta {{\lambda }_{n}} \right)\left( \left\langle {{M}^{n}} \right\rangle +\delta \left\langle {{M}^{n}} \right\rangle  \right)-\Psi +{{\lambda }_{n}}\left( \left\langle {{M}^{n}} \right\rangle +\delta \left\langle {{M}^{n}} \right\rangle  \right) \\ 
 & =\delta \Psi -\delta {{\lambda }_{n}}\left( \left\langle {{M}^{n}} \right\rangle +\delta \left\langle {{M}^{n}} \right\rangle  \right) \\ 
\end{align}


Wir können die variierten Funktionen für kleine Variationen

δλn

entwickeln:


\begin{align}
  & \delta \Psi =\frac{\partial \Psi }{\partial {{\lambda }_{n}}}\delta {{\lambda }_{n}}+\frac{1}{2}\frac{{{\partial }^{2}}\Psi }{\partial {{\lambda }_{n}}\partial {{\lambda }_{m}}}\delta {{\lambda }_{n}}\delta {{\lambda }_{m}}+.... \\ 
 & \delta \left\langle {{M}^{n}} \right\rangle =\frac{\partial \left\langle {{M}^{n}} \right\rangle }{\partial {{\lambda }_{n}}}\delta {{\lambda }_{n}}+\frac{1}{2}\frac{{{\partial }^{2}}\left\langle {{M}^{n}} \right\rangle }{\partial {{\lambda }_{n}}\partial {{\lambda }_{m}}}\delta {{\lambda }_{n}}\delta {{\lambda }_{m}}+.... \\ 
 & \Rightarrow K\left( P+\delta P,P \right)=\delta \Psi -\delta {{\lambda }_{n}}\left( \left\langle {{M}^{n}} \right\rangle +\delta \left\langle {{M}^{n}} \right\rangle  \right)=\left( \frac{\partial \Psi }{\partial {{\lambda }_{n}}}\delta {{\lambda }_{n}}-\left\langle {{M}^{n}} \right\rangle  \right)\delta {{\lambda }_{n}}+\left( \frac{1}{2}\frac{\partial }{\partial {{\lambda }_{m}}}\frac{\partial \Psi }{\partial {{\lambda }_{n}}}-\frac{\partial \left\langle {{M}^{n}} \right\rangle }{\partial {{\lambda }_{m}}} \right)\delta {{\lambda }_{n}}\delta {{\lambda }_{m}} \\ 
 & \frac{\partial \Psi }{\partial {{\lambda }_{n}}}=\left\langle {{M}^{n}} \right\rangle \Rightarrow \left( \frac{1}{2}\frac{\partial }{\partial {{\lambda }_{m}}}\frac{\partial \Psi }{\partial {{\lambda }_{n}}}-\frac{\partial \left\langle {{M}^{n}} \right\rangle }{\partial {{\lambda }_{m}}} \right)=-\frac{1}{2}\frac{\partial \left\langle {{M}^{n}} \right\rangle }{\partial {{\lambda }_{m}}} \\ 
 & \left( \frac{\partial \Psi }{\partial {{\lambda }_{n}}}\delta {{\lambda }_{n}}-\left\langle {{M}^{n}} \right\rangle  \right)=0 \\ 
 & \Rightarrow K\left( P+\delta P,P \right)=-\frac{1}{2}\frac{\partial \left\langle {{M}^{n}} \right\rangle }{\partial {{\lambda }_{m}}}\delta {{\lambda }_{n}}\delta {{\lambda }_{m}} \\ 
 & K\left( P+\delta P,P \right)\ge 0 \\ 
\end{align}


Vergleiche oben

also folgt:


\begin{align}
  & \Rightarrow K\left( P+\delta P,P \right)=-\frac{1}{2}\frac{\partial \left\langle {{M}^{n}} \right\rangle }{\partial {{\lambda }_{m}}}\delta {{\lambda }_{n}}\delta {{\lambda }_{m}}\ge 0 \\ 
 & \Rightarrow \frac{\partial \left\langle {{M}^{n}} \right\rangle }{\partial {{\lambda }_{m}}}\le 0 \\ 
\end{align}


negativ semidefinit, für alle δλm


Definiere Suszeptibilitätsmatrix:


{{\eta }^{mn}}:=\frac{\partial \left\langle {{M}^{n}} \right\rangle }{\partial {{\lambda }_{n}}}=\frac{{{\partial }^{2}}\Psi }{\partial {{\lambda }_{n}}\partial {{\lambda }_{m}}}


Diese Matrix beschreibt die Änderung von \left\langle {{M}^{m}} \right\rangle bei Variation von λn:


\delta \left\langle {\bar{M}} \right\rangle =\bar{\bar{\eta }}\delta \bar{\lambda }


bzw.:


{{\tilde{\eta }}_{\sigma \lambda }}:=\frac{\partial {{\lambda }_{\sigma }}}{\partial \left\langle {{M}^{\lambda }} \right\rangle }=-\frac{{{\partial }^{2}}I}{\partial \left\langle {{M}^{\lambda }} \right\rangle \partial \left\langle {{M}^{\sigma }} \right\rangle }


In Matrixschreibweise:


\begin{align}
  & \delta \bar{\lambda }=\tilde{\bar{\bar{\eta }}}\delta \left\langle {\bar{M}} \right\rangle  \\ 
 & \tilde{\bar{\bar{\eta }}}={{{\bar{\bar{\eta }}}}^{-1}} \\ 
\end{align}


Wegen


\begin{align}
  & \frac{\partial }{\partial {{\lambda }_{n}}}\left( \frac{\partial \Psi }{\partial {{\lambda }_{m}}} \right)=\frac{\partial }{\partial {{\lambda }_{m}}}\left( \frac{\partial \Psi }{\partial {{\lambda }_{n}}} \right) \\ 
 & \left( \frac{\partial \Psi }{\partial {{\lambda }_{m}}} \right)=\left\langle {{M}^{m}} \right\rangle \Rightarrow \frac{\partial }{\partial {{\lambda }_{n}}}\left( \frac{\partial \Psi }{\partial {{\lambda }_{m}}} \right)={{\eta }^{mn}} \\ 
 & \left( \frac{\partial \Psi }{\partial {{\lambda }_{n}}} \right)=\left\langle {{M}^{n}} \right\rangle \Rightarrow \frac{\partial }{\partial {{\lambda }_{m}}}\left( \frac{\partial \Psi }{\partial {{\lambda }_{n}}} \right)={{\eta }^{nm}} \\ 
\end{align}


Somit:

ηnm ist symmetrisch

AusK\left( P+\delta P,P \right)\ge 0 folgt:


{{\eta }^{mn}}\delta {{\lambda }_{m}}\delta {{\lambda }_{n}}=\delta \left\langle {{M}^{n}} \right\rangle \delta {{\lambda }_{n}}={{\tilde{\eta }}_{nm}}\delta \left\langle {{M}^{n}} \right\rangle \delta \left\langle {{M}^{m}} \right\rangle \le 0


Also: negativ- semidefinite quadratisceh Form:


\begin{align}
  & \Rightarrow {{\eta }^{nn}}\le 0 \\ 
 & {{{\tilde{\eta }}}_{nn}}\le 0 \\ 
\end{align}


Nebenbemerkung:

Also sind I\left( \left\langle {{M}^{n}} \right\rangle  \right) und -\Psi \left( {{\lambda }_{n}} \right) konvex!

Zusammenhang mit der Korrelationsmatrix

{{Q}^{mn}}:=\left\langle \Delta {{M}^{m}}\Delta {{M}^{n}} \right\rangle ist Korrelationsmatrix (siehe oben)
={{\left\langle {{M}^{m}}{{M}^{n}} \right\rangle }_{c}} 2. Kumulante


={{\left. \frac{{{\partial }^{2}}\Gamma \left( \alpha  \right)}{\partial {{\alpha }_{m}}\partial {{\alpha }_{n}}} \right|}_{\alpha =0}} mit Kumulantenerzeugender


\begin{align}
  & \Gamma \left( \alpha  \right)=\ln \left\langle \exp \left( {{\alpha }_{n}}{{M}^{n}} \right) \right\rangle =\ln \sum\limits_{i}^{{}}{{}}{{P}_{i}}\exp \left( {{\alpha }_{n}}{{M}_{i}}^{n} \right)=\ln \sum\limits_{i}^{{}}{{}}{{e}^{\Psi -\left( {{\lambda }_{n}}-{{\alpha }_{n}} \right){{M}_{i}}^{n}}} \\ 
 & =\ln \left[ {{e}^{\Psi }}\cdot \sum\limits_{i}^{{}}{{}}{{e}^{-\left( {{\lambda }_{n}}-{{\alpha }_{n}} \right){{M}_{i}}^{n}}} \right]=\Psi \left( \lambda  \right)+\ln \left[ \sum\limits_{i}^{{}}{{}}{{e}^{-\left( {{\lambda }_{n}}-{{\alpha }_{n}} \right){{M}_{i}}^{n}}} \right] \\ 
 & \ln \left[ \sum\limits_{i}^{{}}{{}}{{e}^{-\left( {{\lambda }_{n}}-{{\alpha }_{n}} \right){{M}_{i}}^{n}}} \right]=-\Psi \left( \lambda -\alpha  \right) \\ 
 & \Rightarrow \Gamma \left( \alpha  \right)=\Psi \left( \lambda  \right)-\Psi \left( \lambda -\alpha  \right) \\ 
 & \Rightarrow {{Q}^{mn}}=-{{\left. \frac{{{\partial }^{2}}\Psi \left( \lambda -\alpha  \right)}{\partial {{\alpha }_{m}}\partial {{\alpha }_{n}}} \right|}_{\alpha =0}}=-\frac{{{\partial }^{2}}\Psi \left( \lambda  \right)}{\partial {{\lambda }_{m}}\partial {{\lambda }_{n}}}=-{{\eta }^{mn}} \\ 
\end{align}


Suszeptibilität!

Also: Die Korrelationsmatrix ist das Negative der Suszeptibilität!!

Also:

{{Q}^{mn}}:=\left\langle \Delta {{M}^{m}}\Delta {{M}^{n}} \right\rangle =-\frac{\partial \left\langle {{M}^{m}} \right\rangle }{\partial {{\lambda }_{n}}}=-\frac{\partial \left\langle {{M}^{n}} \right\rangle }{\partial {{\lambda }_{m}}}



Fluktuations/ Dissipations- Theorem:

Fluktuationen
Zufällige Schwankungen um den Mittelwert
Dissipation
Systematische Änderung der Mittelwerte!

Korrektur einer Verteilung durch Zusatzinformationen

Sei P0 die Verteilung, die I\left( P \right) unter Kenntnis der Nebenbedingungen

\begin{align}
  & \sum\limits_{i}^{{}}{{}}{{P}_{i}}^{0}=1 \\ 
 & \sum\limits_{i}^{{}}{{}}{{P}_{i}}^{0}{{M}_{i}}^{m}=\left\langle {{M}^{m}} \right\rangle  \\ 
 & m=1,...,m \\ 
\end{align}
minimalisiert (Vorsicht: Index und Laufende sind ungünstigerweise gleich bezeichnet!)

Jetzt:

Zusatzinformationen (zusätzliche Mittelwerte beobachtet):

\begin{align}
  & \sum\limits_{i}^{{}}{{}}{{P}_{i}}{{V}_{i}}^{\sigma }=\left\langle {{V}_{i}}^{\sigma } \right\rangle  \\ 
 & \sigma =1,...,s \\ 
 & \sum\limits_{i}^{{}}{{}}{{P}_{i}}=1 \\ 
\end{align}

Prinzip der vorurteilsfreien Schätzung

Suche Minimum des Informationsgewinns


K\left( P,{{P}^{0}} \right)=\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln \frac{{{P}_{i}}}{{{P}_{i}}^{0}}


unter dieser Nebenbedingung!!

Also:


\sum\limits_{i}^{{}}{{}}\left( \ln {{P}_{i}}-\ln {{P}_{i}}^{0}+1+\xi +{{\xi }_{\sigma }}{{V}_{i}}^{\sigma } \right)\delta {{P}_{i}}=0


mit neuen Lagrange- Multiplikatoren

ξ,ξσ


\begin{align}
  & \Rightarrow 1+\xi =-\Xi  \\ 
 & \sum\limits_{i}^{{}}{{}}\left( \ln {{P}_{i}}-\ln {{P}_{i}}^{0}-\Xi +{{\xi }_{\sigma }}{{V}_{i}}^{\sigma } \right)\delta {{P}_{i}}=0 \\ 
 & \Rightarrow {{P}_{i}}={{P}_{i}}^{0}\exp \left( \Xi -{{\xi }_{\sigma }}{{V}_{i}}^{\sigma } \right) \\ 
\end{align}


Mit


{{P}_{i}}^{0}=\exp \left( \Psi -{{\lambda }_{n}}{{M}_{i}}^{n} \right)
 folgt:


\begin{align}
  & K\left( P,{{P}^{0}} \right)=\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln {{P}_{i}}-{{P}_{i}}\ln {{P}_{i}}^{0}+{{P}_{i}}^{0}\ln {{P}_{i}}^{0}-{{P}_{i}}^{0}\ln {{P}_{i}}^{0} \\ 
 & \sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln {{P}_{i}}=I(P) \\ 
 & \sum\limits_{i}^{{}}{{}}{{P}_{i}}^{0}\ln {{P}_{i}}^{0}=I({{P}^{0}}) \\ 
 & -{{P}_{i}}\ln {{P}_{i}}^{0}+{{P}_{i}}^{0}\ln {{P}_{i}}^{0}=-\sum\limits_{i}^{{}}{{}}\left( {{P}_{i}}-{{P}_{i}}^{0} \right)\ln {{P}_{i}}^{0} \\ 
 & \ln {{P}_{i}}^{0}=\Psi -{{\lambda }_{n}}{{M}_{i}}^{n} \\ 
 & -\sum\limits_{i}^{{}}{{}}\left( {{P}_{i}}-{{P}_{i}}^{0} \right)\left( \Psi -{{\lambda }_{n}}{{M}_{i}}^{n} \right)={{\lambda }_{n}}\left( \sum\limits_{i}^{{}}{{}}\left( {{P}_{i}}{{M}_{i}}^{n} \right)-\sum\limits_{i}^{{}}{{}}\left( {{P}_{i}}^{0}{{M}_{i}}^{n} \right) \right) \\ 
 & \sum\limits_{i}^{{}}{{}}\left( {{P}_{i}}{{M}_{i}}^{n} \right)=\left\langle {{M}^{n}} \right\rangle  \\ 
 & \sum\limits_{i}^{{}}{{}}\left( {{P}_{i}}^{0}{{M}_{i}}^{n} \right)={{\left\langle {{M}^{n}} \right\rangle }_{0}} \\ 
\end{align}


Da nun die Mittelwerte

\left\langle {{M}^{n}} \right\rangle ,{{\left\langle {{M}^{n}} \right\rangle }_{0}}

nicht durch die Zusatzinfo geändert werden muss gelten:


\begin{align}
  & K\left( P,{{P}^{0}} \right)=I(P)-I({{P}^{0}})+{{\lambda }_{n}}\left( \sum\limits_{i}^{{}}{{}}\left( {{P}_{i}}{{M}_{i}}^{n} \right)-\sum\limits_{i}^{{}}{{}}\left( {{P}_{i}}^{0}{{M}_{i}}^{n} \right) \right) \\
 & =I(P)-I({{P}^{0}})+{{\lambda }_{n}}\left( \left\langle {{M}^{n}} \right\rangle -{{\left\langle {{M}^{n}} \right\rangle }_{0}} \right) \\ 
 & keine\ddot{A}nderung \\ 
 & \Rightarrow {{\lambda }_{n}}\left( \left\langle {{M}^{n}} \right\rangle -{{\left\langle {{M}^{n}} \right\rangle }_{0}} \right)=0 \\ 
 & \left\langle {{M}^{n}} \right\rangle ={{\left\langle {{M}^{n}} \right\rangle }_{0}} \\ 
\end{align}


da diese Mittelwerte nicht durch die Zusatzinfo geändert werden!


\begin{align}
  & \Rightarrow K\left( P,{{P}^{0}} \right)=I(P)-I({{P}^{0}})+{{\lambda }_{n}}\left( \sum\limits_{i}^{{}}{{}}\left( {{P}_{i}}{{M}_{i}}^{n} \right)-\sum\limits_{i}^{{}}{{}}\left( {{P}_{i}}^{0}{{M}_{i}}^{n} \right) \right) \\ 
 & =I(P)-I({{P}^{0}})+{{\lambda }_{n}}\left( \left\langle {{M}^{n}} \right\rangle -{{\left\langle {{M}^{n}} \right\rangle }_{0}} \right)=I(P)-I({{P}^{0}}) \\ 
\end{align}


Das heißt: Der Informationsgewinn entspricht gerade der Änderung der Shannon- Info!

Siehe auch

  1. Brandes,T, Thermodynamik und Statistische Physik, Vorlesung, TU-Berlin, Wintersemester 2006/2007, Gleichung 5.4.13 (Kap 5.4.3 S46)
Persönliche Werkzeuge