Informationsmaße: Unterschied zwischen den Versionen

Aktuelle Version vom 27. September 2010, 17:32 Uhr

Thermodynamikvorlesung von Prof. Dr. E. Schöll, PhD

Der Artikel Informationsmaße basiert auf der Vorlesungsmitschrift von Franz- Josef Schmitt des 1.Kapitels (Abschnitt 2) der Thermodynamikvorlesung von Prof. Dr. E. Schöll, PhD.

|}}

Die Informationstheorie (Shannon, Wiener) entstand im 2. Weltkrieg im Zusammenhang mit der Entschlüsselung codierter Nachrichten!

Definition:

Ein Maß $μ$

auf einer Algebra A´ ist eine Abbildung $μ : A \overset{´}{} \to [0, \infty]$

mit den Eigenschaften

\begin{aligned} μ (0) = 0 \\ μ (⋃_{i = 1}^{\infty} A_{i}) = \sum_{i = 1}^{\infty} μ (A_{i}) \end{aligned}

für disjunkte Ereignisse Ai, also

A_{i} \cap A_{j} = A_{i} δ_{i j}

Nebenbemerkung: Eine $σ$

- Algebra A´ ist eine Algebra A´ mit der Eigenschaft, dass abzählbar viele

\begin{aligned} A_{i} \in A \overset{´}{}, i = 1, . . . ., \infty \\ \Rightarrow ⋃_{i = 1}^{\infty} A_{i} \in A \overset{´}{} \end{aligned}

Also: Die Vereinigung der Ereignisse ist Element der Algebra!

Im Folgenden sei unsere Algebra A´ stets eine Sigma- Algebra!

Beispiel eines Maßes: Wahrscheinlichkeit P

Speziell:

P (A) \leq 1

Idee des Informationsmaßes:

Vergleich verschiedener Wahrscheinlichkeitsverteilungen über einer Ereignisalgebra A´

Frage: Welche von 2 Verteilungen enthält mehr Information, bzw. Kenntnis darüber, welches Ereignis eintreten wird ?

Mathematische Grundbegriffe: Reed/ Simon: Methods of Modern Math. Physics, Vol. I: Functional Analysis!

Beispiel:

Zonk- Problem:

Hauptgewinn ist hinter einer von 3 Türen versteckt!

A, B, C \in A \overset{´}{}

Verteilung: Alle drei Türen zu je 1/3:

P^{(1)} = δ (x - 1) + δ (x - 2) + δ (x - 3)

Als Gleichverteilung → minimale Kenntnis

Verteilung:

P^{(2)} = δ (x - 2)

scharfe Verteilung → maximale Kenntnis / Sicherheit

Bitzahl:

Ausgangspunkt: diskrete Ereignisalgebra:

A \overset{´}{} = {A_{i}}_{i \in I}

Frage: Wie lange muss eine Nachricht sein, die einem Beobachter mitteilt, dass ein Ereignis eingetreten ist ??

Länge der Nachricht = Maß für die fehlende Kenntnis des Beobachters

Beispiel:

Auswahl eines Ereignisses aus

A \overset{´}{} = {A_{1}, A_{2}, . . ., A_{N}}

falls der Beobachter keine Vorkenntnis hat.

1) A \overset{´}{} = {A_{1}, A_{2}}

einafche Alternative

= kleinste Informationseinheit

= 1 bit (binary digit)

Nachricht: 0 oder 1

A´ sei menge mit $2^{n}$
Elementen:

n Alternativentscheidungen notwendig:

z.B. 0011 → insgesamt n Stellen in Binärdarstellung nötig!

Länge der Nachricht:

n = \log_{2} N

(nötige Bitzahl)

Informationsmaß der Nachricht:

Bitzahl!

Also: $b (N) = \log_{2} N$

falls keine Vorkenntnis vorhanden ist!

Verallgemeinerung auf Wahrscheinlichkeitsverteilungen $P_{i}$

Falls der Beobachter die $P_{i}$

kennt, muss nur die fehlende Information mitgeteilt werden: Also die Bitzahl $b (P_{i})$ .

Postulate für die Konstruktion von $b (P_{i})$

:

$b (P)$
sei eine universelle Funktion, hängt von A also nur über P(A) ab!
Seien ${A_{i}}$
und ${A_{j} \overset{´}{}}$
2 verschiedene (disjunkte) sample sets, z.B. 2 Subsysteme eines zusammengesetzten Systems: So gilt:

Für 2 völlig unkorrelierte Subsysteme eines zusammengesetzten Systems gilt:

b ist additiv, also:

b (P \overset{´}{} \overset{´}{}) = b (P) + b (P \overset{´}{})

wobei nach Definition der Unkorreliertheit (stochastische Unabhängigkeit) gilt:

P \overset{´}{} \overset{´}{} (A_{i} A_{j} \overset{´}{}) = P (A_{i}) P \overset{´}{} (A_{j} \overset{´}{})

dabei ist

A_{i} A_{j} \overset{´}{}

das direkte Produkt der beiden Zufallsvariablen, gegeben durch das Ereignistupel ${A_{i} A_{j} \overset{´}{}}$ .

3) b(P)=0 für P=1, also für das sichere Ereignis

\begin{aligned} b (P) = \log_{2} N \\ f \ddot{u} r P = \frac{1}{N} \end{aligned}

also im Falle von Gleichverteilung, welches maximale Unbestimmtheit darstellt!

4) $b (P)$

ist stetig und wohldefiniert für $0 \leq P \leq 1$

Wegen der Additivität macht es Sinn:

b (P) = f (\log P)

zu definieren. Es muss f noch bestimmt werden!

Wegen 1) und 2) folgt:

\begin{aligned} f (\log P \overset{´}{} \overset{´}{}) = f (\log P + \log P \overset{´}{}) =! = f (\log P) + f (\log P \overset{´}{}) \\ \Rightarrow f (\log P) = a * \log P \end{aligned}

Also: die Funktion sollte linear in log P sein!

Bemerkung:

Für 2 unkorrelierte Systeme ist die Länge der Nachricht = Informationsmaß bei maximaler Unbestimmtheit additiv.

Dies motiviert Postulat 2)

Aus 3) folgt:

\begin{aligned} f (\log P \overset{´}{} \overset{´}{}) = f (\log P + \log P \overset{´}{}) =! = f (\log P) + f (\log P \overset{´}{}) \\ \Rightarrow f (\log P) = a * \log P \\ b (P) = a \log (P) = - a \log N =! = \log_{2} N \\ f \ddot{u} r P = \frac{1}{N} \\ \Rightarrow a = - 1 \\ \log = \log_{2} \end{aligned}

Konvention:

Einheit für ein bit:

\ln 2 = \frac{\ln P}{\log_{2} P}

"bin"

b (P_{i}) = - \ln P_{i}

Informationsmaß für die Nachricht, dass Ai eingetreten ist,

falls

P_{i} = P (A_{i})

bekannt ist!

Informationsmaß einer Wahrscheinlichkeitsverteilung ${P_{i}}$

Übermittlung vieler Nachrichten:

A_{i}

tritt mit relativer Häufigkeit $P_{i}$

auf!

mittlere benötigte (= da fehlende!) Information pro Ereignis:

b (P_{i}) = - \ln P_{i}

somit:

⟨ b (P_{i}) ⟩ = - \sum_{i}^{} P_{i} \ln P_{i}

Definition: Shannon-Information einer Verteilung

{P_{i}}

:

I (P) = \sum_{i = 1}^{N} P_{i} \ln P_{i}

\begin{aligned} P = (P_{1} . . . P_{N}) \end{aligned}

I ist Funktional der Verteilung

b ist Funktion von Pi b(Pi)

Es gilt stets $I (P) \leq 0$

Maximum: $I (P) = 0$

für $p_{i} = δ_{i j}$

Also maximal für scharfe Verteilung mit sicherem Ereignis $A_{j}$

Minimum: Variation der $P_{i}$

um $δ P_{i}$ unter der Nebenbedingung

\sum_{i}^{} δ P_{i} = 0

wegen Normierung:

\sum_{i}^{} P_{i} = 1

Somit:

δ I (P) = \sum_{i = 1}^{N} (\ln P_{i} + 1) δ P_{i} = 0

Addition der Nebenbedingung $\sum_{i}^{} δ P_{i} = 0$

mit dem Lagrange- Multiplikator $λ$ :

\sum_{i = 1}^{N} (\ln P_{i} + 1 + λ) δ P_{i} = 0

unabhängige Variation $δ P_{i} \Rightarrow \forall i \Rightarrow \ln P_{i} = - (1 + λ) = c o n s t .$

Normierung $\sum_{i}^{} P_{i} = 1 = N P_{i} \Rightarrow P_{i} = \frac{1}{N}$ , also Gleichverteilung

Übung: Man vergleiche I(P) für verschiedene Verteilungen

Kontinuierliche Ereignismenge

x \in R^{d}, ρ (x)

Zelleneinteilung des $R^{d}$
in Zellen i mit Volumen
$Δ^{d} x$

Wahrscheinlichkeit für ein Ereignis in Zelle i:

\begin{aligned} P_{i} = ρ (x^{i}) Δ^{d} x \\ I (P) = \sum_{i}^{} Δ^{d} x ρ (x^{i}) \ln (Δ^{d} x ρ (x^{i})) = \sum_{i}^{} Δ^{d} x ρ (x^{i}) \ln (ρ (x^{i})) + \sum_{i}^{} Δ^{d} x ρ (x^{i}) \ln (Δ^{d} x) \\ \sum_{i}^{} Δ^{d} x ρ (x^{i}) = 1 \\ \sum_{i}^{} Δ^{d} x ρ (x^{i}) \ln (Δ^{d} x) = c o n s t . \end{aligned}

für eine feste Zellengröße.

Damit kann dieser Term weggelassen werden und wir gewinnen:

\begin{aligned} I (P) = \sum_{i}^{} Δ^{d} x ρ (x^{i}) \ln (ρ (x^{i})) \\ Δ^{d} x \to 0 \\ I (ρ) = \int_{}^{} d^{d} x ρ \ln ρ \end{aligned}

Bemerkungen

Shannon- Informationsmaß misst die Kenntnis bezüglich der Frage: Welches Ereignis tritt ein ?

keine Unterscheidung, wi die verteilung zustande kommt, z.B. bei Gleichverteilung: genaue Beobachtung ODER vorurteilsfreie Schätzung bei gänzlich fehlender Kenntnis

(Laplacsches Prinzip vom unzureichenden Grund)

2) Definition : Statistisches Informationsmaß des NICHTWISSENS: (der fehlenden Information):

S (ρ) = - k \int_{}^{} d^{d} x ρ \ln ρ

k geeignete Einheit

Interpretation in der Thermodynamik als Entropie

verallgeminerte Informationsmaße (Renyi) $S (ρ) = - k \int_{}^{} d^{d} x ρ \ln ρ$

\begin{aligned} I_{q} = - \frac{1}{1 - q} \ln (\sum_{i}^{} {(p_{i})}^{q - 1}) \\ q = 1, 2, . . . . \end{aligned}

wird gleich dem Shannon- Informationsmaß für $q \to 1$

Informationsgewinn

Maß für die Zusatzinformationen einer Wahrscheinlichkeitsverteilung ${P_{i}}$

im Vergleich zu einer Referenzverteilung ${P_{i} \overset{´}{}}$

über derselben Ereignismenge:

b (P_{i} \overset{´}{}) - b (P_{i}) = \ln \frac{P_{i}}{P_{i} \overset{´}{}}

Dies ist zu verstehen als die notwendige Bitzahl, um Pi´ in Pi zu verwandeln, also die Information, die als Nachricht hierfür gegeben werden muss :

Mittlere Bitzahl (mit der korrigierten Wahrscheinlichkeitsverteilung gewichtet):

:

K (P, P \overset{´}{}) = \sum_{i}^{} P_{i} \ln \frac{P_{i}}{P_{i} \overset{´}{}}

Informationsgewinn → Kullback Information!

Bemerkungen

mittlere Bitzahl / Informationsgewinn ist asymmetrisch bezüglich P↔P´
es gilt:  $K (P, P \overset{´}{}) \geq 0$  wegen

\sum_{i}^{} P_{i} \ln \frac{P_{i}}{P_{i} \overset{´}{}} \geq \sum_{i}^{} P_{i} (1 - \frac{P_{i} \overset{´}{}}{P_{i}}) = \sum_{i}^{} P_{i} - \sum_{i}^{} P_{i} \overset{´}{} = 1 - 1 = 0

es gilt:

\begin{aligned} \ln x \geq 1 - \frac{1}{x} \\ f \ddot{u} r \\ x > 0 \end{aligned}

$P_{i} \overset{´}{} = 0$ ist auszuschließen, damit $K (P, P \overset{´}{}) < \infty$

Für $P_{i} \overset{´}{} = \frac{1}{N}$ (Gleichverteilung)

\begin{aligned} K (P, P \overset{´}{}) = \sum_{i}^{} P_{i} \ln N P_{i} = \sum_{i}^{} P_{i} \ln P_{i} + \sum_{i}^{} P_{i} \ln N = I (P) + \ln N \\ w e g e n \sum_{i}^{} P_{i} = 1 \\ \Rightarrow K (P, P \overset{´}{}) = I (P) + \ln N \end{aligned}

bei Gleichverteilung!

5) Minimum von K:

Variation der $P_{i}$

um $δ P_{i}$

unter Nebenbedingung $\sum_{i}^{} δ P_{i} = 0$

\begin{aligned} δ K (P, P \overset{´}{}) = \sum_{i}^{} (\ln \frac{P_{i}}{P_{i} \overset{´}{}} + 1) δ P_{i} \\ \sum_{i}^{} (\ln \frac{P_{i}}{P_{i} \overset{´}{}} + 1 + λ) δ P_{i} = 0 \\ \Rightarrow \ln (\frac{P_{i}}{P_{i} \overset{´}{}}) = - (+ 1 + λ) = c o n s t . \\ \Rightarrow P_{i} \tilde{} P_{i} \overset{´}{} \end{aligned}

Wegen Normierung:

\begin{aligned} \sum_{i}^{} P_{i} = \sum_{i}^{} P_{i} \overset{´}{} = 1 \\ \Rightarrow P_{i} = P_{i} \overset{´}{} \Rightarrow K = 0 \end{aligned}

$K (P, P \overset{´}{})$
ist konvexe Funktion von P, da

\frac{\partial^{2} K (P, P \overset{´}{})}{\partial P_{i} \partial P_{j}} = \frac{\partial}{\partial P_{j}} (\ln \frac{P_{i}}{P_{i} \overset{´}{}} + 1) = \frac{1}{P_{i}} δ_{i j} \geq 0

somit ist dann auch

I (P) = K (P, \frac{1}{N}) - \ln N

konvex (Informationsgewinn)

Kontinuierliche Ereignismengen

x \in R^{d}, ρ (x)

Zelleneinteilung des $R^{d}$
in Zellen i mit Volumen
$Δ^{d} x$

Wahrscheinlichkeit für ein Ereignis in Zelle i:

\begin{aligned} P_{i} = ρ (x^{i}) Δ^{d} x \\ K (P, P \overset{´}{}) = \sum_{i}^{} Δ^{d} x ρ (x^{i}) \ln \frac{ρ (x^{i})}{ρ \overset{´}{} (x^{i})} \end{aligned}

invariant gegen die Trafo

\begin{aligned} x \to \tilde{x} \\ ρ (x) \to ρ (\tilde{x}) D e t (\frac{\partial x}{\partial \tilde{x}}) \\ Δ^{d} x \to Δ^{d} \tilde{x} D e t {(\frac{\partial x}{\partial \tilde{x}})}^{- 1} \end{aligned}

Während

I (P)

nicht invariant ist!

\begin{aligned} Δ^{d} x \to 0 \\ \Rightarrow K (ρ, ρ \overset{´}{}) = \int_{}^{} d^{d} x ρ \ln \frac{ρ}{ρ \overset{´}{}} \end{aligned}

Bemerkung:

Interpretation von $- k \dot{K} (ρ, ρ \overset{´}{})$

in der Thermodynamik als Entropieproduktion und von

k T K (ρ, ρ \overset{´}{})

als Exergie (availability)

Informationsmaße: Unterschied zwischen den Versionen

Aktuelle Version vom 27. September 2010, 17:32 Uhr

Inhaltsverzeichnis

Idee des Informationsmaßes:

Bitzahl:

Verallgemeinerung auf Wahrscheinlichkeitsverteilungen $P_{i}$

Postulate für die Konstruktion von $b (P_{i})$

:

Informationsmaß einer Wahrscheinlichkeitsverteilung ${P_{i}}$

Kontinuierliche Ereignismenge

Informationsgewinn

Kontinuierliche Ereignismengen

Navigationsmenü

@@ Zeile 1: / Zeile 1: @@
 <noinclude>{{Scripthinweis|Thermodynamik|1|2}}</noinclude>
-Die Informationstheorie ( Shannon, Wiener) entstand im 2. Weltkrieg im Zusammenhang mit der Entschlüsselung codierter Nachrichten !
+Die Informationstheorie (Shannon, Wiener) entstand im 2. Weltkrieg im Zusammenhang mit der Entschlüsselung codierter Nachrichten!
 '''Definition:'''
@@ Zeile 11: / Zeile 11: @@
 mit den Eigenschaften
-<math>\begin{align}
+:<math>\begin{align}
 & \mu (0)=0 \\
@@ Zeile 21: / Zeile 21: @@
 für disjunkte Ereignisse Ai, also
-<math>{{A}_{i}}\cap {{A}_{j}}={{A}_{i}}{{\delta }_{ij}}</math>
+:<math>{{A}_{i}}\cap {{A}_{j}}={{A}_{i}}{{\delta }_{ij}}</math>
 '''Nebenbemerkung: '''Eine <math>\sigma </math>
@@ Zeile 27: / Zeile 27: @@
 - Algebra A´ ist eine Algebra A´ mit der Eigenschaft, dass abzählbar viele
-<math>\begin{align}
+:<math>\begin{align}
 & {{A}_{i}}\in A\acute{\ },i=1,....,\infty  \\
@@ Zeile 35: / Zeile 35: @@
 \end{align}</math>
-Also: Die Vereinigung der Ereignisse ist Element der Algebra !
+Also: Die Vereinigung der Ereignisse ist Element der Algebra!
-Im Folgenden sei unsere Algebra A´ stets eine Sigma- Algebra !
+Im Folgenden sei unsere Algebra A´ stets eine Sigma- Algebra!
 Beispiel eines Maßes: Wahrscheinlichkeit P
@@ Zeile 43: / Zeile 43: @@
 Speziell:
-<math>P(A)\le 1</math>
+:<math>P(A)\le 1</math>
 ====Idee des Informationsmaßes:====
@@ Zeile 49: / Zeile 49: @@
 Vergleich verschiedener Wahrscheinlichkeitsverteilungen über einer Ereignisalgebra A´
-Frage: Welche von 2 Verteilungen enthält mehr Information , bzw. Kenntnis darüber, welches Ereignis eintreten wird ?
+Frage: Welche von 2 Verteilungen enthält mehr Information, bzw. Kenntnis darüber, welches Ereignis eintreten wird ?
-Mathematische Grundbegriffe: Reed/ Simon: Methods of Modern Math. Physics, Vol. I: Functional Analysis !
+Mathematische Grundbegriffe: Reed/ Simon: Methods of Modern Math. Physics, Vol. I: Functional Analysis!
 '''Beispiel:'''
@@ Zeile 57: / Zeile 57: @@
 Zonk- Problem:
-Hauptgewinn ist hinter einer von 3 Türen versteckt !
+Hauptgewinn ist hinter einer von 3 Türen versteckt!
-<math>A,B,C\in A\acute{\ }</math>
+:<math>A,B,C\in A\acute{\ }</math>
 # Verteilung: Alle drei Türen zu je 1/3:
-<math>{{P}^{(1)}}=\delta (x-1)+\delta (x-2)+\delta (x-3)</math>
+:<math>{{P}^{(1)}}=\delta (x-1)+\delta (x-2)+\delta (x-3)</math>
-Als Gleichverteilung -> minimale Kenntnis
+Als Gleichverteilung → minimale Kenntnis
 # Verteilung:
-<math>{{P}^{(2)}}=\delta (x-2)</math>
+:<math>{{P}^{(2)}}=\delta (x-2)</math>
-scharfe Verteilung -> maximale Kenntnis / Sicherheit
+scharfe Verteilung → maximale Kenntnis / Sicherheit
 ====Bitzahl:====
@@ Zeile 76: / Zeile 76: @@
 Ausgangspunkt: diskrete Ereignisalgebra:
-<math>A\acute{\ }={{\left\{ {{A}_{i}} \right\}}_{i\in I}}</math>
+:<math>A\acute{\ }={{\left\{ {{A}_{i}} \right\}}_{i\in I}}</math>
 Frage: Wie lange muss eine Nachricht sein, die einem Beobachter mitteilt, dass ein Ereignis eingetreten ist ??
@@ Zeile 86: / Zeile 86: @@
 Auswahl eines Ereignisses aus
-<math>A\acute{\ }=\left\{ {{A}_{1}},{{A}_{2}},...,{{A}_{N}} \right\}</math>
+:<math>A\acute{\ }=\left\{ {{A}_{1}},{{A}_{2}},...,{{A}_{N}} \right\}</math>
-falls der Beobachter keine Vorkenntnis hat .
+falls der Beobachter keine Vorkenntnis hat.
-<math>1)A\acute{\ }=\left\{ {{A}_{1}},{{A}_{2}} \right\}</math>
+:<math>1)A\acute{\ }=\left\{ {{A}_{1}},{{A}_{2}} \right\}</math>
 : einafche Alternative
@@ Zeile 96: / Zeile 96: @@
 = kleinste Informationseinheit
-= 1 bit ( binary digit)
+= 1 bit (binary digit)
 Nachricht: 0 oder 1
@@ Zeile 105: / Zeile 105: @@
 n Alternativentscheidungen notwendig:
-z.B. 0011 -> insgesamt n Stellen in Binärdarstellung nötig !
+z.B. 0011 → insgesamt n Stellen in Binärdarstellung nötig!
 Länge der Nachricht:
-<math>n={{\log }_{2}}N</math>
+:<math>n={{\log }_{2}}N</math>
-( nötige Bitzahl)
+(nötige Bitzahl)
 Informationsmaß der Nachricht:
-Bitzahl !
+Bitzahl!
 Also: <math>b(N)={{\log }_{2}}N</math>
-falls keine Vorkenntnis vorhanden ist !
+falls keine Vorkenntnis vorhanden ist!
 ====Verallgemeinerung auf Wahrscheinlichkeitsverteilungen <math>{{P}_{i}}</math>====
@@ Zeile 126: / Zeile 126: @@
 kennt, muss nur die fehlende Information mitgeteilt werden: Also die Bitzahl <math>b({{P}_{i}})</math>
+.
-.
 ====Postulate für die Konstruktion von <math>b({{P}_{i}})</math>====
@@ Zeile 133: / Zeile 133: @@
 # <math>b(P)</math>
-# sei eine universelle Funktion, hängt von A also nur über P(A) ab !
+# sei eine universelle Funktion, hängt von A also nur über P(A) ab!
 # Seien <math>\left\{ {{A}_{i}} \right\}</math>
 # und <math>\left\{ {{A}_{j}}\acute{\ } \right\}</math>
-#  2 verschiedene  ( disjunkte) sample sets, z.B. 2 Subsysteme  eines zusammengesetzten Systems: So gilt:
+#  2 verschiedene  (disjunkte) sample sets, z.B. 2 Subsysteme  eines zusammengesetzten Systems: So gilt:
 Für 2 völlig unkorrelierte Subsysteme eines zusammengesetzten Systems gilt:
@@ Zeile 142: / Zeile 142: @@
 b ist additiv, also:
-<math>b(P\acute{\ }\acute{\ })=b(P)+b(P\acute{\ })</math>
+:<math>b(P\acute{\ }\acute{\ })=b(P)+b(P\acute{\ })</math>
-wobei nach Definition der Unkorreliertheit ( stochastische Unabhängigkeit) gilt:
+wobei nach Definition der Unkorreliertheit (stochastische Unabhängigkeit) gilt:
-<math>P\acute{\ }\acute{\ }({{A}_{i}}{{A}_{j}}\acute{\ })=P({{A}_{i}})P\acute{\ }({{A}_{j}}\acute{\ })</math>
+:<math>P\acute{\ }\acute{\ }({{A}_{i}}{{A}_{j}}\acute{\ })=P({{A}_{i}})P\acute{\ }({{A}_{j}}\acute{\ })</math>
 dabei ist
-<math>{{A}_{i}}{{A}_{j}}\acute{\ }</math>
+:<math>{{A}_{i}}{{A}_{j}}\acute{\ }</math>
 das direkte Produkt  der beiden Zufallsvariablen, gegeben durch das Ereignistupel <math>\left\{ {{A}_{i}}{{A}_{j}}\acute{\ } \right\}</math>
+.
-.
 ) b(P)=0  für P=1, also für das sichere Ereignis
-<math>\begin{align}
+:<math>\begin{align}
 & b(P)={{\log }_{2}}N \\
@@ Zeile 166: / Zeile 166: @@
 \end{align}</math>
-also im Falle von Gleichverteilung, welches maximale Unbestimmtheit darstellt !
+also im Falle von Gleichverteilung, welches maximale Unbestimmtheit darstellt!
 ) <math>b(P)</math>
@@ Zeile 174: / Zeile 174: @@
 '''Wegen der Additivität macht es Sinn:'''
-<math>b(P)=f\left( \log P \right)</math>
+:<math>b(P)=f\left( \log P \right)</math>
-zu definieren. Es muss f noch bestimmt werden !
+zu definieren. Es muss f noch bestimmt werden!
 Wegen 1) und 2) folgt:
-<math>\begin{align}
+:<math>\begin{align}
 & f(\log P\acute{\ }\acute{\ })=f\left( \log P+\log P\acute{\ } \right)=!=f(\log P)+f(\log P\acute{\ }) \\
@@ Zeile 188: / Zeile 188: @@
 \end{align}</math>
-Also: die Funktion sollte linear in log P sein !
+Also: die Funktion sollte linear in log P sein!
 '''Bemerkung:'''
@@ Zeile 198: / Zeile 198: @@
 Aus 3) folgt:
-<math>\begin{align}
+:<math>\begin{align}
 & f(\log P\acute{\ }\acute{\ })=f\left( \log P+\log P\acute{\ } \right)=!=f(\log P)+f(\log P\acute{\ }) \\
@@ Zeile 218: / Zeile 218: @@
 Einheit für ein bit:
-<math>\ln 2=\frac{\ln P}{{{\log }_{2}}P}</math>
+:<math>\ln 2=\frac{\ln P}{{{\log }_{2}}P}</math>
 "bin"
-<math>b({{P}_{i}})=-\ln {{P}_{i}}</math>
+:<math>b({{P}_{i}})=-\ln {{P}_{i}}</math>
 Informationsmaß für die Nachricht, dass Ai eingetreten ist,
@@ Zeile 228: / Zeile 228: @@
 falls
-<math>{{P}_{i}}=P({{A}_{i}})</math>
+:<math>{{P}_{i}}=P({{A}_{i}})</math>
-bekannt ist !
+bekannt ist!
 ====Informationsmaß einer Wahrscheinlichkeitsverteilung <math>\left\{ {{P}_{i}} \right\}</math>====
@@ Zeile 236: / Zeile 236: @@
 Übermittlung vieler Nachrichten:
-<math>{{A}_{i}}</math>
+:<math>{{A}_{i}}</math>
 tritt mit relativer Häufigkeit <math>{{P}_{i}}</math>
-auf !
+auf!
-mittlere benötigte ( = da fehlende !) Information pro Ereignis:
+mittlere benötigte (= da fehlende!) Information pro Ereignis:
-<math>b({{P}_{i}})=-\ln {{P}_{i}}</math>
+:<math>b({{P}_{i}})=-\ln {{P}_{i}}</math>
 somit:
-<math>\left\langle b({{P}_{i}}) \right\rangle =-\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln {{P}_{i}}</math>
+:<math>\left\langle b({{P}_{i}}) \right\rangle =-\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln {{P}_{i}}</math>
-Definition: Shannon- Information einer Verteilung <math>\left\{ {{P}_{i}} \right\}</math>
+{{Def|Definition: '''Shannon-Information''' einer Verteilung <math>\left\{ {{P}_{i}} \right\}</math>:
-:
-<math>\begin{align}
+::<math>I(P)=\sum\limits_{i=1}^{N}{{}}{{P}_{i}}\ln {{P}_{i}}</math>|Shannon-Information}}
-& I(P)=\sum\limits_{i=1}^{N}{{}}{{P}_{i}}\ln {{P}_{i}} \\
+:<math>\begin{align}
 & P=\left( {{P}_{1}}...{{P}_{N}} \right) \\
@@ Zeile 277: / Zeile 275: @@
 um <math>\delta {{P}_{i}}</math>
 unter der Nebenbedingung
-<math>\sum\limits_{i}^{{}}{{}}\delta {{P}_{i}}=0</math>
+:<math>\sum\limits_{i}^{{}}{{}}\delta {{P}_{i}}=0</math>
 wegen Normierung:
-<math>\sum\limits_{i}^{{}}{{}}{{P}_{i}}=1</math>
+:<math>\sum\limits_{i}^{{}}{{}}{{P}_{i}}=1</math>
 Somit:
-<math>\delta I(P)=\sum\limits_{i=1}^{N}{{}}\left( \ln {{P}_{i}}+1 \right)\delta {{P}_{i}}=0</math>
+:<math>\delta I(P)=\sum\limits_{i=1}^{N}{{}}\left( \ln {{P}_{i}}+1 \right)\delta {{P}_{i}}=0</math>
 Addition der Nebenbedingung <math>\sum\limits_{i}^{{}}{{}}\delta {{P}_{i}}=0</math>
-mit dem Lagrange- Multiplikator <math>\lambda </math>
+mit dem Lagrange- Multiplikator <math>\lambda </math>:
-:
-<math>\sum\limits_{i=1}^{N}{{}}\left( \ln {{P}_{i}}+1+\lambda  \right)\delta {{P}_{i}}=0</math>
+:<math>\sum\limits_{i=1}^{N}{{}}\left( \ln {{P}_{i}}+1+\lambda  \right)\delta {{P}_{i}}=0</math>
 unabhängige Variation <math>\delta {{P}_{i}}\Rightarrow \forall i\Rightarrow \ln {{P}_{i}}=-\left( 1+\lambda  \right)=const.</math>
-Normierung <math>\sum\limits_{i}^{{}}{{}}{{P}_{i}}=1=N{{P}_{i}}\Rightarrow {{P}_{i}}=\frac{1}{N}</math>
+Normierung <math>\sum\limits_{i}^{{}}{{}}{{P}_{i}}=1=N{{P}_{i}}\Rightarrow {{P}_{i}}=\frac{1}{N}</math>, also Gleichverteilung
-, also Gleichverteilung
 '''Übung: '''Man vergleiche I(P) für verschiedene Verteilungen
@@ Zeile 308: / Zeile 301: @@
 ====Kontinuierliche Ereignismenge====
-<math>x\in {{R}^{d}},\rho (x)</math>
+:<math>x\in {{R}^{d}},\rho (x)</math>
 * Zelleneinteilung des <math>{{R}^{d}}</math>
@@ Zeile 317: / Zeile 310: @@
 Wahrscheinlichkeit für ein Ereignis in Zelle i:
-<math>\begin{align}
+:<math>\begin{align}
 & {{P}_{i}}=\rho \left( {{x}^{i}} \right){{\Delta }^{d}}x \\
@@ Zeile 333: / Zeile 326: @@
 Damit kann dieser Term weggelassen werden und wir gewinnen:
-<math>\begin{align}
+:<math>\begin{align}
 & I(P)=\sum\limits_{i}^{{}}{{}}{{\Delta }^{d}}x\rho \left( {{x}^{i}} \right)\ln \left( \rho \left( {{x}^{i}} \right) \right) \\
@@ Zeile 348: / Zeile 341: @@
 keine Unterscheidung, wi die verteilung zustande kommt, z.B. bei Gleichverteilung: genaue Beobachtung ODER  vorurteilsfreie Schätzung bei gänzlich fehlender Kenntnis
-( Laplacsches Prinzip vom unzureichenden Grund)
+(Laplacsches Prinzip vom unzureichenden Grund)
-) '''Definition ''': Statistisches Informationsmaß des NICHTWISSENS: ( der fehlenden Information):
+) '''Definition ''': Statistisches Informationsmaß des NICHTWISSENS: (der fehlenden Information):
-<math>S(\rho )=-k\int_{{}}^{{}}{{{d}^{d}}x}\rho \ln \rho </math>
+:<math>S(\rho )=-k\int_{{}}^{{}}{{{d}^{d}}x}\rho \ln \rho </math>
 k geeignete Einheit
@@ Zeile 358: / Zeile 351: @@
 Interpretation in der Thermodynamik als Entropie
-# verallgeminerte Informationsmaße ( Renyi)<math>S(\rho )=-k\int_{{}}^{{}}{{{d}^{d}}x}\rho \ln \rho </math>
+# verallgeminerte Informationsmaße (Renyi)<math>S(\rho )=-k\int_{{}}^{{}}{{{d}^{d}}x}\rho \ln \rho </math>
 #
-<math>\begin{align}
+:<math>\begin{align}
 & {{I}_{q}}=-\frac{1}{1-q}\ln \left( \sum\limits_{i}^{{}}{{}}{{\left( {{p}_{i}} \right)}^{q-1}} \right) \\
@@ Zeile 378: / Zeile 371: @@
 über derselben Ereignismenge:
-<math>b\left( {{P}_{i}}\acute{\ } \right)-b\left( {{P}_{i}} \right)=\ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}</math>
+:<math>b\left( {{P}_{i}}\acute{\ } \right)-b\left( {{P}_{i}} \right)=\ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}</math>
-Dies ist zu verstehen als die notwendige Bitzahl, um Pi´ in Pi zu verwandeln , also die Information, die als Nachricht hierfür gegeben werden muss :
+Dies ist zu verstehen als die notwendige Bitzahl, um Pi´ in Pi zu verwandeln, also die Information, die als Nachricht hierfür gegeben werden muss :
-Mittlere Bitzahl ( mit der korrigierten Wahrscheinlichkeitsverteilung gewichtet):
+Mittlere Bitzahl (mit der korrigierten Wahrscheinlichkeitsverteilung gewichtet):
-<math>K\left( P,P\acute{\ } \right)=\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}</math>
+{{Def|:<math>K\left( P,P\acute{\ } \right)=\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}</math>
-'''Informationsgewinn ''' -> Kullback Information !
+'''Informationsgewinn ''' → Kullback Information!|Kullback Information}}
 '''Bemerkungen'''
-# mittlere Bitzahl / Informationsgewinn ist asymmetrisch bezüglich P<->P´
+ mittlere Bitzahl / Informationsgewinn ist asymmetrisch bezüglich P↔P´
-# es gilt: <math>K\left( P,P\acute{\ } \right)\ge 0</math>
+ es gilt: <math>K\left( P,P\acute{\ } \right)\ge 0</math> wegen
-#  wegen
+:<math>\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}\ge \sum\limits_{i}^{{}}{{}}{{P}_{i}}\left( 1-\frac{{{P}_{i}}\acute{\ }}{{{P}_{i}}} \right)=\sum\limits_{i}^{{}}{{}}{{P}_{i}}-\sum\limits_{i}^{{}}{{}}{{P}_{i}}\acute{\ }=1-1=0</math>
-<math>\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}\ge \sum\limits_{i}^{{}}{{}}{{P}_{i}}\left( 1-\frac{{{P}_{i}}\acute{\ }}{{{P}_{i}}} \right)=\sum\limits_{i}^{{}}{{}}{{P}_{i}}-\sum\limits_{i}^{{}}{{}}{{P}_{i}}\acute{\ }=1-1=0</math>
 es gilt:
-<math>\begin{align}
+:<math>\begin{align}
 & \ln x\ge 1-\frac{1}{x} \\
@@ Zeile 407: / Zeile 399: @@
 \end{align}</math>
-# <math>{{P}_{i}}\acute{\ }=0</math>
+<math>{{P}_{i}}\acute{\ }=0</math>
-#  ist auszuschließen, damit <math>K\left( P,P\acute{\ } \right)<\infty </math>
+ist auszuschließen, damit <math>K\left( P,P\acute{\ } \right)<\infty </math>
-#
-# Für <math>{{P}_{i}}\acute{\ }=\frac{1}{N}</math>
+Für <math>{{P}_{i}}\acute{\ }=\frac{1}{N}</math>
-# ( Gleichverteilung)
+(Gleichverteilung)
-<math>\begin{align}
+:<math>\begin{align}
 & K\left( P,P\acute{\ } \right)=\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln N{{P}_{i}}=\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln {{P}_{i}}+\sum\limits_{i}^{{}}{{}}{{P}_{i}}\ln N=I(P)+\ln N \\
@@ Zeile 422: / Zeile 414: @@
 \end{align}</math>
-bei Gleichverteilung !
+bei Gleichverteilung!
 '''5) Minimum von K:'''
@@ Zeile 434: / Zeile 426: @@
 unter Nebenbedingung <math>\sum\limits_{i}^{{}}{{}}\delta {{P}_{i}}=0</math>
-<math>\begin{align}
+:<math>\begin{align}
 & \delta K\left( P,P\acute{\ } \right)=\sum\limits_{i}^{{}}{{}}\left( \ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}+1 \right)\delta {{P}_{i}} \\
@@ Zeile 448: / Zeile 440: @@
 Wegen Normierung:
-<math>\begin{align}
+:<math>\begin{align}
 & \sum\limits_{i}^{{}}{{}}{{P}_{i}}=\sum\limits_{i}^{{}}{{}}{{P}_{i}}\acute{\ }=1 \\
@@ Zeile 458: / Zeile 450: @@
 # <math>K\left( P,P\acute{\ } \right)</math>
 # ist konvexe Funktion von P, da
-<math>\frac{{{\partial }^{2}}K\left( P,P\acute{\ } \right)}{\partial {{P}_{i}}\partial {{P}_{j}}}=\frac{\partial }{\partial {{P}_{j}}}\left( \ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}+1 \right)=\frac{1}{{{P}_{i}}}{{\delta }_{ij}}\ge 0</math>
+:<math>\frac{{{\partial }^{2}}K\left( P,P\acute{\ } \right)}{\partial {{P}_{i}}\partial {{P}_{j}}}=\frac{\partial }{\partial {{P}_{j}}}\left( \ln \frac{{{P}_{i}}}{{{P}_{i}}\acute{\ }}+1 \right)=\frac{1}{{{P}_{i}}}{{\delta }_{ij}}\ge 0</math>
 somit ist dann auch
-<math>I(P)=K(P,\frac{1}{N})-\ln N</math>
+:<math>I(P)=K(P,\frac{1}{N})-\ln N</math>
-konvex ( Informationsgewinn)
+konvex (Informationsgewinn)
 ====Kontinuierliche Ereignismengen====
-<math>x\in {{R}^{d}},\rho (x)</math>
+:<math>x\in {{R}^{d}},\rho (x)</math>
 * Zelleneinteilung des <math>{{R}^{d}}</math>
@@ Zeile 477: / Zeile 469: @@
 Wahrscheinlichkeit für ein Ereignis in Zelle i:
-<math>\begin{align}
+:<math>\begin{align}
 & {{P}_{i}}=\rho \left( {{x}^{i}} \right){{\Delta }^{d}}x \\
@@ Zeile 487: / Zeile 479: @@
 invariant gegen die Trafo
-<math>\begin{align}
+:<math>\begin{align}
 & x\to \tilde{x} \\
@@ Zeile 499: / Zeile 491: @@
 Während
-<math>I(P)</math>
+:<math>I(P)</math>
-nicht invariant ist !
+nicht invariant ist!
-<math>\begin{align}
+:<math>\begin{align}
 & {{\Delta }^{d}}x\to 0 \\
@@ Zeile 517: / Zeile 509: @@
 in der Thermodynamik als Entropieproduktion und von
-<math>kTK\left( \rho ,\rho \acute{\ } \right)</math>
+:<math>kTK\left( \rho ,\rho \acute{\ } \right)</math>
-als Exergie ( availability)
+als Exergie (availability)

Informationsmaße: Unterschied zwischen den Versionen

Aktuelle Version vom 27. September 2010, 17:32 Uhr

Idee des Informationsmaßes:

Bitzahl:

Verallgemeinerung auf Wahrscheinlichkeitsverteilungen Pi

Postulate für die Konstruktion von b(Pi)

:

Informationsmaß einer Wahrscheinlichkeitsverteilung {Pi}

Kontinuierliche Ereignismenge

Informationsgewinn

Kontinuierliche Ereignismengen

Navigationsmenü

Suche

Verallgemeinerung auf Wahrscheinlichkeitsverteilungen $P_{i}$

Postulate für die Konstruktion von $b (P_{i})$

Informationsmaß einer Wahrscheinlichkeitsverteilung ${P_{i}}$