Grundlagen der Statistik
Aus PhysikWiki
- begriff der Wahrscheinlichkeit
- Begriff der Informationsmaße
- führen dann zu sehr allgemeinen Zusammenhängen, die eine Anwendung in daraus abgeleiteten makroskopisch thermodynamischen Relationen (z.B. Hauptsätzen) haben:
Nebenbemerkung:
Diese statistischen zusammenhänge haben auch Anwendungen in nichtphysikalischen Systemen (Computersimulationen).
Dies begründet die Anwendbarkeit von Simulationen nicht nur auf physikalische Systeme, sondern z.B. auch auf Ökonomie etc... ("Problem des Handlungsreisenden), formal äquivalent zu Spingläsern oder assoziativem Lernen".
| Der Artikel Grundlagen der Statistik basiert auf der Vorlesungsmitschrift von Franz- Josef Schmitt des 1.Kapitels (Abschnitt 0) der Thermodynamikvorlesung von Prof. Dr. E. Schöll, PhD. |
Wahrscheinlichkeitsbegriff
- Ereignis
- Messergebnis von Observablen (event) oder fester Mikrozustand (der realisiert wird).
Ereignisse bilden einen Abelschen Verband (Ereignisalgebra)
Merke: Ereignisalgebra = Abelscher verband
mit Mengentheoretischen Verknüpfungen
Vereinigung (oder) und Durchschnitt (und)
Für A,B,C
gilt:
(Kommutativitätsgesetz)
Assoziativität
(Verschmelzungsgesetz)
Distributivgesetz
Existenz der Eins (sicheres Ereignis) und Existenz des Nullelements: "leeres Ereignis"
Existenz des Komplements
Induzierte Halbordnung
A impliziert B, falls
Also: menge A liegt in B
A und B sind disjunkt, falls
Vollständig disjunkte Ereignismenge (sample set)
Beispiel:
Ereignismenge
Bemerkung: Diese Menge M ist keine Algebra, da
Wahrscheinlichkeit
Empirische Definition
mit
relative Häufigkeit des Ereignisses A
N(A) ist die Zahl der Experimente mit dem Ergebnis A
N ist die Zahl der Experimente insgesamt
axiomatische Definition (Kolmogoroff)
Sei A
(Boolscher Verband)
Sei
das sichere Ereignis.
Dann erfüllt die Wahrscheinlichkeit P(A)
die Axiome:
Für disjunkte Ereignisse:
Folgerung
Zerlegung in disjunkte Ereignisse
für beliebige A1, A2:
Also folgt für Wahrscheinlichkeiten:
Also:
Speziell
,
falls![]()
bedingte Wahrscheinlichkeit
Die Bedingte Wahrscheinlichkeit (A unter der Bedingung, dass B), ergibt sich gemäß
Also A unter der Bedingung, dass B eingetreten ist!
Falls A von B unabhängig ist, so gilt:
Nebenbemerkung, ebenso gilt:
Zufallsvariablen
Eine Zufallsvariable ist gegeben durch
- eine Menge M von vollständig disjunkten Ereignissen (sample set) Xi
- eine Wahrscheinlichkeitsverteilung P(Xi)
- über M
es gilt die Normierung
Definiert man sich dies für eine kontinuierliche Menge, also
,
so gilt:
definiert eine Wahrscheinlichkeitsdichte oder auch Wahrscheinlichkeitsverteilung
.
Übergang zu diskreten Ereignissen:
mit Normierung
Physikalische Interpretation
Die Wahrscheinlichkeitsverteilung kann man sich realisiert denken durch ein Ensemble von vielen äquivalenten Systemen, also durch eine Dichteverteilung
der Mitglieder des Ensembles mit Werten zwischen x und x+dx
Verallgemeinerung auf d Zufallsvariablen
Die Normierung geschieht dann in einem d- Dimensionalen Raum.
Mittelwert (Erwartungswert) einer Zufallsvariablen x:
für eine beliebige Funktion f(x):
Nebenbemerkung
Der Mittelwert ist ein lineares Funktional
Linearität:
Unkorrelierte Zufallsvariable:
x1 und x2 heißen unkorreliert, falls
Dann gilt:
Beweis:
Merke: In Bezug auf die Wahrscheinlichkeitsverteilungen ist unkorreliert gleichbedeutend mit separabel _> die Phasen werden addiert!
Sind die Zustände verschränkt, so können die Phasen nicht addiert werden.
Die Einführung einer Symplektik ist nötig! (siehe unten).
Zusammenhang zwischen Wahrscheinlichkeitsverteilung und Mittelwerten
Wir verstehen als n.tes Moment einer Wahrscheinlichkeitsverteilung:
Momentenerzeugende:
Durch die Angabe aller nicht verschwindender Momente ist eine Wahrscheinlichkeitsverteilung vollständig festgelegt!
Verallgemeinerung auf d Zufallsvariablen:
ein Moment der Ordnung
- n: = n1 + n2 + ... + nd
Momentenerzeugende:
Kumulante
ist definiert durch die Kumulantenerzeugende:
Eigenschaft
Kumulanten sind ADDITIV für unkorrelierte Zufallsvariablen (Dies gilt nicht für die Momente!!)
Beweis: seien x1, x2 unkorreliert:
Fluktuation:
mit
Bildung der Varianz:
Als Maß für die Breite einer Verteilung
Korrelationsmatrix:
Nichtdiagonalelemente verschwinden für unkorrelierte Zufallsvariablen. Denn dann: separieren die Momente der WSK- Verteilung! Siehe oben
- Korrelationsmatrix beschreibt die qm- Korrelationen über ihre Außerdiagonalelemente
Zusammenhang zwischen Kumulanten und Momenten:
Gaußverteilung / Normalverteilung
Mit Sigma als Standardabweichung
Normierung:
Wegen:
Nebenbemerkung, die Gaußverteilung ρ(x)
ist bestimmt durch
.
Informationsmaße
Die Informationstheorie (Shannon, Wiener) entstand im 2. Weltkrieg im Zusammenhang mit der Entschlüsselung codierter Nachrichten!
Definition:
Ein Maß μ
auf einer Algebra A´ ist eine Abbildung
mit den Eigenschaften
für disjunkte Ereignisse Ai, also
Nebenbemerkung: Eine σ
- Algebra A´ ist eine Algebra A´ mit der Eigenschaft, dass abzählbar viele
Also: Die Vereinigung der Ereignisse ist Element der Algebra!
Im Folgenden sei unsere Algebra A´ stets eine Sigma- Algebra!
Beispiel eines Maßes: Wahrscheinlichkeit P
Speziell:
Idee des Informationsmaßes:
Vergleich verschiedener Wahrscheinlichkeitsverteilungen über einer Ereignisalgebra A´
Frage: Welche von 2 Verteilungen enthält mehr Information, bzw. Kenntnis darüber, welches Ereignis eintreten wird ?
Mathematische Grundbegriffe: Reed/ Simon: Methods of Modern Math. Physics, Vol. I: Functional Analysis!
Beispiel:
Zonk- Problem:
Hauptgewinn ist hinter einer von 3 Türen versteckt!
- Verteilung: Alle drei Türen zu je 1/3:
- P(1) = δ(x − 1) + δ(x − 2) + δ(x − 3)
Als Gleichverteilung → minimale Kenntnis
- Verteilung:
- P(2) = δ(x − 2)
scharfe Verteilung → maximale Kenntnis / Sicherheit
Bitzahl:
Ausgangspunkt: diskrete Ereignisalgebra:
Frage: Wie lange muss eine Nachricht sein, die einem Beobachter mitteilt, dass ein Ereignis eingetreten ist ??
Länge der Nachricht = Maß für die fehlende Kenntnis des Beobachters
Beispiel:
Auswahl eines Ereignisses aus
falls der Beobachter keine Vorkenntnis hat.
- einafche Alternative
= kleinste Informationseinheit
= 1 bit (binary digit)
Nachricht: 0 oder 1
- A´ sei menge mit 2n
- Elementen:
n Alternativentscheidungen notwendig:
z.B. 0011 → insgesamt n Stellen in Binärdarstellung nötig!
Länge der Nachricht:
- n = log2N
(nötige Bitzahl)
Informationsmaß der Nachricht:
Bitzahl!
Also: b(N) = log2N
falls keine Vorkenntnis vorhanden ist!
Verallgemeinerung auf Wahrscheinlichkeitsverteilungen Pi
Falls der Beobachter die Pi
kennt, muss nur die fehlende Information mitgeteilt werden: Also die Bitzahl b(Pi) .
Postulate für die Konstruktion von b(Pi)
:
- b(P)
- sei eine universelle Funktion, hängt von A also nur über P(A) ab!
- Seien
- und
- 2 verschiedene (disjunkte) sample sets, z.B. 2 Subsysteme eines zusammengesetzten Systems: So gilt:
Für 2 völlig unkorrelierte Subsysteme eines zusammengesetzten Systems gilt:
b ist additiv, also:
wobei nach Definition der Unkorreliertheit (stochastische Unabhängigkeit) gilt:
dabei ist
das direkte Produkt der beiden Zufallsvariablen, gegeben durch das Ereignistupel
.
3) b(P)=0 für P=1, also für das sichere Ereignis
also im Falle von Gleichverteilung, welches maximale Unbestimmtheit darstellt!
4) b(P)
ist stetig und wohldefiniert für
Wegen der Additivität macht es Sinn:
zu definieren. Es muss f noch bestimmt werden!
Wegen 1) und 2) folgt:
Also: die Funktion sollte linear in log P sein!
Bemerkung:
Für 2 unkorrelierte Systeme ist die Länge der Nachricht = Informationsmaß bei maximaler Unbestimmtheit additiv.
Dies motiviert Postulat 2)
Aus 3) folgt:
Konvention:
Einheit für ein bit:
"bin"
- b(Pi) = − lnPi
Informationsmaß für die Nachricht, dass Ai eingetreten ist,
falls
- Pi = P(Ai)
bekannt ist!
Informationsmaß einer Wahrscheinlichkeitsverteilung 
Übermittlung vieler Nachrichten:
- Ai
tritt mit relativer Häufigkeit Pi
auf!
mittlere benötigte (= da fehlende!) Information pro Ereignis:
- b(Pi) = − lnPi
somit:
Definition: Shannon-Information einer Verteilung :
|
I ist Funktional der Verteilung
b ist Funktion von Pi b(Pi)
Es gilt stets
Maximum: I(P) = 0
für pi = δij
Also maximal für scharfe Verteilung mit sicherem Ereignis Aj
Minimum: Variation der Pi
um δPi unter der Nebenbedingung
wegen Normierung:
Somit:
Addition der Nebenbedingung
mit dem Lagrange- Multiplikator λ:
unabhängige Variation
Normierung
, also Gleichverteilung
Übung: Man vergleiche I(P) für verschiedene Verteilungen
Kontinuierliche Ereignismenge
- Zelleneinteilung des Rd
- in Zellen i mit Volumen
- Δdx
Wahrscheinlichkeit für ein Ereignis in Zelle i:
für eine feste Zellengröße.
Damit kann dieser Term weggelassen werden und wir gewinnen:
Bemerkungen
- Shannon- Informationsmaß misst die Kenntnis bezüglich der Frage: Welches Ereignis tritt ein ?
keine Unterscheidung, wi die verteilung zustande kommt, z.B. bei Gleichverteilung: genaue Beobachtung ODER vorurteilsfreie Schätzung bei gänzlich fehlender Kenntnis
(Laplacsches Prinzip vom unzureichenden Grund)
2) Definition : Statistisches Informationsmaß des NICHTWISSENS: (der fehlenden Information):
k geeignete Einheit
Interpretation in der Thermodynamik als Entropie
- verallgeminerte Informationsmaße (Renyi)
wird gleich dem Shannon- Informationsmaß für
Informationsgewinn
Maß für die Zusatzinformationen einer Wahrscheinlichkeitsverteilung
im Vergleich zu einer Referenzverteilung
über derselben Ereignismenge:
Dies ist zu verstehen als die notwendige Bitzahl, um Pi´ in Pi zu verwandeln, also die Information, die als Nachricht hierfür gegeben werden muss :
Mittlere Bitzahl (mit der korrigierten Wahrscheinlichkeitsverteilung gewichtet):
:
Informationsgewinn → Kullback Information! |
Bemerkungen
mittlere Bitzahl / Informationsgewinn ist asymmetrisch bezüglich P↔P´ es gilt:wegen
es gilt:
ist auszuschließen, damit
Für
(Gleichverteilung)
bei Gleichverteilung!
5) Minimum von K:
Variation der Pi
umδPi
unter Nebenbedingung
Wegen Normierung:
-
- ist konvexe Funktion von P, da
somit ist dann auch
konvex (Informationsgewinn)
Kontinuierliche Ereignismengen
- Zelleneinteilung des Rd
- in Zellen i mit Volumen
- Δdx
Wahrscheinlichkeit für ein Ereignis in Zelle i:
invariant gegen die Trafo
Während
- I(P)
nicht invariant ist!
Bemerkung:
Interpretation von
in der Thermodynamik als Entropieproduktion und von
Verallgemeinerte kanonische Verteilung
Motivation
Makroskopische thermodynamische Zustände sind gegeben durch die Mittelwerte
von Mikroobservablen M(x), interpretiert als Zufallsvariable.
Rückschlüsse von
auf die Wahrscheinlichkeitsverteilung
- ρ(x)?
Methode
Vorurteilsfreie Schätzung (Jaynes, 1957): (unbiased guess; Prinzip des maximalen Nichtwissens)
- Verallgemeinerung des Laplacschen Prinzips vom unzureichenden Grund.
- (Minimum der Shannon- Information
= Maximum des Nichtwissens
liefert Gleichverteilung)
- (Minimum der Shannon- Information
- Jetzt: Zusätzlich zur Normierung der Pi sind die Mittelwerte von m Zufallsvariablen:
Annahme:
Jedes Elementarereignis Ai hat gleiche a-priori- Wahrscheinlichkeit, das heißt OHNE zusätzliche Kenntnisse
gilt Gleichverteilung über den Ai.
Informationstheoretisches Prinzip
(nach (Jaynes 1922-1998))
Suche die Wahrscheinlichkeitsverteilung, die unter der Erfüllung aller bekannten Angaben als Nebenbedingung die minimale Information enthält:
Also:
Nebenbed.:
Variation:
Es gilt: von den N Variationen δPi sind nur N-m-1 unabhängig voneinander!
Lagrange- Multiplikator
Lagrange- Multiplikator λn
Anleitung: Wähle Ψ,λn so, dass die Koeffizienten von
´s verschwinden, die übrigen N-(m+1) sind dann frei variierbar!
Somit:
Vorsicht: Auch Summe über ν (Einsteinsche Summenkonvention!)
: verallgemeinerte kanonische Verteilung
|
Die Lagrange- Multiplikatoren Ψ,λn sind dann durch die m+1 Nebenbedingungen eindeutig bestimmt!
Kontinuierliche Ereignismenge
unter der Nebenbedingung
Durchführung einer Funktionalvariation:
- δρ(x)
Vergleiche: A. Katz, Principles of Statistial Mechanics
| ANMERKUNG Schubotz: Siehe auch [1] |
Eigenschaften der verallgemeinerten kanonischen Verteilung
hier: noch rein informationstheoretisch,
später: wichtige Anwendungen in der Thermodynamik
Sei Ψ(t) eine Bahn!
Dann ist
die Geschwindigkeit.
Aus Ψ(M) kann die Bahn Ψ(t) noch nicht rekonstruiert werden, jedoch aus
- I(M) = Ψ(t) − M(t)t
mit t=t(M):
hieraus folgt
- M(t)
eingesetzt in
durch Eisnetzen gewinnt man
- Ψ(t)
Jedenfalls:
- I(M) = Ψ(t) − M(t)t
heißt legendre- Transformierte von
- Ψ(t).
Anwendung auf die verallgemeinerte kanonische Verteilung:
Normierung:
|
|
Also gilt:
und Pi sind durch
vollständig parametrisiert.
Nebenbemerkung
Die Verteilung Pi bzw.
wirkt auf dem Raum der Zufallsvariablen
(diskret) bzw.
(kontinuierlich).
sind Parameter.
sind Erwartungswerte
Beispiel:
mit Γ als Phasenraum der kanonisch konjugierten Variablen
|
Shannon- Information:
Aus
Damit können wir die Legendre- Transformation (verallgemeinert auf mehrere Variablen) identifizieren:
Variable λn
neue Variable
Legendre- Transformierte von Ψ!
Es folgt:
wegen:
Zusammengefasst:
|
Dies ist in der Thermodynamik die Gibbsche Fundamentalgleichung! |
Betachte Variation:
dann:
Informationsgewinn:
Wir können die variierten Funktionen für kleine Variationen
- δλn
entwickeln:
Vergleiche oben
also folgt:
negativ semidefinit, für alle δλm
Definiere Suszeptibilitätsmatrix:
Diese Matrix beschreibt die Änderung von
bei Variation von λn:
bzw.:
In Matrixschreibweise:
Wegen
Somit:
- ηnm ist symmetrisch
Aus
folgt:
Also: negativ- semidefinite quadratisceh Form:
Nebenbemerkung:
Also sind
und
konvex!
Zusammenhang mit der Korrelationsmatrix
ist Korrelationsmatrix (siehe oben)
2. Kumulante
mit Kumulantenerzeugender
Suszeptibilität!
Also: Die Korrelationsmatrix ist das Negative der Suszeptibilität!!
Also:
|
|
Fluktuations/ Dissipations- Theorem:
- Fluktuationen
- Zufällige Schwankungen um den Mittelwert
- Dissipation
- Systematische Änderung der Mittelwerte!
Korrektur einer Verteilung durch Zusatzinformationen
Sei P0 die Verteilung, die
unter Kenntnis der Nebenbedingungen
- minimalisiert (Vorsicht: Index und Laufende sind ungünstigerweise gleich bezeichnet!)
Jetzt:
Zusatzinformationen (zusätzliche Mittelwerte beobachtet):
Prinzip der vorurteilsfreien Schätzung
Suche Minimum des Informationsgewinns
unter dieser Nebenbedingung!!
Also:
mit neuen Lagrange- Multiplikatoren
- ξ,ξσ
Mit
folgt:
Da nun die Mittelwerte
nicht durch die Zusatzinfo geändert werden muss gelten:
da diese Mittelwerte nicht durch die Zusatzinfo geändert werden!
Das heißt: Der Informationsgewinn entspricht gerade der Änderung der Shannon- Info!
Siehe auch
- ↑ Brandes,T, Thermodynamik und Statistische Physik, Vorlesung, TU-Berlin, Wintersemester 2006/2007, Gleichung 5.4.13 (Kap 5.4.3 S46)
| Abschnitt | 0 + |
| Definition | Shannon-Information +, Kullback Information + und Verallgemeinerte kanonische Verteilung + |
| Fachbegriff | Abelschen Verband +, Legendre- Transformation +, Suszeptibilitätsmatrix +, Fluktuationen + und Dissipation + |
| Gleichung | Gibbsche Fundamentalgleichung + und Fluktuations-Dissipations-Theorem + |
| Index | Abelschen Verband +, Shannon-Information +, Kullback Information +, Verallgemeinerte kanonische Verteilung +, Legendre- Transformation +, Gibbsche Fundamentalgleichung +, Suszeptibilitätsmatrix +, Fluktuations-Dissipations-Theorem +, Fluktuationen + und Dissipation + |
| Inhaltstyp | Script + |
| Kapitel | 1 + |
| St7B | 5.4.13 + |
| Urheber | Prof. Dr. E. Schöll, PhD + |
wegen
verallgemeinerte kanonische Verteilung
(Phasenraumelement)
mikrokanonisch Verteilungsfunktion
als mittlere Energie
