-
Notifications
You must be signed in to change notification settings - Fork 1
/
Copy path10_vettori_aleatori.tex
801 lines (690 loc) · 43.9 KB
/
10_vettori_aleatori.tex
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
\lezione{16}{09.05.17}
\section{Vettori aleatori}
La trattazione dei \emph{vettori aleatori} è una parte fondamentale dello studio della probabilità: essi rappresentano infatti il caso più generale e utilizzato delle variabili aleatorie.
Parte del capitolo servirà per reintrodurre la teoria precedentemente sviluppata sulle variabili monodimensionali, che si manterrà sostanzialmente tale e quale nel passaggio da $\RR$ a $\RR^n$.
Sarà inoltre introdotta la \emph{covarianza}, che indica il legame probabilistico tra le componenti del vettore; da essa discenderà il \emph{coefficiente di correlazione lineare}, molto utile anche in ambito statistico.
\index{vettore aleatorio}
I \textbf{vettori aleatori} sono variabili aleatorie a valori in $(\RR^n, \Bc^n)$, ovvero:
$$X = (x_1 \dots x_n) = \begin{pmatrix} x_1 \\ \vdots \\ x_n \end{pmatrix} = [x_1 \dots x_n] = \begin{bmatrix} x_1 \\ \vdots \\ x_n \end{bmatrix} : \DoCo$$
Nel testo saranno usate interscambiabilmente la notazione colonna e quella riga e le parentesi tonde e quadre, a seconda della convenienza estetica del momento.\footnote{Ciò non toglie che se usi le tonde sei una brutta persona}
Sappiamo già che:
\begin{itemize}
\item $\Bc^n = \sigma(\tau^n) = \Bc^{\bigotimes n} = \sigma \left( \bigtimes\limits_{k = 1}^{n} (-\infty, t_k] : t_k \in \QQ \right)$
In quest'ultima scrittura gli insiemi generanti sono detti \emph{iper-quadranti} di sud-ovest, già visti nell'esempio a pagina \pageref{ese-iperquadranti}.
\item $X$ misurabile $\iff X_k$ misurabili $\forall k$; ovvero, non ci sono problemi o perdite di misurabilità passando dal vettore alle componenti e viceversa.
\item Se $X: \Omega \to \RR^n$ è misurabile e $h: \RR^n \to \RR^k$ è boreliana, allora $Y = h(X): \Omega \to \RR^k$ è misurabile.
\item $X \aceq Y \iff X_k \aceq Y_k \; \forall k$.
\item $P^X$ dipende solo da $[X]$, la \emph{classe di equivalenza} della variabile $X$.
\item Se $X_1, X_2 \in L^2$, allora $X_1 \cdot X_2 \in L^1$ e vale la \emph{disuguaglianza di Cauchy-Schwarz}:
$$ | \Ex{X_1 X_2} | \leq \sqrt{\Ex{X_1^2} \, \Ex{X_2^2}}$$
\item Se $X_1, X_2$ sono in $L^1$ e $X_1 \indep X_2$, allora $X_1 X_2 \in L^1$.
\item Si ha la seguente serie di equivalenze: $X_1 \indep X_2$
\begin{itemize}
\item[] $\iff \PP(X_1 \in A, X_2 \in B) = \PP_1(X_1 \in A) \PP_2(X_2 \in B) \ \ \forall A \in \Cc, \ \forall B \in \Dc$ \\
con $\sigma(\Cc) = \sigma(\Dc) = \Bc$ e $\Cc,\Dc$ chiusi per intersezioni finite
\item[] $\iff h(X_1) \indep g(X_2) \ \forall h, \forall g$ misurabili
\item[] $\iff \Ex{h(X_1) g(X_2)} = \Ex{h(X_1)} \Ex{g(X_2)}$ \\
$\forall h, \forall g$ misurabili e positive, misurabili e limitate, oppure continue e limitate
\item[] $\iff P^{(X_1, X_2)} = P^{X_1} \otimes P^{X_2}$.
\end{itemize}
\begin{nb}
L'ultima condizione è la più facile da verificare e la più utilizzata nelle applicazioni pratiche.
\end{nb}
\end{itemize}
\medskip
\begin{defn}
\index{funzione!di ripartizione in $\RR^n$}
$F_X: \RR^n \to [0,1]$ è detta \textbf{funzione di ripartizione} in $\RR^n$ se:
$$F_X (t) = F_X(t_1, \, \dots, \, t_n) \coloneqq \PP(X_1 \leq t_1, \, \dots, \, X_n \leq t_n) = \PP \left( X \in \bigtimes_{k=1}^n (-\infty,t_k] \right)$$
Equivalentemente, $F_X(t_1, \, \dots, \, t_n)$ è la probabilità che $X$ sia in un iper-quadrante di sud-ovest delimitato dai valori $t_k$ assegnati.
\end{defn}
Nel caso generale di $n \geq 2$ la definizione risulta spesso complicata, quindi si tenterà di farne a meno nei successivi sviluppi della teoria.
\subsection[Vettori aleatori discreti]{Vettori aleatori discreti\footnote{La trattazione dei vettori aleatori discreti non è presente sullo J-P; evidentemente pensavano (sbagliando) che fosse possibile arrivarci da soli a questo punto del corso.}}
\begin{defn}
\index{densità di probabilità!discreta}
La funzione positiva $p: S \to [0,1]$, con $S$ al più numerabile,
è detta \textbf{densità discreta di probabilità} se:
$$\sum_{x \in S} p(x) = 1 \quad \text{e} \quad P^X(B) = \sum_{x \in S \cap B} p(x)$$
\end{defn}
\begin{defn}
\index{vettore aleatorio!discreto}
Sia $\Dom$ uno spazio di probabilità e $X: \Omega \to \RR^n$ misurabile. \\
$X$ è detto \textbf{vettore aleatorio discreto} se la sua legge $P^X$ è discreta su $\Bc^n$, ovvero
esiste un insieme discreto $S$, al più numerabile, su cui è definita una
densità discreta di probabilità $p: S \to [0,1]$.
\end{defn}
Si noti che la definizione non riguarda il dominio di $X$ ma solamente il codominio, ovvero la legge $P^X$. Si noti inoltre che la definizione non esclude la possibilità che $S$ contenga punti a probabilità nulla, i quali sono ``inutili'' nella costruzione della legge. Per questo motivo $S$ non è univocamente determinato, anche se, quando c'è possibilità di scegliere, molto spesso si prende $S$ contenente solo punti con probabilità positiva, per evitare ridondanze e garantire comunque l'unicità di $S$.\\
\vspace{-\baselineskip}
\subsubsection{Condizioni equivalenti}
Le seguenti affermazioni sono equivalenti:
\begin{itemize}
\item $X$ è vettore aleatorio discreto;
\item $\exists \ S \subset \RR^n$, al più numerabile, tale che $\PP(X \in S) = 1$;
\item $\im(X) = S$ al più numerabile a meno di elementi trascurabili, ovvero $X \aceq \widetilde{X}$ con $\im(\widetilde{X}) = S$ al più numerabile;
(per esempio, $\widetilde{X} = X \Ind_S (X) + x_0 \Ind_{S^C} (X)$ con $x_0$ arbitrario, e comunque irrilevante in quanto è raggiunto da $X$ con probabilità nulla)
\item $X_1, \, \dots, \, X_n$ VA \emph{discrete}.
\end{itemize}
Dimostriamo ora la coimplicazione ``$X$ vettore aleatorio discreto $\iff$ $X_1, \, \dots, \, X_n$ VA discrete'', che è di gran lunga la più importante: è facile da verificare ed è peculiare dei vettori discreti (si vedrà più avanti che questa equivalenza non è valida nel caso continuo).
\begin{dimo}
\Fixvmode
\begin{itemize}
\item \textbf{($\implies$)}:
\begin{figure}[h]
\centering
\begin{tikzpicture}
\begin{axis}[
axis lines = middle,
xlabel = $X$,
ylabel = $Y$,
width=0.5\textwidth,
]
\draw [line width=0.2mm, dashed] (axis cs:0,1) -- (axis cs:3,1) -- (axis cs:3,0);
\draw [line width=0.2mm, dashed] (axis cs:0,2) -- (axis cs:2,2) -- (axis cs:2,0);
\draw [line width=0.2mm, dashed] (axis cs:0,3) -- (axis cs:1,3) -- (axis cs:1,0);
\addplot [only marks, mark=*] table {
3 1
2 1
2 2
1 3
};
\addplot [draw=none, forget plot] coordinates {(3.5, 3.5)};
\addplot [draw=none, forget plot] coordinates {(0, 0)};
\end{axis}
\end{tikzpicture}
\caption{proiezione di un vettore aleatorio di dimensione 2}
\end{figure}
Se $X$ è discreto, $\exists \ S$ discreto tale che $\PP (X \in S) = 1$. Sia ora $S_k$ la \emph{proiezione} di $S$ sull'asse $X_k$ (per definirla in astratto è necessario un prodotto scalare, ma una definizione geometrica è sufficiente per l'intuizione). \\
Poiché $X \in S \implies X_k \in S_k$, si ha la relazione tra eventi $(X_k \in S_k) \supseteq (X \in S)$: dunque
$\PP(X_k \in S_k) \geq \PP(X \in S) \stackrel{\text{hp}}{=} 1$. Ma allora $\PP(X_k \in S_k) = 1$, che è la tesi. \\
\item \textbf{($\impliedby$)}:
per ipotesi esistono $S_1, \, \dots, \, S_n$, supporti al più numerabili di $X_1, \, \dots, \, X_n$. \\
Si definisca la seguente \emph{griglia}:
$$S = \bigtimes\limits_{k=1}^n S_k$$
Essa è un insieme $n$-rettangolare nel quale sono sicuramente racchiusi tutti i punti di $X$ su cui è concentrata la probabilità, più un numero indefinito di punti a probabilità nulla (che comunque non ostruiscono la dimostrazione). Dunque:
$$ \Omega \supseteq (X \in S) = \bigcap_{k=1}^n (X_k \in S_k) \implies
\PP(X \in S) = \PP \left( \bigcap_{k=1}^n (X_k \in S_k) \right)$$
Tutti gli eventi dell'intersezione hanno probabilità 1, pertanto anche la loro intersezione $S$ ha probabilità 1. \qedhere
\end{itemize}
\end{dimo}
\subsubsection{Legge congiunta e legge marginale}
\index{legge!congiunta}
\index{legge!marginale}
Cerchiamo ora un legame tra la legge $P^X$ di $X$, detta \textit{legge congiunta}, e le leggi $P^{X_k}$ delle $X_K$, dette \textit{leggi marginali}.
\begin{prop}
Sia $X$ vettore aleatorio discreto con densità $p$ sul supporto $S = \bigtimes\limits_{k=1}^n S_k$. \\
Allora la VA $X_k$ ha densità discreta:
$$p_k(x_k) = \sum_{ \substack
{x_1 \in S_1 \\ \dots \\
x_{k-1} \in S_{k-1} \\
x_{k+1} \in S_{k+1} \\ \dots \\
x_n \in S_n}}
p(x_1, \, \dots, \, x_n)$$
\end{prop}
In altre parole, chiedendo la legge marginale di $X_k$, stiamo tenendo fisso il valore di $X_k$ e stiamo facendo la somma dei termini della legge congiunta \emph{al variare di tutte le coordinate che \textbf{non} sto sommando}, ovvero tutte tranne $X_k$.
\begin{dimo}
Per semplicità di notazione sarà dimostrato solo il caso $n = 2$; il caso generale è analogo. \\
Si definisca $p_1$ nel seguente modo, che può essere riscritto grazie alla formula delle probabilità totali:
$$p_1(x_1) \coloneqq \PP(X_1 = x_1) = \sum_{x_2 \in S_2} \PP(X_1 = x_1, X_2 = x_2) = \sum_{x_2 \in S_2} p(x_1, x_2)$$
Ciò è possibile in quanto gli eventi della forma $(x_k \in S_k)$ formano una partizione di $S$ (ancora, coprire tutto $\Omega$ non è necessario in quanto fuori da $S$ esistono solo punti a probabilità nulla). Similmente si ricava anche $p_2(x_2)$.
\end{dimo}
\subsubsection{Valore atteso per vettori discreti}
\begin{prop}[regola del valore atteso]
\index{valore atteso!per vettori discreti}
Siano $X: \DoCo$ un vettore aleatorio discreto con densità $p$ e $h:\RR^n \to \RR$ una funzione misurabile, con $h$ positiva oppure in $L^1(P^X)$. Allora:
$$ \Ex{h(X)} = \int_\Omega h(X) \, \dPP = \int_{\RR^n} h(x) \, \de P^X \stackrel{\downarrow}{=} \sum_{x \in S} h(x) \, p(x)$$
\end{prop}
La dimostrazione è simile a quella per le precedenti versioni della regola del valore atteso.\footnote{Pertanto un simpatico esercizio da amanuense}
\subsubsection{Indipendenza}
\begin{prop}
Sia $X$ un vettore aleatorio discreto. Allora $\{ X_k \}_{k=1,\dots,n}$ è una famiglia di VA \emph{indipendenti} se e solo se:
$$p(x_1, \, \dots, \, x_n) = p_1(x_1) \cdots p_n(x_n) \quad \forall x_k \in S_k, \text{con } k = 1, \, \dots, \, n$$
\end{prop}
In altre parole, una condizione sia necessaria che sufficiente per l'indipendenza di $X_1,\, \dots, \, X_n$ è che la legge congiunta si fattorizzi nelle leggi marginali. Questa proprietà è molto utile negli esercizi, dove si può riconoscere immediatamente se $p(x_1, \, \dots, \, x_n)$ è il prodotto di $n$ funzioni ciascuna in una variabile diversa.
\begin{dimo}
\Fixvmode
\begin{itemize}
\item \textbf{($\implies$)}:
\begin{align*}
p(x_1, \, \dots, \, x_n)
&= \PP(X_1 = x_1, \, \dots, \, X_n = x_n) \\
&= \PP(X_1 = x_1) \cdots \PP(X_n = x_n) & (\text{per l'indipendenza})\\
&= p_1(x_1) \cdots p_n(x_n)
\end{align*}
\item \textbf{($\impliedby$)}: Sia $B = \bigtimes\limits_{k=1}^n B_k$ (con $B_k \in \Bc$) un generico rettangolo e $S = \bigtimes\limits_{k=1}^n S_k$ il supporto della legge $p$ di $X$.
Allora:
$$
\PP((X_1 \in B_1), \, \dots, \, (X_n \in B_n))
= \PP(X \in B) = P^X(B) = \sum_{x \in S \cap B} p(x)
$$
Scomponendo le sommatorie in tutti i $B_1, \, \dots, \, B_n$:
\begin{align*}
\sum_{x \in S \cap B} p(x)
& = \sum_{x_1 \in S_1 \cap B_1} \dots \sum_{x_n \in S_n \cap B_n} p(x_1, \, \dots, \, x_n) \\
& = \sum_{x_1 \in S_1 \cap B_1} \dots \sum_{x_n \in S_n \cap B_n} p_1(x_1) \cdots p_n(x_n) & (\text{per ipotesi})
\end{align*}
Portando fuori dalle sommatorie interne i termini costanti uno alla volta, dopo numerosi passaggi otteniamo:
$$\left( \sum_{x_1 \in S_1} p_1(x_1) \right) \dots \relax \left( \sum_{x_n \in S_n} p_n(x_n) \right) = \PP(X_1 \in B_1) \dots \PP(X_n \in B_n) \qedhere$$
\end{itemize}
\end{dimo}
\bigskip
\begin{ese}[lancio di 2 dadi non truccati e indipendenti]~\\
Dati $X_1, X_2 \sim U(\{1, \, \dots, \, 6\})$, con $X_1 \indep X_2$, sono i risultati del lancio del primo e secondo dado, rispettivamente. Ricordiamo che non serve precisare $\Dom$ perché all'occorrenza lo sappiamo costruire, come visto nelle pagine precedenti.
L'indipendenza implica che:
$$p(x_1, x_2) = p_1(x_1) \, p_2(x_2) = \frac{1}{6} \cdot \frac{1}{6} = \frac{1}{36} \quad \forall x_1,x_2$$
Ora, dunque, sappiamo che l'uniformità di $p(x_1,x_2)$ è non solo condizione necessaria, ma anche \emph{sufficiente} per l'indipendenza di $X_1$ e $X_2$.
Sia inoltre $Y = X_1 + X_2$. Allora $Y \centernot\indep X_1$; è possibile verificarlo notando che, per esempio:
\begin{align*}
&\PP(Y=2,X_1=6) = 0\\
&\PP(Y=2) \, \PP(X_1=6) = \big[ \PP(X_1 = 1) \, \PP(X_2 = 1) \big] \cdot \PP(X_1 = 6) = \frac{1}{36} \cdot \frac{1}{6} = \frac{1}{216}\\[5pt]
& \implies \PP(Y=2,X_1=6) \neq \PP(Y=2) \, \PP(X_1=6)
\end{align*}
Oppure, intuitivamente, si osserva che conoscere certi valori di una delle due VA porta a un cambiamento del grado di fiducia nell'altra (come nel caso precedente), negando la possibilità d'indipendenza tra le due.
Cerchiamo ora la legge del vettore $(Y,X_1)$, che sappiamo essere discreto perché le sue componenti sono discrete.
Trovare la legge di un vettore discreto equivale a riempire una tabella con tutte le possibili combinazioni delle componenti, ciascuna con la sua probabilità \emph{congiunta} data dalla formula generale $p(x,y) = \PP(X_1 = x, Y = y)$, che, ricordiamo, non può essere fattorizzata ulteriormente per la mancanza di indipendenza tra $X_1$ e $Y$.
In questo caso particolare le probabilità congiunte sono tutte o $\frac{1}{36}$ (in quanto prodotto di due termini delle uniformi) o nulle (per gli eventi incompatibili come quello sopra riportato).
Sommando per righe o per colonne i valori nella tabella si ottengono le probabilità \emph{marginali} delle due variabili $X_1$ e $Y$.
Per esempio:
$$p_1(1) = \sum_{y=2}^{12} p(1,y)$$
Introduciamo infine un terzo dado, indipendenti dai primi due, i cui risultati sono rappresentati da $X_3 \sim U( \{ 1, \, \dots, \, 6 \} )$. È vero che $Y \indep X_3$? Sappiamo che $\{X_1,X_2,X_3\}$ è una famiglia indipendente per costruzione, ovvero:
$$(X_1,X_2) \indep X_3 \implies Y = h(X_1,X_2) \indep X_3$$
La legge di $(Y,X_3)$ è dunque data da:
$$q(y,z) = \PP(Y = y, X_3 = z) \stackrel{\indep}{=} p_2(y) \, p_1(z)$$
Calcolando le leggi marginali di $(Y,X_1)$ si nota che sono le stesse di $(Y,X_3)$, ma che la congiunta è diversa!
Questa è un'osservazione importante: conoscere le leggi marginali \textbf{non} significa conoscere la legge congiunta, perché su quest'ultima c'è ambiguità e si possono costruire potenzialmente infinite congiunte ugualmente valide.
\end{ese}
\subsection{Vettori aleatori continui}
Riprendiamo la definizione di misura di Lebesgue adattandola al caso multidimensionale.
\subsubsection{Misura di Lebesgue su $\RR^n$}
\begin{defn}
\index{Lebesgue!misura su $\RR^n$}
La \textbf{misura di Lebesgue} su $(\RR^n, \Bc^n)$
è la funzione $\mm_n : \Bc^n \to [0, +\infty]$ tale che:
\begin{enumerate}
\item $\mm_n$ è $\sigma$-additiva
\item $\mm_n(A_1 \times \dots \times A_n)
= \mm(A_1) \cdots \mm(A_n)
\quad \forall A_1, \, \dots, \, A_n \in \Bc$
\end{enumerate}
Per $A \in \Bc^n$, $\mm_n(A)$ è detto \textit{volume} di A.
\end{defn}
\begin{prop}
La misura di Lebesgue multidimensionale esiste ed è unica ($\exists! \, \mm_n$).
\end{prop}
Può essere data una definizione equivalente di $\mm_n$ basata sui rettangoli:
la \textit{misura di Lebesgue} su $(\RR^n, \Bc^n)$
è la funzione $\mm_n : \Bc^n \to [0, +\infty]$ tale che:
\begin{enumerate}
\item $\mm_n$ è $\sigma$-additiva
\item $\mm_n \left(\bigtimes\limits_{k=1}^n (a_k, b_k]\right)
= \prod\limits_{k=1}^n (b_k - a_k)
\quad \forall a_k, b_k: -\infty < a_k < b_k < +\infty$
\end{enumerate}
Questa produttoria va immaginata come la costruzione di rettangoli, parallelepipedi o iperparallelepipedi, in cui iteriamo le dimensioni con l'indice $k$. Nel caso $n=2$ questa misura un'area, nel caso $n=3$ un volume.
\vskip\medskipamount
Studiamo ora la misura di Lebesgue di alcuni insiemi notevoli:
\begin{itemize}
\item $\RR^n$: $\mm_n(\RR^n) = +\infty$
Per calcolare la dimensione di $\RR^n$ moltiplichiamo $n$ volte la dimensione di $\RR$, che è $+\infty$.
Visto che intendiamo misurare la dimensione $\mm_n$, non c'è nessun fattore nullo, quindi non c'è forma di indecisione.
\item Iper-quadranti di sud-ovest: $\mm_n \left( \bigtimes\limits_{k=1}^n (-\infty, t_k] \right)
= \prod\limits_{k=1}^n \mm( (-\infty, t_k] )
= +\infty$\\
Come nel caso precedente anche a degli iper-quadranti si applica lo stesso ragionamento, a patto che tutti i $t_k > -\infty$.
\item Punto: $\mm_n(\{ x \}) = 0$.
\item Retta: $\mm_n(\RR \times \{ x_2 \}) = 0$. \\
\end{itemize}
\begin{oss}
In generale, vale la seguente proposizione: $\mm_n(A) = 0$ se $\dim A < n$.
Si può infatti dimostrare, per limiti crescenti, che nell'apparente forma di indecisione $[{+\infty}] \cdot [0]$ prevale lo $[0]$.
\end{oss}
\vskip\medskipamount
La teoria dell'integrazione per $X: \Dom \to (\RR, \Bc)$ misurabile
si ripete tale e quale per $h: (\RR^n, \Bc^n, \mm_n) \to (\RR, \Bc)$ boreliana,
ad eccezione di due proprietà. Nell'ambito della misura di Lebesgue:
\begin{itemize}
\item $X$ limitata $\centernot\implies X \in L^1(\PP)$;
\item $L^2(\PP) \centernot\subseteq L^1(\PP)$.
\end{itemize}
Notiamo in particolare che vale Fubini-Tonelli\footnote{$\heartsuit$} con $\mm_2 = \mm \otimes \mm$ e, nel caso multidimensionale,
$\mm_n = \mm \otimes \dots \otimes \mm$.
\index{Lebesgue!integrale in $\RR^n$}
Sia $h$ boreliana, $h \ge 0$ oppure $h \in L^1(\mm_n)$. Allora:
$$\int_{\RR^n} h \,\mathrm{d}\mm_n
= \int_{\RR^n} h(x_1, \, \dots, \, x_n) \,\mathrm{d}x_1 \cdots \mathrm{d}x_n
= \int_{\RR^n} h \,\mathrm{d}x$$
Dunque anche nel caso multidimensionale l'integrale di Lebesgue è un'estensione
dell'integrale di Riemann.
Notiamo inoltre che $\int_{\RR^n} h \,\mathrm{d}\mm_n$ dipende solo da
$[h]$, la classe di equivalenza quasi certa di h, a cui appartengono le funzioni
boreliane $\widetilde{h}$ tali che $h = \widetilde{h}$ qo.
Infine, sia $A \in \Bc^n$ tale che $\mm_n(A) = 0$.
Allora $\int_{A} h(x) \, \mathrm{d}x = 0$.
\subsubsection{Densità continua di probabilità}
\begin{defn}
\index{vettore aleatorio!continuo}
Una probabilità $\PP$ su $(\RR^n, \Bc^n)$ \textbf{ammette densità (continua)}
rispetto a $\mm_n$ se $\exists f: \RR^n \to [0, +\infty)$, boreliana,
tale che:
$$\PP(A) = \int_A f(x) \mathrm{d}x \quad \forall A \in \Bc^n$$
Se $\PP = P^X$, allora $X$ è un \textbf{vettore aleatorio continuo} con densità $f$,
e le sue componenti si dicono \textbf{congiuntamente continue}.
%è vera quest'ultima frase? Controllare (Br1)
%Si, posso confermare che VeA continuo \iff {X_n} congiuntamente continue
\end{defn}
\begin{nb}
$f$ non è necessariamente una funzione continua; l'aggettivo si riferisce al vettore aleatorio associato a essa.
\end{nb}
\medskip
\begin{teob}[\JPTh{12.1}]
\Fixvmode
\begin{itemize}
\item $f: \RR^n \to \RR$ è densità della probabilità $\PP$ su $(\RR^n, \Bc^n)$ se e solo se:
$$f \text{ boreliana}, \quad f \ge 0, \quad \int_{\RR^n} f(x) \, \dx = 1$$
\item In tal caso, $[f]$ caratterizza $\PP$, ovvero: \\ $f$ densità per $\PP$, $\widetilde{f}$ boreliana, $\widetilde{f} \ge 0$,
$f = \widetilde{f}$ qo $\implies \widetilde{f}$ densità per $\PP$
\item Una $\PP$ su $(\RR^n, \Bc^n)$, con densità $f$, caratterizza $[f]$,
ovvero: se $f$ e $\widetilde{f}$ sono densità per $\PP$, allora $f \aceq \widetilde{f}$.
\end{itemize}
\end{teob}
\bigskip
\begin{ese}[caso $(\RR^2, \Bc^2)$]
Siano $S$ e $S'$ due cerchi di raggio 1, con e senza frontiera:
$$S = \{ (x, y) \in \RR^2: x^2 + y^2 \le 1 \}, \ \ S' = \{ (x, y) \in \RR^2: x^2 + y^2 < 1 \}$$
Allora, $\widebar{S'} = S$.
Sia inoltre $f(x) = \dfrac 1 \pi \cdot \Ind_S(x, y)$. f è boreliana, $f \ge 0$, e inoltre:
$$\int_{\RR} f(x, y) \mathrm{d}x \mathrm{d}y
= \dfrac 1 \pi \int_{\RR^2} \Ind_S(x, y) \, \dx \de y
= \dfrac 1 \pi \mm_2(S) = \dfrac \pi \pi = 1$$
Dunque $f$ è una densità continua di probabilità.
Analogamente si verifica che $\widetilde{f}(x) = \dfrac 1 \pi \cdot \Ind_{S'}(x, y)$
è una densità continua di probabilità:
$$\PP(A) = \int_A \dfrac 1 \pi \, \Ind_{S} \, \dx \de y
= \dfrac 1 \pi \, \mm_2 (S \cap A)$$
Da ciò si deduce che $\PP(A)$ è una probabilità uniforme:
$$\widetilde{\PP}(A) = \int_A \dfrac 1 \pi \, \Ind_{S'} \, \dx \de y
= \PP(A)$$
Dunque la probabilità non cambia in presenza o meno della frontiera.
Sia $B$ una parabola. Se $X \sim U(S)$, allora:
$$\PP(X \in B) = P^X(B) = \dfrac {\mm_2(B \cap S)}{\pi} = 0$$
poiché $B$ ha dimensione 1, mentre in questo esempio la probabilità è calcolata in $\RR^2$.
\end{ese}
\bigskip
\begin{cese}\label{cese-parabola-normale}
Siano $X \sim \Nc(0, 1), \enspace Y = X^2 \sim \chi^2(1)$ e consideriamo il vettore aleatorio:
$$W = (X, Y) = (X, X^2) : \DoCo[2]$$
Calcoliamo la probabilità che il vettore appartenga alla parabola $B$:
$$\PP((X, X^2) \in B) = 1 \quad \neq \quad \int_B f(x, y) \, \dx \de y$$
Dunque $W$ ha componenti continue \textit{ma non è continuo!}
\end{cese}
\lezione{17}{10.05.17}
\subsubsection{Valore atteso per vettori continui}
\begin{teo}
\index{valore atteso!per vettori continui}
Sia $X = (X_1, \, \dots, \, X_n)$ un vettore aleatorio continuo su $(\Omega,\Ac,\PP)$ con legge $P^X$ e densità $f$,
e sia $h: \RR^n \to \RR$ una funzione boreliana. Allora:
$$ h \in L^1\left(P^X\right) \iff hf \in L^1(\mm_n)$$
Inoltre, nel caso in cui $h$ sia positiva o $L^1(P^X)$:
$$\Ex{h(X)} = \int_\Omega h(X_1, \, \dots, \, X_n) \, \dPP = \int_{\RR^n} h \ \de P^X = \int_{\RR^n} h(x) f(x) \, \dx$$
\end{teo}
Notiamo che è la stessa regola del valore atteso del caso monodimensionale, con un integrale multiplo su $\RR^n$ al posto di quello in $\RR$. Anche la dimostrazione è simile e verrà pertanto omessa.
\subsubsection{Continuità delle componenti}
\begin{teob}[\JPTh{12.2}]
Sia $X = (X_1, \, \dots, \, X_n): \DoCo$ un vettore aleatorio continuo di densità $f$. Allora:
\begin{enumerate}
\item $\forall k, \ X_k: \DoCo[1]$ è una VA \emph{continua} con densità:
$$ f_k(x_k) = \int_{\RR^{n-1}} f(x_1, \, \dots, \, x_n) \, \dx_1 \cdots \dx_ {k-1} \dx_{k+1} \cdots \dx_n $$
Abbiamo ottenuto un integrale su tutte le componenti che non ci interessano, ovvero tutte tranne $x_k$.
\item \textbf{Criterio sull'indipendenza:} \\
$\{X_k\}_{k=1,\dots,n}$ è una famiglia di VA indipendenti se e solo se:
$$f(x_1, \, \dots, \, x_n) = f_1(x_1) \cdots f_n(x_n)$$
Definendo un'opportuna famiglia di funzioni $h_k: \RR \to \RR \enspace \forall k$, le $X_k$ sono indipendenti se e solo se:
$$f(x_1, \, \dots, \, x_n) = h_1(x_1) \cdots h_n(x_n)$$
In entrambe i casi la relazione dev'essere verificata rispetto alla misura di Lebesgue $\mm_n$, ovvero quasi ovunque.\\
Questo significa che la legge di una famiglia di VA indipendenti è sempre fattorizzabile nelle leggi delle componenti.
\end{enumerate}
\end{teob}
\begin{dimo}
\Fixvmode
\begin{enumerate}
\item
Si sta cercando la $f$ tale che $\PP(X_k \in B) = \int_{B} f_k(X_k) \dx_k \quad \forall B \in \Bc:$
\begin{align*}
\PP(X_k \in B)
&= \PP(\underbrace{X \in \RR \times \dots \times \RR \times \overbrace{B}^{k\text{-esima pos.}} \times \RR \times \dots \times \RR}_{=C \in \Bc^n})\\
&= \int_C f(x_1, \, \dots, \, x_n) \ \dx_1 \cdots \dx_n
\end{align*}
Per Fubini-Tonelli quest'ultimo integrale diventa:
$$ \int_B \left( \int_{\RR^{n-1}} f(x_1, \, \dots, \, x_n) \ \dx_1 \cdots \dx_{k-1} \ \dx_{k+1} \cdots \dx_n \right) \dx_k,$$
dove la funzione dentro la parentesi è la $f_k(x_k)$ cercata. Si può infatti verificare facilmente che rispetta tutte le proprietà richieste a una densità (misurabilità, positività, e integrale globale unitario). \\
%Qualcuno ha voglia di farlo davvero? Io no (Br1)
%Guarda, nemmeno io (AW)
\item \textbf{($\impliedby$)}: Per ipotesi, la $f$ è fattorizzabile nelle $f_k$. Allora:
\begin{align*}
\PP(X_1 &\in B_1, \, \dots, \, X_n \in B_n) = \PP \left(X \in \bigtimes_{k=1}^n B_k\right) \\
& \stackrel{\text{hp}}{=} \int_D f_1(x_1) \cdots f_n(x_n) \ \dx_1 \cdots \dx_n \qquad\quad \left(\text{Per } D = \bigtimes_{k=1}^n B_k\right)\\
&= \int_{\RR^n} \Ind_D(x_1, \, \dots, \, x_n) f_1(x_1) \cdots f_n(x_n) \dx \\
&\!\!\stackrel{\text{F-T}}{=} \left( \int_\RR \Ind_{B_1}(x_1)f_1(x_1) \dx_1 \right) \cdots \relax \left( \int_\RR \Ind_{B_n}(x_n)f_n(x_n) \dx_n \right) \\
&= \PP(x_1 \in B_1) \cdots \PP(x_n \in B_n)
\end{align*}
La tesi è dimostrata. Si noti che questo procedimento di \emph{fattorizzazione}, sia del dominio (nei $B_k$) che del codominio (nelle indicatrici), sarà utilizzato spesso nelle prossime dimostrazioni e pertanto è bene imparare a padroneggiarlo. Nelle future applicazioni i passaggi centrali di questo procedimento saranno omessi.
\smallskip
\textbf{($\implies$)}: Sia nuovamente $D = \bigtimes_{k=1}^n B_k$. Allora vale:
\begin{align*}
X_k \text{ indipendenti} & \iff P^X = P^{X_1} \otimes \dots \otimes P^{X_n} \\
& \iff P^X(D) = P^X (B_1 \times \dots \times B_n) \\
& \qquad \qquad\qquad\, = P^{X_1}(B_1) \cdots P^{X_n}(B_n) \quad \forall B_1, \, \dots, \, B_n \in \Bc
%Lo so che ci sono i caratteri di allineamento, ma non è abbastanza divertente (AW)
\end{align*}
Per definizione, il membro sinistro e destro di questa ultima uguaglianza possono essere rispettivamente scritti come:
$$ \int_D f(x_1, \, \dots, \, x_n) \dx_1 \cdots \relax \dx_n = \left( \int_{B_1} f_1(x_1) \dx_1 \right) \cdots \relax \left( \int_{B_n} f_n(x_n) \dx_n \right)$$
Per Fubini-Tonelli applicato ``al contrario'', il membro destro può essere riscritto:
$$ \int_D f(x_1, \, \dots, \, x_n) \dx_1 \cdots \dx_n = \int_D \underbrace{f_1(x_1) \cdots f_n(x_n)}_{\eqqcolon g(x_1, \, \dots, \, x_n)} \dx_1 \cdots \dx_n$$
$g$ è dunque una densità su $(\RR^n, \Bc^n)$. Sia $\QQ: \Bc^n \to [0,1]$ la probabilità associata a tale densità (è infatti noto che per ogni densità esiste una corrispondente probabilità). \\
Per quanto detto prima si sa che:
$$P^X(B_1 \times \dots \times B_n) = \QQ(B_1 \times \dots \times B_n) \quad
\forall \ B_1, \, \dots, \, B_n \in \Bc
$$
Questo vale per ogni rettangolo di $\Bc^n$. Poiché la \textit{classe dei rettangoli}
$\Cc = \{ B_1 \times \dots \times B_n : B_k \in \Bc \ \forall k \}$
è chiusa per intersezioni finite e genera la sua $\sigma$-algebra (i.e. $ \sigma(C) = \Bc^n$),
è possibile estendere l'uguaglianza all'intera $\sigma$-algebra grazie al corollario \ref{coro-estensione-prob} delle classi monotone: $P^X(A) = \QQ(A) \ \forall A \in \Bc^n$. Abbiamo dunque:
$$f(x_1, \, \dots, \, x_n) = f_1(x_1) \dots f_n(x_n)$$
Questo vale qo, perché $P^X$ caratterizza la classe di $f$. L'uguaglianza ottenuta è la tesi. \\
La dimostrazione della formula delle $h_k$ è invece lasciata al lettore come esercizio. \qedhere
\end{enumerate}
\end{dimo}
%\begin{nb}
%$X$ continua $\implies X_1,\dots,X_n$ continue ma solo in alcuni casi specifici. \\ %C'è un teorema poco sopra che dice letteralmente che questa cosa è vera sempre...
%Viceversa, è sempre vero che $X_1,\dots,X_n$ continue $\implies X$ continua. %Questa cosa è falsa, c'è il controesempio due pagine sopra!!!!!!! zio pera
%C'era una terza cosa in questo nb, ma l'ho spostata nella def di vettore continuo. Quindi questo nb è inutile
%~Br1 the Destroyer of NBs
%\end{nb}
\esercitazione{12}{19.05.17}
\subsection{Considerazioni pratiche}
Siano $(\Omega, \Ac, \PP)$ spazio di probabilità e $(X,Y) : \Omega \to \RR^2$ vettore aleatorio. $(X,Y)$ è continuo se e solo se:
\begin{itemize}
\item $P^{(X,Y)}$ ammette densità rispetto alla misura di Lebesgue $m_2$ e:
$$P^{(X,Y)}(B) = \PP((X,Y) \in B) = \int_B f_{(X,Y)}(x,y) \,
\dx \, \de y \quad \forall B \in \Bc^2 $$
Inoltre si può affermare che:
$$\dim (B) < 2 \implies \PP( (X,Y) \in B) =0 $$
\item $X$ e $Y$ sono continue:
$$f_X(x)= \int_{-\infty}^{+\infty} f_{(X,Y)}(x,y) \, \de y \ \text{ e } \ f_Y(y)= \int_{-\infty}^{+\infty} f_{(X,Y)}(x,y) \, \dx$$
\end{itemize}
\paragraph{Densità}
$f_{(X,Y)}: \RR^2 \to \RR$ è una densità se:
\begin{enumerate}
\item $f_{(X,Y)}$ è boreliana
\item $f_{(X,Y)} \ge 0$
\item $\int_{\RR^2} f_{(X,Y)}(x,y) \dx \de y =1$
\end{enumerate}
\paragraph{Valore atteso}
Data $h: \RR^2 \to [0, +\infty)$ boreliana oppure $ h: \RR^2 \to \RR$ con $h \in L^1(\RR^2, \Bc^2, P^{(X,Y)})$, allora:
$$\EE[h(X,Y)] = \int_{\RR^2} h(x,y) f_{(X,Y)}(x,y) \, \dx \, \de y$$
\paragraph{Indipendenza}
$X \indep Y$:
\begin{itemize}
\item[] $\iff P^{(X,Y)} = P^X \otimes P^Y$
\item[] $\iff f_{(X,Y)}(x,y) \aceq f_X(x)f_Y(y)$
\item[] $\iff f_{(X,Y)}(x,y) \aceq h_1(x)h_2(y)$
\item[] $\implies S_{(X,Y)}=S_X \times S_Y$
\end{itemize}
\medskip
\begin{propb}[\JPTh{12.6,12,7}]
Sia $(X,Y): \Omega \to \RR^2 $ vettore aleatorio continuo con densità $f_{(X,Y)}$, il supporto di $P^{(X,Y)}$ è $S \subseteq \RR^2$. Sia data $h: \RR^2 \to \RR^2$ definita come:\\
$$(U,V) = h((X,Y))= (h_1(X,Y), h_2(X,Y))$$
Siano inoltre valide le seguenti proprietà:
\begin{enumerate}
\item $h \in C^1(S)$
\item $ \det(J_h)(x,y) \ne 0$
\item $\exists \, g = h^{-1} \ g: h(S) \to S \quad g(u,v)= (g_1(u,v), g_2(u,v)) $
\end{enumerate}
Allora:
\begin{enumerate}
\item $(U,V)$ è un vettore aleatorio continuo
\item $f_{(U,V)}(u,v)= f_{(X,Y)}(g_1,(u,v), g_2(u,v)) | det(J_g)(u,v)|$
\end{enumerate}
\end{propb}
Si procede ora con un cenno di dimostrazione\footnote{Lasciata come esercizio allo studente più motivato di noi.}.
\begin{dimo}\belowdisplayskip=-17pt
Si può mostrare che $\PP((U,V) \in B) \stackrel{?}{=} \int_B f_{(U,V)}(u,v) \, \de u \, \de v$:
\begin{align*}
\PP((U,V) \in B) &= \PP( h((X,Y)) \in B) \\
& = \PP( (X,Y) \in g(B)) \\
& = \int_{g(B)} f_{(X,Y)}(x,y) \, \dx \, \de y & (\text{cambiando la variabile}) \\
& = \int_B f_{(U,V)} (u,v) \, \de u \, \de v
\end{align*}\qedhere
\end{dimo}
\medskip
\begin{oss}
$f_{(X,Y)}$ contiene $\Ind_S(x,y) \iff f_{(U,V)}$ contiene $ \Ind_S(g_1(x,y), g_2(x,y)) = \Ind_{h(S)}(u,v)$\\
\end{oss}
\begin{oss}
È possibile trovare l'inversa di $h$, $g= h^{-1}$:
$$(u,v) \in h(S) \implies
\begin{cases}
u= h_1(x,y) \\
v= h_2(x,y)
\end{cases} \implies
\begin{cases}
x= g_1(u,v)\\
y= g_2(u,v)
\end{cases}
\implies \exists! \, (x,y) \in S$$
Si richiede l'unicità dell'inversa.
\end{oss}
\subsection{Covarianza}
Data la VA $X: \DoCo[1]$ con legge $P^X$, è possibile sintetizzare le informazioni date dalla legge con valore medio $\Ex{X}$ e varianza $Var(X)$.
Per ottenere lo stesso risultato con un vettore aleatorio a due componenti $(X,Y): \DoCo$ con legge $P^{(X,Y)}$ è necessario aggiungere un valore che rappresenti il legame tra le due VA, ovvero di quanto le due variabili siano l'una dall'altra dipendenti.
\begin{defn}
\index{covarianza}
Siano $X$ e $Y$ VAR su $\Dom$ e in $L^2(\PP)$. Si definisce \textbf{covarianza} il seguente valore:
$$ Cov(X,Y) \coloneqq \EE \Big[ \big( X-\Ex{X} \big) \big( Y-\Ex{Y} \big) \Big] $$
\end{defn}
La covarianza è ben definita perché la funzione dentro il valore atteso è prodotto di due VA che sono $L^2$ per ipotesi; tale prodotto è dunque $L^1$ per il teorema di Cauchy-Schwarz. \\
Applicando opportunamente la regola del valore atteso si ottengono, per ogni $X$ e $Y$, i seguenti risultati:
$$Cov(X,X) = Var(X) \quad \text{e} \quad Cov(X,Y)=Cov(Y,X)=\Ex{XY}-\Ex{X}\Ex{Y}. $$
Una covarianza positiva indica che a valori di $X$ sopra la media corrispondono \emph{prevalentemente} (questo indica il valore atteso) valori di $Y$ sopra la media, e viceversa. I valori del vettore $(X,Y)$, se visualizzati su un grafico bidimensionale, formano dunque una ``macchia'' allungata parallelamente alla bisettrice I-III quadrante. Se la covarianza è negativa, la distribuzione degli $(X,Y)$ è invece allungata nella direzione della bisettrice II-IV quadrante (figura \ref{fig-covarianza}).
\begin{figure}[ht]
\centering
\begin{tikzpicture}
\begin{axis}[
axis lines = middle,
xlabel = $X$,
ylabel = $Y$,
width=0.8\textwidth,
variable=t
]
\draw [line width=0.2mm, dashed] (axis cs:0,2) -- (axis cs:2,2) -- (axis cs:2,0);
\draw [line width=0.1mm] (axis cs:1,1) -- (axis cs:3,1) -- (axis cs:3,3) -- (axis cs:1,3) -- (axis cs:1,1);
\draw [fill=black] (axis cs:2,0) circle (4) node[above right] {$\EE_X$};
\draw [fill=black] (axis cs:0,2) circle (4) node[above right] {$\EE_Y$};
\draw [fill=black] (axis cs:2,2) circle (4);
\draw[rotate around={55: (axis cs:2, 2)}, dashed] (axis cs:2, 2) ellipse (1.3cm and 2.4cm);
\addplot [draw=none, forget plot] coordinates {(1.6,2.6)} node {$Cov(X,Y)$};
\draw [line width=0.2mm, decorate,decoration={snake,amplitude=.4mm,segment length=2mm,post length=0mm}] (axis cs:0,1) -- (axis cs:0,3);
\draw [line width=0.2mm, decorate,decoration={snake,amplitude=.4mm,segment length=2mm,post length=0mm}] (axis cs:1,0) -- (axis cs:3,0);
\addplot [draw=none, forget plot] coordinates {(3.5, 3.5)};
\addplot [draw=none, forget plot] coordinates {(-0.5, -0.5)};
\end{axis}
\end{tikzpicture}
\caption{covarianza (negativa) per due VA}\label{fig-covarianza}
\end{figure}
\subsubsection{Indipendenza e scorrelazione}
\begin{teob}[\JPTh{12.3}]\label{teo-correl}
\index{scorrelazione}
Siano $X,Y \in L^2(\PP)$ tali che $X \indep Y$. Allora $Cov(X,Y) = 0.$ \\
Due variabili che hanno covarianza nulla di dicono \emph{scorrelate}.
\end{teob}
\begin{dimo}
Per $X, Y$ limitate (che infatti sono in $L^2$):
$$ Cov(X,Y) = \Ex{XY} - \Ex{X} \Ex{Y} \stackrel{X \indep Y}{=} \Ex{X} \Ex{Y} - \Ex{X} \Ex{Y} = 0. $$
Per $X,Y$ illimitate l'uguaglianza è comunque verificata costruendo due successioni crescenti ${X_n}, {Y_n}$ che tendono, rispettivamente, a $X$ e a $Y$; la convergenza dominata garantisce la possibilità di scambiare limite e valore atteso. \qedhere
\end{dimo}
\medskip
\begin{nb}
In generale, il viceversa del teorema \emph{non è vero}!
$$Cov(X,Y) = 0 \centernot\implies X \indep Y$$
L'indipendenza è una condizione più forte della correlazione; ovvero, esistono coppie di variabili scorrelate ma non indipendenti. Più avanti entreremo più in dettaglio sul significato della (s)correlazione.
\end{nb}
\medskip
\begin{ese}
Consideriamo una probabilità concentrata su 4 punti, ovvero:
$$(X,Y) \sim U( \{ (\pm 1, 0), (0, \pm 1) \} )$$
\begin{figure}[ht]
\centering
\begin{tikzpicture}
\begin{axis}[
axis lines = middle,
xlabel = $X$,
ylabel = {$Y$},
width=0.5\textwidth,
height=0.5\textwidth,
]
\addplot [draw=none, forget plot] coordinates {(-1.4,-1.4)};
\addplot [draw=none, forget plot] coordinates {(1.4, 1.4)};
\addplot [only marks, mark=*] table {
1 0
0 1
-1 0
0 -1
};
\end{axis}
\end{tikzpicture}
\caption{VA $(X,Y)$ concentrata su 4 punti}\label{fig-prob-concentrata}
\end{figure}
La figura \ref{fig-prob-concentrata} è simmetrica rispetto all'origine, nel senso che non c'è allungamento in una delle direzioni diagonali, quindi $Cov(X,Y) = 0$ (risultato che, peraltro, si può anche verificare con rapidi conti).
Tuttavia $X \centernot\indep Y$ perché la figura non forma un rettangolo. Infatti, prendendo una sezione qualsiasi dell'``area'' in cui è condensata la probabilità, si osserva immediatamente che conoscere un'informazione su una delle due variabili (per esempio $X=1$) può influenzare il grado di fiducia sull'altra (per esempio è vero che $\PP(Y = 0 \, | \, X = 1) = 1$).
Due VA sono indipendenti se e solo se il grafico del supporto (ovvero l'insieme dei punti in cui è condensata la probabilità) forma un rettangolo, sia esso discreto (come in questo caso) o continuo. Infatti prendendo una sezione del rettangolo, ovvero fissando un valore di una delle due VA, il grado di fiducia dell'altra VA non cambia perché il segmento-sezione ha ugual lunghezza lungo tutto il supporto.
\end{ese}
\medskip
\begin{ese}
Consideriamo il cerchio $S = \{ (x,y) \in \RR^2 : x^2 + y^2 \leq 1 \}$ e il vettore aleatorio $(X,Y) \sim U(S)$. \\
Notiamo immediatamente che $(X, Y)$ ha probabilità concentrata su $S$.
Anche qui $Cov(X,Y) = 0$ per simmetria centrale, ma $X \centernot\indep Y$ perché il supporto non è un rettangolo. Verifichiamo questa conclusione mostrando un punto in cui le probabilità non si fattorizzano, per esempio:
$$\PP \left(Y \geq \frac{1}{2} | X = 1 \right) = 0 \neq \PP \left(Y \geq \frac{1}{2} \right)$$
\end{ese}
\medskip
\begin{prop}
$$|Cov(X,Y)| \leq \sqrt{Var(X) \, Var(Y)}$$
\end{prop}
La proposizione è un'immediata conseguenza della disuguaglianza di Cauchy-Schwarz.
\subsubsection{Coefficiente di correlazione lineare}
\begin{defn}
\index{coefficiente di correlazione lineare}
Siano $X$ e $Y$ VAR su $\DoCo[1]$ in $L^2(\PP)$ e tali che $Var(X)>0$ e $Var(Y)>0$.
Si definisce \textbf{coefficiente di correlazione lineare} il valore:
$$\rho \coloneqq \frac{Cov(X,Y)}{\sqrt{Var(X) \, Var(Y)}}$$
\end{defn}
Sappiamo che $|\rho| \leq 1$ per la proposizione precedente e che $X \indep Y \implies \rho = 0$ per il teorema \ref{teo-correl}. \\
Notiamo inoltre che $\rho$ è adimensionale in quanto indica un rapporto tra grandezze omogenee, al contrario di media, varianza e altri oggetti probabilistici.
\medskip
\begin{prop}
Siano $X,Y \in L^2(\PP)$ tali che $Var(X)>0$ e $Var(Y)>0$. \\
Si ha $|\rho| = 1$ se e solo se esistono $a, b \in \RR, a \neq 0,$ tali che $Y = aX + b$. In tal caso, vale:
$$Y =
\rho \sqrt{\dfrac{Var(Y)}{Var(X)}}X + \Ex{Y} -
\rho \sqrt{\dfrac{Var(X)}{Var(Y)}} \Ex{X}$$
\end{prop}
Il risultato (1) è coerente con quanto precedentemente detto sulla covarianza. Una covarianza positiva (o negativa) indica infatti una distribuzione di punti stretta e allungata nella direzione I-III (o II-IV) quadrante, e il caso $|\rho| = 1$ indica il caso estremo di questo stringimento e allungamento: tutti i punti si allineano su una retta, che, per inciso, permette di calcolare deterministicamente il valore di $Y = aX + b = h(X)$; questo infatti è il caso opposto rispetto all'indipendenza tra due VA (dove infatti $Cov(X,Y) = 0$).
% to-do: Gioele sei arrivato qua
\smallskip
\begin{dimo}
%Il punto 1. sarà dimostrato a esercitazione.\footnote{Spudorata menzogna, è stato lasciato come esercizio individuale}\\
%%to-do: è a questa schifezza qui a cui mi riferivo
%%noto-do: Esticazzi (AW)
%L'ho lasciato perché è troppo bello per essere cancellato davvero (Br1)
Sarà dimostrato solo il punto (2). Sapendo che da $Y = aX + b$ discendono $Var(Y) = a^2 Var(X)$ e $\Ex{Y} = a \Ex{X} + b$, è sufficiente sostituire nella formula queste due espressioni per verificare facilmente che danno un'identità.
\end{dimo}
\begin{nb}
I casi in cui $Y$ è espresso come una retta orizzontale o verticale (rispetto a un sistema di riferimento $OXY$) andrebbero studiati a parte, ma sono comunque di facile trattazione e non costituiscono dunque un ostacolo alla generalità della proposizione.
\end{nb}
\subsubsection{Proprietà}
\begin{prop}
\index{bilinearità della covarianza}
La covarianza è \textit{bilineare}, ovvero lineare su entrambi gli argomenti:
\begin{align*}
Cov&(aX+bY,cZ+dW) = \\
&= ac \cdot Cov(X,Z) + ad \cdot Cov(X,W) + bc \cdot Cov(Y,Z) + bd \cdot Cov(Y,W)
\end{align*}
\end{prop}
La dimostrazione è banale ma non immediata: si effettua con noiosi conti su $Cov(aX+bY, Z)$. Per simmetria la proposizione sarà dunque vera anche per l'altro argomento, senza necessità di complicare ulteriormente i calcoli.
\begin{coro}
$$Var(X+Y) = Var(X) + Var(Y) + 2 Cov(X,Y)$$
\end{coro}
La dimostrazione è banale e immediata calcolando $Var(X+Y)$ come $Cov(X+Y,X+Y)$.
\subsection{Vettore media e matrice varianza}
\begin{defn}
\index{valore atteso!in $\RR^n$}
\index{vettore media (valore atteso)}
Sia $X = (X_1, \, \dots, \, X_n): \DoCo$ un vettore aleatorio. \\
Il \textbf{vettore media} di $X$, se le componenti sono $L^1$, è il vettore delle medie delle componenti:
$$ \Ex{X} \coloneqq \begin{bmatrix} \Ex{X_1} \\ \vdots \\ \Ex{X_n} \end{bmatrix} $$
\index{matrice varianza}
e, se le componenti sono $L^2$, la \textbf{matrice varianza}, o matrice delle covarianze, di $X$ è:
$$ C \coloneqq
\begin{bmatrix} Var(X_1) & \dots & Cov(X_1, X_n) \\
\vdots & \ddots & \vdots \\
Cov(X_n, X_1) & \dots & Var(X_n)
\end{bmatrix}
\text{ ovvero } C_{ij} = Cov(X_i, X_j)$$
\end{defn}
\medskip
\begin{teob}[\JPTh{12.4}]
\index{semi-definita positività}
Sia $X$ vettore aleatorio con componenti $X_1, \, \dots, \, X_n \in L^2$. \\
Allora $C$ è \textit{semi-definita positiva}\footnote{Si noti che in questo corso si include la simmetria della matrice nella definizione di semi-definita positività, sebbene in altri testi e corsi sia trattata come una proprietà a parte.}
(indicato con $C \geq 0$), ovvero:
$$ C = C^T \qquad \text{e} \qquad a^T C a \geq 0 \ \ \forall a = (a_1, \, \dots, \, a_n) \in \RR^n$$
\end{teob}
\begin{dimo}\belowdisplayskip=-21pt
La simmetria è ovvia perché $Cov(X,Y) = Cov(Y,X)$. \\
Grazie alla bilinearità della covarianza si ha:
\begin{align*}
a^T C a
&= \sum_{i,j} a_i C_{ij} a_j & (\text{scomponendo i vettori})\\
&= \sum_{i,j} a_i Cov(X_i, X_j) a_j & (\text{passando alle covarianze})\\
&= \sum_i \sum_j Cov(a_i X_i, a_j X_j) & (\text{per bilinearità})\\
&= Cov\left( \sum_i a_i X_i, \sum_j a_j X_j\right) & (\text{per bilinearità})\\
&= Var\left(\sum_i a_i X_i\right) \geq 0 \quad \forall a \in \RR^n
\end{align*}\qedhere
\end{dimo}
\bigskip
\begin{teo} \label{appartenenza VeAle}
Sia $X$ vettore aleatorio con componenti $X_1, \, \dots, \, X_n \in L^2$.
Allora:
$$X \in \operatorname{range}(C) + \Ex X \text \enspace {\text{ qc}}$$
Qui $\operatorname{range}(C) = \operatorname{col}(C)$ è lo spazio colonna di $C$, ovvero lo spazio vettoriale avente come base le colonne di $C$.
\end{teo}
Lo spazio indicato dal teorema è uno \textit{spazio affine} di $\RR^n$, ovvero ottenuto mediante una trasformazione lineare (la matrice $C$) e una traslazione (l'aggiunta di $\Ex{X}$). \\
Si noti inoltre che è possibile che $X$ non possa assumere tutti i valori di $\RR^n$; ciò succede nel caso in cui due o più colonne di $C$ sono linearmente dipendenti, ovvero se la matrice non ha rango massimo.
Questo teorema ha un'importante conseguenza.
\begin{coro}
Se $X$ è un vettore aleatorio continuo, allora la sua matrice varianza $C$ è invertibile;
equivalentemente, se $C$ non è invertibile allora $X$ non è continuo.
%Mi sembra inutile specificare questa seconda parte, visto che è completamente ovvia dalla prima; la teniamo? (Br1)
%Io la lascerei comunque, non fa male (SSL)
\end{coro}
Si noti che questa condizione è solo necessaria e non sufficiente.
Per esempio, si può verificare che il controesempio mostrato a pagina \pageref{cese-parabola-normale}, cioè $W = (X,X^2)$ con $X \sim \Nc(0,1)$, ha matrice varianza $C$ invertibile pur non essendo continuo.
\medskip
\begin{teob}[\JPTh{12.5}]
Siano $X: \DoCo$ un vettore aleatorio con varianza $C_X$, e
$Y = AX+b$ un vettore aleatorio, con $A \in \RR^{m \times n}$ e $b \in \RR^m$. Allora:
$$ \Ex{Y} = A \ \Ex{X} + b \quad \text{e} \quad C_Y = A \, C_X \, A^T$$
\end{teob}
Quest'ultima formula è molto utile in contesti pratici per ridurre le dimensioni dei vettori, al fine di facilitare i conti.
\begin{dimo}\Fixvmode
\begin{enumerate}
\item Calcoliamo la $i$-esima componente del vettore media sfruttando la linearità del valore atteso:
$$\EE[Y_i] = \EE\left[ \sum_j a_{ij} X_j + b_i \right] = \sum_j a_{ij} \EE[X]_j + b_i = (A \, \EE[X] + b)_i$$
\item Per quanto riguarda la matrice varianza:
\begin{align*}
(C_Y)_{ij} &=Cov(Y_i,Y_j) \\
&=Cov \left(\sum_k a_{ik} X_k + b_i, \ \sum_m a_{jm} X_m +b_j \right) \\
&=\sum_{k,m} a_{ik} a_{jm} (C_X)_{ij} &\text{(bilinearità)} \\
&= (A \, C_X \, A^T)_{ij} & \qedhere
\end{align*}
\end{enumerate}
\end{dimo}
\cleardoublepage