Học xác suất thống kê để làm gì
Xác suất thống kê là nền tảng quan trọng của các mô hình học máy và phân tích dữ liệu. Bài viết này là ghi chép của tôi về các kiến thức, khái niệm cơ bản nhất về xác suất thống kê, từ đó có thể giúp người đọc tiếp cận và xem lại các kiến thức cho bộ môn này. Show Xác suất, xác suất có điều kiện, công thức Bayes1. Phép thử, sự kiện, không gian mẫuKhái niệm
Tính chất
2. Xác suấtKhái niệm, tính chấtXác suất của một phép thử là một ánh xạ $ P(.) $ từ không gian mẫu vào tập số thực thoả mãn:
$$ P(A_{1} \cup A_{2} \dots) = P(A_{1}) + P(A_{2}) + \dots $$ Từ 3 tiên đề trên, ta có các tính chất:
Định nghĩa xác suất cổ điểnXác suất cổ điển được xây dựng trên các không gian mẫu hữu hạn và đồng khả năng $\Omega = {w_1, w_2, \dots, w_n}$. Vì các sự kiện có đồng khả năng xảy ra nên $P(w_1) = P(w_2) = \dots = P(w_n)$. Do $1 = P(\Omega) = P({w_1}) + P({w_2}) + \dots + P({w_n}) = nP({w_1})$ nên $P({w_i}) = \frac{1}{n}, \forall i = \overline{1,n}$. A là một sự kiện thì $P(A) = \frac{\#A}{\#\Omega}$. Xác suất có điều kiệnMột phép thử nếu biết sự kiện $B, P(P) \ne 0$ đã xảy ra thì xác suất sự kiện A xảy ra là xác suất có điều kiện $P(A|B)$ được xác định bởi công thức: $$ P(A|B) = \frac{P(A \cap B)}{P(B)} $$ $$ P(A \cap B) = P(B).P(A|B) = P(A).P(B|A) $$
$$ P(A \cap B) = P(A).P(B) $$ 3. Công thức BayesXác suất toàn phần$$ \sum_{i=1}^n(P(A_i.P(B|A_i))) $$ Công thức BayesCông thức Bayes cho 2 sự kiện $A$, $B$ Cho hai sự kiện $A, B$ và $P(A), P(B)$ là hai xác suất được quan sát độc lập với nhau.
Ta có công thức Bayes cho 2 sự kiện $A$ và $B$ $$ P(A|B) = \frac{P(A).P(B|A)}{P(B)} $$ $$ Posterior = Likelihood \times Prior / Evidence $$ Công thức Bayes tổng quát: Cho không gian các sự kiện $A_1, \dots, A_n$. B là một sự kiện nào đó. Ta có công thức xác suất toàn phần: $$ P(B) = \sum_{i=1}^{n}P(A_i).P(B|A_i) $$ Công thức Bayes tổng quát cho nhiều sự kiện: $$ P(A_i|B) = \frac{P(A_i \cap B)}{P(B)} = \frac{(P(A_i \cap B))}{\sum_{i=1}^n(P(A_j).P(B|A_j))} $$ Biến ngẫu nhiên và phân phối xác suất1. Biến ngẫu nhiênKhái niệmBiến ngẫu nhiên (random variables) là các biến nhận 1 giá trị ngẫu nhiên đại diện cho kết quả của phép thử. Mỗi giá trị nhận được $x$ của biến ngẫu nhiên $X$ được gọi là một thể hiện của $X$, đây cũng là kết quả của phép thử hay còn được hiểu là một sự kiện. Biến ngẫu nhiên có 2 dạng:
Ví dụKhi gieo 2 con xúc sắc, gọi X, Y lần lượt là số chấm xuất hiện trên mặt của con thứ nhất và thứ 2 thì X, Y là hai biến ngẫu nhiên vì có cùng kết quả kiểu số. Các hàm số như $X + Y, 2XY, sin(XY)$ cũng là các biến ngẫu nhiên. 2. Phân phối xác suấtHàm trọng số (Probability mass function - PMF)Xét biến ngẫu nhiên rời rạc $X$ có miền giá trị có thể nhận $(x_1, x_2, \dots, x_n$. Hàm trọng số của một biến ngẫu nhiên rời rạc ký hiệu là: $$ P_X(x) = P(X = x), \forall x \in \mathbb{R} $$ Ý nghĩa: Hàm trọng số thể hiện khả năng xảy ra tại một điểm $x$. Bảng phân phối xác suất
Tính chất
Hàm phân phối xác suất (Cumulative distribution function - CDF)Hàm phân phối xác suất của biến ngẫu nhiên $X$ là hàm được xác định bởi công thức: $$ F_X(x) = P(X \le x), \forall x \in \mathbb{R} $$ Ý nghĩa: Hàm phân phối xác suất là xác suất của sự kiện "biến ngẫu nhiên $X$ nhận giá trị nằm trong khoảng từ $−\infty$ tới $x$". Khi có hàm phân phối ta thực hiện với hàm giải tích thay vì làm với các phép toán với sự kiện. Tính chất
$X$ là biến ngẫu nhiên rời rạc thì $F_X(x) = \sum x_i < xP_X(x_i)$ Ví dụ cho hàm trọng số và hàm phân phối xác suấtGieo một con xúc sắc. $X$ là số chấm xuất hiện. Các giá trị X có thể nhận là $S = \{1, 2, 3, 4, 5, 6\}$ $$ P_X(x) = \begin{cases} 1/6; & x \in \Omega \\ 0; & x \notin \Omega \end{cases} $$
Giả lập thí nghiệm gieo xúc sắc Mô phỏng tung một con xúc sắc cân đối đồng chất 5000 lần.
1import numpy as np 2import seaborn as sns 3import scipy 4import matplotlib.pyplot as plt 5from scipy.stats import norm 6 7n = 5000 8outcome = np.random.randint(6, size=n, dtype=int) + 1 1unique_values, freq_x = np.unique(outcome, return_counts=True) 2pmf = freq_x / len(outcome) 3dist_table = np.column_stack([unique_values, pmf]) 4print("BẢNG PHÂN PHỐI XÁC SUẤT") 5print(dist_table) BẢNG PHÂN PHỐI XÁC SUẤT [[1. 0.17883333] [2. 0.157 ] [3. 0.16083333] [4. 0.16283333] [5. 0.17166667] [6. 0.16883333]]1PMF = sns.barplot(x=unique_values, y=pmf) 2PMF.set(xlabel="X", ylabel="P_X(x)") 3plt.title("Đồ thị hàm trọng số") 4plt.show()
Đồ thị hàm trọng số 1cdf = np.cumsum(pmf) 2CDF = sns.barplot(x=unique_values, y=cdf) 3CDF.set(xlabel="X", ylabel="P_X(x)") 4plt.title("Đồ thị hàm phân phối xác suất") 5plt.show()
Đồ thị hàm phân phối xác suất 1print("Xác suất số điểm trên mặt xúc sắc lớn hơn 2 và không vượt quá 4:", cdf[4] - cdf[2]) Xác suất số điểm trên mặt xúc sắc lớn hơn 2 và không vượt quá 4: 0.33449999999999996Hàm mật độ xác suất (Density probability function - PDF)Với $X$ là biến ngẫu nhiên liên tục thì $P(X = x) = 0, \forall x \in \mathbb{R}$. Do vậy, việc xem xét giá trị xác suất tại một điểm với các biến ngẫu nhiên liên tục là không có ý nghĩa. Trong trường hợp này, ta có khái niệm hàm mật độ xác suất (PDF - Probability Density Function) để ước lượng độ tập trung xác suất tại lân cận điểm nào đó. Hàm mật độ xác suất $f(x)$ tại điểm $x$ được xác định bằng cách lấy đạo hàm của hàm phân phối tích luỹ $F(x)$ tại điểm đó: $$ f(x) = F^{\prime}(x) $$ Tính chất
Đồ thị hàm mật độ xác suất Ví dụ về đồ thị hàm mật độ xác suất của một phân phối chuẩn như sau. 1x = np.arange(-4, 4, 0.001) 2plt.plot(x, norm.pdf(x)) 3plt.show()
Đồ thị hàm mật độ xác suất 1print("Xác suất lân cận tại điểm x = 1.5:", norm.pdf(1.5)) Xác suất lân cận tại điểm x = 1.5: 0.129517595665891743. Các giá trị đặc trưngKỳ vọngKỳ vọng (Expectation) của biến ngẫu nhiên là trung bình của biến ngẫu nhiên. Kỳ vọng của biến ngẫu nhiên $X$ được kí hiệu là $E[X]$: $$E[X]=\begin{cases} \displaystyle\sum_{\forall i} x_ip_i &\text{với X rời rạc} \cr \displaystyle\int_{-\infty}^\infty xf(x)dx &\text{với X liên tục} \end{cases} $$
Tính chất
Phương saiDựa vào kì vọng ta sẽ có được trung bình của biến ngẫu nhiên, tuy nhiên nó lại không cho ta thông tin về mức độ phân tán xác suất nên ta cần 1 phương pháp để đo được độ phân tán đó. Một trong những phương pháp đó là phương sai (variance). Phương sai $Var(X)$ là trung bình của bình phương khoảng cách từ biến ngẫu nhiên $X$ tới giá trị trung bình: $$Var(X) = E[(X-E[X])^2] = E[X^2]-E^2[X]$$ Ta thấy rằng phương sai luôn là một giá trị không âm và phương sai càng lớn thì nó thể hiện mức độ phân tán dữ liệu càng rộng hay nói cách khác mức độ ổn định càng nhỏ. Tính chất
Độ lệch chuẩnVì đơn vị của phương sai là bình phương nên việc tính để khớp với đơn vị của biến ngẫu nhiên là bất khả nên người ta đưa vào thêm khái niệm độ lệch chuẩn (SD-standard deviation) bằng căn bậc 2 của phương sai. $$\sigma(X)=\sqrt{Var(X)}$$ Người ta cũng dùng $\sigma^2(X)$ để thể hiện phương sai của biến ngẫu nhiên $X$. Trung vịTrung vị (median) là điểm chia đều xác suất thành 2 phần giống nhau, kí hiệu là $med(X)$: $$P(X < med(X)) = P(X \ge med(X)) = 0.5$$ Như vậy trung vị là nghiệm của phương trình hàm tích lũy xác suất: $F_X(x) = 0.5$ Moment (mô-men)Là khái niệm tổng quát của kì vọng và phương sai. Một moment bậc $k$ đối với $c$ được định nghĩa như sau: $$m_k = E[(X-a)^k]$$ Như vậy:
|