Thống kê mô tả và so sánh

Khi có bảng số liệu, chúng ta thường thấy giá trị một số biến phổ khá rộng, ví dụ doanh số bán hàng theo ngày, cân nặng, chiều cao…. Câu hỏi đặt ra là: đâu là giá trị tiêu biểu nhất và có thể dùng làm đại diện cho dataset đó?. Tiếp theo, liệu có sự biến thiên/dao động [variation] lớn hay nhỏ giữa các giá trị?. Để trả lời cho hai câu hỏi trên, thống kê mô tả cần phải đo lường giá trị trung tâm [measures of center] và giá trị biến thiên [measures of variation].

3.1. Giá trị trung tâm [Measures of Center/Central Tendency/Average]

Có ba dạng là mean, median, mode: trung bình [mean], trung vị [vị trí chính giữa] [median], và nhất suất [tần suất xuất hiện cao nhất] [mode]. Trong đó, mean thường được sử dụng nhất.

Nếu so sánh giữa mean và median, thì mean thường sẽ bị ảnh hưởng bởi các extreme observation [rất lớn hoặc rất nhỏ], còn median thì không. Vì vậy, nếu dataset có xuất hiện extreme observations, thì median thường được sử dụng thay cho mean.

3.2. Giá trị biến thiên [Measures of Variation]

Hai dataset có thể có cùng mean, median và mode, tuy nhiên vẫn có thể khác nhau ở các khía cạnh khác, một trong số đó là độ biến thiên variation. Ví dụ, xem xét chiều cao của các cầu thủ hai đội bóng, đều có cùng mean, median, mode, tuy nhiên, độ biến thiên về chiều cao giữa các cầu thủ là khác nhau; đội một có sự đồng đều hơn [độ biến thiên thấp], còn đội hai không đồng đều [độ biến thiên cao]. Có hai phương thức đo độ biến thiên phổ biến nhất là “range” và “standard deviation”.

  • Range = max – min = giá trị lớn nhất – giá trị thấp nhất = [chiều cao của cầu thủ cao nhất – chiều cao của cầu thủ thấp nhất]. Kết quả range của hai team sẽ khác nhau. Range cao hơn thể hiện mức độ biến thiên lớn hơn.
  • Standard deviation [STD]: Khác với range, STD đo lường độ biến thiên của tất cả observation. Và thường được dùng để đo độ biến thiên khi mean được sử dụng. STD đo lường độ biến thiên của các observations so với giá trị trung bình [mean]. STD càng lớn càng thể hiện độ biến thiên cao, STD càng nhỏ thể hiện giá trị các observations rất gần với mean, độ biến thiên thấp.

Variance: phương sai

Standard Deviation: độ lệch chuẩn

Đối với mẫu sample, ta gọi là phương sai mẫu và độ lệch chuẩn mẫu. Sở dĩ khi tính phương sai cần phải bình phương trước khi tính tổng là vì nếu không bình phương lên thì tổng sẽ bằng không.

Cách tính Variance và STD có chút khác nhau giữa sample và population. Ở trên là của sample, còn đối với population, công thức tính và ký hiệu sẽ khác.

  • The Interquartile Range

Phương thức này thường dùng khi median được sử dụng làm giá trị trung tâm, và có dấu hiệu của extreme observation [hay outliers].

Q1 là median của nửa đầu tiên của dataset

Q2 là median của toàn bộ dataset

Q3 là median của nửa sau của dataset

Interquartile range IQR = Q3 – Q1

Outliers: Để xác định outliers, có thể dựa trên lower limit và upper limit. Giá trị thấp hơn lower limit hoặc cao hơn upper limit thường có khả năng cao là outlier. Ngoài ra, còn cần dựa trên các biểu đồ historgram, stem-and-leaf diagram để có thể nhận định rõ hơn.

lower limit = Q1 – 1.5.IQR

upper limit = Q3 + 1.5.IQR

The five-number summary: Min, Q1, Q2, Q3, Max

Boxplots

Dùng boxplots có thể so sánh median và độ biến thiên IQR giữa các nhóm/experiment… IQR càng ngắn/nhỏ thể hiện độ biến thiên thấp.

Thống kê mô tả với thủ tục Explore là một phần rất quan trọng thuộc P3 trong series Thống kê mô tả SPSS. Điểm quan trọng nhất trong phần này là vẽ, đọc bảng kết quả biểu đồ thân và lá [steam and leaf] trong SPSS.

1 Mục đích thống kê mô tả với thủ tục Explore

Như đã trình bày trong bài chia sẻ về thống kê mô tả và cách tính đại lượng thống kê mô tả thì bảng tần số Frequencies và bảng tính toán Descriptives đều áp dụng chủ yếu cho đơn biến.

Trong trường hợp muốn kiểm tra những sự khác biệt trong các đại lượng thống kê mô tả của 1 biến định lượng [ví dụ thu nhập] giữa các nhóm biến khác [ví dụ tuổi và giới tính] khác nhau thì phải dùng một thủ tục kiểm định Explore.

Lưu ý: Thủ tục thống kê mô tả cho thủ tục Explore áp dụng cho biến định lượng.

Với cách thống kê mô tả bằng lệnh Explore mang lại các ý nghĩa:

  • Tính toán các đại lượng thống kê mô tả cho tất cả các trường hợp trong dữ liệu hoặc cho các nhóm thuộc tính của chúng.
  • Tính các giá trị thập phân vị của phân phối
  • Nhận diện các giá trị lạ: Tương tự với tính năng kiểm tra dữ liệu của thống kê tần số [link] thì với thủ tục Explore dữ liệu của bạn sẽ được thống kê phát hiện các giá trị bất thường. Khi đó, kết quả kiểm tra dữ liệu sẽ cho biết đó thực sự là giá trị đặc biệt hay do lỗi sót khi nhập liệu.

2 Thực hành thống kê mô tả với thủ tục Explore

Bước 1: Thao tác lệnh Explore trong spss bằng cách:

Chọn Analyze / Descriptives Statistics / Explore

Mở cửa sổ Explore

Bước 2: Chọn các biến [một hoặc nhiều biến] bạn muốn so sánh sự khác biệt về các đại lượng thống kê mô tả theo nhóm, chuyển sang Dependent List. Ví dụ trong biến này chọn biến thunhap.

Chọn vào ô Both [Gồm cả Statistics và Plot]

Mở cửa sổ Explore và chọn list biến cần so sánh

Bước 3: Chọn list biến [có thể một hoặc nhiều biến] dùng để làm điều kiện phân tách list biến định lượng ở bước 2 để so sánh.

Lưu ý: Các biến này ở cửa sổ Factor list thì gọi là biến nhân tố, các biến này có các nhóm con là các nhóm được phân chia theo các biểu hiện của biến định tính [như giới tính có nhóm con là nam và nữ].

List biến nhân tố phải ở dạng Categorial càng ít nhóm giá trị thì sự phân tách và so sánh càng ý nghĩa [ví dụ giới tính]

Bước 4: Chọn vào tùy chọn Statistics bên góc phải cửa sổ để mở hộp thoại Explore: Statistics.

Tại đây bạn để mặc định ở ô Descriptives và tích thêm ô Percentile [tứ phân vị]. Cửa sổ trong đó gồm có các tùy chọn:

Cửa sổ tùy chọn Explore: Statistics

  • Descriptives: Được mặc định tích chọn sẵn tính toán các đại lượng thống kê mô tả.
  • M-estimators: Các số thống kê tương đồng với số trung bình nhưng tạo ra các trọng số để cân bằng các quan sát phụ thuộc vào khoảng cách từ chúng đến tâm [tốt hơn Mean và Median nếu dữ liệu phân tán nhiều].
  • Percentile: Tứ phân vị

Đóng cửa sổ Explore: Statistics.

Bước 5: Nhấn vào tùy chọn Plot để mở cửa sổ cài đặt Explore: Plot

  • Tại mục Descriptives: Tích chọn vào các ô Stem and Leaf [thân và lá]; Histogram [Biểu đồ thân và lá cung cấp nhiều thông tin chi tiết hơn, Biểu đồ Histogram cung cấp thông tin gốc về dữ liệu].
  • Tại mục Boxplots: Để mặc định
  • Tại mục Normality Plots with Tests: Tích vào ô này. Lựa chọn này yêu cầu phần mềm vẽ biểu đồ Q-Q Plot [biểu đồ xác suất chuẩn] giúp kiểm tra biến có phân phối chuẩn hay không.
  • Tại biểu đồ xác suất chuẩn này mỗi giá trị quan sát sẽ được vẽ dựa vào giá trị kỳ vọng từ nhóm phân phối chuẩn. [Sẽ còn gặp trong phần kiểm tra phân phối chuẩn phần dư tại bài phân tích kết quả Hồi quy tuyến tính]

Bước 6: Kiểm tra hộp thoại Explore: Options [click vào mục Options]

  • Tích chọn ở ô Exclude Cases listwise.
  • Cài đặt này dùng để kiểm tra cách xử lý các giá trị dữ liệu của biến bị thiếu [missing]
  • Exclude Cases listwise: Những giá trị bị thiếu [Missing] ở bất kỳ một biến nào kể cả trong list biến phụ thuộc hay biến nhân tố sẽ bị bỏ qua khi thực hiện lệnh.

Đóng cửa sổ cài đặt.

3 Đọc bảng kết quả thống kê mô tả với lệnh Explore

a. Bảng kết quả thống kê các đại lượng Descriptives

Trong giao diện output kết quả chạy sẽ có cây menu bên trái rất chi tiết về các nội dung kết quả kiểm định. Đầu tiên sẽ xem về bảng thống kê descriptives.

Bảng kết quả thống kê các đại lượng Descriptives

Phân tích mức thu nhập trung bình theo Thành Phố: Nhìn vào giá trị mean có thể thấy thu nhập trung bình của người tham gia khảo sát ở Hà Nội [21,94 Triệu đồng/tháng] cao hơn so với thu nhập trung bình của người tham gia khảo sát tại thành phố Hồ Chí Minh [21,54 Triệu đồng/tháng].

Khoảng ước lượng với độ tin cậy 95% về thu nhập trung bình tổng thể của người tại Hà Nội và TP HCM lần lượt là [19,15;24,73] và [18,51; 24,57].

Nhiều chỉ số khác có thể phân tích trong bảng này như giá trị mức thu nhập thấp nhất của người tại Hà Nội là 3 triệu đồng/tháng, cao nhất là 40 Triệu đồng/tháng.

Thu nhập thấp nhất của người tham gia khảo sát ở TPHCM cũng là 3 Triệu đồng/tháng, cao nhất là 39 Triệu đồng/tháng.

Độ lệch chuẩn của thu nhập người ở hà nội là 9,832; thu nhập ở TP HCM là 10,645. Do đó, sự biến thiên của thu nhập người tham gia khảo sát ở TP.HCM ít hơn Hà Nội.

Và còn nhiều chỉ số khác có thể phân tích sâu hơn như tứ phân vị, median, …

Tương tự cho phân tích mức thu nhập trung bình theo Giới tính: Trong phạm vi mẫu nghiên cứu thì thu nhập trung bình của giới tính nam [20,86 Triệu đồng/tháng] thấp hơn thu nhập trung bình giới tính nữ [22,91 Triệu đồng/tháng]….

b. Cách đọc bảng biểu đồ thân và lá trong SPSS [Stem and Leaf Plot]

Bảng biểu đồ thân và lá [steam and leaf plot] trong spss biểu diễn khá hay về sự phân bổ và tần số của các nhóm về một giá trị định lượng. Nhìn vào đó có thể thấy ngay sự phân tầng dữ liệu được sắp xếp thành dạng hình cây và lá từ nhỏ đến lớn, quy định theo hàng chục và đơn vị.

Bảng kết quả biểu đồ thân và lá [Stem Leaf chart]

Cách đọc biểu đồ thân và lá trong spss cũng khá đơn giản. Nhìn bảng kết quả cần chú ý 2 điểm đầu tiên:

Stem Width: Trong biểu đồ thân và lá [Stem vs Leaf] độ rộng của thân là 10 [Stem Width].

Each Leaf – 1 Cases: mỗi lá là 1 giá trị quan sát.

Do đó mỗi con số ở phần thân đại diện cho hàng chục, ở lá đại diện cho hàng đơn vị.

Chiếu theo bảng biểu đồ thân và lá của thu nhập với nhân tố giới tính gồm có 2 bảng cho nhóm giới tính nam và nhóm giới tính nữ.

Nhóm giới tính nam tại dòng đầu tiên có 2 trường hợp có thu nhập trung bình là 03 Triệu đồng/tháng. Dòng thứ 2 có 11 trường hợp có thu nhập từ 5 đến dưới 10 triệu [5, 6, 7, 8 , 9 … Triệu]. Xem tương tự cho các dòng còn lại.

Nhóm giới tính nữ dòng đầu tiên cho thấy không có trường hợp nào có thu nhập dưới 5 Triệu. Dòng thứ hai có 5 trường hợp thu nhập từ 5 – dưới 10 triệu [5, 6, 9, 9, 9 triệu]. Xem tương tự cho các dòng bên dưới.

Kết luận

Như vậy trong bài viết này, tôi đã trình bày cách xử lý thống kê mô tả với thủ tục explore trong SPSS thuộc phần 3 trong series thống kê mô tả spss một cách đơn giản. Bạn có thể tự thực hành, áp dụng thử các cách làm trên.

Chủ Đề