Cách xử lý số liệu trên jmp

Cách xử lý số liệu trên jmp

1.222
lượt xem
152
download

Cách xử lý số liệu trên jmp
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

SAS (Statistical Analysis Systems) áp dụng ngôn ngữ lập trình để phân tích số liệu. Riêng SAS/STAT bao gồm trên 60 phương thức phân tích số liệu áp dụng cho phân tích phương sai, hồi qui, phân tích tổng hợp, và phân tích đa biến. Dữ liệu lập trình trên word để xử lý thống kê của SAS ngắn gọn, khoảng 9 hàng với 24 từ, được thiết kế trước và số liệu được chuyển trực tiếp từ file word, excel, là dạng lưu trữ số liệu thống kê phổ biến nhất. Ngoài ra có thể sử dụng số liệu lưu...

Chủ đề:

  • ứng dụng SAS
  • phân tích số liệu
  • số liệu thí nghiệm
  • statistical analysis systems
  • xử lý thống kê SAS
  • lưu trữ số liệu thống kê

Cách xử lý số liệu trên jmp

Nội dung Text: BÀI GIẢNG ỨNG DỤNG SAS PHÂN TÍCH SỐ LIỆU THÍ NGHIỆM

  1. PGS. TS. LÊ QUANG HƯNG ỨNG DỤNG SAS PHÂN TÍCH SỐ LIỆU THÍ NGHIỆM 2009 Lời mở đầu
  2. SAS (Statistical Analysis Systems) áp dụng ngôn ngữ lập trình để phân tích số liệu. Riêng SAS/STAT bao gồm trên 60 phương thức phân tích số liệu áp dụng cho phân tích phương sai, hồi qui, phân tích tổng hợp, và phân tích đa biến. Dữ liệu lập trình trên word để xử lý thống kê của SAS ngắn gọn, khoảng 9 hàng với 24 từ, được thiết kế trước và số liệu được chuyển trực tiếp từ file word, excel, là dạng lưu trữ số liệu thống kê phổ biến nhất. Ngoài ra có thể sử dụng số liệu lưu trữ từ file text, file của SAS để phân tích thống kê. Cách sắp xếp bảng số liệu excel theo cột hay hàng, mã hóa bằng số hay tên giống cây trồng, tên phương pháp, xử lý nhiều chỉ tiêu rất thuận tiện trong file mẫu word. Sau khi lập trình đầy đủ số liệu để tạo file mẫu (sample), xử lý bằng lệnh RUN với thời gian rất nhanh, chỉ một vài giây cho tất cả các cách xử lý 1 lần như: phân tích phương sai, xếp nhóm các nghiệm thức của các yếu tố, tính ma trận tương tác các yếu tố, vẽ đồ thị… Kết quả phân tích được giải thích rất rõ ràng về so sánh các nghiệm thức và xếp nhóm (grouping) theo ký tự A, B cho yếu tố có hai nghiệm thức và A, B, C, D, E cho yếu tố có nhiều nghiệm thức. Các giá trị xác suất cho các yếu tố đơn và tổ hợp đều thể hiện rõ trong bảng ANOVA. Quyển sách này trình bày một số phương pháp xử lý số liệu thí nghiệm thông dụng trong ngành nông sinh học liên quan đến khoa học cây trồng, căn cứ trên các bài tập mẫu bao gồm các phương thức xử lý ANOVA, tương quan, hồi qui thực hiện cho thí nghiệm phổ biến nhất. Các bài tập mẫu thống kê về các lĩnh vực khác như y học, hóa học, xã hội, cơ học … có thể tham khảo trong chương trình của phần mềm SAS (phần Help > Using this windows > Sample SAS Programs and Applications). Ngoài ra SAS có thể xử lý số liệu với nhiều lệnh, bắt đầu từ thanh công cụ với lệnh Solutions > Analysis > Analyst > Open với file Excel, file SAS> Statistics > ANOVA. Rất mong được sự góp ý để quyển sách được sử dụng thuận tiện hơn. Các góp ý xin gửi về: PGS.TS Lê Quang Hưng Khoa Nông học, Đại học Nông Lâm TP HCM. Liên hệ E-mail: Trân trọng, Tác giả Update: 29-7-09, 86 tr. Mục lục 1
  3. Chương 1 PHƯƠNG PHÁP PHÂN TÍCH PHƯƠNG SAI (ANOVA), XẾP NHÓM (GROUPING) NGHIỆM THỨC VÀ SO SÁNH TƯƠNG TÁC (INTERACTION) 1.1. Mục tiêu 3 1.2. Nguồn số liệu theo dõi thí nghiệm 3 1.3. Tạo file word mẫu (sample) 4 1.4. Xử lý số liệu với SAS 6 1.5. Giải thích kết quả 8 1.6. Trình bày kết quả 9 1.7. Phương thức tạo file mẫu cho thí nghiệm hai yếu tố 10 1.8. Ý nghĩa các từ và chuyển đổi giá trị 17 1.9. Ô cơ sở (plot size) và lặp lại (replications) 18 Chương 2 THÍ NGHIỆM BỐ TRÍ HOÀN TOÀN NGẪU NHIÊN (Completely Randomized Design, CRD) 2.1. Thí nghiệm hoàn toàn ngẫu nhiên một yếu tố 18 2.2. Thí nghiệm hoàn toàn ngẫu nhiên hai yếu tố 22 Chương 3 THÍ NGHIỆM KHỐI ĐẦY ĐỦ NGẪU NHIÊN (Randomized Complete Block Design, RCBD) 3.1. Khối đầy đủ hoàn toàn ngẫu nhiên một yếu tố 24 3.2. Kiểu ô vuông la tinh 26 3.3. Khối đầy đủ ngẫu nhiên hai yếu tố 28 3.4. Thí nghiệm lô phụ 34 3.5. Thí nghiệm lô sọc 47 3.6. Thí nghiệm ba yếu tố 51 3.7. Các lệnh (SAS Code) để xử lý số liệu tính phương sai (ANOVA) thông dụng 59 Chương 4 TÍNH GIÁ TRỊ TRUNG BÌNH, T-TEST, CHI- BÌNH PHƯƠNG TƯƠNG QUAN VÀ HỒI QUI 4.1. Tính giá trị trung bình 64 4.2. T- test 66 4.3. Chi-bình phương 67 4.4. Ma trận tương quan 68 4.5. Hồi qui tuyến tính đơn biến 71 4.6. Hồi qui tuyến tính đa biến 72 4.7. Hồi qui đa biến bậc hai 75 4.8. Tối ưu hóa và xác định điểm 77 4.9. Đồ thị hình lưới chiếu mặt phẳng ba chiều 80 Tài liệu tham khảo 86 Chương 1 2
  4. PHƯƠNG PHÁP PHÂN TÍCH PHƯƠNG SAI (ANOVA), XẾP NHÓM (GROUPING) NGHIỆM THỨC VÀ SO SÁNH TƯƠNG TÁC (INTERACTION) 1.1. Mục tiêu: Mục tiêu của phân tích ANOVA (ANalysis Of VAriance) là xác định các nghiệm thức có ý nghĩa khi giá trị tính F nhỏ hơn mức xác suất (probability) p < 0,05 hay p < 0,01 là mức thường dùng trong nông nghiệp, sinh học. Sau đó các nghiệm thức được xếp nhóm (grouping, SAS, 2004; homogeneous grouping: nhóm tương đồng (NRCS, 2007) với các ký tự A, B cho hai nghiệm thức và A, B, C, D, E cho nhiều nghiệm thức là để so sánh sai khác và chọn được nghiệm thức phù hợp của thí nghiệm. Đối với thí nghiệm nhiều yếu tố, cần có so sánh tương tác (interaction) của các yếu tố. Các mẫu bài tập được tạo ra từ file excel và word để dễ sử dụng và lưu số liệu ở dạng .doc, .xls, .sas. 1.2. Nguồn số liệu theo dõi thí nghiệm: Số liệu được thu thập, xử lý và lưu từ file excel tùy theo kiểu bố trí thí nghiệm. Thí dụ so sánh năng suất (kg/ô 20 m2) năm giống cải ngọt lần lượt là G22, Z15, X31, K14, D25, có thể ghi bằng số nghiệm thức là 1, 2 , 3, 4, 5; hoặc ghi tên giống; được bố trí thí nghiệm kiểu khối đầy đủ hoàn toàn ngẫu nhiên (Randomized Complete Block Design) bốn khối (I, II, III, IV). Năm nghiệm thức thí nghiệm được ghi bằng tên giống trong file excel, khối ghi trước, nghiệm thức ghi sau. Sơ đồ thí nghiệm Chiều biến thiên Hướng dốc cao I 1 3 2 5 4 9.00 7.00 10.28 14.94 11.86 II 2 1 5 4 3 14.59 8.00 14.63 11.99 6.00 III 3 4 2 1 5 8.23 11.77 15.15 7.00 13.81 IV 5 1 3 2 4 14.90 9.12 7.40 15.00 8.00 thấp Cách ghi số liệu lưu trong file excel khoi nthuc nsuat 1 G22 9.00 1 Z15 10.28 1 X31 7.00 1 K14 11.86 1 D25 14.94 2 G22 8.00 2 Z15 14.59 2 X31 6.00 2 K14 11.99 2 D25 14.63 3 G22 7.00 3 Z15 15.15 3 X31 8.23 3 K14 11.77 3 D25 13.81 3
  5. 4 G22 9.12 4 Z15 15.00 4 X31 7.40 4 K14 8.00 4 D25 14.90 Để phân tích kết quả, cần thực hiện: - Tạo file mẫu word - Xử lý với chương trình thống kê SAS - Ghi lại bảng ANOVA, nếu khác biệt của nghiệm thức ở mức p < 0,05 hay p < 0,01 thì chọn xếp nhóm cho phù hợp. Ghi ký tự vào các trị trung bình của nghiệm thức để xếp nhóm. Nếu p > 0,05 các nghiệm thức không khác nhau (ns, non- significant). - Ghi LSD (khác biệt có nghĩa nhỏ nhất), xác suất p và CV%. 1.3. Tạo file word mẫu (sample): file mẫu là file thông dụng để xử lý bằng chương trình SAS với các lệnh (command) ANOVA và xếp nhóm. File word mẫu được sử dụng và xử lý cho nhiều file và nhiều chỉ tiêu có thể một lần trong SAS. Có thể sử dụng file excel để tạo file mẫu. File word mẫu gồm ba phần: (1) nhập lệnh khai biến, (2) nhập số liệu từ excel (hoặc trực tiếp, từ các file khác) và (3) nhập lệnh xử lý ANOVA và xếp nhóm. Thí nghiệm kiểu khối đầy đủ ngẫu nhiên đơn yếu tố, theo dõi năng suất của năm giống cải ngọt (kg/ô 20 m2), trồng trên bốn khối. Tổng số ô là 4 x 5 = 20 ô. Các lệnh xử lý như sau: - DATA: tên file, ghi từ một đến nhiều chữ như DATA; hay DATA CAI NGOT; - INPUT: chọn ký hiệu cho input, chỉ ghi một ký tự hay một từ, tối đa là tám ký tự. Nếu nhiều từ cần có gạch nối dài, hoặc xác định độ dài length$10 (mười ký tự). Nếu dùng bảng hàng ngang có các biến nối tiếp, ghi: INPUT T Y@@; Datalines; (thay cho cards;) * Cách 1: K (Khối), T (nghiệm thức), Y (năng suất), có cách một khoảng hoặc dấu $ như INPUT K T Y; hay INPUT K $ T $ Y; * Cách 2: ghi thẳng một từ cho một biến số: INPUT KHOI NTHUC NSUAT; - CARDS; lệnh nhập số, kết thúc bằng dấu ; - Số liệu excel với các số ghi dấu theo hệ ngôn ngữ Anh Mỹ: 0.5 thay vì 0,5 (tiếng Việt thì chương trình không xử lý được). - PROC: PROCEDURE, cách xử lý, như ANOVA, GLM, REG, SRREG (hồi qui), PROC ANOVA; riêng PROC GLM; được sử dụng kết hợp tính ANOVA và so sánh tương tác các yếu tố. - CLASS: xếp loại các biến dùng phân tích, gồm có khối (K) và nghiệm thức (T), CLASS K T; - MODEL: mô hình phân tích năng suất (Y) = khối (K) và nghiệm thức (T) MODEL Y = K T; - MEANS: liệt kê các giá trị trung bình nghiệm thức (T) MEANS T; - LSD ALPHA = 0.01: xếp nhóm các giá trị trung bình nghiệm thức ở mức alpha = 0.01. Có thể chọn DUNCAN khi trên năm giá trị trung bình nghiệm thức. Alpha chọn ở mức alpha = 0.05 hay alpha = 0.01. Nếu ghi LSD; mặc định xếp nhóm ở mức p = 0.05. Nếu muốn chọn cả hai, ghi đồng thời: MEANS T / LSD ALPHA = 0.05; MEANS T / LSD ALPHA = 0.01; 4
  6. SAS xử lý cả hai, khi đó xem trung bình các nghiệm thức ở bảng xếp nhóm và chọn mức có nghĩa p
  7. CARDS; …… ; PROC ANOVA; CLASS KHOI NTHUC; MODEL NSUAT = KHOI NTHUC; MEANS NTHUC / LSD ALPHA=0.05; TITLE ‘NANG SUAT’; RUN; * Ghi chú về xếp hạng các nghiệm thức: - Thí nghiệm từ hai đến năm nghiệm thức chọn so sánh Fisher’s LSD test, ghi: MEANS NTHUC / LSD; kết quả xếp nhóm mặc định với APHA = 0.05; Least Significant Difference (sai biệt nhỏ nhất có nghĩa). Xếp nhóm ở mức khác biệt p = 0,01 nếu ghi ALPHA = 0.01. - Thí nghiệm từ sáu nghiệm thức trở lên chọn Duncan test, ghi: MEANS NTHUC / DUNCAN; kết quả xếp nhóm mặc định với APHA = 0.05 (Trịnh Công Thành, 2003). Trắc nghiệm đa đoạn Duncan (Duncan’s Multiple Range Test) xếp nhóm ở mức khác biệt p = 0,01 nếu ghi ALPHA = 0.01. Duncan’s Multiple Range Test xếp nhóm toàn thí nghiệm khi trên bốn nghiệm thức. 1.4. Xử lý số liệu với SAS - Mở chương trình (ex: SAS v.8, v.9), giao diện có các phần cho xử lý thống kê như Program editor, Log, Ouput ở thanh bar phía dưới cùng. Chọn (click) phần Program editor. Hình 1.1. Giao diện của SAS version 8 - Copy file word mẫu và patse vào phần Program editor. - Có thể mở trực tiếp dạng file lưu từ .sas hoặc word .txt. 6
  8. Hình 1.2. Program Editor để chuyển số liệu từ file word mẫu File word mẫu để phân tích ANOVA, khối đầy đủ ngẫu nhiên, năm nghiệm thức, bốn khối. Ký hiệu: K (Khối), T (nghiệm thức), Y (năng suất cải ngọt kg/ô 20 m2). Trình tự xử lý: - Chuyển file mẫu (copy và paste) từ DATA đến RUN; vào Program Editor. DATA; INPUT K $ T $ Y; CARDS; 1 G22 9.00 1 Z15 10.28 1 X31 7.00 1 K14 11.86 1 D25 14.94 2 G22 8.00 2 Z15 14.59 2 X31 6.00 2 K14 11.99 2 D25 14.63 3 G22 7.00 3 Z15 15.15 3 X31 8.23 3 K14 11.77 3 D25 13.81 4 G22 9.12 4 Z15 15.00 4 X31 7.40 4 K14 8.00 4 D25 14.90 ; PROC ANOVA; 7
  9. CLASS K T; MODEL Y = K T; MEANS T / LSD ALPHA=0.01; TITLE ‘NANG SUAT THUC THU’; RUN; Lưu ý: Có thể dùng mẫu này để xử lý nhiều chỉ tiêu, chỉ cần thay mức alpha=0.05 hay alpha=0.01 sau khi đã xem kết quả bảng ANOVA, và tựa đề (title) khi nhập số cho các chỉ tiêu khác. - Click vào hình ở thanh công cụ (task bar) để xử lý số liệu (Run→Submit). - Xem kết quả trong Ouput: lưu bằng Select all→ Copy, paste vào word, hoặc save .sas. - Thời gian xử lý cpu time = 0.02 seconds. NANG SUAT THUC THU The ANOVA Procedure Class Level Information Class Levels Values K 4 1234 T 5 D25 G22 K14 X31 Z15 Number of observations 20 NANG SUAT THUC THU The ANOVA Procedure Dependent Variable: Y Sum of Source DF Squares Mean Square F Value Pr > F Model 7 170.8494350 24.4070621 8.88 0.0006 Error 12 32.9776200 2.7481350 Corrected Total 19 203.8270550 R-Square Coeff Var Root MSE Y Mean 0.838208 15.16212 1.657750 10.93350 Source DF Anova SS Mean Square F Value Pr > F K 3 0.9092550 0.3030850 0.11 0.9524 T 4 169.9401800 42.4850450 15.46 0.0001 NANG SUAT THUC THU The ANOVA Procedure t Tests (LSD) for Y NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate. Alpha 0.01 Error Degrees of Freedom 12 Error Mean Square 2.748135 Critical Value of t 3.05454 Least Significant Difference 3.5806 Means with the same letter are not significantly different. t Grouping Mean N T A 14.570 4 D25 A B A 13.755 4 Z15 B 8
  10. B C 10.905 4 K14 C D C 8.280 4 G22 D D 7.158 4 X31 1. 5. Giải thích kết quả: Xem bảng ANOVA The ANOVA Procedure Dependent Variable: Y Sum of Source DF Squares Mean Square F Value Pr > F Model 7 170.8494350 24.4070621 8.88 0.0006 Error 12 32.9776200 2.7481350 Corrected Total 19 203.8270550 R-Square Coeff Var Root MSE Y Mean 0.838208 15.16212 1.657750 10.93350 Source DF Anova SS Mean Square F Value Pr > F K 3 0.9092550 0.3030850 0.11 0.9524 T 4 169.9401800 42.4850450 15.46 0.0001 - Nghiệm thức T có F Value 15,46 với Pr > F là
  11. 60 65 66 59 56 62 S1 P2 S3 P1 S3 P2 S1 P1 S2 P2 S2 P1 II 45 55 57 58 50 59 III S1 P1 S3 P1 S1 P2 S2 P1 S2 P2 S3 P2 55 51 43 54 45 50 Nhập số liệu với ký hiệu: K (khối), S (khoảng cách hàng), P (lượng phân lân), SP (yếu tố tương tác khoảng cách hàng và lượng phân lân, nếu không có tương tác không cần ghi cột này và không xếp nhóm). So sánh tương tác theo Dunnett test, xếp nhóm Duncan sáu giá trị trung bình nghiệm thức (tất cả là 2 x 3 = 6 giá trị trung bình nghiệm thức). Trình tự phân tích: a. Tạo file mẫu xử lý ANOVA và xếp nhóm nghiệm thức S và P. b. Tính xác suất p so sánh tương tác hai yếu tố S*P theo Dunnett test. c. Ghi kết quả phân tích vào bảng. 1.7. 1. Tạo file mẫu tính tương tác, không xếp nhóm các nghiệm thức trung bình của S và P. Kết quả sẽ cho bảng phân tích phương sai, tính tương tác S*P theo Dunnett test. DATA; INPUT K S P Y; CARDS; 1 1 1 65 1 1 2 56 1 2 1 60 1 2 2 62 1 3 1 59 1 3 2 66 2 1 1 58 2 1 2 45 2 2 1 59 2 2 2 50 2 3 1 55 2 3 2 57 3 1 1 55 3 1 2 43 3 2 1 54 3 2 2 45 3 3 1 51 3 3 2 50 ; PROC GLM; CLASS K S P; MODEL Y = K S P S*P; MEAN S P / LSD ALPHA=0.01; MEAN S*P / DUNCAN ALPHA=0.01; LSMEANS S*P / PDIFF ADJUST=DUNNETT; TITLE ‘2 YEU TO’; RUN; 1.7. 2. Tạo file mẫu tính tương tác, xếp nhóm các nghiệm thức trung bình của S và P. 10
  12. Ghi thêm cột SP (yếu tố tương tác khoảng cách hàng và lượng phân lân để xếp nhóm khi tương tác S*P có nghĩa). Kết quả sẽ cho bảng phân tích phương sai, tính tương tác S*P theo Dunnett test, xếp nhóm các trung bình nghiệm thức của các yếu tố như sau: DATA; INPUT K $ S $ P $ SP $ Y; CARDS; 1 1 1 S1P1 65 1 1 2 S1P2 56 1 2 1 S2P1 60 1 2 2 S2P2 62 1 3 1 S3P1 59 1 3 2 S3P2 66 2 1 1 S1P1 58 2 1 2 S1P2 45 2 2 1 S2P1 59 2 2 2 S2P2 50 2 3 1 S3P1 55 2 3 2 S3P2 57 3 1 1 S1P1 55 3 1 2 S1P2 43 3 2 1 S2P1 54 3 2 2 S2P2 45 3 3 1 S3P1 51 3 3 2 S3P2 50 ; PROC GLM; CLASS K S P; MODEL Y = K S P S*P; MEAN S P / LSD ALPHA=0.01; MEAN S*P / DUNCAN ALPHA=0.01; LSMEANS S*P / PDIFF ADJUST=DUNNETT; TITLE ‘2 YEU TO’; RUN; PROC GLM; CLASS K SP; MODEL Y = K SP; MEAN SP / DUNCAN ALPHA=0.01; RUN; 2 YEU TO The GLM Procedure Class Level Information Class Levels Values K 3 123 S 3 123 P 2 12 Number of observations 18 2 YEU TO The GLM Procedure Dependent Variable: Y Sum of Source DF Squares Mean Square F Value Pr > F Model 7 684.6666667 97.8095238 14.53 0.0002 11
  13. Error 10 67.3333333 6.7333333 Corrected Total 17 752.0000000 R-Square Coeff Var Root MSE Y Mean 0.910461 4.717940 2.594867 55.00000 Source DF Type I SS Mean Square F Value Pr > F K 2 417.3333333 208.6666667 30.99 F K 2 417.3333333 208.6666667 30.99
  14. The GLM Procedure Level of Level of --------------Y-------------- S P N Mean Std Dev 1 1 3 59.3333333 5.13160144 1 2 3 48.0000000 7.00000000 2 1 3 57.6666667 3.21455025 2 2 3 52.3333333 8.73689495 3 1 3 55.0000000 4.00000000 3 2 3 57.6666667 8.02080628 2 YEU TO The GLM Procedure Least Squares Means Adjustment for Multiple Comparisons: Dunnett H0:LSMean= Control S P Y LSMEAN Pr > |t| 1 1 59.3333333 1 2 48.0000000 0.0013 2 1 57.6666667 0.8899 2 2 52.3333333 0.0301 3 1 55.0000000 0.2208 3 2 57.6666667 0.8899 Giải thích: sử dụng mức xác suất p-value để so sánh tương tác theo Dunnett test (Adjustment for Multiple Comparisons: Dunnett), khi p < 0,05 thì các giá trị trung bình bình phương có ảnh hưởng độc lập khác nhau, nếu p > 0,05 thì các giá trị này ảnh hưởng như nhau. Phương pháp so sánh Dunnett test cho thấy: các tương tác S1P1, S2P1, S3P1 và S3P2 có ảnh hưởng như nhau đến năng suất (p từ 0,2208 đến 0,8899). Tương tác ảnh hưởng độc lập là S1P2 (p = 0,0013) và S2P2 (p = 0,0301). 2 YEU TO The GLM Procedure Class Level Information Class Levels Values K 3 123 SP 6 S1P1 S1P2 S2P1 S2P2 S3P1 S3P2 Number of observations 18 2 YEU TO The GLM Procedure Dependent Variable: Y Sum of Source DF Squares Mean Square F Value Pr > F Model 7 684.6666667 97.8095238 14.53 0.0002 Error 10 67.3333333 6.7333333 Corrected Total 17 752.0000000 R-Square Coeff Var Root MSE Y Mean 0.910461 4.717940 2.594867 55.00000 Source DF Type I SS Mean Square F Value Pr > F K 2 417.3333333 208.6666667 30.99
  15. Source DF Type III SS Mean Square F Value Pr > F K 2 417.3333333 208.6666667 30.99
  16. Tương tác ảnh hưởng độc lập là bón lân với khoảng cách hàng 45 cm (S1P2 với p = 0,0013) và 90 cm (S2P2 với p = 0,0301). Ghi chú: phân tích tương tác các giá trị dựa trên số trung bình bình phương nhỏ nhất: - Khác biệt means và lsmeans: Số trung bình (means) = tổng số các giá trị / số giá trị (theo số học). Số trung bình bình phương nhỏ nhất (lsmeans) = tổng số các giá trị kết hợp tuyến tính / số giá trị, được dùng để so sánh tương tác A*B, A*B*C.  Nếu số giá trị đầy đủ trong bố trí thí nghiệm nhiều yếu tố, số trung bình bằng với số trung bình bình phương nhỏ nhất.  Nếu thiếu một số giá trị, số trung bình khác với số trung bình bình phương nhỏ nhất. Xem số liệu bảng sau: Số trung bình sẽ là: Số trung bình bình phương nhỏ nhất: Nhưng thiếu 1 số như bảng sau: Số trung bình = (4 + 6 + 2 + ....+ 4 + 2 + 3)/8 = 3,625. Trái lại, số trung bình bình phương nhỏ nhất = (4 + 4 + 3)/3 = 3,667. - Nếu quan tâm đến so sánh nhiều giá trị độc lập và không quan tâm đến nhiều tương tác, sử dụng t test lặp lại với LSD. - Nếu quan tâm đến so sánh tất cả các giá trị từng cặp, áp dụng Tukey test hoặc so sánh tất cả giá trị với một giá trị đối chứng thì sử dụng Dunnett test để có tương tác rõ nhất (SAS, 2004). - So sánh giá trị p điều chỉnh giải thích tương tác của A*B, căn cứ trên giả thiết căn bản là H0: LSMean(i) = LSMean(j) gọi là giả thiết null, có nghĩa là các trị số giống nhau. Khi so sánh nhiều trị số với nhau, giá trị p điều chỉnh (adjusted p-value) là giá trị mức sai số chung nhỏ nhất (FWE, Familywise Error Rate) để bác bỏ giả thiết trên (Westfall, 2008). Giải thích so sánh nhiều giá trị: 15
  17. - Khi so sánh, nếu không bác bỏ giả thiết null H0: các trị số giống nhau. - Duncan multiple range test (DMRT) sử dụng so sánh t test cho nhiều giá trị trung bình với trên bốn giá trị. LSD áp dụng cho hai biến rất dễ dàng và không cần dùng DMRT. 1.8. Ý nghĩa các từ và chuyển đổi giá trị - SD (Standard deviation, độ lệch chuẩn): mức độ biến động của dãy A so với dãy B, mặc dù hai giá trị trung bình của hai dãy bằng nhau. - CV (Coefficience of variance, hệ số biến thiên): so sánh mức biến động của nhiều mẫu. - SE (Standard error, sai số chuẩn): sai số của tổng các giá trị. - Chia tổ: chia nhỏ thành tổ khi có số liệu thu thập lớn. Áp dụng công thức K = 5log n. Ex: có 50 cây, K = 5log 50 = 8,49; chọn tám tổ. Khoảng cách tổ C = (Xmax-Xmin)/K Tổ một: 3- 4,4 ; tổ hai: 4,5-5,9 ; tổ ba: 6 -7,4 … (Phạm Chí Thành, 1976). Chuyển đổi giá trị (transformation) rất cần để so sánh khác biệt các giá trị trung bình, vì không chuyển giá trị, thống kê không khác biệt với LSD lớn, nhưng chuyển đổi giá trị thì thống kê có khác biệt có nghĩa vì LSD nhỏ (Clewer, 2001). - Số liệu là đơn vị số x từ 1 đến 35, chuyển sang yi = ln (xi), (Clewer, 2001). - Số liệu là đơn vị số có x = 0,02 cộng 1 vào các trị số và đổi sang yi = log (xi+1), lưu ý phải có giá trị giả định lớn hơn 1 mới tính log được. Vì có số “0” nên cần giả định (assumption) để tính số hợp lý (Phạm Chí Thành, 1976 và Clewer, 2001). Trọng lượng khô của lúa cỏ (red rice) trong thí nghiệm ba nghiệm thức từ 0,08 đến 32 g/m2, được đổi số liệu sang log (x+1) trước khi thống kê so sánh LSD (Catala, 1993). - số liệu là % với trị số x từ 0 - 30 (sau khi cộng thêm 0,5 hoặc 1 cho các giá trị (Phạm Chí Thành, 1976) và từ 70 - 100, có thể chuyển yi = √% (Clewer, 2001). Chuyển đổi số liệu sang √(x + 0,5) đối với chỉ số bệnh từ 1,05 đến 2,98 theo thí nghiệm của Taa và ctv (2002). - số liệu là % với trị số x từ 40 - 70% không cần chuyển đổi vì kết quả thống kê không khác giữa số nguyên và số liệu chuyển đổi. - số liệu là % với trị số x từ 1 đến 100, chuyển sang góc (angular) yi = arcsin√%, thường gặp trong việc tính tỉ lệ nảy mầm, tỉ lệ ra rễ với tác động của chất điều hòa sinh trưởng, tỉ lệ nấm bệnh. Thí nghiệm khảo sát tỉ lệ nảy mầm của hạt Echinacea purpurea từ 4 đến 82% được chuyển sang góc arcsin√% (Qu và ctv, 2005). Lưu ý chuyển đổi trong excel: - chuyển log: yi = LN(x) - chuyển tỉ lệ %: đổi p = 99 →0.99→SQRT(0.99) = x1→ASIN(x1) = x2→DEGREES(x2) = giá trị ARCSIN√% = yi 1.9. Ô cơ sở (plot size) và lặp lại (replications) 16
  18. - Ô cơ sở cho cây nhỏ: 20-40 cây, cà phê: 4 cây, cây ăn quả nhỏ: 10-20 cây, rau: 20-30 m2, thuốc BVTV: 10 m2. Thí nghiệm sản xuất: 100 m2. Sai số (e) cho 1 m2 = 19,6%, 10 m2 = 7,5%, 20 m2 = 2,9%, 50 m2 = 1,3% (Phạm Chí Thành, 1976). - Lặp lại (n): bốn lần là phù hợp, tối thiểu là ba lần, cần xác định n = ((V%)/(e%))2. Thí nghiệm năm loại đất cho năng suất cải có sai số chuẩn (SE) của trị số trung bình với ba lần lặp lại là 2,83; bốn lần lặp lại là 2,45 và năm lần lặp lại là 2,20 (Petersen, 1994). Chương 2 PHÂN TÍCH PHƯƠNG SAI THÍ NGHIỆM BỐ TRÍ HOÀN TOÀN NGẪU NHIÊN (Completely Randomized Design, CRD) 2.1. Thí nghiệm hoàn toàn ngẫu nhiên một yếu tố Áp dụng trong điều kiện đồng nhất về môi trường, độ dốc, ánh sáng, độ phì nhiêu của đất, bố trí trong phòng thí nghiệm. Tiện lợi của phương pháp này là các nghiệm thức có số lần lặp lại khác nhau, nhưng hạn chế là ít chính xác khi đơn vị thí nghiệm trong nghiệm thức không đồng nhất. Để khắc phục điều này, cần tăng nhiều số lần lặp lại và kích thước ô phải lớn, do đó tốn kém hơn (Clewer, 2001). Thí nghiệm dòng vi khuẩn ảnh hưởng hàm lượng đạm trên cỏ xa trục thảo. Thí nghiệm gồm sáu nghiệm thức tiêm chủng 6 nhóm dòng vi khuẩn ảnh hưởng đến hàm lượng đạm (mg N) của giống cỏ xa trục thảo đỏ (red clover), năm lần lặp lại. Năm nghiệm thức đầu cho năm dòng vi khuẩn Rhizobium trifolii riêng biệt kết hợp với hỗn hợp năm dòng vi khuẩn Rhizobium meliloti. Nghiệm thức compos = hỗn hợp năm dòng vi khuẩn Rhizobium trifolii với hỗn hợp năm dòng vi khuẩn Rhizobium meliloti (phỏng theo bài tập 2, phương pháp so sánh nhiều cách xếp hạng, xếp số theo hàng ngang với cách nhập số liệu là datalines, SAS, 1999). Tương tự, xếp số liệu theo hàng dọc cho kết quả xử lý như nhau. data; input T $ N @@; datalines; 3DOK1 19.4 3DOK1 32.6 3DOK1 27 3DOK1 32.1 3DOK1 33 3DOK5 17.7 3DOK5 24.8 3DOK5 27.9 3DOK5 25.2 3DOK5 24.3 3DOK4 17 3DOK4 19.4 3DOK4 9.1 3DOK4 11.9 3DOK4 15.8 3DOK7 20.7 3DOK7 21 3DOK7 20.5 3DOK7 18.8 3DOK7 18.6 3DOK13 14.3 3DOK13 14.4 3DOK13 11.8 3DOK13 11.6 3DOK13 14.2 COMPOS 17.3 COMPOS 19.4 COMPOS 19.1 COMPOS 16.9 COMPOS 20.8 ; proc anova; class T; model N = T; means T / tukey; means t / duncan waller; means t / lsd; title ‘vi khuan’; run; vi khuan 17
  19. The ANOVA Procedure Class Level Information Class Levels Values T 6 3DOK1 3DOK13 3DOK4 3DOK5 3DOK7 COMPOS Number of observations 30 vi khuan The ANOVA Procedure Dependent Variable: N Sum of Source DF Squares Mean Square F Value Pr > F Model 5 847.046667 169.409333 14.37 F T 5 847.0466667 169.4093333 14.37
  20. Kratio 100 Error Degrees of Freedom 24 Error Mean Square 11.78867 F Value 14.37 Critical Value of t 1.91873 Minimum Significant Difference 4.1665 Means with the same letter are not significantly different. Waller Grouping Mean N T A 28.820 5 3DOK1 B 23.980 5 3DOK5 B C B 19.920 5 3DOK7 C C D 18.700 5 COMPOS D E D 14.640 5 3DOK4 E E 13.260 5 3DOK13 vi khuan The ANOVA Procedure Duncan's Multiple Range Test for N NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate. Alpha 0.05 Error Degrees of Freedom 24 Error Mean Square 11.78867 Number of Means 2 3 4 5 6 Critical Range 4.482 4.707 4.852 4.954 5.031 Means with the same letter are not significantly different. Duncan Grouping Mean N T A 28.820 5 3DOK1 B 23.980 5 3DOK5 B C B 19.920 5 3DOK7 C C D 18.700 5 COMPOS D E D 14.640 5 3DOK4 E E 13.260 5 3DOK13 vi khuan The ANOVA Procedure t Tests (LSD) for N NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate. Alpha 0.05 Error Degrees of Freedom 24 Error Mean Square 11.78867 Critical Value of t 2.06390 Least Significant Difference 4.4818 Means with the same letter are not significantly different. 19

Cách xử lý số liệu trên jmp