Những điều bạn cần biết về chạy hồi quy SPSS


Hồi quy SPSS là bước kiểm định mô hình nghiên cứu sau khi chạy một loạt các phân tích Cronbach’s Alpha, EFA, Correlations để chọn lựa những biến độc lập thỏa mãn điều kiện cho yêu cầu hồi quy.

Hồi quy để xác định cụ thể trọng số của từng nhân tố độc lập tác động đến nhân tố phụ thuộc từ đó đưa ra được phương trình hồi quy cũng là mục đích của bài nghiên cứu. Xác định mức độ ảnh hưởng của từng nhân tố độc lập lên nhân tố phụ thuộc.

Nói một cách dễ hiểu, hồi quy sẽ giúp bạn biết một yếu tố góp phần nhiều hay ít hoặc thậm chí không đóng góp vào sự thay đổi của biến phụ thuộc. Từ đó đưa ra các giải pháp thiết thực và kinh tế nhất.

>>>Xem thêm bài viết liên quan: Những điều bạn cần biết về phân tích nhân tố khám phá trong SPSS

Những điều bạn cần biết về chạy hồi quy SPSS

1. Cách phân tích và đọc kết quả hồi quy đa biến trong SPSS

Về cách chạy hồi quy trong SPSS ở các nghiên cứu sử dụng phân tích định lượng, đã có nhiều tác giả hướng dẫn trên Internet. Đa phần những hướng dẫn này đều đi vào những phân tích cơ bản nhưng cũng khá đầy đủ để bạn trình bày đối với các bài luận thuộc phạm vi khóa luận, tiểu luận, báo cáo cấp độ sinh viên.

Riêng đối với các đề tài về nghiên cứu khoa học, luận văn cao học, thạc sĩ thì nghiên cứu cần sử dụng một số phân tích sâu hơn, sau khi phân tích, bạn cần thực hiện dò tìm xem thử các giả định hồi quy có bị vi phạm hay không.

Nếu bạn gặp khó khăn khi thực hiện phân tích hồi quy đa biến giá trị R2 hiệu chỉnh quá thấp, nhân tố độc bị loại không như ý muốn, xảy ra tự tương quan hoặc đa cộng tuyến,… bạn có thể tham khảo Dịch Vụ Xử Lý Số Liệu SPSS của Tri Thức Cộng Đồng.

Bài viết này Tri Thức Cộng Đồng sẽ chia sẻ đến bạn cách chạy hồi quy trong SPSS và tìm ra những vi phạm các giả định quan trọng trong hồi quy tuyến tính. Tương ứng với mỗi bảng kết quả xuất ra, Tri Thức Cộng Đồng đưa ra nhận xét và đọc kết quả hồi quy để bạn có thể hiểu rõ và diễn giải vào bài nghiên cứu của mình.

Giả sử bạn có một bộ dữ liệu SPSS đã tiến hành xong các kiểm định Cronbach Alpha và EFA, và bạn cũng đã tạo các biến đại diện cho từng nhóm nhân tố sau EFA. Các biến độc lập và phụ thuộc của bạn bao gồm:

  • Biến độc lập (Independent): F_NT, F_NTi, F_KSD, F_DM, F_KST, F_GT
  • Biến phụ thuộc (Dependent): F_YD
Hồi quy đa biến

Để tiến hành phân tích hồi quy tuyến tính bội, bạn click Analyze > Regression > Linear:

Phân tích hồi quy đa biến

Sau đó, bạn nhập biến phụ thuộc vào ô Dependent và các biến độc lập vào ô Independent:

Nhập các biến vào bảng

Tiếp theo trong mục Statistics, bạn sẽ click để chọn các mục như trong ảnh và chọn Continue:

Tích chọn thư mục

Đên đây bạn vào mục Plots, click chọn các mục như trong ảnh và chọn Continue. Mục Plots sẽ cho ra các biểu đồ phục vụ cho việc kiểm tra vi phạm các giả định hồi quy.

Tích chọn thư mục

Các mục còn lại để mặc định. Bạn sẽ không thay đổi các tùy chỉnh trong đó nhé.

Trở lại giao diện ban đầu, mục Method, bạn có thể chọn 2 phương pháp được sử dụng nhiều nhất là Stepwise và Enter, thường thì sẽ chọn Enter.

Nếu muốn tìm hiểu khi nào chạy phương pháp, bạn có thể tìm mua bộ sách “Phân tích dữ liệu nghiên cứu với SPSS” của thầy Hoàng Trọng và cô Mộng Ngọc nhé. Sau khi chọn xong phương pháp, bạn click vào OK:

Chạy hồi quy SPSS

SPSS sẽ cho ra rất nhiều bảng, nhưng bạn sẽ chỉ sử dụng một vài bảng để phục vụ cho bài nghiên cứu thôi. Chúng bao gồm: Model Summary, ANOVA và Coefficients. Tri Thức Cộng Đồng sẽ đọc kết quả lần lượt cho từng bảng này:

1.1. Bảng Model Summary

Bảng Model Summary

Trong bảng này, các bạn quan tâm 2 giá trị: Adjusted R Square (hoặc R Square)   Durbin-Watson.

Adjusted R Square tên gọi khác là R bình phương hiệu chỉnh, nó cho thấy mức độ ảnh hưởng của các biến độc lập lên biến phụ thuộc.

Ở đây 6 biến độc lập đưa vào ảnh hưởng 67.2% sự thay đổi của biến phụ thuộc, còn lại 32.8% là do các biến ngoài mô hình và sai số ngẫu nhiên. Thông thường, nghiên cứu có thể sử dụng nếu giá trị này từ 50% trở lên. Cái này không có ai quy định cả.

Quy tắc kiểm định của Durbin Watson

Durbin-Watson (DW) được sử dụng để kiểm định tự tương quan của các sai số kề nhau (hay còn gọi là tương quan chuỗi bậc nhất) có giá trị dao động trong khoảng từ 0 đến 4.

Khi các phần sai số không có tương quan chuỗi bậc nhất với nhau thì giá trị sẽ gần bằng 2 (từ 1 đến 3); khi càng lớn, gần về 4 có thì các phần sai số có tương quan nghịch; khi giá trị càng nhỏ, gần về 0 thì các phần sai số có tương quan thuận.

Lưu ý, đây là giá trị ước lượng thường dùng trong SPSS chứ không chính xác trong mọi trường hợp. Không có tự tương quan chuỗi bậc nhất thì dữ liệu thu thập là tốt. Cụ thể trong trường hợp này, k’ = 6, n = 125, tra bảng DW ta có dL = 1.651dU = 1.817. Gắn vào thanh giá trị DW, ta thấy 1.817 < 1.881 < 2.183, như vậy, không có sự tương quan chuỗi bậc nhất trong mô hình.

Thanh giá trị

1.2. Bảng ANOVA

Bảng ANOVA

Sau khi tạo xong một mô hình hồi quy tuyến tính, trước tiên bạn cần phải xem xét độ phù hợp của mô hình đối với tập dữ liệu qua giá trị Adjusted R Square (hoặc R Square)  như đã trình bày ở mục 1. Tuy nhiên, sự phù hợp này mới chỉ nói lên giữa mô hình bạn xây dựng được với tập dữ liệu là mẫu nghiên cứu.

Bạn khó khảo sát hết toàn bộ và gần như là không thể.

Trong nghiên cứu, bạn sẽ chỉ chọn ra một mẫu giới hạn để tiến hành khảo sát, sau đó suy ra tính chất chung của tổng thể.

Và kiểm định F trong bảng ANOVA chính là để xem xem mô hình hồi quy tuyến tính này có thể suy rộng ra và áp dụng được cho tổng thể hay không.

Cụ thể trong trường hợp này, giá trị sig của kiểm định F là 0.000 < 0.05. Như vậy, mô hình hồi quy tuyến tính xây dựng được phù hợp với tổng thể.

1.3. Bảng Coefficients

Bảng Coefficients

Để hiểu được các giá trị trong bảng này, thông thường bạn sẽ bế tắc bởi một trong hoặc nhiều trong các câu hỏi dưới đây:

+ Nên sử dụng hệ số hồi quy nào mới là đúng, chuẩn hóa hay chưa chuẩn hóa?

+ Vì sao có bài lại dùng hồi quy chưa chuẩn hóa, lại có bài dùng phương trình hồi quy chuẩn hóa?

+ Giảng viên này thì yêu cầu viết phương trình chuẩn hóa, giảng viên kia lại nằng nặc buộc viết phương trình chưa chuẩn hóa?

Đối với dạng đề tài nghiên cứu có mô hình với bảng câu hỏi sử dụng thang đo Likertvà chạy phân tích định lượng SPSS thì bạn nên sử dụng phương trình hồi quy chuẩn hóa. Lý do là gì thì bạn xem lại bên trên.

Tóm lại, trong bảng Coefficients, những mục các bạn cần lưu ý gồm cột Hệ số hồi quy chuẩn hóa Beta, cột giá trị Sig, cột VIF.

Đầu tiên là giá trị Sig kiểm định t từng biến độc lập, sig nhỏ hơn hoặc bằng 0.05 có nghĩa là biến đó có ý nghĩa trong mô hình, ngược lại sig lớn hơn 0.05, biến độc lập đó cần được loại bỏ.

Tiếp theo là hệ số hồi quy chuẩn hóa Beta, trong tất cả các hệ số hồi quy, biến độc lập nào có Beta lớn nhất thì biến đó ảnh hưởng nhiều nhất đến sự thay đổi của biến phụ thuộc. Do đó khi đề xuất giải pháp, các bạn nên chú trọng nhiều vào các nhân tố có Beta lớn.

Cuối cùng là VIF, giá trị này dùng để kiểm tra hiện tượng đa cộng tuyến. Theo nhiều tài liệu viết, VIF < 10 sẽ không có hiện tượng đa cộng tuyến. Tuy nhiên trên thực tế với các đề tài nghiên cứu có mô hình + bảng câu hỏi sử dụng thang đo Likert thì VIF < 2 sẽ không có đa cộng tuyến, trường hợp hệ số này lớn hơn hoặc bằng 2, khả năng cao đang có sự đa cộng tuyến giữa các biến độc lập.

Trong cột Tolerance, bạn sẽ thấy một số bài nghiên cứu hay tài liệu thường sử dụng hệ số này để kiểm tra đa cộng tuyến.

Tuy nhiên ở đây bạn sẽ không cần dùng đến, bởi vì hệ số này là nghịch đảo của VIF, nên bạn có thể sử dụng 1 trong 2, cái nào cũng được, thường mọi người hay dùng VIF hơn.

Như vậy phương trình hồi quy chuẩn hóa sẽ là:

F_YD = 0.317*F_NT + 0.414*F_NTi + 0.351 *F_KSD

+ 0.251*F_DM + 0.365*F_KST + 0.242*F_GT

1.4. Biểu đồ tần số phần dư chuẩn hóa Histogram

Vì những lý do như: phương sai không phải là hằng số, dùng mô hình sai, các phần dư không đủ nhiều để phân tích…nên phần dư có thể không tuân theo phân phối chuẩn

Do đó, bạn cần làm nhiều cách khảo sát khác nhau.

Một trong những cách khảo sát đơn giản nhất đó chính là xây dựng biểu đồ tần số của các phần dư Histogram.

Một cách khác nữa là căn cứ vào biểu đồ P-P Plot ở mục số 5 sẽ tìm hiểu sau mục này.

Biểu đồ tần số phần dư chuẩn hóa Histogram

1.5. Biểu đồ phần dư chuẩn hóa Normal P-P Plot

Thay vì khảo sát bằng biểu đồ Histogram, bạn cũng có thể sử dụng P-P Plot. Bởi vì đây cũng là một dạng biểu đồ khá phổ biến giúp nhận diện sự vi phạm giả định phần dư chuẩn hóa.

Biểu đồ phần dư chuẩn hóa Normal P-P Plot

1.6. Biểu đồ Scatter Plot kiểm tra giả định liên hệ tuyến tính

Biểu đồ phân tán Scatter Plot giữa các phần dư chuẩn hóa và giá trị dự đoán chuẩn hóa giúp bạn biết được dữ liệu hiện tại có vi phạm giả định liên hệ tuyến tính hay không. 

Biểu đồ Scatter Plot kiểm tra giả định liên hệ tuyến tính

Kết quả đồ thị xuất ra, các điểm phân bố của phần dư nếu có các dạng: đồ thị Parabol, đồ thị Cubic,.. hay các dạng đồ thị khác không phải đường thẳng thì dữ liệu của bạn đã vi phạm giả định liên hệ tuyến tính.

Nếu giả định quan hệ tuyến tính được thỏa mãn thì phần dư phải phân tán ngẫu nhiên trong một vùng xung quanh đường hoành độ 0 (trường hợp bạn đang biểu diễn phần dư chuẩn hóa Standardized Residual ở trục hoành; nhưng nếu các bạn biểu diễn giá trị này ở trục tung thì phải xem xét phân bố phần dư có tập trung quanh đường tung độ 0 hay không).

Cụ thể với tập dữ liệu bạn đang sử dụng, phần dư chuẩn hóa phân bổ tập trung xung quanh đường hoành độ 0, do vậy giả định quan hệ tuyến tính không bị vi phạm.

2. Mối liên hệ giữa hệ số hồi quy chuẩn hóa và chưa chuẩn hóa

Trong bước chạy hồi quy, khá nhiều bạn gặp phải khó khăn khi thấy bảng Coefficients của mình có tới 2 cột hệ số hồi quy:

Cột 1 – Hệ số B: Hệ số hồi quy chưa chuẩn hóa

Cột 2 – Hệ số Beta: Hệ số hồi quy chuẩn hóa

Trong phạm vi bài viết này, Tri Thức Cộng Đồng sẽ hướng dẫn cho bạn lý do tại sao lại có sự khác nhau về độ lớn giữa 2 dạng hệ số hồi quy, công thức chuyển đổi nào giữa 2 hệ số này.

Để xem chi tiết hơn, các bạn có thể tham khảo cuốn Phân tích dữ liệu nghiên cứu với SPSS – Tập 1, trang 241 của Hoàng Trọng & Chu Nguyễn Mộng Ngọc, ở đây mình sẽ rút trích công thức và giải thích đơn giản hơn để mọi người cùng nắm (bởi vì sách của thầy cô dùng nhiều thuật ngữ Toán thống kê nên khó hiểu). Công thức liên hệ giữa hệ số hồi quy chuẩn hóa và chưa chuẩn hóa như sau:

Công thức liên hệ giữa hệ số hồi quy chuẩn hóa và chưa chuẩn hóa

Giờ chúng ta sẽ đi cụ thể vào một bài làm mẫu để dễ hình dung đâu là B, Beta, S. Trong mô hình dưới đây, tác giả có các biến độc lập: TH, CN, DV, GT và biến phụ thuộc HL.

Bài làm mẫu

Sau 2 bước Cronbach Alpha và EFA, tiến hành tạo biến đại diện cho nhân tố. Bởi vì SPSS không chấp nhận tên biến là GT nên nhóm biến GT sẽ được tạo nhân tố đại diện là GTCN, các biến khác tạo bình thường lấy tên của biến quan sát.

Tạo biến đại diện cho nhân tố

Tiến hành chạy hồi quy bình thường: Analyze > Regression > Linear (thao tác mẫu trên SPSS 20)

Chạy hồi quy

Bạn đưa biến phụ thuộc và biến độc lập vào các ô tương ứng, có thể tùy chọn phương pháp chạy là Stepwise, Enter… tùy ý bạn, cái này không quan trọng trong phạm vi bài viết này. Tuy nhiên, bạn cần lưu ý, tại mục tùy chọn Statistics, bạn nhớ tích vào Descriptives.

Đưa biến vào ô thích hợp

Mục đích của việc này là để chúng ta chạy thống kê mô tả sơ bộ cho các nhân tố đại diện trước khi đi vào hồi quy, từ đó có thể lấy được giá trị S (Standard Deviation: Độ lệch chuẩn) nằm trong công thức ban đầu.

Descriptives Statistics

Kết quả thống kê mô tả ta có được:

  • Độ lệch chuẩn của biến phụ thuộc HL là: 0.432
  • Độ lệch chuẩn của biến độc lập CN là: 0.674

Tiếp theo bạn cần quan tâm đến bảng Coefficients, đây là bảng hệ số hồi quy:

Coefficients

Biến độc lập K trong công thức mình sẽ lấy ví dụ là biến CN. Biến phụ thuộc Y tương ứng sẽ là biến HL (tương tự cho các biến độc lập khác). Áp dụng công thức ta có:

Công thức

Giá trị 0.5866 hoàn toàn khớp với giá trị cột Beta trong bảng hệ số hồi quy Coefficients.

Chúc các bạn thành công!

Nguồn:Tri Thức Cộng Ðồng

0 0 vote
Article Rating
Subscribe
Notify of
guest
3 Comments
Oldest
Newest Most Voted
Inline Feedbacks
View all comments
Khánh Hà
Khánh Hà
1 year ago

bạn ơi cho mình hỏi có phải phương pháp Paired Samples T Test chỉ được áp dụng với numerical variables (biến số) k?

Mỹ Linh
Mỹ Linh
1 year ago

Add cho hỏi trong spss có phân tích được n yếu tố như khoáng chất, pH, nhiệt độ, lượng cacbon, nito…. ảnh hưởng lên sinh khối chăng hạn

Trịnh Kim Ngân
Trịnh Kim Ngân
10 months ago

Cho mình bản hướng dẫn sử dụng đầy đủ của phương pháp này với ạ

Hotline: 0946 88 33 50
Chat Zalo
Zalo: 0946.883.350
Chat với chúng tôi qua Zalo