Hướng dẫn phân tích hồi quy nhị phân Binary Logistic trong SPSS


Khái niệm hồi quy nhị phân (Binary Logistic) là gì? Phương trình hồi quy nhị phân ra sao? Các bước phân tích hồi quy nhị phân trên phần mềm SPSS như thế nào? Tất cả những thắc mắc của bạn sẽ được Tri Thức Cộng Đồng giải đáp trong bài viết này.

Hướng dẫn phân tích hồi quy nhị phân Binary Logistic trong SPSS

1. Khái niệm hồi quy nhị phân (Binary Logistic)

Trong trường hợp một doanh nghiệp muốn nghiên cứu xem liệu sản phẩm mới phát triển có khả năng bán được hay không, ngân hàng muốn nghiên cứu liệu người vay có khả năng trả nợ hay không thì mô hình hồi quy tuyến tính là không áp dụng được. Trong trường hợp này, chúng ta sử dụng mô hình hồi quy xác suất với biến nhị phân là Binary Logistics.

Hồi quy nhị phân còn có tên gọi khác là hồi quy Binary Logistic  được sử dụng để ước lượng xác suất một sự việc sẽ xảy ra. Trong đó biến số phụ thuộc (Y) là một biến số nhị phân (dichotomous – binary variable), theo đó Y thường được mã hoá là 1 và 0 (Y = 1, thành công; Y = 0, thất bại). Biến số độc lập trong hồi qui logistic có thể là biến số rời hoặc liên tục, biến số đơn hoặc đa biến số.

Trong cuộc sống và công việc, có rất nhiều hiện tượng như: tự nhiên, kinh tế, xã hội,… mà chúng ta cần dự đoán khả năng xảy ra của nó: chiến dịch quảng cáo A có được phê duyệt hay không, người vay ngân hàng có trả được nợ hay không, tập đoàn B có phá sản hay không, người dân có mua bảo hiểm ý tế hay không,…

Các biến nghiên cứu này được mã hóa thành 2 giá trị 0 và 1 – được gọi là biến nhị phân.

Bạn sẽ không thể phân tích với dạng hồi quy thông thường một khi biến phụ thuộc ở dạng nhị phân thì vì nó sẽ vi phạm các giả định.

Ví dụ khi biến phụ thuộc chỉ có hai biểu hiện thì không phù hợp khi giả định rằng phần dư có phân phối chuẩn, mà thay vào đó nó sẽ có phân phối nhị thức. Chính vì vậy, các kiểm định trong phép hồi quy thông thường sẽ bị mất hiệu lực thống kê.

2. Phương trình hồi quy nhị phân

Phương trình hồi quy nhị phân Binary Logistic như sau:

Phương trình hồi quy

Khả năng dự báo chính là đặc tính nổi bật của hồi quy nhị phân Binary Logistic. Thông qua phương trình hồi quy, bạn có phương trình mô hình hàm dự báo như sau:

Phương trình mô hình hàm dự báo

 

Trong đó Pi = E(Y = 1/X) = P(Y = 1) gọi là xác suất để sự kiện xảy ra (Y = 1) khi biến độc lập X có giá trị cụ thể Xi.

>>>Xem thêm bài viết liên quan: Những điều bạn cần biết về chạy hồi quy SPSS

3. Cách phân tích hồi quy nhị phân trên SPSS

Mời bạn cùng xem quá trình phân tích hồi quy nhị phân thông qua phần mềm SPSS trong ví dụ phía bên dưới.

Đây là nghiên cứu được thực hiện để xem xét khả năng trả nợ của các cá nhân để quyết định có nên cho những người này vay vốn hay không của một ngân hàng.

Biến phụ thuộc TraNo mang 2 giá trị, 0 mang ý nghĩa không trả nợ được, 1 mang ý nghĩa trả được nợ.

Biến phụ thuộc TraNo bị tác động bởi 3 biến độc lập trong mô hình tác động bao gồm:

– Trình độ học vấn (HocVan) mang giá trị: 1 – THCS, THPT; 2 – Cao đẳng; 3 – Đại học; 4 – Sau đại học

– Độ tuổi (Tuoi)

– Thu nhập hàng tháng (ThuNhap – ĐVT: triệu đồng)

Để thực hiện hồi quy nhị phân trên phần mềm SPSS 20. Bạn vào Analyze > Regression > Binary Logistic.

Thực hiện hồi quy nhị phân trên phần mềm SPSS 20

Nhập biến phụ thuộc Y vào trong Dependent. Nhập các biến độc lập vào trong Covariates.

Đưa biến vào các mục tương ứng

Trong Options. Click vào ô Classification plots, tiếp tục click vào Continue để quay lại cửa sổ ban đầu.

Classification plots

Trong Method, click chọn phương pháp Enter. Sau đó click OK để xuất các bảng kết quả.

Bảng Case Processing Summary sẽ cho bạn những thông tin mô tả đặc điểm dữ liệu đưa vào phân tích hồi quy nhị phân.

Cụ thể, có tất cả 300 quan sát được đưa vào phân tích (Included in Analysis), không có quan sát nào bị sót số liệu (Missing Cases), không có quan sát nào không được chọn (Unselected Cases).

Bảng Case Processing Summary

Bảng Dependent Variable Encoding cho biết biến phụ thuộc đang mang 2 giá trị, “Không được vay vốn” mã hóa là 0 và “Được vay vốn” mã hóa là 1.

Bảng Dependent Variable Encoding

Bạn không cần quan tâm mục Block 0, hãy bỏ chúng đi bởi vì các kết quả phân tích ở Block 0 nằm trong trường hợp không có bất cứ biến độc lập nào được đưa vào mô hình.

Bạn sẽ sử dụng kết quả ở Block 1: Mô hình với đầy đủ các biến độc lập được đưa vào xử lý.

Omnibus Tests of Model Coefficients

Nếu bạn gặp khó khăn khi thực hiện phân tích hồi nhị phân Binary Logistic vì mô hình bị loại hết các biến độc lập quan trọng, hãy liên hệ với Tri Thức Cộng Đồng để được hỗ trợ sử dụng Dịch Vụ Xử Lý Dữ Liệu SPSS. Với kinh nghiệm hoạt động hơn 10+ năm, chúng tôi cam kết sẽ mang đến cho bạn nhiều lợi ích nhất.

Bảng đầu tiên là Omnibus Tests of Model Coefficients.

Bảng này sẽ cho bạn kết quả phân tích các hệ số của mô hình.

Step 1 là bước thứ nhất khi chạy mô hình Logistic.

Vì ở đây sử dụng phương pháp Enter đưa các biến độc lập vào trong cùng một lần nên chỉ xuất hiện Step 1. Nếu như bạn sử dụng các phương pháp khác thì bảng này sẽ có thêm các Step 2, 3, 4 tùy thuộc vào số lượng biến.

Cột Chi-square và Sig. sẽ cho bạn kết quả của kiểm định Chi bình phương

Đây là kiểm định dùng để xem xét hệ số hồi quy của các biến độc lập có đồng thời bằng 0 hay không.

Vì sử dụng phương pháp Enter nên 3 giá trị sig của Step, Block và Model đều như nhau. Ở tình huống này, 3 chỉ số đều có sig bằng 0.000 < 0.05 (độ tin cậy 95%) nên mô hình hồi quy có ý nghĩa thống kê.

Bảng Model Summary

Bảng Model Summary thể hiện kết quả tóm tắt của mô hình.

Cột -2 Log likelihood (ký hiệu à -2LL) là một thông số nhằm so sánh các mô hình hồi quy với nhau, cụ thể mô hình nào mà có -2LL nhỏ hơn thì sẽ tốt hơn. Giả sử không có sự so sánh với mô hình hồi quy khác thì thông số này cũng sẽ không mang nhiều ý nghĩa .

Hai cột Cox & Snell R SquareNagelkerke R Square là giá trị R bình phương giả. Hồi quy logistic không sử dụng giá trị R bình phương giống với hồi quy tuyến tính. Tương tự như -2LL, 2 chỉ số này cũng được sử dụng để so sánh các mô hình hồi quy khác nhau trên cùng một bộ số liệu, cùng một biến phụ thuộc để xem mô hình nào tốt hơn.

Mô hình tốt hơn sẽ có R bình phương lớn hơn.

Bảng Classification Table

Bảng Classification Table chia đối tượng trả được nợ và không trả được nợ theo hai tiêu chuẩn: quan sát thực tế và dự đoán. Ý nghĩa:

  • Trong tổng số 129 quan sát không trả được nợ, thì dự đoán có 127 quan sát không trả được, tỉ lệ dự đoán đúng là 127/129 = 98.4%.
  • Trong tổng số 171 quan sát trả được nợ, dự đoán có 167 quan sát trả được, tỉ lệ dự đoán đúng là 167/171 = 97.7%.

Tóm lại, tỷ lệ trung bình dự đoán đúng là (98.4 + 97.7)/2 = 98.0%.

Bảng Variables in the Equation

Bảng Variables in the Equation mang đến những thông tin về phương trình hồi quy. Bạn cần chú ý đến cột Sig của kiểm định Wald đầu tiên (kiểm định Wald được sử dụng nhằm kiểm tra xem biến độc lập có ý nghĩa trong mô hình hồi quy hay không).

Cụ thể ở trong tình huống này, Sig kiểm định Wald của các biến độc lập đều nhỏ hơn 0.05 (độ tin cậy 95%), như vậy cả 3 biến HocVan, Tuoi và ThuNhap đều tác động đến khả năng trả nợ.

Cột B là hệ số hồi quy của các biến độc lập, giá trị của nó có thể âm hoặc dương.

Nếu B dương, nghĩa là biến độc lập tác động thuận lên biến phụ thuộc.

Nếu B âm, nghĩa là biến độc lập đang tác động nghịch lên biến phụ thuộc.

Với kết quả ở trên, thế vào phương trình hồi quy logistic ta có (nếu như biến độc lập có Sig kiểm định Wald > 0.05 thì bạn không đưa vào phương trình hồi quy):

Phương trình hồi quy logistic

Bạn có thể trình bày ý nghĩa của các hệ số hồi quy Binary Logistic như sau: thu nhập cao, học vấn cao, độ tuổi cao đều làm gia tăng khả năng trả nợ, trong đó biến HocVan có tác động mạnh nhất lên khả năng trả nợ (có hệ số B cao nhất), tiếp đến là Tuoi và cuối cùng là ThuNhap.

Đặc điểm nổi trội của hồi quy nhị phân đó chính là khả năng dự báo. Sử dụng ví dụ ở trên, giả sử có anh Nguyễn Văn A đến ngân hàng vay vốn, anh A cung cấp đầy đủ các thông tin như sau:

  • Học vấn: 2 – Cao đẳng
  • Độ tuổi: 35 tuổi
  • Thu nhập: 17 triệu/tháng

Thay vào phương trình mô hình dự báo ta có:

Phương trình mô hình dự báo

Mô hình Binary Logistic thể hiện khả năng trả được nợ của người này là 60.18% > 50% = 0.5. Do đó, ngân hàng có thể xem xét cho anh A vay vì khả năng thu hồi nợ ở trong mức chấp nhận được.

** Lưu ý quan trọng:

Đối với dạng mô hình nghiên cứu mà các biến độc lập đều sử dụng Likert, bạn không nên sử dụng hồi quy nhị phân Binary Logistic. Bởi đặc trưng của Likert là thang đo ảo với giá trị 1-3, 1-5, 1-7…. sẽ không cho ra một phương trình mô hình dự báo có ý nghĩa. Bạn sẽ không sử dụng được khả năng dự báo của hồi quy nhị phân.

Nguồn:Tri Thức Cộng Ðồng

0 0 vote
Article Rating
Subscribe
Notify of
guest
4 Comments
Oldest
Newest Most Voted
Inline Feedbacks
View all comments
Minh
1 year ago

bài viết hay

Đức Hùng
Đức Hùng
1 year ago

Nhân số đại diện là gì vậy ad ơi?

Linh Sang
Linh Sang
1 year ago

Ad ơi cho em hỏi một chút. Với câu hỏi lựa chọn nhiều đáp án. Em đã dùng lệnh multiple response crosstab ghép các đáp án trong một bảng thì khi chạy tương quan với bảng ghép đó thì làm sao để cho ra chi – square ạ. E cảm ơn ạ

Hotline: 0946 88 33 50
Chat Zalo
Zalo: 0946.883.350
Chat với chúng tôi qua Zalo