Hướng dẫn phân tích hồi quy nhị phân Binary Logistic trong SPSS

5 (100%) 2 votes

Khái niệm hồi quy nhị phân (Binary Logistic) là gì? Phương trình hồi quy nhị phân ra sao? Các bước phân tích hồi quy nhị phân trên phần mềm SPSS như thế nào? Tất cả những thắc mắc của bạn sẽ được Tri Thức Cộng Đồng giải đáp trong bài viết này.

Hướng dẫn phân tích hồi quy nhị phân Binary Logistic trong SPSS

1. Khái niệm hồi quy nhị phân (Binary Logistic)

Trong trường hợp một doanh nghiệp muốn nghiên cứu xem liệu sản phẩm mới phát triển có khả năng bán được hay không, ngân hàng muốn nghiên cứu liệu người vay có khả năng trả nợ hay không thì mô hình hồi quy tuyến tính là không áp dụng được. Trong trường hợp này, chúng ta sử dụng mô hình hồi quy xác suất với biến nhị phân là Binary Logistics.

Hồi quy nhị phân hay còn gọi là hồi quy Binary Logistic là mô hình khá phổ biến trong nghiên cứu dùng để ước lượng xác suất một sự kiện sẽ xảy ra. Trong đó biến số phụ thuộc (Y) là một biến số nhị phân (dichotomous – binary variable), theo đó Y thường được mã hoá là 1 và 0 (Y = 1, thành công; Y = 0, thất bại). Biến số độc lập trong hồi qui logistic có thể là biến số rời hoặc liên tục, biến số đơn hoặc đa biến số.

Trong thực tế, có rất nhiều hiện tượng tự nhiên, hiện tượng kinh tế, xã hội,… mà chúng ta cần dự đoán khả năng xảy ra của nó: chiến dịch quảng cáo có được chấp nhận hay không, người vay có trả được nợ hay không, công ty có phá sản hay không, khách hàng có mua hay không,… Những biến nghiên cứu có 2 biểu hiện như vậy được mã hóa thành 2 giá trị 0 và 1 – được gọi là biến nhị phân.

Khi biến phụ thuộc ở dạng nhị phân thì không thể phân tích với dạng hồi quy thông thường vì nó sẽ vi phạm các giả định, dễ thấy nhất là khi biến phụ thuộc chỉ có hai biểu hiện thì không phù hợp khi giả định rằng phần dư có phân phối chuẩn, mà thay vào đó nó sẽ có phân phối nhị thức, điều này sẽ làm mất hiệu lực thống kê của các kiểm định trong phép hồi quy thông thường.

2. Phương trình hồi quy nhị phân

Phương trình hồi quy nhị phân Binary Logistic có dạng:

Phương trình hồi quy

Ứng dụng nổi bật của hồi quy nhị phân Binary Logistic là khả năng dự báo. Từ phương trình hồi quy, chúng ta có phương trình mô hình hàm dự báo như sau:

Phương trình mô hình hàm dự báo

 

Trong đó Pi = E(Y = 1/X) = P(Y = 1) gọi là xác suất để sự kiện xảy ra (Y = 1) khi biến độc lập X có giá trị cụ thể Xi.

>>>Xem thêm bài viết liên quan: Những điều bạn cần biết về chạy hồi quy SPSS

3. Thực hành phân tích hồi quy nhị phân trên SPSS

Thực hiện phân tích hồi quy nhị phân bằng phần mềm SPSS ở ví dụ dưới dây. Đây là nghiên cứu của một ngân hàng nhằm xem xét khả năng trả nợ của các cá nhân để quyết định có nên cho họ vay vốn hay không. Biến phụ thuộc TraNo mang 2 giá trị, 0 biểu hiện ý nghĩa không trả được nợ, 1 biểu hiện ý nghĩa trả được nợ. Có 3 biến độc lập trong mô hình tác động lên biến phụ thuộc TraNo gồm:

– Trình độ học vấn (HocVan) mang giá trị: 1 – THCS, THPT; 2 – Cao đẳng; 3 – Đại học; 4 – Sau đại học

– Độ tuổi (Tuoi)

– Thu nhập hàng tháng (ThuNhap – ĐVT: triệu đồng)

Thực hiện hồi quy nhị phân trên phần mềm SPSS 20. Chúng ta vào Analyze > Regression > Binary Logistic.

Thực hiện hồi quy nhị phân trên phần mềm SPSS 20

Đưa biến phụ thuộc Y vào mục Dependent. Đưa các biến độc lập vào mục Covariates.

Đưa biến vào các mục tương ứng

Tại mục Options. Tích vào hàng Classification plots, chọn Continue để quay lại cửa sổ ban đầu.

Classification plots

Tại mục Method, chọn phương pháp Enter. Tiếp tục nhấp vào OK để xuất các bảng kết quả.

Bảng Case Processing Summary cho chúng ta các thông tin mô tả đặc điểm dữ liệu đưa vào phân tích hồi quy nhị phân. Cụ thể ở đây, có 300 quan sát được đưa vào phân tích (Included in Analysis), không có quan sát nào bị thiếu số liệu (Missing Cases), không có quan sát nào không được chọn (Unselected Cases).

Bảng Case Processing Summary

Bảng Dependent Variable Encoding cho biết biến phụ thuộc đang mang 2 giá trị, “Không được vay vốn” mã hóa là 0 và “Được vay vốn” mã hóa là 1.

Bảng Dependent Variable Encoding

Phần tiếp theo là mục Block 0. Chúng ta sẽ bỏ qua phần này bởi vì các kết quả phân tích ở Block 0 nằm ở trường hợp không có bất kỳ biến độc lập nào được đưa vào mô hình. Chúng ta sẽ sử dụng kết quả ở Block 1: Mô hình với đầy đủ các biến độc lập được đưa vào xử lý.

Omnibus Tests of Model Coefficients

Nếu bạn gặp khó khăn khi thực hiện phân tích hồi nhị phân Binary Logistic vì mô hình bị loại hết các biến độc lập quan trọng, hãy liên hệ với Tri Thức Cộng Đồng để được hỗ trợ sử dụng Dịch Vụ Xử Lý Dữ Liệu SPSS. Với kinh nghiệm hoạt động hơn 10+ năm, chúng tôi cam kết sẽ mang đến cho bạn nhiều lợi ích nhất.

Bảng đầu tiên là Omnibus Tests of Model Coefficients. Bảng này cho kết quả phân tích các hệ số của mô hình. Step 1 là bước thứ nhất trong chạy mô hình Logistic. Do ở đây chúng ta dùng phương pháp Enter đưa các biến độc lập vào cùng một lần nên chỉ xuất hiện Step 1 trong kết quả thống kê. Trường hợp dùng các phương pháp khác bảng này sẽ có thêm các Step 2, 3, 4 tùy số lượng biến đưa vào.

Cột Chi-square và Sig. thể hiện kết quả của kiểm định Chi bình phương, đây là kiểm định để xem hệ số hồi quy của các biến độc lập có đồng thời bằng 0 hay không. Do phương pháp được chọn là Enter nên 3 giá trị sig của Step, Block và Model đều như nhau (hiện không có nhiều tài liệu đề cập đến việc chạy hồi quy Logistic bằng các phương pháp khác). Trong trường hợp này, sig của cả 3 chỉ số này đều bằng 0.000 < 0.05 (độ tin cậy 95%) nên mô hình hồi quy có ý nghĩa thống kê.

Bảng Model Summary

Bảng Model Summary cho kết quả tóm tắt của mô hình. Cột -2 Log likelihood (ký hiệu à -2LL) là một thông số để xem xét so sánh giữa các mô hình hồi quy với nhau, mô hình nào có -2LL nhỏ hơn sẽ tốt hơn. Thông số này không mang nhiều ý nghĩa nếu không có sự so sánh với mô hình hồi quy khác.

Hai cột Cox & Snell R SquareNagelkerke R Square là giá trị R bình phương giả. Hồi quy logistic không sử dụng giá trị R bình phương giống với hồi quy tuyến tính. Cũng giống như -2LL, 2 chỉ số này dùng để so sánh các mô hình hồi quy khác nhau trên cùng một bộ số liệu, cùng một biến phụ thuộc để xem mô hình nào tốt hơn. Mô hình tốt hơn sẽ có R bình phương lớn hơn.

Bảng Classification Table

Bảng Classification Table cho thấy phân loại đối tượng trả được nợ và không trả được nợ theo hai tiêu chí: quan sát thực tế và dự đoán. Ý nghĩa:

  • Trong 129 trường hợp quan sát không trả được nợ, thì dự đoán có 127 trường hợp không trả được, tỉ lệ dự đoán đúng là 127/129 = 98.4%.
  • Trong 171 trường hợp quan sát trả được nợ, dự đoán có 167 trường hợp trả được, tỉ lệ dự đoán đúng là 167/171 = 97.7%.

Như vậy, tỷ lệ trung bình dự đoán đúng là (98.4 + 97.7)/2 = 98.0%.

Bảng Variables in the Equation

Bảng Variables in the Equation cung cấp nhiều thông tin về phương trình hồi quy. Chúng ta sẽ quan tâm cột Sig của kiểm định Wald đầu tiên (kiểm định Wald dùng để kiểm tra biến độc lập có ý nghĩa trong mô hình hồi quy hay không). Cụ thể trong trường hợp này, Sig kiểm định Wald của các các biến độc lập đều nhỏ hơn 0.05 (độ tin cậy 95%), như vậy cả 3 biến HocVan, Tuoi và ThuNhap đều có sự ảnh hưởng lên khả năng trả nợ.

Cột B là hệ số hồi quy của các biến độc lập, giá trị này có thể âm hoặc dương. Nếu B nhận dấu âm, nghĩa là biến độc lập đang tác động nghịch lên biến phụ thuộc, ngược lại, B mang dấu dương thể hiện biến độc lập tác động thuận lên biến phụ thuộc. Với kết quả ở trên, thế vào phương trình hồi quy logistic ta có (trường hợp biến độc lập có Sig kiểm định Wald > 0.05 sẽ không được đưa vào phương trình hồi quy):

Phương trình hồi quy logistic

Chúng ta có thể diễn giải ý nghĩa của các hệ số hồi quy Binary Logistic như sau. Học vấn cao, thu nhập cao, độ tuổi cao đều làm tăng khả năng trả nợ, trong đó biến HocVan có tác động mạnh nhất lên khả năng trả nợ (có hệ số B cao nhất), tiếp đến là Tuoi và cuối cùng là ThuNhap.

Một điểm rất mạnh của hồi quy nhị phân đó chính là khả năng dự báo. Sử dụng ví dụ ở trên, giả sử có anh Nguyễn Văn A đến ngân hàng vay vốn, hanh A cung cấp đầy đủ các thông tin như sau:

  • Học vấn: 2 – Cao đẳng
  • Độ tuổi: 35 tuổi
  • Thu nhập: 17 triệu/tháng

Thế vào phương trình mô hình dự báo ta có:

Phương trình mô hình dự báo

Mô hình Binary Logistic cho biết khả năng trả được nợ của người này là 60.18% > 50% = 0.5. Như vậy ngân hàng có thể xem xét cho anh A vay vì khả năng thu hồi nợ ở mức chấp nhận được.

** Lưu ý quan trọng:

Đối với dạng mô hình nghiên cứu mà các biến độc lập đều sử dụng Likert, các bạn không nên sử dụng hồi quy nhị phân Binary Logistic. Bởi đặc trưng của Likert là thang đo ảo với giá trị 1-3, 1-5, 1-7…. sẽ không cho ra một phương trình mô hình dự báo có ý nghĩa. Bạn sẽ không sử dụng được khả năng dự báo của hồi quy nhị phân.

Bình luận

avatar
1 Comment threads
1 Thread replies
Most reacted comment
Hottest comment thread
2 Comment authors
Nguyễn Lê Hà PhươngMinh Recent comment authors
  Subscribe  
Tin mới nhất Tin cũ nhất Bình chọn nhiều nhất
Notify of
Minh
Guest

bài viết hay

Hotline: 0946 88 33 50
Chat Zalo
Zalo: 0946.883.350