Bài giảng Phương pháp nghiên cứu - Chương 9: Nhập và xử lý số liệu - Nguyễn Minh Hà

pdf 9 trang cucquyet12 3700
Bạn đang xem tài liệu "Bài giảng Phương pháp nghiên cứu - Chương 9: Nhập và xử lý số liệu - Nguyễn Minh Hà", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfbai_giang_phuong_phap_nghien_cuu_chuong_9_nhap_va_xu_ly_so_l.pdf

Nội dung text: Bài giảng Phương pháp nghiên cứu - Chương 9: Nhập và xử lý số liệu - Nguyễn Minh Hà

  1. 1/19/2012 CHƯƠNG 9 NHẬP VÀ XỬ LÝ SỐ LIỆU TS. NGUYỄN MINH HÀ TRƯỜNG ĐH MỞ TPHCM 1 NỘI DUNG 1. CHUẨN BỊ, NHẬP VÀ KIỂM TRA DỮ LIỆU 2. KHÁM PHÁ VÀ TRÌNH BÀY DỮ LIỆU 3. PHÂN TÍCH THỐNG KÊ MÔ TẢ 4. PHÂN TÍCH DỮ LIỆU 2 1
  2. 1/19/2012 I. CHUẨN BỊ, NHẬP, VÀ KIỂM TRA DỮ LIỆU 1. Các loại dữ liệu: Dữ liệu phân loại Dữ liệu mô tả/ dữ liệu định danh Dữ liệu xếp hạng hay thứ tự Dữ liệu có thể định lượng Dữ liệu khoảng cách 3 I. CHUẨN BỊ, NHẬP, VÀ KIỂM TRA DỮ LIỆU 2. Trình bày dữ liệu: Trình bày dữ liệu ở dạng bảng. Gọi là ma trận dữ liệu Đặt tên biến ngắn gọn, nên viết tắt (tiếng Anh/tiếng Việt không dấu) Đặt tên biến nên theo quy luật và trình tự của bảng câu hỏi hay trình tự khảo sát. Có thể lưu trữ ở phần mềm Excel hay SPSS Số nhận dạng Biến 1 Biến 2 Biến 3 Biến 4 (ID) 1 15 1 3 0,4 2 27 0 1 1,2 3 18 0 2 0,9 4 2
  3. 1/19/2012 I. CHUẨN BỊ, NHẬP, VÀ KIỂM TRA DỮ LIỆU 3. Mã hóa dữ liệu: Ghi dữ liệu bằng mã số học a. Mã hóa dữ liệu có thể định lượng: Các con số thực tế được sử dụng như mã số cho dữ liệu có thể định lượng. VD ở bảng trên b. Mã hóa dữ liệu phân loại: Các câu hỏi, các biến trả lời nên được mã hóa thành các con số. Việc mã hóa sẽ tiết kiệm thời gian khi nhập, có thể sử dụng để phân tích, kiểm định và đối chiếu. Để tạo ra bộ mã hóa cho mỗi biến, cần phải: Xem xét dữ liệu và xác lập các nhóm tổng quát Chia nhóm tổng quát thành những nhóm nhỏ tùy vào phân tích dự định thực hiện Phân bổ mã số cho tất cả các phân loại Ghi chú những câu trả lời thực tế được phân bổ vào mỗi loại và bộ mã Đảm bảo những phân loại có thể hợp nhất với nhau được mã hóa liền nhau để thuận tiện cho việc mã hóa lại. 5 I. CHUẨN BỊ, NHẬP, VÀ KIỂM TRA DỮ LIỆU 4. Nhập dữ liệu: Cần tạo 1 file để chứa tên và giải thích ý nghĩa của các biến trong dữ liệu để thuận tiện phân tích và kế thừa nghiên cứu. Các dữ liệu định lượng, nhập đúng giá trị trong bảng phỏng vấn. Đối với các câu trả lời đóng: • Khi câu có 1 câu trả lời/chọn 1 trong 2 (có/không; Nam/nữ): sử dụng giá trị 0 và 1 để lưu thông tin. Vd: có là 1, không là 0; Nam là 1, Nữ là 0 hoặc ngược lại. Tình trạng gia đình (0: độc thân, 1: lập gia đình hoặc ngược lại) • Khi có từ 3 lựa chọn trở lên nhưng chỉ có 1 câu trả lời (không thích/thích/không ý kiến): Sử dụng 1, 2, 3 tương ứng theo câu trả lời. Trường hợp này hay gặp với với câu hỏi phân loại/ danh nghĩa/định danh. Vd: Màu tóc (đen, đỏ, hung): 1,2,3 tương ứng hoặc có thể đổi thứ tự. Ngành kinh doanh: 1 là Nông nghiệp, 2 là công nghiệp và 3 là dịch vụ. Từ các mã hóa 1, 2, 3, Chúng ta có thể chuyển thành các biến dummy khác nhau dễ dàng. 6 3
  4. 1/19/2012 I. CHUẨN BỊ, NHẬP, VÀ KIỂM TRA DỮ LIỆU 4. Nhập dữ liệu: • Đối với câu trả lời thứ bậc và xếp hạng: nhập theo số thứ bậc/xếp hạng mà được trả lời. Vd: thang đo likert (15) • Khi có từ 3 lựa chọn trở lên và có ít nhất 2 câu trả lời (vd: sở thích xem tivi, đọc báo, và nghe radio): Tạo 3 biến, mỗi biến là 1 sự lựa chọn và sử dụng giá trị 0 và 1 để lưu thông tin. Lựa chọn nào được đánh dấu trong bảng câu hỏi thì biến tương ứng sẽ có giá trị là 1, nếu không được chọn thì đánh số 0. Câu trả lời mở: Nhập chính xác câu trả lời ghi trong bảng câu hỏi, sau đó đọc và phân nhóm câu trả lời rồi mã hóa. 7 I. CHUẨN BỊ, NHẬP, VÀ KIỂM TRA DỮ LIỆU 5. Kiểm tra sai soát và thanh lọc dữ liệu: Kiểm tra sai soát: Kiểm tra các mã không hợp lệ: số 0 hay o, 1 hay I, Sử dụng 1 số công dụng trong Excel, SPSS hay các chương trình khác để kiểm tra. Tìm kiếm những quan hệ không logic: Coi chừng nhập lộn giữa số 1 (thấp nhất hay cao nhất) và số 5 (cao nhất hay thấp nhất) Phát hiện các dị biệt trong dữ liệu (outliers): Sử dụng Excel: hàm min, hàm max, công cụ Auto Filter, đồ thị scatter, đồ thị plot để xác định Trong SPSS: đồ thị scatter, công cụ Frequency, để phát hiện. Phát hiện và xử lý dữ liệu bị khuyết tật (missing data): Sử dụng Exel: Công cụ Auto Filter Sử dụng SPSS: Công cụ Frequency và Select Cases 8 4
  5. 1/19/2012 II. KHÁM PHÁ VÀ TRÌNH BÀY DỮ LIỆU Sử dụng các biểu đồ, đồ thị, hình vẽ, số liệu thống kê để trình bày dữ liệu. Phần này như là phần trình bày kết quả NC thống kê dữ liệu (khác với mô tả thống kê: Descriptive Statistics) Trình bày 1 biến sao cho có thể dễ dàng đọc được 1 giá trị cụ thể bất kỳ. Thấy giá trị cao nhất, thấp nhất Thể hiện xu hướng: dùng đường thẳng Tỷ lệ xảy ra (tỷ lệ %) Thể hiện sự phân bố của các giá trị cho 1 biến (vd: đa số tập trung ở mức 25% trên) Thể hiện mối quan hệ: Đồ thị/biểu đồ phân tán hoặc thống kê. Vd: trình độ học vấn theo tuổi, Thu nhập theo trình độ học vấn, So sánh các biến hay so sánh biến theo các đặc tính, 9 III. PHÂN TÍCH THỐNG KÊ MÔ TẢ 1. Phân tích thống kê mô tả định lượng: Sử dụng Excel: Công cụ Descriptive Statistics trong chức năng Data Analysis Sử dụng SPSS: Công cụ Frequency, Descriptives, Explore chức năng Descriptive Statistics. a. Ôn lại 1 số chỉ tiên thống kê: Đo lường xu hướng trung tâm: Mode, Trung vị (Median), giá trị trung bình (Mean), Khoảng cách (Range) Đo lường sự biến thiên: Phương sai (Variance; σ2) là trung bình tổng các sai số bình phương giữa các giá trị của các quan sát và giá trị trung bình. Độ lệch chuẩn (Standard Deviation; SD, σ) đo lường mức độ phân tán của số liệu xung quanh giá trị trung bình. 10 5
  6. 1/19/2012 III. PHÂN TÍCH THỐNG KÊ MÔ TẢ 1. Phân tích thống kê mô tả định lượng: b. Thống kê mô tả Yêu cầu bảng thống kê mô tả tối thiểu gồm : Variable Obs Mean Std. Dev. Min Max Growth 21,217 0.04 0.84 1 15.27 Assetgrowth 21,205 0.08 1.03 1 19.00 Lnage 32,766 1.91 0.62 0 3.43 Capital 32,766 48.79 115.86 0 1,344.65 AgriSector 32,766 0.01 0.09 0 1 InduSector 32,766 0.32 0.47 0 1 ServSector 32,766 0.67 0.47 0 1 11 III. PHÂN TÍCH THỐNG KÊ MÔ TẢ 2. Phân tích thống kê mô tả định tính: Sử dụng các bảng đơn giản: Trong SPSS, sử dụng công cụ Basic Table Trong Excel, sử dụng Pivote table trong Ví dụ: Sốmẫu Tỷlệ (%) Sốmẫu Tỷlệ (%) Nông nghiệp 22 7,2 Nam 140 53,8 Công nghiệp 155 50,8 Nữ 120 46,2 Dịch vụ 128 42 Tổng 260 100 Tổng 305 100 12 6
  7. 1/19/2012 III. PHÂN TÍCH THỐNG KÊ MÔ TẢ 2. Phân tích thống kê mô tả định tính: Sử dụng các bảng so sánh 2 chiều hay còn gọi Bảng chéo (Cross Tabulation) Trong SPSS, sử dụng công cụ Basic Table Trong Excel, sử dụng Pivote table trong Ví dụ: Current salary (unit: dong) 2001 2002 Level of education Sum 2,000,000 Under 1500,000- Over %% - 1,500,000 3,000,000 3,000,000 Total 530 100 880 100 3,000,000 Intermediate 8 9 15 1 33 Sector 1 0 0.0 4 0.5 ,Colleges Sector 2 164 30.9 292 33.2 count % 24.24 27.27 45.45 3.03 100.00 Sector 3 366 69.1 584 66.4 University 144 81 93 58 376 Professional degree count % 38.30 21.54 24.73 15.43 100.00 Post- graduation 1 3 8 14 26 university count % 3.85 11.54 30.77 53.85 100.00 13 IV. PHÂN TÍCH DỮ LIỆU Phân tích tương quan và đa cộng tuyến (correlation matrix) Phân tích hồi quy (Regression): có mối quan hệ, có quan hệ nhân quả, cường độ tác động, dự báo các giá trị, dự báo xu hướng (chuổi theo thời gian) Phân tích khám phá EFA Phân tích Anova (test sự khác nhau giữa 2 nhóm) sử dụng ttest Trong excel sử dụng: Correlation, Anova và regression trong chức năng Data Analysis Trong SPSS: các công cụ Compare Means, Nonparametric Tests, Regression Lưu ý: cách chọn các biến phụ thuộc và biến độc lập trong hồi quy (các biến phải tương ứng với nhau). Trình bày 1 bảng kết quả hồi quy 14 7
  8. 1/19/2012 Ví d: Bng: Kt qu hi quy Bng: Kt qu hi quy Biến Coefficients Std.Errors Biến Hệ số Constant 0.6178 0.4400 Constant 0.6178 Biến1 0.0762* 0.3441 (0.4400) Biến2 0.0142 0.1031 Biến1 0.0762* Biến3 0.0399 0.0122 (0.3441) 0.0001 0.0001 Biến2 0.0142 0.0154 0.2615 (0.1031) Số quan sát 11,057 Biến 3 0.0399 R (0.0122) R2 R2 điều chỉnh Số quan sát Chi R Wald test R2 R2 điều chỉnh Ghi chú: (nu có) Chi Ý nghĩa ti mc 1%, Ý nghĩa ti mc 5%, và * Wald test Ý nghĩa ti mc 10%. Ghi chú: Trong ngoc là Std Errors Ý nghĩa ti mc 1%, Ý nghĩa ti mc 5%, và * Ý nghĩa ti mc 10%. 15 IV. PHÂN TÍCH DỮ LIỆU Sau khi phân tích thống kê, mô tả thống kê, trong phân tích có thể kết hợp (tùy theo yêu cầu của nghiên cứu) 1 trong những phần sau: Test correlation, sau đó chạy hồi quy và thực hiện 1 số tests Chỉ phân tích EFA Phân tích khám phá EFA, sau đó chạy hồi quy Phân tích EFA và test Anova Phân tích hồi quy và test Anova Chỉ thực hiện test Anova Chỉ thực hiện mô tả thống kê và phân tích thống kê, 16 8
  9. 1/19/2012 Kết thúc Thanks 17 9