Bài giảng Tin học ứng dụng nâng cao - Bài: Phân tích dữ liệu thống kê - Lê Viết Mẫn

pdf 21 trang Hùng Dũng 05/01/2024 680
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Tin học ứng dụng nâng cao - Bài: Phân tích dữ liệu thống kê - Lê Viết Mẫn", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfbai_giang_tin_hoc_ung_dung_nang_cao_bai_phan_tich_du_lieu_th.pdf

Nội dung text: Bài giảng Tin học ứng dụng nâng cao - Bài: Phân tích dữ liệu thống kê - Lê Viết Mẫn

  1. Phân tích dữ liệu thống kê v 1.1 - 04/2013 Lê Viết Mẫn - lvman@hce.edu.vn 1 Phân tích dữ liệu thống kê Wednesday, May 8, 13
  2. Nội dung 1. Thống kê mô tả 2. Bảng tần suất 3. Xếp hạng và phần trăm theo nhóm Lê Viết Mẫn - lvman@hce.edu.vn 2 Phân tích dữ liệu thống kê Wednesday, May 8, 13
  3. Thống kê mô tả Descriptive Statistics Lê Viết Mẫn - lvman@hce.edu.vn 3 Phân tích dữ liệu thống kê Wednesday, May 8, 13
  4. Khái niệm cơ bản (1/2) • Tổng thể (Populations) - toàn bộ các quan sát có thể có của một biến với một phân bố xác suất xác định. Số phần tử của tổng thế ký hiệu là N. • Mẫu (Sample) - một bộ phận của tổng thể được quan sát nhờ thì nghiệm hay điều tra để nghiên cứu một tổng thế chưa biết quy luật phân bố xác suất. Mẫu gồm hữu hạn n phần tử. Số n được gọi là cỡ mẫu. • Tần số (Frequency) - Gọi xi là các giá trị quan sát được của biến ngẫu nhiên X (i = 1, 2, n). Số lần xuất hiện của giá trị xi trong khối dữ liệu được gọi là tần số của xi và được ký hiệu là fi. Ta có l ∑ fi =n i=1 Lê Viết Mẫn - lvman@hce.edu.vn 4 Phân tích dữ liệu thống kê Wednesday, May 8, 13
  5. Khái niệm cơ bản (2/2) • Tần số tích luỹ (Cumulative Frequency) - Tần số tích luỹ của một giá trị xi là tổng số tần số của giá trị này với tần số của các giá trị nhỏ hơn xi. • Số định tâm (Measure of Central Tendency) - Số định tâm của nhóm dữ liệu là số đại diện cho tất cả các dữ liệu đó, nó thể hiện vai trò trung tâm của nhóm dữ liệu. • Số trung bình (Mean) • Số trung vị (Median) • Trung bình trọng số (Weighted mean) • Số yếu vị (Mode) • Số phân tán (Measure of Dispersion) - Số phần tán dùng để thể hiện sự khác biệt giữa các số trong khối dữ liệu đối với số định tâm • Hàng số (Khoảng) (Range) • Phương sai (Variance) • Độ lệch chuẩn (Standard deviation) Lê Viết Mẫn - lvman@hce.edu.vn 5 Phân tích dữ liệu thống kê Wednesday, May 8, 13
  6. Thông số thống kê (1/4) Thông số Hàm Excel Giải thích Số trung bình AVERAGE(number1, number2, ) Tính trung bình của các tham số của nó Số trung vị MEDIAN(number1, number2, ) Là số mà phân nửa giá trị quan sát được của khối dữ liệu nhỏ hơn nó và phân nữa còn lại lớn hơn nó Số yếu vị MODE(number1, number2, ) Là số có tần số lớn nhất Phương sai mẫu VAR(number1, number2, ) Là số trung bình số học của bình phương các độ lệch giữa các lượng biến và số trung bình số học của các lượng biến đó Lê Viết Mẫn - lvman@hce.edu.vn 6 Phân tích dữ liệu thống kê Wednesday, May 8, 13
  7. Thông số thống kê (2/4) Thông số Hàm Excel Giải thích Độ lệch chuẩn STDEV(number1, number2, ) Là căn bậc 2 của phương sai Hàng số Range = XMax - XMin Là sai biệt giữa lượng biến lớn nhất và lượng biến nhỏ nhất của dãy số Giá trị nhỏ nhất MIN(number1, number2, ) Giá trị nhỏ nhất của lượng biến Giá trị lớn nhất MAX(number1, number2, ) Giá trị lớn nhất của lượng biến Số phần tử COUNT(value1, value2, ) Số phần tử trong mẫu Thứ hạng RANK(number, ref, order) Trả về thứ hạng của một số trong order=0 danh sách giảm dần danh sách order≠0 danh sách tăng dần Lê Viết Mẫn - lvman@hce.edu.vn 7 Phân tích dữ liệu thống kê Wednesday, May 8, 13
  8. Thông số thống kê (3/4) Thông số Hàm Excel Giải thích Độ bất đối xứng SKEW(number1, number2, ) Độ bất đối xứng được tính bằng cách lấy moment thứ ba của trị trung bình chia cho độ lệch chuẩn luỹ thừa ba Độ nhọn KURT(number1, number2, ) Độ nhọn được tính bằng cách lấy moment thứ tư của trị trung bình chia cho độ lệch chuẩn luỹ thừa bốn Tìm giá trị nhỏ thứ SMALL(array, k) Hàm trả về lượng biến nhỏ thứ k k trong mẫu SMALL(array, 1) → Số Min trong mẫu có n lượng biến SMALL(array, n) → Số Max Tìm giá trị lớn thứ LARGE(array, k) Hàm trả về lượng biến lớn thứ k k trong mẫu LARGE(array, 1) → Số Max trong mẫu có n lượng biến LARGE(array, n) → Số Min Lê Viết Mẫn - lvman@hce.edu.vn 8 Phân tích dữ liệu thống kê Wednesday, May 8, 13
  9. Thông số thống kê (4/4) Thông số Hàm Excel Giải thích Tần số xuất hiện FREQUENCY(data_array, Trả về tần số xuất hiện các biến của các giá trị bins_array) cố trong các khoảng cho trước trong mẫu Data_array : tập số liệu Bins_array : các nhóm trong tập số liệu Nhóm theo phần PERCENTILE(array, k) Trả về nhóm tính theo phần trăm trăm array : tập số liệu của giá trị trong tập số liệu k : nhóm phần trăm (0 1) Xếp hạng theo PERCENTRANK(array, x, Trả về hạng của một giá trị trong phần trăm significance) tập số liệu theo phần trăm trong array : tập số liệu tập số liệu x : giá trị cần biết hạng significance : số lẻ cần thiết Lê Viết Mẫn - lvman@hce.edu.vn 9 Phân tích dữ liệu thống kê Wednesday, May 8, 13
  10. Descriptive Statistics Vùng địa chỉ dữ liệu cần thống kê Bấm OK để thực hiện tính toán Vùng địa chỉ dữ liệu được chọn bao gồm cả nhãn ? Dữ liệu theo hàng hay cột Nơi chứa kết quả tính được Phải chọn ít nhất 1 trong 4 mục này Độ tin cậy của giá trị trung bình Trị quan sát lớn/nhỏ thứ k Lê Viết Mẫn - lvman@hce.edu.vn 10 Phân tích dữ liệu thống kê Wednesday, May 8, 13
  11. Ví dụ Lê Viết Mẫn - lvman@hce.edu.vn 11 Phân tích dữ liệu thống kê Wednesday, May 8, 13
  12. Ví dụ Lê Viết Mẫn - lvman@hce.edu.vn 12 Phân tích dữ liệu thống kê Wednesday, May 8, 13
  13. Bảng tần suất Histogram Lê Viết Mẫn - lvman@hce.edu.vn 13 Phân tích dữ liệu thống kê Wednesday, May 8, 13
  14. Histogram • Mô tả số lần xuất hiện của một mẫu thông tin trong một tập dữ liệu • Mỗi mẫu thông tin gọi là bin, mỗi lần số bin lặp lại được hiểu là tần suất xuất hiện của nó Vùng địa chỉ dữ liệu cần thống kê Bấm OK để thực hiện tính toán Vùng địa chỉ dữ liệu được chọn bao gồm cả nhãn ? Vùng địa chỉ các bin Nơi chứa kết quả tính được Tính phần trăm tích luỹ Thêm một bảng kết quả trong đó, kết quả phần trăm Thêm đồ thị tần suất tích luỹ sẽ được sắp xếp giảm dần Lê Viết Mẫn - lvman@hce.edu.vn 14 Phân tích dữ liệu thống kê Wednesday, May 8, 13
  15. Ví dụ Lê Viết Mẫn - lvman@hce.edu.vn 15 Phân tích dữ liệu thống kê Wednesday, May 8, 13
  16. Ví dụ Lê Viết Mẫn - lvman@hce.edu.vn 16 Phân tích dữ liệu thống kê Wednesday, May 8, 13
  17. Xếp hạng và phần trăm theo nhóm Rank and Percentile Lê Viết Mẫn - lvman@hce.edu.vn 17 Phân tích dữ liệu thống kê Wednesday, May 8, 13
  18. Rank and Percentile Vùng địa chỉ dữ liệu cần thống kê Bấm OK để thực hiện tính toán Dữ liệu theo hàng hay cột Vùng địa chỉ dữ liệu được chọn bao gồm cả nhãn ? Nơi chứa kết quả tính được Lê Viết Mẫn - lvman@hce.edu.vn 18 Phân tích dữ liệu thống kê Wednesday, May 8, 13
  19. Ví dụ Lê Viết Mẫn - lvman@hce.edu.vn 19 Phân tích dữ liệu thống kê Wednesday, May 8, 13
  20. Ví dụ Lê Viết Mẫn - lvman@hce.edu.vn 20 Phân tích dữ liệu thống kê Wednesday, May 8, 13
  21. Cảm ơn sự chú ý Câu hỏi ? Lê Viết Mẫn - lvman@hce.edu.vn 21 Phân tích dữ liệu thống kê Wednesday, May 8, 13