Nghiên cứu phương pháp mô hình hóa dữ liệu mẫu ngẫu nhiên bằng ngôn ngữ lập trình python

pdf 6 trang Gia Huy 3140
Bạn đang xem tài liệu "Nghiên cứu phương pháp mô hình hóa dữ liệu mẫu ngẫu nhiên bằng ngôn ngữ lập trình python", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

  • pdfnghien_cuu_phuong_phap_mo_hinh_hoa_du_lieu_mau_ngau_nhien_ba.pdf

Nội dung text: Nghiên cứu phương pháp mô hình hóa dữ liệu mẫu ngẫu nhiên bằng ngôn ngữ lập trình python

  1. KỶ YẾU NGHIÊN CỨU KHOA HỌC SINH VIÊN NĂM HỌC 2018-2019 NGHIÊN CỨU PHƯƠNG PHÁP MÔ HÌNH HÓA DỮ LIỆU MẪU NGẪU NHIÊN BẰNG NGÔN NGỮ LẬP TRÌNH PYTHON Giảng viên hướng dẫn: ThS. Phạm Thị Kim Thúy Sinh viên thực hiện: Nguyễn Phi Thái Lớp: CQ.57.CNTT Trần Xuân Lâm Lớp: CQ.57.CNTT Tóm tắt: Trong thời đại 4.0, công nghệ thông tin có vai trò rất quan trọng trong tự động hóa và trao đổi dữ liệu. Đáp ứng với xu hướng đó, việc áp dụng kiến thức công nghệ thông tin để giải quyết các bài toán rất quan trọng, cụ thể là bài toán xác suất thống kê. Vì vậy, đề tài này chọn phương pháp lập trình với ngôn ngữ python để mô hình hóa mẫu dữ liệu mẫu ngẫu nhiên. Việc mô tả dữ liệu bằng phương pháp này có vai trò quan trọng, nó giúp cho chúng ta phân tích được những đặc tính của dữ liệu, mối quan hệ giữa các mẫu khác nhau. Từ đó đưa ra được kết quả chính xác cho mẫu dữ liệu. Từ khóa: Mô hình hóa dữ liệu, phương pháp lập trình, ngôn ngữ python. 1. ĐẶT VẤN ĐỀ Hiện nay, ở Việt Nam, sinh viên chuyên ngành Công Nghệ Thông Tin, Toán – Tin đang áp dụng kiến thức toán hoặc thuật toán để làm đề tài tốt nghiệp. Khảo sát các đề tài tốt nghiệp năm 2019 của sinh viên CNTT K56 thuộc phân hiệu, có không ít sinh viên chọn Đại số tuyến tính, Xác suất Thống kê, làm kiến thức nền cho việc lập trình trong đề tài của sinh viên. Đa số sinh viên đều sử dụng Python vì những thuộc tính ưu việt trong việc tính toán: tích phân, đạo hàm, giải các phương trình vi phân, Có thể thấy, lập trình giúp cho việc giải toán nhanh, chúng ta chỉ cần định nghĩa ra phương pháp giải và chúng ta có thể giải được bài toán với bất kì mẫu dữ liệu tương tự nào. Cụ thể, việc sử dụng phương pháp lập trình với ngôn ngữ python để mô tả dữ liệu ngẫu nhiên giúp chúng ta hình dung được dữ liệu và đưa ra được các nhận xét chính xác, quan trọng. 2. CÁC NỘI DUNG CHÍNH 2.1. Phương pháp nghiên cứu - Phương pháp thu thập và xử lý số liệu từ thực nghiệm. - Phương pháp mô hình hóa dữ liệu thông qua ngôn ngữ python. 2.2. Phương tiện nghiên cứu - Sử dụng ngôn ngữ python để lập trình. 2.3. Nội dung nghiên cứu đã thực hiện Từ việc nghiên cứu về những phương pháp mô tả dữ liệu trong thống kê bao gồm: Mô tả dữ liệu bằng phương pháp đồ thị, mô tả dữ liệu bằng phương pháp số và việc nghiên cứu phương pháp lập trình với ngôn ngữ Python để mô hình hóa dữ liệu thông qua những dạng đồ thị: đồ thị hình cột (histogram), đồ thị chỉ tần số, đồ thị chỉ tần suất, đồ thị hình hộp (boxplot), P a g e 62 | 82
  2. KỶ YẾU NGHIÊN CỨU KHOA HỌC SINH VIÊN NĂM HỌC 2018-2019 phương trình đường thẳng hồi quy tuyến tính và tính toán được các giá trị liên quan đến những mô hình: giá trị mode, trung vị, trung bình, Trong đó, mô hình hóa dữ liệu với mẫu dữ liệu thực là phần trọng tâm của đề tài. Dữ liệu thực mô phỏng trong đề tài là danh sách điểm thi kết thúc học phần và điểm thành phần môn Xác suất Thống kê của lớp CNTT-K57. Dữ liệu này được mô phỏng để giải quyết dạng toán: Tìm mối tương quan giữa điểm thành phần và điểm cuối kì cụ thể thông qua mô hình hồi quy tuyến tính. Kết quả là những dạng mô hình dữ liệu được tạo dựa trên ngôn ngữ python: Hình 1. Biểu đồ hình thanh Hình 2. Biểu đồ hình thanh theo cặp P a g e 63 | 82
  3. KỶ YẾU NGHIÊN CỨU KHOA HỌC SINH VIÊN NĂM HỌC 2018-2019 Hình 3. Biểu đồ đường Hình 4. Biểu đồ tần số của điểm thành phần và điểm kết thúc học phần Hình 5. Biểu đồ tần suất P a g e 64 | 82
  4. KỶ YẾU NGHIÊN CỨU KHOA HỌC SINH VIÊN NĂM HỌC 2018-2019 Hình 6. Biểu đồ hình hộp Hình 7. Biểu đồ tán xạ Hình 8. Đường thẳng hồi quy tuyến tính P a g e 65 | 82
  5. KỶ YẾU NGHIÊN CỨU KHOA HỌC SINH VIÊN NĂM HỌC 2018-2019 Từ những mô hình trên, ta có nhận xét: Điểm thành phần thường cao hơn điểm kết thúc học phần. Hơn nữa, điểm thành phần, điểm kết thúc học phần có mối tương quan với nhau cụ thể: điểm thành phần cao thì điểm kết thúc học phần cũng có xu hướng cao. Ngoài ra, thông qua đồ thị hồi quy tuyến tính giữa điểm thành phần và điểm thi kết thúc học phần, nhóm có những nhận xét sau: - Đường thẳng hồi quy tuyến tính có xu hướng đi lên nên điểm thành phần và điểm kết thúc học phần tỉ lệ thuận với nhau, điểm thành phần tăng thì điểm thi kết thúc học phần cũng tăng. - Các giá trị của điểm kết thúc học phần tương ứng với điểm thành phần phân bố hai bên đường thẳng hồi quy. - Nhìn vào đồ thị, có thể dự báo được điểm kết thúc học phần khi có điểm thành phần. Giả sử điểm thành phần được 3 điểm thì điểm kết thúc học phần có thể dự đoán nằm trong khoảng từ [1.8, 2] điểm. 2.4. Kết quả nghiên cứu Đề tài đã đánh giá và mô hình hóa được các đại lượng tiêu biểu của thống kê dữ liệu. Trong đó, nhóm nghiên cứu đã sử dụng hồi quy đơn tuyến tính để đưa ra những phân tích đặc trưng kết quả thi của một mẫu dữ liệu sinh viên Phân hiệu. Kết quả đó là thông tin bổ ích để giảng viên Toán ở Phân hiệu tham khảo để định hướng giảng dạy. 2.5. Kiến nghị Dữ liệu trong thực tế thì thường rất lớn và việc xử lý số liệu có nhiều phương pháp khác nhau cũng như kết hợp với các thuật toán phức tạp để có thể xử lý và đưa ra những nhận định chính xác cho mẫu dữ liệu. Do đó, trong tương lai đề tài có thể mở rộng với tập dữ liệu quy mô lớn hơn và nên chọn mô hình hồi quy đa tuyến. 3. KẾT LUẬN Trong môn học Xác xuất Thống kê, sinh viên sẽ giải và tiếp cận các bài toán bằng cách phương pháp thông thường vì vậy phương pháp này thiếu đi tính minh họa, trực quan. Hơn nữa, trong lĩnh vực này việc lấy mẫu dự liệu rất quan trọng, do đó với mỗi mẫu dữ liệu khác nhau thì sinh viên phải giải nhiều lần khác nhau, điều này tốn rất nhiều thời gian, công sức. Vì vậy, việc thực hiện giải các bài toán bằng phương pháp lập trình sẽ giải quyết vấn đề đó. Ngôn ngữ python là một trong những công cụ lập trình có tính năng mạnh mẽ của trong việc giải các bài toán, đặc biệt là trong lĩnh vực phân tích dữ liệu. Cụ thể python có nhiều thư viện được xây dựng giúp chúng ta minh họa được các bài toán thông qua các dạng đồ thị, biểu đồ như histogram, tròn, boxplot, Điều này giúp cho việc đánh giá dữ liệu dễ dàng. Từ đó, nhà thống kê có thể đưa ra những kết luận chính xác cho mẫu dữ liệu. Đề tài này đã sử dụng phương pháp lập trình với ngôn ngữ python để xử lý dữ liệu và mô hình hóa dữ liệu một cách trực quan hơn. Cụ thể, đề tài đã xây dựng một mô hình để biểu thị mỗi tương quan của hai thuộc tính trong dữ liệu đó là phương trình hồi quy tuyến tính. Thông qua phương trình hồi quy tuyến tính, khi chúng ta biết một trong hai thuộc tính, chúng ta có P a g e 66 | 82
  6. KỶ YẾU NGHIÊN CỨU KHOA HỌC SINH VIÊN NĂM HỌC 2018-2019 thể dự đoán được giá trị còn lại. Ngoài ra, việc mô phỏng phương trình hồi quy tuyến tính bằng phương pháp đồ thị mà sử dụng ngôn ngữ python cho phép chúng ta dễ dàng hình dung hơn về sự phân bố của tập dữ liệu cũng như mối tương quan giữa các tập dữ liệu. Tài liệu tham khảo [1]. TS. Trần Văn Long, TS. Nguyễn Mạnh Hùng, TS. Phí Thị Vân Anh, Xác suất Thống Kê, Nhà xuất bản Giao thông vận tải, 2017. [2]. PGS. TS. Đặng Đức Trọng, TS. Đinh Ngọc Thanh, Lý thuyết Thống kê, Nhà xuất bản Đại học Quốc gia Thành phố Hồ Chí Minh, 2016. [3]. C. Burch, S. Guyader, D. Samarov, H. Shen, Experimental estimate of the abundance and effects of nearly neutral mutations in the RNA vius 6, Genetics 176, pp. 467-476, 2007. [4]. Xavier Gendre, Introduction to Data Mining, France, 2016. P a g e 67 | 82