Cơ sở trí tuệ nhân tạo - Chương 4: Giới thiệu máy học - Phạm Thi Vương
Bạn đang xem 20 trang mẫu của tài liệu "Cơ sở trí tuệ nhân tạo - Chương 4: Giới thiệu máy học - Phạm Thi Vương", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
Tài liệu đính kèm:
- co_so_tri_tue_nhan_tao_chuong_4_gioi_thieu_may_hoc_pham_thi.pdf
Nội dung text: Cơ sở trí tuệ nhân tạo - Chương 4: Giới thiệu máy học - Phạm Thi Vương
- Giới thiệu máy học
- Học là gì? • ghi nhớ điều gì đĩ • học các sự kiện qua quan sát và thăm dị • cải thiện các kỹ năng vận động và/hay nhận thức qua việc luyện tập • tổ chức tri thức mới thành các biểu diễn tổng quát, hiệu quả Trang 2
- Thế nào là máy học (Machine Learning) • Máy học cĩ nghĩa là việc mơ hình hĩa mơi trường xung quanh hay khả năng một chương trình máy tính sinh ra một cấu trúc dữ liệu mới khác với cấu trúc hiện cĩ. Chẳng hạn việc tìm ra những luật If then từ tập dữ liệu đầu vào. (Krzysztof J. Cios, Witold Pedrycz, Roman W. Swiniarski. Data Mining Methods for Knowledge Discovery. Kluwer Academic Publishers, 1998)
- Thế nào là khám phá tri thức (knowledge discovery) ? • Khám phá tri thức là tìm ra những tri thức tiềm ẩn, những tri thức mới (khơng phải là những tri thức kinh điển, kinh nghiệm, ) Tri thức Mức độ trừu Thơng tin tượng Dữ liệu Số lượng
- Phân loại máy học • Phân loại thơ: – Học giám sát (supervised learning) – Học khơng giám sát (unsupervised learning)
- Phân loại máy học • Cấp độ học: » Học vẹt (Rote learning) » Học theo giải thích (by explanation) » Học theo ví dụ, trường hợp (by examples, cases) » Học khám phá (by discovering)
- Phân loại máy học • Cách tiếp cận: – Tiếp cận thống kê – Tiếp cận tốn tử logic – Tiếp cận hình học (phân hoạch khơng gian, xây dựng cây định danh, ) – Tiếp cận mạng Neural – Tiếp cận khai mỏ dữ liệu –
- Ví dụ 1 Chương trình đốn ý nghĩ con người. Máy sẽ đốn người chơi nghĩ số 0 hay 1 trong đầu, người chơi sẽ phải trả lời cho máy biết là máy đã đốn đúng hay sai. Để từ đĩ máy tính sẽ học qui luật suy nghĩa của người chơi.
- Học dựa trên cây định danh • Ví dụ: Xây dựng các quy luật để kết luận một người như thế nào khi đi tắm biển thì bị cháy nắng. • Ta gọi tính chất cháy nắng hay khơng cháy nắng là thuộc tính quan tâm (thuộc tính mục tiêu). R = {“cháy nắng”, “bình thường”}
- Học dựa trên cây định danh • P = tập hợp 8 người quan sát được với 4 thuộc tính : – chiều cao (cao, trung bình, thấp), – màu tĩc (vàng, nâu, đỏ), – cân nặng (nhẹ, TB, nặng), – dùng kem (cĩ, khơng)
- Tên Tóc Ch.Cao Cân Dùng Kết quả Nặng kem? Sarah Vàng T.Bình Nhẹ Không Cháy Dana Vàng Cao T.Bình Có Không Alex Nâu Thấp T.Bình Có Không Annie Vàng Thấp T.Bình Không Cháy Emilie Đỏ T.Bình Nặng Không Cháy Peter Nâu Cao Nặng Không Không John Nâu T.Bình Nặng Không Không Kartie Vàng Thấp Nhẹ Có Không
- Thuật tốn Quinlan • Với mỗi thuộc tính dẫn xuất A cịn cĩ thể sử dụng để phân hoạch, tính : – VA(j) = ( T(j , r1), T(j , r2) , , T(j , rn) ) – T(j, ri) = (tổng số phần tử trong phân hoạch cĩ giá trị thuộc tính dẫn xuất A là j và cĩ giá trị thuộc tính mục tiêu là ri ) ( tổng số phần tử trong phân hoạch cĩ giá trị thuộc tính dẫn xuất A là j ) – trong đĩ r1, r2, , rn là các giá trị của thuộc tính mục tiêu – Như vậy nếu một thuộc tính A cĩ thể nhận một trong 5 giá trị khác nhau thì nĩ sẽ cĩ 5 vector đặc trưng.
- Thuật tốn Quinlan • Một vector V(Aj ) được gọi là vector đơn vị nếu nĩ chỉ cĩ duy nhất một thành phần cĩ giá trị 1 và những thành phần khác cĩ giá trị 0. • Thuộc tính được chọn để phân hoạch là thuộc tính cĩ nhiều vector đơn vị nhất.
- Thuật tốn Quinlan • Xét ví dụ, lúc ban đầu (chưa phân hoạch) VTóc (vàng) = ( T(vàng, cháy nắng), T(vàng, không cháy nắng)) Số người tóc vàng là : 4 Số người tóc vàng và cháy nắng là : 2 Số người tóc vàng và không cháy nắng là : 2 Do đó: VTóc(vàng) = (2/4 , 2/4) = (0.5, 0.5)
- Thuật tốn Quinlan • Tương tự – VTóc(nâu) = (0/3, 3/3) = (0,1) (vector đơn vị) – Số người tóc nâu là : 3 – Số người tóc nâu và cháy nắng là : 0 – Số người tóc nâu và không cháy nắng là : 3 – VTóc(đỏ) = (1/1, 0/1) = (1,0) (vector đơn vị) – Tổng số vector đơn vị của thuộc tính tóc là 2
- Thuật tốn Quinlan • Các thuộc tính khác được tính tương tự – VC.Cao(Cao) = (0/2,2/2) = (0,1) – VC.Cao(T.B) = (2/3,1/3) – VC.Cao(Thấp) = (1/3,2/3) VKem (Có) = (3/3,0/3) = (1,0) VKem (Không) = (3/5,2/5) – VC.Nặng (Nhẹ) = (1/2,1/2) – VC.Nặng (T.B) = (1/3,2/3) – VC.Nặng (Nặng) = (1/3,2/3)
- Thuật tốn Quinlan • Như vậy thuộc tính màu tóc có số vector đơn vị nhiều nhất nên sẽ được chọn để phân hoạch • Phân hoạch theo tóc vàng (Pvàng) là còn chứa những người cháy nắng và không cháy nắng. – Tiếp tục phân hoạch tập này. – Tính vector đặc trưng tương tự đối với các thuộc tính còn lại (chiều cao, cân nặng, dùng kem).
- Thuật tốn Quinlan • Trong phân hoạch Pvàng, tập dữ liệu của chúng ta còn lại là : Tên Ch.Cao Cân Dùng Kết quả Nặng kem? Sarah T.Bình Nhẹ Không Cháy Dana Cao T.Bình Có Không Annie Thấp T.Bình Không Cháy Kartie Thấp Nhẹ Có Không
- Thuật tốn Quinlan • VC.Cao(Cao) = (0/1,1/1) = (0,1) • VC.Cao(T.B) = (1/1,0/1) = (1,0) • VC.Cao(Thấp) = (1/2,1/2) • VC.Nặng (Nhẹ) = (1/2,1/2) • VC.Nặng (T.B) = (1/2,1/2) • VC.Nặng (Nặng) = (0,0) • VKem (Có) = (0/2,2/2) = (0,1) • VKem (Không) = (2/2,0/2) = (1,0)
- Thuật tốn Quinlan • 2 thuộc tính dùng kem và chiều cao đều có 2 vector đơn vị. Tuy nhiên, số phân hoạch của thuộc tính dùng kem là ít hơn nên ta chọn phân hoạch theo thuộc tính dùng kem. Cây định danh cuối cùng: Màu tóc Sarah Emmile Dana Dùng kem Alex Annie Kartie Peter Có Không John Dana Kartie Sarah Annie