Một phương pháp định lượng giá trị ngôn ngữ cho tập mẫu huấn luyện trong điều kiện hạn chế

14 trang Gia Huy 7140 Free

Download

Bạn đang xem tài liệu "Một phương pháp định lượng giá trị ngôn ngữ cho tập mẫu huấn luyện trong điều kiện hạn chế", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên

Tài liệu đính kèm:

mot_phuong_phap_dinh_luong_gia_tri_ngon_ngu_cho_tap_mau_huan.pdf

Nội dung text: Một phương pháp định lượng giá trị ngôn ngữ cho tập mẫu huấn luyện trong điều kiện hạn chế

TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ, Trường Đại học Khoa học, ĐH Huế Tập 14, Số 1 (2019) MỘT PHƢƠNG PHÁP ĐỊNH LƢỢNG GIÁ TRỊ NGƠN NGỮ CHO TẬP MẪU HUẤN LUYỆN TRONG ĐIỀU KIỆN HẠN CHẾ Lê Văn Tƣờng Lân Khoa Cơng nghệ Thơng tin, Trường Đại học Khoa học, Đại học Huế Email: [email protected] Ngày nhận bài: 01/7/2019; ngày hồn thành phản biện: 02/7/2019; ngày duyệt đăng: 02/7/2019 TĨM TẮT Tập mẫu đĩng vai trị quan trọng trong quá trình huấn luyện. Khi miền trị của các thuộc tính trong tập mẫu huấn luyện là chưa thuần nhất, việc làm thuần nhất tập huấn luyện là bắt buộc. Đại số gia tử là một cơng cụ hữu ích để làm thuần nhất tập huấn luyện, bằng cách chuyển miền dữ liệu của thuộc tính chưa thuần nhất thành miền dữ liệu chứa các giá trị ngơn ngữ hay định lượng các giá trị ngơn ngữ về các giá trị kinh điển. Trong quá trình thuần nhất, cần phải biết các giá trị min, max của miền trị kinh điển, tuy vậy trong thực tế, nhiều lúc ta chưa biết cụ thể giá trị min, max của thuộc tính đang xét. Trong bài báo này, chúng ta xây dựng một cách thức để cĩ thể định lượng các giá trị ngơn ngữ khi khơng biết miền giá trị *min, max] mà chỉ biết đoạn con *1, 2+ của chúng. Từ khố: Tập mẫu huấn luyện, Giá trị ngơn ngữ, Cây quyết định mờ. I. ĐẶT VẤN ĐỀ Cho một tập huấn luyện, tất cả các mẫu của tập đều cĩ chung một cấu trúc, gồm những cặp , một trong những thuộc tính này đại diện cho lớp và ta gọi là thuộc tính dự đốn hay thuộc tính phân lớp. Bài tốn phân lớp là bài tốn tìm quy tắc xếp các đối tượng vào một trong các lớp đã cho dựa trên tập mẫu huấn luyện. Cĩ nhiều phương pháp tiếp cận bài tốn phân lớp: Hàm phân biệt tuyến tính Fisher, Nạve Bayes, Logistic, Mạng nơ-ron, Cây quyết định, trong đĩ phương pháp cây quyết định là phương pháp phổ biến do tính trực quan, dễ hiểu và hiệu quả của nĩ [2, 18]. Trong thế giới thực, dữ liệu nghiệp vụ rất đa dạng vì chúng được lưu trữ để phục vụ nhiều cơng việc khác nhau, nhiều thuộc tính đã được thuần nhất miền giá trị trước khi lưu trữ nhưng cũng tồn tại nhiều thuộc tính cĩ miền trị chưa thuần nhất [5, 7, 8, 12]. Khi các thuộc tính chưa thuần nhất này xuất hiện trong tập mẫu huấn luyện, các 35
Một phương pháp định lượng giá trị ngơn ngữ cho tập mẫu huấn luyện trong điều kiện hạn chế thuật tốn học để xây dựng cây chưa thể tiến hành. Do đĩ, cần phải tiền xử lý dữ liệu để cĩ được tập mẫu huấn luyện thuần nhất. Vấn đề đặt ra là ta phải xử lý như thế nào để cĩ được kết quả là khả quan. Ví dụ 1: Cho bảng dữ liệu DIEUTRA lưu trữ về tình hình mua máy tính xách tay của khách hàng tại một cơng ty như bảng 1, cần chọn mẫu huấn luyện để xây dựng cây quyết định cho việc dự đốn khách hàng mua máy hay khơng. Bảng 1: Tập mẫu cĩ thuộc tính với dữ liệu khơng nhất quán (LươngTháng) NơiSống NgànhHọc KinhTế GiaĐình LƣơngTháng MáyTính T.Phố Luật Chưa tốt 45 Khơng NơngThơn Luật Chưa tốt Thấp Khơng T.Phố CNTT Chưa tốt 52 Cĩ T.Phố LịchSử Trung bình 20 Cĩ T.Phố LịchSử Khá Cao Cĩ NơngThơn LịchSử Khá Cao Khơng NơngThơn CNTT Khá Rất cao Cĩ T.Phố Luật Trung bình 35 Khơng T.Phố Luật Khá 100 Cĩ T.Phố LịchSử Trung bình 50 Cĩ NơngThơn Luật Trung bình Rất cao Cĩ NơngThơn CNTT Trung bình Ít thấp Cĩ T.Phố CNTT Chưa tốt 55 Cĩ NơngThơn LịchSử Trung bình 50 Khơng Trong thời gian qua, đại số gia tử được nhiều nhĩm tác giả trong và ngồi nước nghiên cứu và đã cĩ những kết quả đáng kể, đặc biệt trong lập luận xấp xỉ và trong một số bài tốn điều khiển *1, 6, 11-17, 21+. Việc sử dụng đại số gia tử để xử lý các giá trị ngơn ngữ trên miền dữ liệu chưa thuần nhất đã cho kết quả rất tích cực *6, 8+. Trong ví dụ 1, miền trị của thuộc tính LươngTháng trong Bảng 1 được thuần nhất theo giá trị ngơn ngữ là: {Ít cao, Thấp, Khả năng cao, Ít thấp, Cao, Cao, Rất cao, Ít thấp, Rất cao, Khả năng cao, Rất cao, Ít thấp, Khả năng cao, Khả năng cao} hay miền trị sau khi được định lượng giá trị là: {45, 24, 52, 34, 64, 64, 79, 35,100, 50, 79, 40, 55, 50} với miền trị kinh điển của thuộc tính LươngTháng trong tập mẫu được xác định là Dom(LươngTháng ) = [min, max] =[20,100]. Cây quyết định sau khi huấn luyện như hình 1. 36
TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ, Trường Đại học Khoa học, ĐH Huế Tập 14, Số 1 (2019) Ngành học Luật LịchSử CNTT Lương Cĩ Nơi Tháng Sống Nơng thơn >=79 <79 T.Phố Cĩ Khơng Khơng Cĩ Hình 1. Cây quyết định được tạo sau khi làm thuần nhất giá trị cho thuộc tính LươngTháng. Tuy vậy, khi định lượng giá trị ngơn ngữ, khơng phải lúc nào ta cũng tìm được các giá trị min, max trong tập dữ liệu. Với việc khơng thể tìm được miền giá trị kinh điển [min, max+ trong thuộc tính đang xét của tập mẫu huấn, ta phải nhờ ý kiến của chuyên gia để xác định chúng và sau đĩ tiếp tục cơng việc, như tập mẫu huấn luyện ở Bảng 2, ta nhờ chuyên gia để xác định *min, max] =*20,100+ và sau đĩ tiếp tục. Bảng 2: Tập mẫu cĩ thuộc tính LươngTháng khơng tìm được miền [min, max] NơiSống NgànhHọc KinhTếGiaĐình LƣơngTháng MáyTính T.Phố Luật Chưa tốt Ít cao Khơng NơngThơn Luật Chưa tốt Thấp Khơng T.Phố CNTT Chưa tốt Khả năng cao Cĩ T.Phố LịchSử Trung bình Rất thấp Cĩ T.Phố LịchSử Khá Cao Cĩ NơngThơn LịchSử Khá 65 Khơng NơngThơn CNTT Khá Rất cao Cĩ T.Phố Luật Trung bình 30 Khơng T.Phố Luật Khá Rất cao Cĩ T.Phố LịchSử Trung bình Khả năng cao Cĩ NơngThơn Luật Trung bình Rất cao Cĩ NơngThơn CNTT Trung bình Ít thấp Cĩ T.Phố CNTT Chưa tốt Khả năng cao Cĩ NơngThơn LịchSử Trung bình Khả năng cao Khơng 37
Một phương pháp định lượng giá trị ngơn ngữ cho tập mẫu huấn luyện trong điều kiện hạn chế Việc nhờ ý kiến của chuyên gia khơng phải lúc nào cũng thực hiện được và hơn nữa ta khơng thể tận dụng hết các thơng tin đã lưu trữ trong tập mẫu huấn luyện. Trong bài báo này, chúng tơi sẽ trình bày một cách để cĩ thể định lượng cho các giá trị ngơn ngữ khi khơng tìm thấy miền trị kinh điển [min, max+ trong thuộc tính đang xét của tập huấn luyện dựa vào đại số gia tử. II. ĐẠI SỐ GIA TỬ Cho đại số gia tử X = (X, G, H, ), với G = {c+,c-}, trong đĩ c+ và c- tương ứng là phần tử sinh dương và âm, X là tập nền. H =H+ H- với H = {h1,h2, , hp} và H+ = {hp+1, , hp+q}, h1>h2> >hp và hp+1 p 3. Chuyển giá trị số về giá trị ngơn ngữ [8] Để chuyển một giá trị số về một giá trị thuộc *0,1+, ta cĩ hàm IC: Dom(Ai) *0,1+ được xác định như sau:  1 max - Nếu LDAi =  và DAi  thì  Dom(Ai) ta cĩ: IC()= , với max min Dom(Ai) = [min, max+ là miền trị kinh điển của Ai. - Nếu DAi , LDAi  thì  Dom(Ai) ta cĩ IC() = {*(maxLV)}/max, với LDAi = [minLV, maxLV+ là miền trị ngơn ngữ của Ai. 38
TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ, Trường Đại học Khoa học, ĐH Huế Tập 14, Số 1 (2019) Nếu chúng ta chọn các tham số W và độ đo tính mờ cho các gia tử sao cho   1 max   (maxLV) 1.0 thì ({*(maxLV)}/max) max min 4. Hàm ngƣợc của hàm định lƣợng ngữ nghĩa [8] Cho đại số gia tử X=(X, G, H, ),  là hàm định lượng ngữ nghĩa của X. k: [0,1] X gọi là hàm ngược của hàm  theo mức k được xác định: a [0,1], k(a) = xk khi và chỉ khi a I(xk), với xk Xk. Cho đại số gia tử X=(X, G, H, ),  là hàm định lượng ngữ nghĩa của X, k là hàm ngược của , ta cĩ: (1) xk Xk, k((xk)) = xk (2) a I(xk), b I(yk), xk k yk, nếu a hơn và ít >khả năng. WLươngTháng = 0.6, fm(thấp) = 0.4, fm(cao) = 0.6, fm(rất) = 0.35, fm(hơn) = 0.25, fm(khả năng) = 0.20, fm(ít) = 0.20. Lúc này ta cĩ: fm(rất thấp) = 0.35 x 0.4 = 0.14, fm(hơn thấp) = 025 x 0.4 = 0.10, fm(ít thấp) = 0.2 x 0.4 = 0.08, fm(khả năng thấp) = 0.2 x 0.4 = 0.08. Vì rất thấp < hơn thấp < thấp < khả năng thấp < ít thấp nên : I(rất thấp) = [0,0.14], I(hơn thấp) = [0.14,0.24], I(khả năng thấp) = [0.24,0.32], I(ít thấp) = [0.32,0.4]. Ta cĩ: fm(rất cao) = 0.35 x 0.6 = 0.21, fm(hơn cao) = 025 x 0.6 = 0.15, fm(ít cao) = 0.2 x 0.6 = 0.12, fm(khả năng cao) = 0.2 x 0.6 = 0.12. Vì ít cao < khả năng cao < cao < hơn cao < rất cao nên : I(ít cao) = [0.4,0.52], I(khả năng cao) = [0.52,0.64], I(hơn cao) = [0.64,0.79], I(rất cao) = [0.79,1]. Vậy, với ULươngTháng= {45, Thấp, 52, 34, Cao, Cao, Rất cao, 35, 100, 50, Rất cao, Ít thấp, 55, 50}, [min, max] = *20,100+, ta tìm được IC() = {0.45, 0.24, 0.52, 0.34, 0.64, 0.64, 0.79, 0.35, 1, 0.50, 0.79, 0.4, 0.55, 0.50}. Giá trị mờ của thuộc tính LươngTháng là {Ít cao, Thấp, Khả năng cao, Ít thấp, 39
Một phương pháp định lượng giá trị ngơn ngữ cho tập mẫu huấn luyện trong điều kiện hạn chế Cao, Cao, Rất cao, Ít thấp, Rất cao, Khả năng cao, Rất cao, Ít thấp, Khả năng cao, Khả năng cao} nên sau khi định lượng giá trị cho thuộc tính LươngTháng sẽ được các giá trị rõ là: {45, 24, 52, 34, 64, 64, 79, 35,100, 50, 79, 40, 55, 50}. Tuy vậy, quá trình định lượng cho các giá trị ngơn ngữ ở trên chỉ thực hiện được khi chúng ta cĩ thể tìm được miền trị kinh điển [min, max+ của thuộc tính đang xét, ở đây là *20, 100+. Trong trường hợp khơng tìm thấy miền trị này thì giải thuật trên khơng thể áp dụng. 1. Định lƣợng giá trị ngơn ngữ khi biết một đoạn con của [min, max] và tồn bộ IC() Cho thuộc tính khơng thuần nhất Ai, lúc này ta cĩ Dom(Ai) = DAi LDAi nhưng giá trị biên *min, max+ đối với miền trị kinh điển DAi của Ai khơng được xác định, mà ta chỉ biết một đoạn con [1, 2+ tương ứng giá trị ngơn ngữ *LV1, LV2] của LDAi và tất cả các giá trị định lượng mờ IC() của chúng. Ví dụ như thuộc tính LươngTháng ở Bảng 2, giá trị mờ của thuộc tính LươngTháng là ,Ít cao, Thấp, Khả năng cao, Ít thấp, Cao, Cao, Rất cao, Ít thấp, Rất cao, Khả năng cao, Rất cao, Ít thấp, Khả năng cao, Khả năng cao}. IC() = {0.45, 0.24, 0.52, 0.34, 0.64, 0.64, 0.79, 0.35, 1, 0.50, 0.79, 0.4, 0.55, 0.50}. Ở đây, ta khơng biết *min, max] tương ứng với giá trị ngơn ngữ *minLV, maxLV] = *Rất thấp, Rất cao+ mà chỉ biết đoạn con cĩ miền trị là [1, 2] = [30, 65] tương ứng với miền  1 max trị của ngơn ngữ là [LV1, LV2] = *Ít thấp, Hơn cao+. Lúc này, do IC()= max min nên tất cả các  nằm giữa [1, 2+ sẽ đúng với quy tắc này. Hơn nữa, do độ lớn của các  sẽ tỷ lệ với bán kính f(H(x))  *0,1+ tức là 12lớn khi IC(1) > IC(2) và  12 khi tất cả các IC(1), IC(2) về cùng một phía với W. Do vậy, giá IC()() w12 IC w trị định lượng cho các giá trị ngơn ngữ này được tính theo giải thuật như sau: B1: Với  mà giá trị ngơn ngữ tương ứng trong đoạn [LV1, LV2], ta cĩ:  IC() w (  )  2 1 1 B2: Với  mà giá trị ngơn ngữ tương ứng trong đoạn [LV2, maxLV], ta tính tuần IC() w  2 tự tăng theo đoạn LV2 maxLV, với i 2 và dịch chuyển vị trí LV2 đến vị trí IC() wi i vừa tìm được. B3: Với  mà giá trị ngơn ngữ tương ứng trong đoạn [minLV, LV1+, ta tính tuần IC() w  1 tự giảm theo đoạn LV1 minLV, với i 1 và dịch chuyển vị trí LV1 lùi về vị IC() wi trí i vừa tìm được. Ví dụ 1: Cho 1 ĐSGT để mơ tả thuộc tính khơng thuần nhất LươngTháng trong Bảng 2 như sau: XLươngTháng = ( XLươngTháng, GLươngTháng, HLươngTháng, ), với GLươngTháng = {cao, thấp}, 40
TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ, Trường Đại học Khoa học, ĐH Huế Tập 14, Số 1 (2019) H+LươngTháng = ,hơn, rất}, H-LươngTháng = {khả năng, ít} với quan hệ ngữ nghĩa: rất > hơn và ít >khả năng. WLươngTháng = 0.6, fm(thấp) = 0.4, fm(cao) = 0.6, fm(rất) = 0.35, fm(hơn) = 0.25, fm(khả năng) = 0.20, fm(ít) = 0.20. Miền trị ngơn ngữ là {Ít cao, Thấp, Khả năng cao, Ít thấp, Cao, Cao, Rất cao, Ít thấp, Rất cao, Khả năng cao, Rất cao, Ít thấp, Khả năng cao, Khả năng cao}. IC() = {0.45, 0.24, 0.52, 0.34, 0.64, 0.64, 0.79, 0.35, 1, 0.50, 0.79, 0.4, 0.55, 0.50}. Biết đoạn con cĩ miền trị là *1, 2] = [30, 65+ tương ứng với miền trị của ngơn ngữ là *LV1, LV2] = [Ít thấp, Hơn cao+. Hãy định lượng các giá trị ngơn ngữ cho LươngTháng. Ta cĩ: fm(rất thấp) = 0.35 x 0.4 = 0.14, fm(hơn thấp) = 025 x 0.4 = 0.10, fm(ít thấp) = 0.2 x 0.4 = 0.08, fm(khả năng thấp) = 0.2 x 0.4 = 0.08. Vì rất thấp < hơn thấp < thấp < khả năng thấp < ít thấp nên: I(rất thấp) = [0, 0.14], I(hơn thấp) = [0.14, 0.24], I(khả năng thấp) = [0.24, 0.32], I(ít thấp) = [0.32, 0.4]. fm(rất cao) = 0.35 x 0.6 = 0.21, fm(hơn cao) = 0.25 x 0.6 = 0.15, fm(ít cao) = 0.2 x 0.6 = 0.12, fm(khả năng cao) = 0.2 x 0.6 = 0.12. Vì ít cao < khả năng cao < cao < hơn cao < rất cao nên : I(ít cao) = [0.4, 0.52], I(khả năng cao) = [0.52, 0.64], I(hơn cao) = [0.64, 0.79], I(rất cao) = [0.79, 1]. B1: Tính các  cĩ giá trị ngơn ngữ trong đoạn [Ít thấp, Hơn cao] Ít thấp = IC(Ít cao)(2-1)+1 = 0.4(65-30)+30=44 Ít cao = IC(Ít cao)(2-1)+1 = 0.52(65-30)+30=48 Khả năng cao = IC(Khả năng cao)(2-1)+1 = 0.64(65-30)+30=52 B2: Tính các  cĩ giá trị ngơn ngữ trong đoạn [Hơn cao, Rất cao] Hơn cao = 2*IC(Khả năng cao)/IC(Hơn cao) = 65 * 0.64 / 0.52 = 80 Rất cao = 2*IC(Hơn cao)/IC(Rấ cao) = 80 * 0.79 / 0.64 = 99 B3: Tính các  cĩ giá trị ngơn ngữ trong đoạn [Rất thấp, Ít thấp] Khả năng thấp = 1*IC(Ít thấp)/IC(Khả năng thấp) = 30 * 0.32 / 0.4 = 24 Hơn thấp = 1*IC(Khả năng thấp)/IC(Hơn thấp) = 24 * 0.24 / 0.32 = 18 Rất thấp = 1*IC(Hơn thấp)/IC(Rất thấp) = 18 * 0.14 / 0.24 = 10 Vậy miền trị sau khi được định lượng giá trị là: {48, 18, 52, 30, 80, 80, 99, 30, 99, 52, 99, 30, 52, 52}. Cây quyết định sau khi huấn luyện như hình 2. 41
Một phương pháp định lượng giá trị ngơn ngữ cho tập mẫu huấn luyện trong điều kiện hạn chế Ngànhhọc Luật LịchSử CNTT Lƣơng tháng Cĩ Nơi sống >=80 IC(2)  1 max Do IC() = nên tất cả các  nằm giữa [1, 2+ sẽ đúng với quy tắc max min  2 này, tức là IC() = 1 với  21 . Do vậy cĩ thể xây dựng một ĐSGT để 2 1 định lượng giá trị cho chúng. Theo phương pháp xây dựng ĐSGT đã nêu ở mục II, ta thấy tính mờ của các giá trị trong đại số gia tử là một đoạn con của *0,1+ cho nên họ các đoạn con như vậy của các giá trị cĩ cùng độ dài sẽ tạo thành phân hoạch của *0,1+. Phân hoạch ứng với các giá trị cĩ độ dài từ lớn hơn sẽ mịn hơn và khi độ dài lớn vơ hạn thì độ dài của các đoạn trong phân hoạch giảm dần về 0. Hơn nữa, các giá trị ngơn ngữ là một tập sắp thứ tự tuyến tính nên ta sẽ chia các đoạn con tương ứng thành các phân hoạch nhỏ hơn nhằm xác định lại độ dài của các đoạn *0, (i)] hay [(i), 1+ để từ đĩ cĩ xác định giá trị rõ cho các giá trị ngơn ngữ này. Đây chính là điểm để tính các IC() khơng nằm trong đoạn *1, 2] bằng cách phân chia liên tiếp các đoạn con này để xác định các IC(i) tương ứng. Vậy ta cĩ giải thuật như sau B1: Xây dựng 1 ĐSGT trong miền *1, 2+ để tính các IC() tương ứng cho các giá trị trong đoạn *1, 2] này. 42
TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ, Trường Đại học Khoa học, ĐH Huế Tập 14, Số 1 (2019) B2: Tính lại các phân hoạch cho các IC() như sau : 1. Nếu i 2 thì : - Phân hoạch đoạn *(2), 1] thành [(2), (i)] và [(i), 1] - Tính fm(hi) ~ fm(h2) x I(2) và fm(h2) = fm(h2) - fm(hi) 3. Tính giá trị IC(i) và i tại vị trí i. Gán vị trí i đang cĩ thành vị trí 1 và tiếp tục tính lùi với các giá trị cịn lại với i 2 B3: Thực hiện định lượng các giá trị ngơn ngữ với cách tính ở mục 1 khi đã biết tồn bộ IC(). Tính đúng của giải thuật: Do tất cả các phân hoạch trên khơng vượt ra khỏi đoạn đang xét là |fm(h1)| hay |fm(h2| nên khơng làm phá vỡ các phân hoạch đang cĩ của đoạn *0,1+, do I(1)>0 và I(2)<1, nên cách phân hoạch trên là phù hợp với phương pháp thuần nhất đã nêu ở mục II. Ví dụ 2: Cho tập mẫu huấn luyện như ở Bảng 3. Hãy định lượng cho các giá trị ngơn ngữ ở thuộc tính LươngTháng. Bảng 3: Tập mẫu cĩ thuộc tính LươngTháng với dữ liệu khơng nhất quán, khơng tìm được miền [min, max] NơiSống NgànhHọc KinhTếGiaĐình LƣơngTháng MáyTính T.Phố Luật Chưa tốt 48 Khơng NơngThơn Luật Chưa tốt Thấp Khơng T.Phố CNTT Chưa tốt 53 Cĩ T.Phố LịchSử Trung bình Rất thấp Cĩ T.Phố LịchSử Khá Cao Cĩ NơngThơn LịchSử Khá 80 Khơng NơngThơn CNTT Khá Rất cao Cĩ T.Phố Luật Trung bình 30 Khơng T.Phố Luật Khá 80 Cĩ T.Phố LịchSử Trung bình 50 Cĩ NơngThơn Luật Trung bình Rất cao Cĩ NơngThơn CNTT Trung bình Ít thấp Cĩ T.Phố CNTT Chưa tốt 55 Cĩ NơngThơn LịchSử Trung bình 50 Khơng 43
Một phương pháp định lượng giá trị ngơn ngữ cho tập mẫu huấn luyện trong điều kiện hạn chế Tập mẫu cĩ thuộc tính LươngTháng là chưa thuần nhât nên ta phải thuần nhất các giá trị cho LươngTháng. Ta cĩ: Dom(LươngTháng) = DLươngTháng  LDLươngTháng. DLươngTháng={30, 48, 50, 53, 55, 80}; 1=30; 2=80. LDLươngTháng=,Rất thấp, Thấp, Ít thấp, Cao, Rất cao}. Các giá trị ngơn ngữ cĩ giá trị kinh điển nằm ngồi *1, 2]: {Rất thấp, Rất cao}. B1: Tính các giá trị IC() trong LươngTháng tương ứng trong đoạn [1, 2] = [30, 80]. Lúc này: DLươngTháng={30, 48, 50, 53, 55, 80};LDLươngTháng={Thấp, Ít thấp, Cao}. Xây dựng 1 ĐSGT để tính cho thuộc tính khơng thuần nhất LươngTháng như sau: XLươngTháng = ( XLươngTháng, GLươngTháng, HLươngTháng, ), với GLươngTháng = {cao, thấp}, H+LươngTháng = ,hơn, rất}, H-LươngTháng = {khả năng, ít}. Quan hệ ngữ nghĩa: rất > hơn và ít >khả năng. WLươngTháng = 0.4, fm(thấp) = 0.4, fm(cao) = 0.6, (rất) = 0.35, (hơn) = 0.25, (khả năng) = 0.20, (ít) = 0.20. Lúc này ta cĩ: fm(rất thấp) = 0.35 x 0.4 = 0.14, fm(ít thấp) = 0.2 x 0.4 = 0.08, fm(khả năng thấp) = 0.2 x 0.4 = 0.08. Vì rất thấp =79 Hơn cao nên ta sẽ phân hoạch đoạn *0.79,1+ tương ứng của |I(lớn)|. Như vậy ta cĩ: fm(Rất cao) ~ fm(Hơn cao) x I(Hơn cao) = 0.21 x 0.79 = 0.17. Nên I(Hơn cao) = [0.79, 0.96], I(Rất cao) = *0.96, 1+. Do đĩ Rất cao = 97. Rất thấp < Hơn thấp nên ta sẽ phân hoạch đoạn *0, 0.14+ tương ứng của |I(thấp)|. fm(Rất thấp) ~ fm(Hơn thấp) x I(Hơn thấp) = 0.14 x 0.14 = 0.02. Nên I(Hơn thấp) = [0.02, 0.14], I(Rất thấp) = *0, 0.02+. Do đĩ Rất thấp = 4. 44
TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ, Trường Đại học Khoa học, ĐH Huế Tập 14, Số 1 (2019) B3: Tính lại IC() với *1, 2] = [4, 97]. Lúc này ta cĩ: IC() = {0.47, 0.24, 0.52, 0, 0.64, 0.81, 1, 0.27, 0.81, 0.49, 1, 0.40, 0.54, 0.49}. Vậy thuộc tính LươngTháng sau khi được định lượng cĩ giá trị là: {48, 26, 52, 4, 64, 79, 97, 29, 79, 50, 97, 41, 54, 50}. Cây quyết định sau khi huấn luyện như hình 3. VI. KẾT LUẬN Bài báo đã đánh giá tính phức tạp của dữ liệu huấn luyện được chọn từ dữ liệu nghiệp vụ, phân tích tính đa dạng của miền trị thuộc tính đồng thời chỉ ra tính phức tạp khi định lượng giá trị ngơn ngữ. Trên cơ sở của đại số gia tử, bằng việc xem xét tính hiệu quả khi làm thuần nhất giá trị cho các thuộc tính chưa thuần nhất trong mẫu theo giá trị ngơn ngữ hay theo giá trị kinh điển, bài báo đã chỉ ra một cách thức để cĩ thể xác định được giá trị rõ cho các giá trị ngơn ngữ trong điều kiện hạn chế, để từ đĩ ta cĩ thể huấn luyện được cây quyết định phù hợp với thực tế. TÀI LIỆU THAM KHẢO [1]. Nguyễn Cát Hồ. Lý thuyết tập mờ và Cơng nghệ tính tốn mềm, Tuyển tập các bài giảng về Trường thu hệ mờ và ứng dụng (2006). [2]. Nguyễn Cát Hồ. Cơ sở dữ liệu mờ với ngữ nghĩa đại số gia tử, Bài giảng trường Thu - Hệ mờ và ứng dụng, Viện Tốn học Việt Nam (2008). [3]. Nguyễn Cơng Hào, Nguyễn Cát Hồ, Một cách tiếp cận xấp xỉ dữ liệu trong cơ sở dữ liệu mờ, Tạp chí Tin học và Điều khiển học (2006). [4]. Lê Văn Tường Lân. Một cách tiếp cận chọn tập mẫu huấn luyện cây quyết định dựa trên đại số gia tử, Hội nghị Quốc gia lần thứ VI về nghiên cứu cơ bản và ứng dụng Cơng nghệ Thơng tin (FAIR), Nhà xuất bản Khoa học tự nhiên và Cơng nghệ (2013). [5]. A.K. Bikas, E. M. Voumvoulakis and N. D. Hatziargyriou. Neuro-Fuzzy Decision Trees for Dynamic Security Control of Power Systems, Department of Electrical and Computer Engineering, Greece (2008) [6]. Chida, A. Enhanced Encoding with Improved Fuzzy Decision Tree Testing Using CASP Templates, Computational Intelligence Magazine, IEEE (2012). [7]. [Chang, Robin L. P. Pavlidis. Fuzzy Decision Tree Algorithms, Man and Cybernetics, IEEE (2007). [8]. Dorian, P Data Preparation for Data Mining, Morgan Kaufmann (1999). [9]. Daveedu R. A., Jaya Suma. G, Lavanya Devi. G. Construction of Fuzzy Decision Tree using Expectation Maximization Algorithm, International Journal of Computer Science and Management Research (2012). [10]. Fernandez A., Calderon M., Barrenechea E Enhancing Fuzzy Rule Based Systems in Multi-Classication Using Pairwise Coupling with Preference Relations, EUROFUSE 45
Một phương pháp định lượng giá trị ngơn ngữ cho tập mẫu huấn luyện trong điều kiện hạn chế Workshop Preference Modelling and Decision Analysis, Public University of Navarra, Pamplona, Spain (2009). [11]. FA. Chao Li, Juan sun, Xi-Zhao Wang. Analysis on the fuzzy filter in fuzzy decision trees, Proceedings of the Second International Conference on Machine Learxung and Cybernetics (2003). [12]. Kavita Sachdeva, Madasu Hanmandlu, Amioy Kumar. Real Life Applications of Fuzzy Decision Tree, International Journal of Computer Applications (2012). [13]. Hesham A. Hefny, Ahmed S. Ghiduk, Ashraf Abdel Wahab. Effective Method for Extracting Rules from Fuzzy Decision Trees based on Ambiguity and Classifiability, Universal Journal of Computer Science and Engineering Technology, Cairo University, Egypt. (2010). [14]. Ho Tu Bao. Introduction to knowledge discovery and data mining, Institute of Information Technology National Center for Natural Science (2000). [15]. Ho N. C. and Nam H. V An algebraic approach to linguistic hedges in Zadeh's fuzzy logic, Fuzzy Sets and Systems, vol.129, pp.229-254 (2002). [16]. Moustakidis, S. Mallinis, G. ; Koutsias, N. ; Theocharis, J.B. ; Petridis, V. . SVM-Based Fuzzy Decision Trees for Classification of High Spatial Resolution Remote Sensing Images, Geoscience and Remote Sensing, IEEE (2012). [17]. Oleksandr Dorokhov, Vladimir Chernov. Application of the fuzzy decision trees for the tasks of alternative choices, Transport and Telecommunication Institute, Lomonosova, Latvia , Vol.12, No 2 (2011). A METHOD TO DETERMINE THE LINGUISTIC VALUES IN THE LIMITED CONDITIONS OF TRAINING DATA SET Le Van Tuong Lan Faculty of Information Technology, University of Sciences, Hue University Email: [email protected] ABSTRACT Sample training data set plays an important role in the training process. When the value of the attribute domain may be value or linguistics, we need a method to homogenise sample training data set. Hedge algebra is a useful tool to make the training set homogeneous by changing the values of mixed domain to homogeneous data domain that only contains linguistics or values. In the process of homogeneous data domain, we have to know the values min, max. However, in reality, we do not know the values min, max exactly. In this paper, we present a 46
TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ, Trường Đại học Khoa học, ĐH Huế Tập 14, Số 1 (2019) method to determine the linguistic values when we only know the sub values [1, 2] without knowing the values [min, max] exactly. Keywords: Fuzzy decision tree, linguistic values, training data set. Lê Văn Tƣờng Lân sinh năm 1974 tại thành phố Huế. Ơng tốt nghiệp cử nhân chuyên ngành Tốn – Tin học tại Trường Đại học Khoa học, Đại học Huế năm 1996 và thạc sĩ chuyên ngành Cơng nghệ thơng tin tại Trường Đại học Bách khoa Hà Nội, năm 2002. Hiện đang là Nghiên cứu sinh tại Trường Đại học Khoa học, Đại học Huế, chuyên ngành Khoa học máy tính. Ơng cơng tác tại khoa Cơng nghệ thơng tin, Trường Đại học Khoa học, Đại học Huế từ năm 1996 đến nay. Lĩnh vực nghiên cứu: Khai phá dữ liệu, cơng nghệ phần mềm. 47
Một phương pháp định lượng giá trị ngơn ngữ cho tập mẫu huấn luyện trong điều kiện hạn chế 48