一种懒惰式决策树和普通决
一种懒惰式决策树和普通决
一种懒惰式决策树和普通决
一种懒惰式决策树和普通决
一种懒惰式决策树和普通决
一种懒惰式决策树和普通决
一种懒惰式决策树和普通决

第 25卷第 12期 计算机应用与工具 Vol.25 No.122008年 12月 ComputerApplicationsandSoftware Dec.2008一种懒惰式决策树和普通决策树结合的分类模型———半懒惰式决策树王建林1王志海2王学玲11 (滨州学院计算机科学与技术系山东 滨州 256603)2 (北京交通大学计算机与信息技术学院北京 100044)收稿日期:2007 -04-02。王建林, 讲师, 主研领域:数据挖掘, 人工智能。摘要懒惰式决策树分类是一种非常有效的分类方式。 它从概念上为每一个测试案例制定一棵 “最优 ”的决策树。 但是, 大多数的研究是基于小的数据集合之上。 在大的数据集合上, 它的分类速度慢、内存消耗大、易被噪声误导等特点, 影响了其分类性能。通过预测懒惰式决策树和普通决策树的分类方法, 提出了一种新的决策树分类模型, Semi-LDtree。 它生成的决策树的结点, 如普通决策树一样, 包含单变量分裂, 但是叶子结点相当于一个懒惰式决策树分类器。 这种分类模型保留了普通决策树良好的能解释性,实验结果证实它增强了分类速度跟分类精确度, 在这些分类任务上它的分类性能经常性地胜过它们, 特别是在大的数据集合上。

关键词懒惰式决策树朴素贝叶斯半懒惰式决策树算机ACLASSIFIERHYBRIDMODELBASEDONREGULARDECISIONTREEANDLAZYDECISIONTREE— SEMI-LDTREEWangJianlin1WangZhihai2WangXueling11 (DepartmentofComputerScienceandTechnology, BinzhouUniversity, Binzhou256603, Shandong, China)2 (SchoolofComputerandInformationTechnology, BeijingJiaotongUniversity, Beijing100044, China)AbstractLazydecisiontreeisaveryeffectiveclassificationmethod.Itconceptuallyconstructsthe“best” decisiontreeforeachtestin-stance.However, moststudiesaredoneonsmalldatabases.Insomelargerdatabases, lazydecisiontreeshowsitsdeficienciesinclassificationspeed, memoryconsumption, anditiseasilyinducedbynoises, whichaffectsitsclassificationperformance.OnthebasisoftheanalysisontheclassificationprinciplesofregulardecisiontreeclassificationmodelandLazydecisiontreeclassificationmodel, anewdecisiontreeclassifica-tionmodel, Semi-LDtreeisproposed.Thedecisiontreenodesgeneratedbythenewmodelcontainunivariatesplitslikeregulardecisiontrees,buttheleavesareegualtoLazydecisiontreeclassifiers.Thisclassificationmodelretainstheinterpretabilityofregulardecisiontree.Experi-mentalresultsshowthatthismodelhashigherclassificationaccuracyandfasterclassificationspeed,anditfrequentlyoutperformsthetraditio-naltwomodelsespeciallyinlargerdatabasestested.KeywordsLazydecisiontreeNavebayesSemi-LDtree0引言分类是数据挖掘和机器学习的一种非常重要的方式亚博APP, 可以拿来提取描述重要数据类的建模。

分类是在已有数据集合的基础上学会一个分类变量或构造出一个分类模型(即一般所说的分类器)。 该变量或模型无法给由属性集叙述的未分类的示例指派最合适的类标签, 从而可以应用于数据分类跟分析[ 1, 2]。机器学习、数据挖掘、专家系统、统计学和神经生物学方面的研究者已经强调了许多的分类方式跟科技, 例如, 懒惰式决策树、朴素贝叶斯方法[ 1, 2]、贝叶 斯网络[ 1, 2]、双层贝叶 斯[ 3]、决策树[ 4]、决策表[ 5]、K-最邻近或者支持向量机等等。 众所周知, 没有一种分类方式在所有领域都是有效的。 懒惰式决策树具有较高分类精确度[ 6], 决策树具有良好的可解释性[ 4], 从而促使这两种分类器模型慢慢变成机器学习和数据挖掘领域的探究热点。本文仔细地预测了决策树和懒惰式决策树这两种分类模型的分类方法 , 结合了这二者的长处, 从一种新的视角提出了一种新的分类模型— Semi-LDtree。 它生成的决策树的结点, 如普通决策树一样 , 包含单变量分裂, 但是叶子结点相当于一个懒惰式决策树分类器。 本文给出了 Semi-LDtree分类模型的算法,并实验非常了 Semi-LDtree、weka包下的 J48、懒惰式决策树和贝叶斯这四种分类器的分类精确度。

1决策树分类模型分类方式中最为典型的是基于决策树的分类方式。 它从练习集合中构造出决策树懒惰式决策树, 是一种有指导的学习方法。 决策树的叶结点是类名, 中间结点是具有分支的属性, 该分支对应属性的230 计算机应用与工具 2008年某一可能值。 最为典型的决策树学习平台是 ID3, 它采取自顶向下分而治之的思路, 能保证构造出一棵简单的树。 算法 C4.5和 C5.0都是 ID3的扩展, 它们将分类领域从枚举型属性扩展到数值型属性[ 4]。构建决策树最重要的是怎样选取分裂属性。 迄今为止已经强调了许多选取分裂属性的标准, 例如, 标准熵增益和增益比率, Gini索引, Kolmogorov-Smirnov度量, 基于 Goodman-Kruskal关联索引等等。 本文采用的是一种基于 NBtree的思想[ 7] 。 对每一个候选属性划分当前结点的数据集合, 计算朴素贝叶斯分类器在分裂后的数据集合上的交叉验证精确度值的指数跟。 取精确度最大的属性成为绝佳的分裂属性。2懒惰式决策树与朴素贝叶斯的非常简洁贝叶斯分类器是一种简单而有效的几率分类方式, 但是其“属性独立性假设”在现实世界中大多数数据集合上显著不建立, 从而让其分类性能得到限制 ;而懒惰式决策树分类器采用决策树思想和懒惰式分类观念, 从概念上为每一个待分类范例建立一棵“最优”的树, 不受属性独立性假设的约束, 在小一些的数据集合上, 其分类精确度十分高。

科学决策民主决策理性决策依法决策_懒惰式决策树_决策树法进行决策

大量试验证实:懒惰式决策树分类器在大多数数据集合上所得的分类精确度要比朴素贝叶斯分类器高, 但是朴素贝叶斯分类器在大多数据集合上的分类速度要比懒惰式决策树分类器快。因此本文利用懒惰式决策树分类器代替仅仅分析一个简单类标签的普通决策树的叶子结点来构建半懒惰式决策树分类器:Semi-LDtree分类器。 同时运用朴素贝叶斯分类器分类速度快的特点计算当前结点分裂后分类精确度的消极估计, 来选取最佳的分裂属性。3Semi-LDtree分类模型及算法Semi-LDtree分类模型形成的分类器是一棵决策树, 它与普通决策树的不同之处在于它的叶子结点是一个懒惰式决策树。在练习阶段, 它运用训练例程集合递归迭代生成一棵决策树。当给定一个测试案例, 它从决策树根节点被分至一个叶节点时,懒惰决策树开始学习, 学习完后给出了这个测试案例的类标签。Semi-LDtree分类模型充分吸取了聪明决策树在小的数据集合上分类精确度高这一特点, 同时保留了决策树良好的可解释性, 提高了分类速度跟精确度。本文提出的 Semi-LDtree算法如下所示。 这个算法类似于经典的 C4.5算法, 采用的都是分而治之自顶向下迭代递归的思路。

科学决策民主决策理性决策依法决策_懒惰式决策树_决策树法进行决策

特别之处在于叶子节点是一个分类精确度高的聪明决策树, 而不是仅仅分析一个简单类标的节点。对于数值连续型属性的阀值的形成, 本文仍采用 J48提出的方式。 首先将数据集合按照数值连续型属性排序选择多个分裂点。 对每一个分裂点计算信息增益, 选择信息增益最大的分裂点成为阈值点[ 4]。如何选取最佳的分裂属性, 本文采用的是对每一个候选属性划分当前结点的数据集合,计算朴素贝叶斯分类器在分裂后的数据集合上的交叉验证精确度值的指数跟亚博APP, 记为 AccW。 取精确度最大的属性成为绝佳的分裂属性[ 7]。对于什么时候停止决策树的生长而生成相当于懒惰式决策树的叶子节点, 本文采用的是在当前结点上推导朴素贝叶斯分类器的交叉验证精确度(记为 Acc), 当这个精确度大于给定的限制值, 或者这个精确度明显高于用属性分裂后的权重和精确度 , 或者找不到最佳的分裂属性时, 停止决策树的生长, 否则再次在此节点上分裂。Semi-LDtree算法:输入:带有类标的训练数据集合;输出:叶子结点是懒惰式决策树分类器的决策树。1)计算当前节点的 Acc值;2)计算每个候选属性的 AccW值, 选择一个 AccW值最大的属性成为绝佳的分裂属性;3)如果 Acc值显著高于 MAX(AccW)值, 或者 Acc值小于一个给定值 , 或者当前结点的例子数目大于一个给定的值时, 生成叶子结点, 调用懒惰式决策树

懒惰式决策树_科学决策民主决策理性决策依法决策_决策树法进行决策

否则按最佳属性分裂生成子节点。在每个子节点上递归建树。4实验数据及试验结果预测为了检测 Semi-LDtree算法, 本文采用的实验数据集合都来自 UCI的数据文件[ 8]。 在所有的数据集合上检测分类器的性能所采取的方式都是十倍交叉验证的方式。 在锻炼数据上建树的过程中本文删掉了这些类值缺省的训练范例。实验的主要目的是对 Semi-LDtree、J48、懒惰式决策树和贝叶斯分类器在每个数据集合上的分类精确度进行了相当。 每个分类器的分类精确度是在检测集合上顺利预测的例子占总案例的百分比, 采用的 10重交叉验证估计分类器的精确度。 每一个数据集合被分成十个没有交叉数据的子集, 所有子集的大小大概相似。分类器训练跟测试共十次;每一次, 分类器使用去除一个子集的剩余数据成为训练集, 然后在被消除的子集上进行检测 。把所有受到的精确度的平均值作为评定精确度, 即 10重交叉验证精确度。 在运行 J48, lazytree和 Navebayes三种分类器时候, 均采取的是默认的参数。 实验结果如表 1所示。表 14种分类器的试验结果非常Domain S-LDT J48 lazytree NBAudio 80.9735 77.4336 80.0885 73.0088zoo 98.0198 92.0792 98.0198 93.0693solarflar 83.2253 83.1533 83.2253 81.2095Lung-cancer 53.1250 50.0000 50.0000 50.0000Led1 73.0000 73.400 73.0000 73.4000House-votes-84 94.9425 95.1724 94.9425 89.8815anneal 92.5390 90.9800 85.7461 79.6214Balance-scale 71.5200 76.6400 71.5200 90.400Echocardigram 67.9389 64.8855 67.9389 74.0458Glass7 65.8879 65.8879 65.8879 49.5327pid 74.4792 73.8281 74.4792 76.3021wine 93.2584 93.8202 93.2584 96.6292weather 92.8571 64.2857 92.8571 64.2857vehicle 72.2222 71.9858 72.2222 45.5083syncon 91.8333 91.6667 91.8333 94.6667sonar 74.0385 71.1538 74.0385 67.7885chess 91.2886 92.1969 91.2886 86.7514ttt 92.5887 85.0731 85.4906 69.6242iris 93.3333 96.0000 93.3333 96.0000german 70.0000 70.5000 67.9000 75.4000(下转第 238页)238 计算机应用与工具 2008年方面具备较强的鲁棒性和优越性。

3结论在此文章中强调了一种新的优化模糊 C均值方法, 首先我们运用直方图信息粗略地大概多个聚类中心, 再借助聚类中心之间的距离相当, 筛选确认所选定四个聚类中心, 完成初始聚类中心的选取, 使得进一步提升了运行效率。 然后在 FCM算法的框架中采用邻域关系限制, 利用 Gibbs随机场性质, 引入了先验概率的概念, 改变了隶属度函数的表示方式, 同时在计算的过程中既对距离矩阵作了进一步的微调, 试验结果证实, 该办法具有很高的分割效果, 对噪声具有较强的鲁棒性。参 考 文 献[ 1] BezdekJC.Pattemrecognitionwithfuzzyobjectivefunctionalgorithms[ M] .PlenumPress, NewYork.1981.[ 2 ] Hungmc, Yangdl.AnEfficientFuzzyC-MeansClusteringAlgorithm[ A] .IEEEInternationalConferenceonDataMining, California, USA,2001:225-232.[ 3 ] 丁震, 胡钟山, 杨静宇, 等.一种基于模糊聚类的图像分割方法[ J] .计算机研究与演进, 1997, 34(7):536-541.[ 4 ] ZhangDQ, ChenSC, PanZS, etal.Kernel-basedfuzzyclusteringin-corporatingspatialconstraintsforimagesegmentation[ A] .Proc.Inter-nationalConferenceonMachineLearningandCybernetics, 2003, 4:2189-2192.[ 5] NikhlPR, BezdekJC.Onclustervalidityforthefuzzyc-meansmodel[ J] .IEEETransactionsonFuzzySystems, 1995, 3(3):370-379.[ 6] 吴林,郭大勇懒惰式决策树, 等.改进的 FCM在人脑 MR图像分割中的应用[ J] .清华大学学报:自然科学版, 2004, 44(2):157-159.[ 7] StanZLi, MarkovRandom FieldModelinginImageAnalysis[ J] .Springer, 2001, ISBN4-431-70309-8.[ 8] 冯衍秋, 陈武凡, 等.基于 Gibbs随机场与模糊 C均值聚类的图像分割新算法[ J] .电子学报, 2004, 32(4):645-647.(上接第 230页)mushroom 100.000 100.000 100.000 95.8272Solarflare-m 93.3765 95.1044 92.8716 90.7847clevelan 77.5578 76.5677 73.5974 82.5083ave 82.5220 81.5136 81.4582 78.0976表 1列出了 Semi-LDtree, J48, lazytree和 Navebayes这四种分类器在 23个实验数据上分类精确度的对比。

从实验结果可以看出, Semi-LDtree在大部分实验数据集上获得了最好的分类性能。 在 23个实验数据集合上, Semi-LDtree的平均分类精确度为 82.5220;J48的平均分类精确度为 81.5136;lazytree的平均分类精确度为 81.4582;Navebayes的平均分类精确度为78.0976。 对 audio, lung-cancer, anneal, ttt数据集合, Semi-LDtree的分类精确度均比 J48, lazytree和 Navebayes分类器的精确度高。 对 audio, zoo,anneal亚博APP, echocardiogram, weather, sonar, ttt数据集合上, Semi-LDtree的分类精确度均比 J48高出许多。 对于所有的数据集合, 因为 Semi-LDtree分类器如果不形成决策树就相当于一个 lazytree分类器, 所以它的分类精确度不会比 lazytree分类器低。 在 audio, anneal, ttt, german, solarflare-m五个大数据集合上, Semi-LDtree体现了决策树的优势, 它的分类精确度比lazytree分类器的精确度高。

Semi-LDtree产生的决策树的结点数目显著超过 J48产生的决策树的结点数目。 例如, 对于数据集合 anneal,J48生成了 78个节点亚博APP, 分类精确度为 90.9800, 而 Semi-LDtree只生成 7个节点 , 精确度却超过了 92.5390;对于数据集合 ttt, J48生成了 142个节点, 分类精确度为 85.0731,而 Semi-LDtree生成 39个节点懒惰式决策树,精确度却超过了 92.5887。 因此, 它比 J48具有更好的能解释性 。但是, Semi-LDtree的每个叶子节点的复杂度比 J48要高。在本文的试验中推断停止决策树生长的条件时, 精确度的界限值是 0.95, 分裂前后精确度值的差本文采用 -0.05, 叶子节点最少的例子数目是 30。 实际上, 这三个值的取值的变动均会引起 Semi-LDtree分类器分类精确度的上下浮动。5结论懒惰式决策树分类模型从概念上为每一个测试案例制定一棵 “最优”的决策树, 所以分类精确度高。 但是 , 在大的数据集合上, 它的分类速度慢、内存消耗大、易被噪声误导等特点, 影响了它的分类性能。 决策树分类模型, Semi-LDtree, 它生成的决策树的结点, 如普通决策树一样, 但是叶子结点相当于一个懒惰式决策树分类器。

这种分类模型同时保留了普通决策树良好的可解释性和懒惰式决策树在小的数据集合上分类精确度高这两种特点。实验结果证实了它增强了分类速度跟分类精确度, 在这些分类任务上它的分类性能经常性地胜过它们, 特别是在大的数据集合上。在 Semi-LDtree的实现中, 最佳分裂属性的选取标准是相当重要的。 本文中引入的方式是非常每一个候选属性的交叉验证精确度值的大小来选取最佳的分类属性, 是否也有其他更好的分类标准, 是下一步研究的一个内容。 另外, 在本文实验中推断停止决策树生长的条件时, 选用了三个参数。 实际上, 对于不同的数据集合, 这三个值的取定也不同。 是否有一个更好的判定停止决策树生长的标准, 这只是必须进一步探究的弊端 。参 考 文 献[ 1] HanJ, KamberM.DataMiningConceptsandTechniques[ M] .SanFrancisco:MorganKaufmannPublishers, 2001:185-219.[ 2] MitchellTM.MachineLearning[ M] .McGrawHill, 1997:112-140.[ 3] 石洪波, 王志海, 黄厚宽.一种限定性的双层贝叶斯分类模型[ J] .软件学报, 2004, 15(2):193-199.[ 4] SimoviciDanA, JaroszewiczSzymon.AMetricApproachtoBuildingDecisionTreesBasedonGoodman-KruskalAssociationIndex[ C] .PA-KDD, 2004:181-190.[ 5] WittenIH, FrankE.DataMining:PracticalMachineLearningToolsandTechniqueswithJavaImplementations[ M] .Seattle:MorganKauf-mann, 2000.[ 6 ] FriedmanJH, KohaviRon,YeogirlYun.LazyDecisionTrees[ C] .AAAI-96亚博APP, 1996:717-724.[ 7] KohaviR.ScalinguptheaccuracyofNave-Bayesclassifiers:Adeci-sion-treeHybrid[ C] .In:SimoudisE, HanJ, FayyadUM, eds.Proc.ofthe2 Int lConf.onKnowledgeDiscoveryandDataMining.MenloPark:AAAIPress, 1996:202-207.[ 8] NewmanDJ, HettichS, BlakeCL, etal.UCIRepositoryofmachinelearningdatabases[ ~ mlearn/MLReposito-ry.html] .Irvine, CA:UniversityofCalifornia, DepartmentofInforma-tionandComputerScience, 1998.

Copyright © 2012-2018 亚博APP 版权所有

琼ICP备xxxxxxxx号