返回首页
当前位置: 主页 > 教育技术学 > 应用研究 >

什么是归纳学习

时间:2013-07-24 16:53来源:知行网www.zhixing123.cn 编辑:麦田守望者

归纳学习是机器学习的最核心、最成熟的技术,旨在从大量的经验数据中归纳抽取一般的判定规则和模式。归纳学习可分为分类、聚类、归纳描述等模式。归纳学习又可以根据有无导师信号分为有导师学习和无导师学习。这部分主要介绍有导师学习

有导师学习  是事先由外部导师将训练例子分类,然后对这些带有导师信号的训练例子进行学习。有导师的学习也可以根据其学习策略分为以AQ系列为代表的覆盖算法和以ID3为代表的分类算法。

覆盖算法的基本思想是:对于给定的正例集和反例集,在由属性构成的概念空间中,找到一个能够覆盖所有正例和排斥所有反例的最佳概念描述。所谓最佳即是在概念的充分完备性的概念的简明性上取得一致。最早的覆盖算法是MichalskiAQ11算法,采用了自下而上的归纳方法,即在归纳过程中正例用于制导系统生成较概括的假设;反例用来减削不合适的假设,AQ11算法的特点在于采用约束集和LEF评价函数来约束对概念空间的搜索。覆盖算法除了上述的自下而上的策略之外,还有自上而下和双向策略。

AQ11的后继算法在不同方面对算法作了改进,如AQ15增加了构造性学习、渐进学习的近似推理的功能,而AE系列引进了扩张矩阵技术对降低算法的逻辑复杂度作了很大的改进。覆盖方法是模拟人类的学习过程,因此所得出的知识较易为人理解,并且适合于符号数据,但因为需要对训练集作多遍扫描,大多数算法都是面向小训练集的。

分治方法的基本思想是用属性值对例子集合逐级划分形成树状结构,直到一个节点仅含有同一类的例子为止。分治算法的结果往往是一棵决策树。QuinlanID3算法是分治方法中的典型代表。在ID3中使用了基于信息理论的启发式方法来选择属性,即根据每个属性的信息增益来衡量它对减少系统的不确定性的贡献,以此来产生决策树。这样属性选择策略使得在剖分后的子树中对对象分类所要获得的信息最少。

ID3之后出现了许多改进算法,它们主要是从处理离散和连续量、处理大量数据、处理数据属性之间的关联关系使系统可利用非平行于轴的剖分面、处理非静态的训练集等方面进行了改进。如ID4是一种递增式方法,通过不断获得的新信息更新决策树,适用于动态的训练集;C4.5可以同时处理具有离散和连续取值的属性并且使用信息增益比来选择属性使系统能够在分支数目和一次剖分后的分类准确度上进行权衡;CART-LCOC1可以生成有斜剖分平面的决策树分类系统;SLIQ则使用了一个特定的数据结构和Gini为分裂标准使算法更加适合于符号数据、知识易理解、算法精确并且鲁棒性强。缺点是对连续量数据分类能力较弱而且可能由于噪音的存在使得决策树过大。

顶一下
(1)
100%
踩一下
(0)
0%
标签(Tag):归纳学习
------分隔线----------------------------
------分隔线----------------------------
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
验证码:点击我更换图片