Python的格式化输出,php语言与python

  Python的格式化输出,php语言与python

  关键词:数据挖掘技术,ID3决策树算法,学生成绩http://

  介绍

  当前,随着社会的发展和科技的进步,职业技术教育的软硬件水平逐步“升级”,办学规模和社会影响力成倍增长。在学校管理中,尤其是学生成绩管理中,普遍存在学生成绩数据过多的问题。但是对这些数据的处理还处于数据备份、查询和简单统计的初级阶段。深入分析大量成绩数据来捕捉有益于教学管理的信息是对教学信息资源的浪费。数据挖掘技术是解决这一问题的切实有效的方法。本文采用ID3决策树算法生成决策树,分析哪些因素与学生成绩好相关,并采用后验剪枝方法对决策树进行剪枝,最后从决策树中生成分类规则。

  2.数据挖掘的方法和技术

  数据挖掘方法是从人工智能和机器学习方法发展而来的。以数据库为研究对象,结合传统的统计分析方法、模糊数学方法和科学计算的可视化技术,形成了数据挖掘方法和技术。归纳学习方法有六种:归纳学习、伪生物技术、公式发现、统计分析、模糊数学、可视化。

  信息论方法(决策树方法)是一种归纳学习方法。信息论的方法利用信息论的原理建立决策树。在知识工程领域,决策树是一种简单的知识表示方法,它将案例按阶段分成不同的类别。由于分类规则直观,易于理解,该方法实际效果好,影响大。因为这种方法得到的最终知识表示是决策树,所以一般称为决策树方法。这种方法通常用于任务分类。

  决策树是根据一系列规则对数据进行分类的过程。提供一个类似于什么条件下能得到什么样的值的规则的方法。决策树是一种基于案例的归纳学习算法。从既无顺序又无规则的组中推断决策树表示的分类规则。自顶向下的递归方式,在决策树的内部节点比较属性值,节点根据属性值的不同向下分支。一片叶子是一个被学习和分类的类。从根节点到叶节点的路径对应一个分类规则,整个决策树对应一组抽取规则。

  信息论中的典型方法是ID3和IBLE方法。目前已经形成了CLS、ID3、CHAID、C ART、FACT、C4.5、GINI、SEE5、SLIQ、SPRINT等决策树算法。其中最著名的算法是昆兰提出的ID 3算法。

  2.决策树的生成

  决策树的生成分为学习和测试两个阶段。在学习阶段,决策树是自顶向下递归的。决策树算法分为两步。一种是树生成,先划分数据,直到所有数据都在根节点上,然后递归生成叶节点。第二,修剪树,去除可能有噪音和异常的数据。停止决策树分割的条件是一个节点上的所有数据属于同一类别;没有可用于分割数据的属性。

  要创建决策树,您只需要扫描数据库几次。也就是说,由于计算资源较少,很容易应对预测变量较多的情况,因此可以快速建立决策树模型,适用于数据量较大的情况。

  3.ID3算法

  决策树归纳的基本算法是贪婪算法,自顶向下递归构造决策树。ID3算法是一种著名的决策树归纳算法,其基本策略如下。

  该树以表示训练样本的单个节点开始。

  如果所有的例子都在同一个类中,这个节点将成为一个叶节点,并在类中被标记。

  否则,算法使用基于熵的被称为信息增益的度量作为启发式信息,选择能够对最佳样本进行分类的属性,这个属性就成为这个节点的“测试”或“决策”属性。这里,假设所有属性都被分类

  该算法通过类似的方法递归地形成每个分区的样本决策树。在节点上显示该属性后,该节点的后代不需要考虑该属性。

  当下列条件之一为真时,整个递归过程停止:

  (1)给定节点的所有样本属于同一类。

  )2)如果没有剩余的属性用于进一步分类样本,则将该节点作为叶子,将剩余样本中出现次数最多的类型作为叶子节点的类型。

  3)当一个分支没有样本时,在训练样本较多的类中制作叶子。

  然而,ID3算法也有以下缺点。

  )1)不能处理连续值属性。ID3算法最初假设所有的属性值都是离散的,但实际上很多属性值都是连续的。

  )2)计算信息增益时,选择值多的属性是不合理的。

  3)对噪音敏感。噪音是指给定的训练集属性值和类数据不正确。

  )4)在建树的过程中,需要对数据集进行多次扫描和排序,导致算法效率低。

  )5)它仅适用于可驻留在存储器中的数据集。如果训练集太大,内存容纳不下,程序将无法运行。

  修剪

  在构建决策树时,由于数据中的噪声和孤立点,许多分支反映了训练中的异常。剪枝方法处理这种过度适应的数据问题。通常,这种方法使用统计尺度来切割最不可靠的分支,这带来了快速分类,提高了决策树独立于测试数据进行准确分类的能力。有两种常见的修剪方法。

  预修剪方法是通过预先停止树的结构来修剪树。一旦停止,节点就变成一片叶子。这个叶子包含子集样本中最频繁出现的类。在构造树时,如统计2、信息增益等度量可以用来评价分裂的优越性。如果在节点处分割样本将导致分割低于预定义的阈值,则给定子集的进一步分割将停止。然而,很难选择一个合适的阈值。较高的阈值可能导致过度简化的树,而较低的阈值可能导致太少的树简化。

  修剪方法,修剪完全长大的树枝。通过删除节点的分支和切断树节点,成本复杂性修剪算法是后修剪算法的一个例子。在该算法中,没有被修剪的最低节点成为叶子,并且用其先前分支中最频繁的类来标记它。对于树中的每个非叶节点,该算法计算修剪该节点上的子树后可能出现的预期错误率。然后,利用每个分支的错误率,结合沿每个分支观察到的权重评估,计算不修剪节点的期望错误率。如果砍掉节点导致期望错误率更高,则保留子树;否则,切断子树。在生成一组逐渐剪枝的树后,用一个独立的测试集来评估每棵树的准确率,可以得到一个期望错误率最低的决策树。

  也可以交替使用第一次修剪和第二次修剪,形成组合方法。后修剪比第一次修剪需要更多的计算,但通常会产生更可靠的树。

  5.从决策树中提取分类规则。

  从决策树中提取分类规则时,规则以if…then的形式表示。为从根到叶的每条路径创建一个规则,并且沿着路径上的每个属性-值对,形成规则的前提(“if”部分)的合取。叶子包含类预测,它形成规则后继者(“THEN”部分)。if…then规则很容易理解,尤其是当给定的树很大时。而且有利于规则匹配等操作。

  6.结论

  虽然数据挖掘仍然是一种新的数据分析技术,但它有着强大的生命力。它的研究取得了令人瞩目的成就,并成功应用于许多领域。可以说,哪里有数据积累,哪里就有数据挖掘技术的一席之地,因为它与经济和决策直接相连。

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

相关文章阅读

  • 使用js实现数据格式化命令,使用js实现数据格式化的方法
  • 使用js实现数据格式化命令,使用js实现数据格式化的方法,使用js实现数据格式化
  • sql 时间格式化函数怎么用,sqlserver时间格式化函数
  • sql 时间格式化函数怎么用,sqlserver时间格式化函数,SQL 时间格式化函数
  • Linux磁盘格式化命令,linux格式化整个磁盘的命令
  • Linux磁盘格式化命令,linux格式化整个磁盘的命令,Linux磁盘格式化命令详解
  • js获取当前日期并格式化,js获取当前时间年月日并输出
  • js获取当前日期并格式化,js获取当前时间年月日并输出,JS获取当前时间的年月日时分秒及时间的格式化的方法
  • js格式化时间的方法是什么,js 格式化时间
  • js格式化时间的方法是什么,js 格式化时间,js格式化时间的方法
  • js格式化时间格式,js格式化时间字符串
  • js格式化时间格式,js格式化时间字符串,JS格式化时间的几种方法总结
  • js中时间格式化的几种方法有哪些,js中时间格式化的几种方法是什么
  • js中时间格式化的几种方法有哪些,js中时间格式化的几种方法是什么,js中时间格式化的几种方法
  • windows命令行格式化硬盘,格式化将清除磁盘中的所有文件
  • 留言与评论(共有 条评论)
       
    验证码: