大数据挖掘常用的算法有哪些,java 大数据分析 算法
https://python.ctolib.com/article/wiki/95851
基于Java8实现了十个经典的数据挖掘算法。
算法:目录中常用的标准数据挖掘算法
包目录名称算法名称关联分析数据库挖掘_ apriori apriori-关联规则挖掘算法关联分析数据库挖掘_ fptreeftree-频繁模式树算法baggingandbootingdatabase挖掘_ adaboosta Boost-bagging提升算法分类数据挖掘_ cart cart-分类回归树算法分类数据挖掘_ id3id 3-决策树分类算法分类数据挖掘_ KNNKNN-K最近邻算法工具类分类数据挖掘_ naive Bayes-naive Bayes算法聚类数据挖掘_ birch birch-层次聚类算法聚类数据挖掘_ kmean skmeans-K-均值算法图gspangspan-频繁子图挖掘算法集成了挖掘数据_ CBA CBA-分类算法LinkMining数据挖掘_基于关联规则的Hits链接分析算法LinkMining数据挖掘_ page rank page rank-网页重要性/排名算法roughsets Daming _ roughsets roughsets-粗糙集属性约简算法sequential patterns dataming _ gspsp-序列模式分析算法sequential patterns dataming _ prefixspanrefixspan-序列模式划分分析算法统计学习数据挖掘_ EMEM-期望最大化算法统计学习数据挖掘_ SVMSVM
包目录名算法名其他数据挖掘_ ACO ACO-蚁群算法其他数据挖掘_ Bayes network Bayes network-贝叶斯网络算法其他数据挖掘_ CADDCCCABDDCC-基于连通图的分裂聚类算法其他数据挖掘_ chame LeonChameleon-两阶段合并聚类算法其他sdaming _ DBSCANDBSCAN-基于密度的聚类算法其他sdaming _ GAGA-遗传算法其他数据挖掘_ GA _ Maze GA _ Maze-遗传算法在迷宫游戏算法中的应用其他sdaming G _ kdtreekdtree-工具类关键数据检索算法基于多支持的msapriori-Apriori算法其他数据挖掘_随机森林-随机森林算法其他数据挖掘_ tant AN- Tree朴素贝叶斯算法其他数据挖掘_ Viterbi Viterbi-Bold skirt算法数据挖掘算法使用了本项目实现的数据挖掘的经典算法和代码,涉及决策分类、聚类、链接挖掘、关联挖掘、模式挖掘等。后面是相应算法的参考博客链接。目前还增加了一些其他经典的数据挖掘算法,包括聚类、分类、图算法、搜索计算等。在别人的包里,但是没有具体分类。
C4.5 C4.5算法和ID3算法一样,是一种数学分类算法,C4.5算法是ID3算法的改进。ID3算法使用信息增益进行决策,C4.5使用增益率。详细介绍链接
CART CART算法的全称是分类回归树算法,是一种二元分类。它使用类似熵的基尼指数作为分类决策,决策树形成后需要剪枝。我实现整个算法的时候用的是成本复杂度算法。我会详细介绍链接。
KNK最近邻算法。给定一些训练数据,输入一个新的测试数据点,计算这个测试数据点包含的最近点的分类。如果分类的类型是多数,这个考点的分类和这个是一样的,所以在这里,有时候可以复制不同分类点的不同权重。近点更重要,远点自然更小。详细介绍链接
朴素贝叶斯算法。朴素贝叶斯算法是贝叶斯算法中比较简单的分类算法。它使用了一个重要的贝叶斯定理,可以用一句简单的话概括为条件概率的相互转换推导。详细介绍链接
SVM算法。支持向量机(SVM)算法是一种分类线性和非线性数据的方法。对非线性数据进行分类时,可以在核函数转换为线性数据时进行再处理。其中一个关键步骤是寻找最大边超平面。详细介绍链接
EM期望最大化算法。期望最大化算法可以分为两个算法,一个E步期望步和一个M步最大化步。它是在每次计算结果后逼近统计模型参数的最大似然或最大后验估计的算法框架。详细介绍链接
Apriori Apriori算法是一种关联规则挖掘算法,通过连接和剪枝操作挖掘频繁项集,然后根据频繁项集获取关联规则。关联规则的导出需要满足最低置信度要求。详细介绍链接
FP树频繁模式树算法。该算法也称为FP-growth算法,克服了Apriori算法产生候选集过多的缺点。递归生成频率模式树,然后挖掘该树。以下过程与Apriori算法一致。详细介绍链接
PageRank网页重要性/排名算法。PageRank算法起源于Google,其核心思想是以一个网页的链接数量作为判断网页速度快慢的标准。如果一个网页包含多个指向外部的链接,那么PR值会被平分,PageRank算法会受到LinkSpan的攻击。详细介绍链接
HITS HITS算法是另一种链接算法,其原理部分类似于PageRank算法。HITS算法引入了权威值和中心值的概念。HITS算法受用户查询条件的影响,一般用于小规模的数据链分析,更容易受到攻击。详细介绍链接
K-Means算法是一种聚类算法。这里的k指的是分类的类型数量,所以在设置之初非常关键。算法的原理是先假设K个分类点,然后根据欧氏距离计算分类,再去除同一分类的均值作为新的聚类中心,循环操作直至收敛。详细介绍链接
BIRCH BIRCH算法以CF聚类特征树的构建为算法核心。BIRCH算法以树的形式扫描数据库,在内存中构建一棵初始CF- tree,可以看作是对数据的多层压缩。详细介绍链接
AdaBoost AdaBoost算法是一种提升算法,通过多次训练数据得到多个互补的分类器,然后将多个分类器组合起来形成一个更准确的分类器。详细介绍链接
GSP算法是一种序列模式挖掘算法。GSP算法也是一种Apriori算法。在算法过程中,还进行了连接和剪枝操作。然而,一些时间约束和其他条件被添加到修剪判断中。详细介绍链接
PreFixSpan PreFixSpan算法是另一种序列模式挖掘算法。在算法的过程中,没有候选集。给定初始前缀模式,前缀模式通过后缀模式中的元素转移到前缀模式,递归挖掘继续。详细介绍链接
基于CBA关联规则的分类算法。CBA算法是一种集成的挖掘算法,因为它是基于关联规则挖掘算法的。在现有关联规则理论的前提下,进行分类判断,只对算法开始时的数据进行处理,成为类似于事务的形式。详细介绍链接
粗糙集粗糙集算法。粗糙集理论是一种新颖的数据挖掘思想。这里使用了基于粗糙集的属性约简算法。通过上下近似集的判断删除无效属性,进行调节输出。详细介绍链接
GSpan gSpan算法属于图挖掘算法领域。主要用于频繁子图挖掘。与其他图算法相比,子图挖掘算法是它们的前提或基础算法。GSpan算法使用了DFS编码、边五元组、最右路径子图扩展等概念,算法比较抽象复杂。详细介绍链接
##Others目录中的# #算法:
GA遗传算法。遗传算法利用生物进化理论的知识来寻找问题的最优解。该算法的遗传进化过程分为选择、交叉和变异操作,其中选择操作是关键步骤,适应性更强的基于群体的遗传传递给下一代。详细介绍链接
DbScan聚类算法
GA _迷宫遗传算法在迷宫游戏中的应用。在迷宫中寻找出口路径的问题转化为遗传算法中的问题。通过为这个具体问题构造一个适应度函数,定位基因运动的方向,巧妙地解决了问题。详细介绍链接
基于连通图的CABDDCC分裂聚类算法。也属于层次聚类算法,主要分为两个阶段。第一阶段构造连通图。第二阶段是分割连通图,最终形成聚类结果。详细介绍链接
变色龙两阶段聚类算法。与CABDDCC算法相反,最终结果是通过合并小簇形成的。在第一阶段,主要通过K近邻的思想形成小规模连通图。在第二阶段,通过RI(相对互连)和RC(相对近似)选择最佳聚类进行合并。详细介绍链接
随机森林算法。该算法的思想是决策树提升。决策树采用CART分类回归数。通过组合每个决策树的弱分类器,形成最终的强分类器。在构造决策树时,采用随机数量的样本和随机的部分属性来构造子决策树,避免了过拟合现象。详细介绍链接
K维树.多维空间划分树,在多维空间中对数据进行划分和搜索。它主要用于搜索关键信息,类似于空间中的二分搜索法,大大提高了搜索效率。在搜索目标元素时,使用DFS深度优先和回溯来搜索最近点。详细介绍链接
基于多支持度的MS-Apriori算法。它是Apriori算法的升级算法,弥补了原Apriori算法的不足,增加了支持度差异的限制和支持度计数统计的优化,不需要重新扫描整个数据集。在生成关联规则时,根据子集之间的关系可以避免一些置信度的计算。详细介绍链接
蚁群算法。蚁群算法也叫蚂蚁算法。类似于GA遗传算法,也是一种利用自然规律在图中寻找最佳路径的概率算法。受蚂蚁寻找食物时传播信息素的发现路径行为启发。详细介绍链接
贝叶斯网络算法。它弥补了朴素贝叶斯算法必须独立于事件的缺点,利用了贝叶斯网络的DAG有向无环图,允许每个事件保持一定的依赖关系。网络结构中的每个节点代表一个属性,边代表对应的条件概率值,通过计算可以得到准确的分类结果。详细介绍链接
TAN树朴素贝叶斯算法。该算法也称为增强型朴素贝叶斯算法。在满足原始朴素贝叶斯条件的基础上,他允许一些条件属性直接相关。形成树状结构。详细介绍链接
维特比的大胆裙算法。给定一个隐马尔可夫模型和一个观测序列,得到潜在状态序列信息,每个潜在状态信息都会受到前一个状态信息的影响。
算法使用方法给出了每个算法中的三种类型:主算法程序、调用程序和输入数据。调用方法如下:
将需要数据的测试数据转换成与给定相同的输入格式,然后通过调用客户端类的测试程序来使用。也可以修改算法程序,以适合自己的使用场景。
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。