Python数据分析与挖掘,python进行数据挖掘
一、碎碎念
学过的东西因为懒还没整理,现在慢慢在补。
二、数据挖掘概述
1.什么是数据挖掘?
数据挖掘(Data mining,DM)是指通过统计学、人工智能、机器学习等方法,从大量数据中挖掘未知的、有价值的信息和知识的过程。
啤酒和尿布,杜蕾斯和口红,杜蕾斯和红酒。==达到增加商品销量的目的。
对数据挖掘的误解:
[实际]:
1.数据挖掘就是人们处理商业问题的某些方法,我们通过它得到更有价值的结果。
2.事实上,最好的数据挖掘工程师是那些熟悉和了解业务的人。
2.数据分析和数据挖掘的区别是什么?
3.模型和算法
3.1模型:(包含一种或多种算法)
定量:数学公式(Y=a*X)
定性:规则(年龄30岁,收入1万元)
3.2算法:实现数据挖掘技术、模型的具体步骤与方法。(结合编程解决)
三、数据挖掘常见问题
3.1分类问题:
3.1.1常见的分类方法:==解决方案(用户流失、推广响应、用户信用评估)
1)决策树
2)贝叶斯
3)KNN
4)支持向量机
5)神经网络
6)逻辑回归
……
3.2聚类问题:
的群集目标尚未预先确定。==物以类聚的原理,相似事物的分类方法。
3.2.1常见聚类算法:==解决方案(目标市场细分、现有客户细分)
1)分区和聚类
2)层次聚类
3)密度聚类
4)网格聚类
5)基于模型的聚类
……
3.3关联分析:(购物篮分析)
3.3.1关联常见算法:==Solve(哪些商品同时购买概率大,如何提高商品销售和交叉销售)
1)Aprior算法
2)Carma算法
3)序列算法
3.4预测分析:
3.4.1预测常见方法==(未来气候、GDP增长、收入用户预测……)
1)简单线性回归分析
2)多元线性回归分析
3)时间序列
……
四、数据挖掘流程
CRISP-DM数据挖掘方法论:(循环探索过程)
4.1阶段一:商业理解(了解项目要求和最终目的)
1)确定业务目标
2)确定挖掘目标。
3)制定项目计划。
4.2阶段二:数据理解
摸清企业内外部数据,了解数据质量。
4.3阶段三:数据准备
4.4阶段四:模型构建
4.5阶段五:模型评估
4.6阶段六:模型部署
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。