浅谈数据分析和数据建模,数据分析模拟题

  浅谈数据分析和数据建模,数据分析模拟题

  数据分析是一项实践性很强的工作,涉及到很多交叉学科,需要不同的岗位和角色来实现不同的工作性质。

  一 、数据分析师中的角色和职责

  数据分析团队应该在技术部门还是业务部门,一直有争议。在业务部门内部,对数据场景比较了解,很容易找到数据变现的场景,数据分析师对业务推广有帮助,所以很容易做出成绩。但缺点是只知道自己部门的业务数据,分析仅限于独立的业务单元。在数据获取的效率上,在数据维度和数据视角上缺乏全局观,数据的商业视野不大,对公司整体业务的促进有限。部门的数据分析团队缺乏数据技术能力,无法利用最新的大数据计算分析技术实现数据分析建模。数据分析计算依赖于科技部门,效率低下,无法打通所有环节,实现最佳效率和收益。

  1. 数据库(仓库)管理员DBA

  DBA最了解企业中的数据和可用数据资源,包括数据存储细节和数据字典,它在数据收集、清理和转换中起着关键作用。

  为数据科学家和数据分析师提供经过处理的原始数据。这些数据是数据分析和建模的基础。DBA做了数据分析中最重要的基础工作,完成了大量的脏活累活。

  2 .业务专家

  商业专家的优势在于数据的商业敏感性。了解业务需求,可以将业务需求转化为数据需求,进一步找到数据应用场景。此外,商业专家可以通过数据分析发现新的商业机会,与业务部门一起制定商业计划,并利用数据分析促进业务增长。

  业务专家的经验对于数据分析和建模至关重要。他们可能是风险经理、欺诈监控专家、投资专家等。数据建模来源于业务经验和业务知识。正是业务专家的专业分析,找到了业务规律,从而找到了建模的方向,并对建模工作给出了建议和说明。

  3. 数据科学家

  过去,统计分析依赖于统计分析工具。大数据时代后,数据量级的提高和数据类型的复杂,使得很多传统的统计分析工具无法完成分析和计算。这时候数据科学家就出现了,他们可以利用自己的专业技能,帮助业务专家和数据分析师进行建模和计算。

  以往常用SPSS、SAS、MATLAB等工具对数据进行统计分析和建模。现在Spark Scala/Python/R/Java可以用于基于大数据平台的分析和建模。数据科学家了解模型和算法,可以直接承担建模和调优,知道如何选择合适的算法进行计算,从而提高效率。

  4. 数据分析师

  数据分析师从数据和业务的角度解读数据,用图标和曲线的方式向管理层和业务人员展示分析结果,揭示数据分析产生的商业机遇和挑战。

  数据分析师整理好杂乱的数据后,将数据呈现给产品经理、运营人员、营销人员、财务人员、业务人员等。以不同的形式。基于数据结果和分析建议,数据分析师的数据敏感度、业务敏感度、分析角度和表达方式对业务决策非常重要。

  5 .运营专家

  数据分析结果和业务决策做出后,运营专家负责实现业务决策。通过有计划的经营活动,将数据分析的结果应用到实际的商业活动中。运营专家是实现数据变现最后一公里的yjdh。

  运营专家属于业务人员,实际参与业务运营活动,利用数据分析结果实现业务场景和数据场景的结合,实现数据的商业化应用。

  二、 数据分析之前的各项准备工作

  数据分析团队成员确定后,接下来的工作就是寻找有价值的数据进行分析。是数据分析的基础,所以数据的质量、相关性、维度都会影响数据分析的结果,其中GIGO(垃圾入和垃圾出)对数据分析的结果影响最大。

  1 .数据源选择

  数据分析团队面对的是大量的数据源,这些数据源相互关联,数据字段之间存在逻辑关系,每个产品的统计口径不同,不同时间段的取值不同等。这一系列的问题都会影响数据分析的结果,所以确定数据源的选择和数据的整理非常重要。

  DBA可以根据数据分析的需要,查找相关数据,建立数据宽表,将数据仓库中的数据导入到这个宽表中,并根据一定的逻辑关系进行汇总计算。这个宽表是数据分析的基础,然后根据数据分析的需要衍生出一些不同的表格,为数据分析提供一个干净全面的数据源。一方面使用宽表集中相关分析数据,另一方面提高效率。没必要每次分析都去查询其他数据表,这样会影响数据仓库的效率。

  2. 数据抽样选择

  简单的数据分析可以调用所有数据进行分析,数据采样主要用于建模分析。抽样要考虑样本的代表性,覆盖各种客户类型,抽样时间也很重要。时间窗口越近,越有利于分析和预测。分层抽样时,要保证划分的样本比例与原始数据基本一致。

  3 .数据类型选择

  数据类型分为连续型和离散型,数据类型需要在建模和分析时确定。连续变量一般用于业务收入趋势分析、销售预测分析和RFM分析。离散变量一般用于信用评级和分类预测。

  4 .缺失值处理

  在数据分析的过程中,会出现很多缺失值,这些缺失值是由不同的原因造成的,有些是由于隐私原因而有意隐藏的。有些变量没有数值,有些数据在数据合并时由于操作不当而丢失。

  缺失值可以用替换法(估值法)处理,用已知经验值替换缺失值,保持缺失值不变,删除缺失值。方法将参考变量和自变量之间的关系以及样本量来确定。

  5. 异常值检测和处理

  异常值对一些数据分析结果有很大的影响,如聚类分析和线性回归(logistic回归)。但对决策树、神经网络和SVM影响不大。

  一般异常值是指明显偏离观测值的平均值。比如年龄200岁,平均收入10万,就有300万的异常值。第一个异常值是无效异常值,需要删除,但第二个异常值可能是有效异常值,可以根据经验决定是保留还是删除。

  6 .数据标准化

  数据标准化的目的是将不同性质和大小的数据进行索引,并将其调整到一个可比较的范围内。比如建立logistic回归模型时,性别值为0或0,但收入值可能为0-100万,跨度较大,需要标准化。

  一般可以用最佳/最大标准化(最小-最大标准化法)将值设置在0-1之间,便于计算。也可以使用z方法和分数标度标准化方法。

  7 .数据粗分类(Categorization)处理

  分类分类的目的是减少样本的变量,常用的方法有等间距分类和等频率分类。根据经验,自变量可以分为几类,分类方法可以不同。建议采用卡方检验来决定采用哪种分类方法。连续变量可以通过WOE变化法简化模型,但降低了模型的可解释性。

  8 .变量选择

  在数据分析的过程中,会出现上百个变量。一般只有少数变量与目标变量相关,有助于提高预测精度。通常建模分析时,有意义的变量不超过10-15个,称为强相关变量(智能变量)。您可以使用变量筛选方法来选择变量。可变过滤器的常见应用场景如下。

  一般来说,IV值大于0.3,说明该变量具有很强的预测能力,可以采用。

  三 、数据分析过程

  1.调研业务部门,了解需要解决的业务问题,将业务问题映射到数据分析工作和任务中。

  2.调查内部

  4.数据转换,如数据宁滨,将字符变量转换为数字变量,并根据数据所需的维度进行汇总。

  5.建立模型,根据业务需求建立不同的模型(如客户流失预警、欺诈检测、购物篮分析、营销响应等。)

  6.解释和评估模型结果,由业务专家执行业务解释和结果评估。

  四 、大数据分析场景和模型应用

  数据分析和建模需要先定义业务需求,然后选择描述性分析或预测性分析。如果分析的目的是描述客户的行为模式,就会使用描述性数据分析,描述性分析会考虑关联规则、序列规则、聚类等模型。

  预测性数据分析是量化未来某一事件发生的概率。预测模型有两种,分类预测和回归预测。在常见的分类预测模型中,目标变量通常是欺诈、损失、信用等二元分类变量。在回归模型中,目标变量通常是连续变量,如股票价格预测、违约损失率预测(LGD)等。

  生存分析侧重于分析一个事件的结果和它出现的时间。它起源于医学领域,研究病人治疗后的生存时间。生存分析还可以用来预测客户流失时间、客户下次购买时间、客户违约时间、客户提前还贷时间、客户下次访问网站时间等。

  常见的数据分析应用场景如下:

  1 .市场营销

  营销反应分析模型(逻辑回归,决策树)

  网络推广分析和建模(关联规则)

  客户保持分析建模(帅糖豆分析,神经网络)

  蓝色购物分析(关联分析先验)

  自动推荐系统(协同过滤推荐、基于内容的推荐、人口统计推荐、基于知识的推荐、组合推荐、关联规则)

  客户细分(聚类)

  预测(逻辑回归)

  2 .风险管理

  客户信用风险评分(SVM、决策树、神经网络)

  市场评分模型(逻辑回归和决策树)

  运营风险评分模型(SVM)

  欺诈检测(决策树、聚类、社交网络)

  五、数据模型评价的方法

  数据建模

  1AUC值判别方法

  AUC小于0.7,识别能力弱

  AUC在0.7和0.8之间的识别能力是可接受的。

  AUC在0.8-0.9之间有很好的识别能力。

  AUC大于0.9的意外模型

  2KS判别法

  大于0.2的KS值表明更好的可预测性。

  PS:网船科技长期专注于金融保险、通信、航空、互联网、旅游酒店等行业的电子渠道大数据运营。为客户提供全球领先的电子渠道转型咨询、大数据挖掘和应用定制服务,帮助客户进行互联网转型,提升数字化运营和数据营销能力。

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

相关文章阅读

  • 2020年高考成绩分布表,2020年高考成绩统计,数据分析2020年全国各省高考成绩分布情况
  • ,,python实现数据分析与建模
  • python3 数据分析,python数据分析课堂
  • 《数据思维》,数据分析的思维导图
  • python数据分析就业方向,python数据分析毕业论文
  • python数据分析数据清洗,python中数据清洗
  • 基于Python的数据可视化,python数据分析及可视化处理的第三方库
  • 利用python进行数据分析豆瓣,python数据分析基础和利用python进行数据分析
  • python数据分析数据清洗,用python进行数据清洗
  • python对excel表格数据的统计和分析,python进行excel数据分析
  • 从零开始学Python数据分析与挖掘,自学python数据分析
  • python数据分析结构思维导图,python组合数据类型思维导图
  • 关联规则分析案例,关联规则数据分析题,关联规则的实际案例数据
  • 数据分析与商业数据分析,120个Excel商业数据分析实战案例
  • python数据分析excel读写,python 读取excel数据
  • 留言与评论(共有 条评论)
       
    验证码: