spark操作mysql,sparksql特点

  spark操作mysql,sparksql特点

  

目录

一:SparkSQL1 .SparkSQL简介2.SparkSQL运行原理3.SparkSQL特点二、SparkSQL运用

 

  

一:SparkSQL

 

  

1.SparkSQL简介

火花结构化查询语言是火花的一个模块,用于处理结构化的数据,它提供了一个数据抽象数据帧(最核心的编程抽象就是数据帧),并且SparkSQL作为分布式结构化查询语言查询引擎Spark SQL .就是将结构化查询语言转换成一个任务,提交到集群上运行,类似于储备的执行方式。

 

  

2.SparkSQL运行原理

将Spark SQL转化为RDD,然后提交到集群执行。

 

  

3.SparkSQL特点

(1)容易整合,Spark SQL已经集成在火花中

 

  (2)提供了统一的数据访问方式:JSON、CSV、JDBC、拼花地板等都是使用统一的方式进行访问

  (3)兼容储备

  (4)标准的数据连接:JDBC、ODBC

  

二、SparkSQL运用

 

  包sqlimport组织。阿帕奇。avro。IPC。具体的。人员导入组织。阿帕奇。spark导入组织。阿帕奇。火花。rdd。rddimport组织。阿帕奇。火花。sqlimport组织。阿帕奇。火花。SQL。催化剂。内部行导入组织。阿帕奇。火花。SQL。{数据框,数据集,行,spark会话}导入组织。朱尼特。测试类Intro { @ Test def ds Intro(): Unit={ val spark 3360 spark session=new SQLSparkSession。构建器().appName(ds intro ).master(local[6]).getOrCreate() //导入隐算是史转换暗示。_ val source rdd : RDD[人]=spark。火花语境。并行化(Seq(Person(’张三,10),人(李四,15)))val persons : Dataset[Person]=sourcerdd。tods();//personDS.printSchema()打印出错信息val resultds :数据集[人员]=人员。哪里(10岁).选择(姓名,年龄)。作为[人]结果。show()} @ Test def dfIntro(): Unit={ val spark : spark session=new spark session .构建器()。appName(ds intro ).主(本地)。getor create()导入spark。暗示。_ val source rdd : RDD[人]=spark。火花语境。并行化(Seq(Person(’张三,10),人(李四,15)))val df :数据帧=源rdd。todf()//隐史转换df。createorreplacetenview( person )//创建表val resultdf :数据帧=火花。SQL(从年龄=10和20的人中选择姓名)resultdf。show()} @测试定义数据库1(): Unit={//1。创建火花会话val火花:火花会话=新火花会话.构建器()。appName(“数据库1”).master(local[6]).getOrCreate() //2 .导入引入史子转换导入spark . implicitis . _//3 .演示RDD[人]=spark.sparkCo

  ntext.parallelize(Seq(Person("张三",10),Person("李四",15))) val dataset: Dataset[Person] =sourceRDD.toDS() //Dataset 支持强类型的API dataset.filter(item => item.age >10).show() //Dataset 支持若弱类型的API dataset.filter(age>10).show() //Dataset 可以直接编写SQL表达式 dataset.filter("age>10").show() } @Test def database2(): Unit ={ val spark: SparkSession = new SparkSession.Builder() .master("local[6]") .appName("database2") .getOrCreate() import spark.implicits._ val dataset: Dataset[Person] =spark.createDataset(Seq(Person("张三",10),Person("李四",20))) //无论Dataset中放置的是什么类型的对象,最终执行计划中的RDD上都是internalRow //直接获取到已经分析和解析过得Dataset的执行计划,从中拿到RDD val executionRdd: RDD[InternalRow] =dataset.queryExecution.toRdd //通过将Dataset底层的RDD通过Decoder转成了和Dataset一样的类型RDD val typedRdd:RDD[Person] = dataset.rdd println(executionRdd.toDebugString) println() println() println(typedRdd.toDebugString) } @Test def database3(): Unit = { //1.创建sparkSession val spark: SparkSession = new SparkSession.Builder() .appName("database1") .master("local[6]") .getOrCreate() //2.导入引入shi子转换 import spark.implicits._ val dataFrame: DataFrame = Seq(Person("zhangsan", 15), Person("lisi", 20)).toDF() //3.看看DataFrame可以玩出什么花样 //select name from... dataFrame.where(age > 10) .select(name) .show() }// @Test// def database4(): Unit = {// //1.创建sparkSession// val spark: SparkSession = new SparkSession.Builder()// .appName("database1")// .master("local[6]")// .getOrCreate()// //2.导入引入shi子转换// import spark.implicits._// val personList=Seq(Person("zhangsan",15),Person("lisi",20))//// //1.toDF// val df1: DataFrame =personList.toDF()// val df2: DataFrame =spark.sparkContext.parallelize(personList).toDF()// //2.createDataFrame// val df3: DataFrame =spark.createDataFrame(personList)//// //3.read// val df4: DataFrame =spark.read.csv("")// df4.show()// } //toDF()是转成DataFrame,toDs是转成Dataset // DataFrame就是Dataset[Row] 代表弱类型的操作,Dataset代表强类型的操作,中的类型永远是row,DataFrame可以做到运行时类型安全,Dataset可以做到 编译时和运行时都安全@Testdef database4(): Unit = { //1.创建sparkSession val spark: SparkSession = new SparkSession.Builder() .appName("database1") .master("local[6]") .getOrCreate() //2.导入引入shi子转换 import spark.implicits._ val personList=Seq(Person("zhangsan",15),Person("lisi",20)) //DataFrame代表弱类型操作是编译时不安全 val df: DataFrame =personList.toDF() //Dataset是强类型的 val ds: Dataset[Person] =personList.toDS() ds.map((person:Person) =>Person(person.name,person.age))} @Test def row(): Unit ={ //1.Row如何创建,它是什么 //row对象必须配合Schema对象才会有列名 val p: Person =Person("zhangsan",15) val row: Row =Row("zhangsan",15) //2.如何从row中获取数据 row.getString(0) row.getInt(1) //3.Row也是样例类、 row match { case Row(name,age) => println(name,age) } }}case class Person(name: String, age: Int)

 

  到此这篇关于深入了解SparkSQL的运用及方法的文章就介绍到这了,更多相关SparkSQL运用内容请搜索盛行IT以前的文章或继续浏览下面的相关文章希望大家以后多多支持盛行IT!

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: