数据分析学Python还是R语言,r语言大数据分析中的统计方法及应用

　　声明:本文注释来源为《一个贯穿图像处理与数据挖掘的永恒问题》，作者为左飞，原文地址：更多详情请点击此处。

　　# 1)算法的基础部分(求3*3矩阵的中值，常用于图像处理中的面片处理。

　　# 2.R语言的基础部分：数据读取，预处理，以及K-means算法的实现。

　　如果算法有一个矩阵

　　036147258

　　这里用9维矩阵表示3*3面片，求中值。实际上支持Medfilter。椒盐噪音的处理真的很棒。

　　最简单的方法介绍分析如下。

　　先计算窗口内各列的最大值、中值和最小值，得到三组数据。

　　最大值组：Max0=max[P0，P3，P6]，Max1=max[P1，P4，P7]，Max2=max[P2，P5，P8]

　　中位数组：Med0=med[P0，P3，P6]，Med1=med[P1，P4，P7]，Med2=med[P2，P5，P8]

　　最小值：Min0=Min[P0，P3，P6]，Min1=Min[P1，P4，P7]，Min2=max[P2，P5，P8]

　　所以可以看出，最大值组中的最大值和最小值一定是9个元素的最大值和最小值，不是中心值，而是剩下的7个元素。中心值组的最大值至少大于五个像素，中心值组的最小值至少大于五个像素，其余五个像素3354最大值组的中值至少大于五个元素，最小值组的中值至少小于五个元素，所以不能是中值。还有三个需要比较的元素。换句话说

　　最大值组最小值Maxmin、中值组的中值med和最大值MinMax最小值组的；求这三个值的中位数，作为9个元素的中位数。

　　上述方法将大大减少计算量。

　　另一种方法是找到两个有序链表的中间值。充分利用有序性，直接取中间数来比较两个链表。虽然想法简单，但是很方便。本来二进制排序的复杂度是o(nO(logn)，所以如果这里有序的先验理论，一定会加快速度。也就是说，本文所描述的o) logn) *的复杂度在原理上并不困难，并且已经

　　r语言笔记本笔记用Kmeans实现数据的聚类。博主采用用EXCEL制作xls文件，输入后保存为csv文件的技巧，这样可以直接用R语言读取。

　　Kmeans的简单思路：选取K个据点作为初始聚类中心，收集每个点抬高最近的重心，形成K个等级，重新计算每个等级的重心，重复以上步骤，直到情绪不再变化。(引文中的内容))来自世界银行的数据集统计了30个国家的两个指标。用下面的代码读取文件，并显示前几行的数据。你可以看到数据是分散的。第一列是国名。此项目与下面的聚类分析无关，但对后两列中的信息感兴趣。第二栏是第三产业增加值占GDP的比例，最后一栏是人口结构中65岁以上的人口，即老年人口占总人口的比例。

　　笔记本：

　　1.read.csv函数读取具有相应地址的文件，并将其命名为countries。

　　2.标题显示了文件的内容。

　　对导入的数据库进行必要的预处理，以便后续处理。主要是调整列标签，将行标签替换为国家名称(删除包含国家名称的列)。

　　笔记本：

　　1.“$”的负号表示文件的二级表示，在第一个代码文件countries下有国家类别。

　　2.as.character会把变量类型和对应的内容转换成字符类型的内容，所以var是对应元素的字符。

　　3.dimnames是以dimensions name作为维的名称，在本例中，它是列标签1 2 3 4 5 6，列标签是countires，services of GDP，aged65 above of total。还展示了R语言内存盒中表格的数据结构，即实际内容是表格中的数据，行标签和列标签有明确的界限。提取的函数。包括dimnames、rownames、colnames等。

　　注意：

　　这是我试了一下的代码。

　　国家=已读。CSV(c:/用户/滴滴LV/桌面/数据。CSV )head)countries)var=as . character)countrier

　　dim names(countries)[1][[1][1] 1 1 2 3 4 5 6 我发现这里出现了“[1]”，所以我想看看

　　下一个是for循环，其实就是赋值。但是，该分配将始终被分配给行标签。但是，我的测试似乎是错误的，所以我将其更改为以下代码。

　　国家=已读。CSV(c:/用户/滴滴LV/桌面/数据。CSV )总部)国家/地区)va

　　R=as。character(countries $ countries)row names(countries)=var有关具体结果，请参见以下输出结果：

　　国家服务. of.GDP年龄65 above . of . total比利时比利时76.7 18法国78.9 18丹麦丹麦76.2 18西班牙西班牙73.9 18日本日本72.6 2 5瑞典瑞典72.7 19注意最左边一栏是标签，与内容无关，只是为了在下面标注时更明显，然后取值。

　　类似matlab，直接取列，下面是改名字。在原文中，该列被删除，但实际上并没有被删除。只取了2-3列再复制。最终达到删除列的效果。

　　4.Kmeans函数及其绘制并不难。毕竟别人的电脑默默付出。

　　对于聚类结果，如果用图形显示可能更容易接受。以下是示例代码。

　　由于生成的样本很少，所以只能看它是怎么写的。

　　目标

　　本文仅供学习笔记，欢迎讨论，大部分图片来自原文，感谢原作者。

郑重声明：本文由网友发布，不代表盛行IT的观点，版权归原作者所有，仅为传播更多信息之目的，如有侵权请联系，我们将第一时间修改或删除，多谢。

相关文章阅读