python数据分析面试题目,python数据处理面试题
自然智能(natural intelligence)概念简介自然智能(Natural intelligence)是指人通过大脑运作和决策而产生的有价值的行为。这些行为包括人类大脑的思维和决策、耳朵的听觉和判断、眼睛的视觉和判断、鼻子的嗅觉和判断、皮肤的触觉和判断等等,反映在人类行为的方方面面。
人工智能简称AI。人工智能是计算机科学的一个分支。它试图理解智能的本质,并制造出一种新的智能机器,能够以类似于人类智能的方式做出反应。它是研究和发展模拟、延伸和扩展人类智能的理论、方法、技术和应用系统的一门新技术科学。
机器学习机器学习简称ML。机器学习是人工智能的一个分支,也是人工智能的核心。机器学习理论主要是设计和分析一些让计算机自动“学习”的算法。
深度学习简称DL。最初的深度学习是利用深度神经网络解决特征表达的学习过程。深度神经网络本身并不是一个全新的概念,大致可以理解为包含多个隐含层的神经网络结构。为了提高深度神经网络的训练效果,人们调整了神经元的连接方式和激活函数。深度学习是机器学习研究的新领域,其动机在于建立和模拟人脑的神经网络进行分析和学习。它模仿人脑解读图像、声音、文本等数据的机制。
Jupyter Notebook这款工具将代码、说明文字、数学方程式、数据可视化图表等内容组合在一起,展示在一个共享文档中,可以实现边写代码边记录。这些功能是Python自带的IDLE和PyCharm这种集成开发环境无法比拟的。
快捷键
进入:进入编辑模式。
Shift-Enter:运行此单元以选择下一个单元。
Ctrl-Enter:运行这个单元
Alt-Enter:运行这个单元,并在它下面插入一个新单元。
y:单位转换为代码状态。
m:该单元处于降价状态。
r:设备进入原始状态。
1.设置一级标题
2.设置二级标题。
3.设置三级标题。
4.设置4级标题。
5:设置5级标题
6:设置6级标题。
向上:检查上面的单元格。
k:选择上面的单元格。
向下:选择较低的单元格。
j:选择下面的单元格。
Shift-K:放大并选择上面的单元格。
Shift-J:放大并选择下面的单元格。
a:在顶部插入一个新单元。
b:在下面插入一个新单位。
x:剪切选定的单元格。
复制选中的单元格。
Shift-V:粘贴到上部单元格
v:粘贴到下部单元。
z:恢复最后删除的单元。
D,D:删除选中的单元格。
Shift-M:合并选中的单元格。
Ctrl-S:文件保存
文件存储
l:转换行号
o:转换输出
Shift-O:转换输出滚动
Esc:关闭页面
问:关闭页面。
h:显示快捷帮助。
我,我:中断笔记本内核。
0,0:重启笔记本内核。
Shift:忽略
Shift-Space:向上滚动
空间:向下滚动
数据分析1。熟悉数据分析过程的工具-明确目的-数据采集-数据处理-数据分析-验证结果-结果展示-数据应用
2.数据分析的常用工具
Excel有很多强大的功能,如创建表格、透视表、VBA等excel系统。但是,在今天这个大数据、人工智能的时代,excel已经不能胜任,处理速度会变慢。从数据分析层面,excel只停留在描述性分析。
大蟒
虽然Excel已经尽力考虑了数据分析的大部分应用场景,但是因为是自定义软件,很多东西都是固化的,不能随意修改。Python非常强大和灵活,它可以编写代码来执行任何所需的操作。从专业和方便的角度来说,比Excel更强大。另外,Python可以实现Excel难以实现的应用场景。专业统计分析、预测分析
Pandas概述Pandas是数据分析三剑客之一,也是Python的核心数据分析库。它提供了快速、灵活、清晰的数据结构,可以简单、直观、快速地处理各种类型的数据。
Pandas提供两种主要的数据结构:Series一维数组结构和DataFrame二维数组结构。
系列
Series是Python的熊猫库中的一种数据结构。它类似于一维数组。它由一组数据和与这组数据相关的标签(索引)组成,或者可以只使用一组数据创建一个简单的序列,而不使用索引。Series可以存储多种类型的数据,如整数、浮点数、字符串、Python对象等。
数据帧数据帧是熊猫图书馆的数据结构。它是由各种类型的列组成的二维表数据结构。由行和列数据组成的表类似于由Excel、SQL或Series对象组成的字典。DataFrame是最常用的Pandas对象,它支持许多类型的数据,如Series对象。
数据帧重要属性属性描述示例值查看所有元素的值df.valuesdtypes查看所有元素的类型df.dtypes索引
查看所有行名,将行名重命名为df.index
索引[1,2,3]
列查看所有列名,将列名重命名为df.columns
Df.columns[语文、数学]
t行列数据转换df。head查看前n条数据,默认为5 df.head()
df.head(7)
尾巴
查看完最后n条数据后,默认为5 df。尾部()形状。查看行数和列数[0]表示行[1]表示列df.shape[0]
df.shape[1]
]info查看索引数据类型和内存信息df.info
数据帧的重要功能描述示例描述查看每列数据帧的统计摘要信息类型df.describe() count
返回每列中非空值的个数df.count()sum返回每列的和,不能计算;df.sum()max返回每列的最大值df.max()min返回每列的最小值df.min()argmax返回自动索引最大值的位置df.argmax()。Argmin返回最小值所在的自动索引的位置df.argmin()idxmax返回最大值所在的自定义索引的位置df.idxmax()idxmin返回最小值所在的自定义索引的位置df.idxmin() mean。
返回每列的平均值df.mean()median返回每列的中值,也称中值是指按顺序排列的一组数据中间的数df.median()var返回每列的方差variance,用来衡量单个随机变量的离散程度——不连续程度df.var () Std返回每列的标准差。标准差是算术平方根,它反映了数据集的分散性。std()为空。检查df的空值。如果空值为真,则为假。df。is null () not null。检查df的空值。如果空值为真,则为假。df。不为空()
导入文件导入。xls或者。xlsx文件
进口。xls或者。xlsx文件使用 pd.read _ excel 导入文件参数如下
Io。xls或者。xlsx文件路径或类文件对象。
sheet_nameNone、string、integer、string list或integer list的默认值为0。用于工作表名称的字符串整数是指示工作表位置的索引字符串列表或整数列表用于请求多个工作表,以便在没有工作表被使用时获取所有工作表。
Header指定作为列名的行的默认值为0。
名称的默认值是无。要使用的列名列表。
Index_col指定该列是行索引。默认值为无
colsint、list list或string的默认值为None。如果没有,则解析所有列。如果为int,则解析最后一列。如果是列表,则解析列号列表中的列。如果是字符串,则表示Excel列字母和列范围的逗号分隔列表,如“A:E”或“A,C,E:F”。包括双方。
Squeeze/skwiz/Boolean value默认值为False。如果解析的数据只包含一列,它将返回一列。
系列7 .
dtype列的数据类型名称或字典默认值为None。
n rows:/rz/导入前有多少行
Skiprows从第一行中省略指定数量的数据行。
Skipfooter从尾数开始忽略指定数量的数据行。
将csv文件或txt文件导入到。csv文件主要使用Pandas的read_csv()方法,参数如下
Path _ or _ buffer字符串文件路径也可以是URL链接。
分隔符字符串分隔符。
Header指定作为列名的行的默认值为0,即第一行的值作为列名。如果数据不包含列名,则为列名以外的数据设置headerNone。
名称的默认值是无。要使用的列名列表。
Index_col指定该列是索引列。默认值为无。索引0是数据帧的行标签。
colsint、list list或string的默认值为None。如果没有,则解析所有列。如果为int,则解析最后一列。如果是列表,则解析列号列表中的列。如果是字符串,则表示Excel列字母和列范围的逗号分隔列表,如“A:E”或“A,C,E:F”。包括双方。
dtype列的数据类型名称或字典默认值为None。例如{a:np.float64,b:np.int32}。
parse_dates布尔值或int值的列表、列表或字典的默认值为False。您可以通过parse_dates参数将列直接转换为datetime64日期类型。比如DF1pd.read _ csv (January.csv,parse _ dates[订单付款时间])。
当parse_dates为True时,尝试解析索引。
当parse_dates是int类型的值的列表时,例如[1,2,3],列1、2和3的值被解析为独立的日期列。
Parse_date是由列表组成的列表,比如[[1,3]]。第1列和第3列合并在一起,用作一个日期列。
当parse_date是一个字典时,比如{Total [1,3]},合并列的名称是“Total”。
编码字符串默认为None文件的编码格式。Python常用的编码格式是UTF-8。中文编码gbk
返回一个数据帧。
正在导入。txt文件也使用Pandas的read_csv()方法,只是您需要指定sep参数,如tab \t
导入HTML网页导入HTML网页数据主要使用熊猫的read_html()方法。该方法用于导入带有表格标签的网页表格数据。这些参数如下
Io字符串文件路径也可以是URL链接。如果你不接受https,你可以尝试删除https中的S,像http://www.mingribook.com一样爬行。
匹配正则表达式返回与正则表达式匹配的表。
flavor/flev(r)/r)/解析器默认为lxml。
指定标题列标题所在的行列表是多重索引。
Index_col指定对应于行标题的列列表是多重索引。
编码字符串默认为None文件的编码格式。
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。