Python hdf5,python和hdf5大数据应用 pdf

  Python hdf5,python和hdf5大数据应用 pdf

  日立数据格式(hdf)是美国国家超级计算中心开发的文件格式,旨在存储和组织大量数据。它得到了非营利组织HDF集团的支持。HDF支持各种商业和非商业软件平台,包括MATLAB、Java、Python、R和谨慎航空公司。

  HDF集团维护和支持HDF4,但有一些限制:

  支持的界面格式(图像、表格、数组)太多,API太复杂。它只支持科学数据集对象的元数据描述。由于其余接口格式都没有32位地址索引,只有存储限制为2GB的库函数过于老旧复杂,无法有效支持并口I/O,难以在线程化APP应用中使用。详细解释HDF5的特性。

  HDF5的整体结构如下图所示。

  HDF5文件可以是Unix文件系统层次结构(包括各种类型的数据集)。是数据集,表格,甚至是PDF文件,Excel。HDF5的两大核心是3358www。

  如果熟悉Linux系统的组结构,请将组结构做成类似于Linux文件系统的目录层次结构,包括根目录下的其他目录来存储节点目录对应的数据集,或者将组结构配置成Python。从以下Python代码的执行中可以看出,http://www。新浪网

  f=H5py.file(测试。HD F5))subgroup=f . create _ group)subgroup phdf 5 group)/subgroup)0 member group

  下图是HDF集团的官方网站。描述中使用的元数据是数据空间、数据类型、属性和特性(可选)。

  数据空间(Dataspaces)数据空间主要用来描述数据的分布,可以分为空数据、标量数据和数组,其中描述的维度可以是固定的,也可以是不固定的。

  Datatypes数据类型用于描述HDF5数据集中每个数据元素的类型。在HDF5中,数据类型分类如下:

  预定义的数据类型

  HDF5中创建的数据可分为以下两类:

  标准数据类型:所有支持的平台通用,命名格式为组结构

  比如数据集就是f的帧,是标准的big endian 32位浮点类型。

  原生数据类型:在不同的平台上,用于简化读写的内存操作通常不一定相同。例如,架构名+编程类型名就是H5T_IEEE_F32BE

  派生数据类型

  派生数据类型意味着从一个预定义的数据类型中派生出来,最直接的是一种字符类型,而字符串是一种派生数据类型。也就是说,复合数据类型是派生数据类型,派生数据类型还包括表和一些嵌套类型。

  属性元数据用于描述HDF5对象的属性,默认的属性描述可以通过使用HDF5属性列表API来更改。

  Attributes属性是可选的元数据,由用户手动指定。包括ARCH两部分。请注意,不支持部分I/o操作,并且不能压缩或扩展。

  Python开发有两个软件包支持HDF5开发。H5T_NATIVE_INT int(C)基于HDF5,增加了数据集索引和其他类型的系统。)

  名称-值

  HDF集团提供打开和编辑HDF5文件的可视化工具,支持基于Java开发的各种平台。

  h5py

  提供了对HDF5文件的基于SQL的访问,但它似乎不是免费的,并且只提供14天的试用期。

  PyTables

  目前已经提供了通过Spark访问HDF5文件的访问器,但beta版还在开发中。试着变成一只老鼠。

  关于HDF5的更多了解,后面会总结。

  来源:

  [1]. https://en . Wikipedia . org/wiki/hierarchical _ data _ format

  [2].hdf文件汇总(HDF4,HDF5)))))))))))))。

  [3]. https://portal . hdf group.org/display/HD F5/introductiontohdf 5

  [4].《Python和HDF5大数据应用》

  本作品通过知识共享署名-非商业使用-3.0中国大陆许可协议以同样的方式共享和许可。

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: