博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python&HDF5目录
阅读量:6161 次
发布时间:2019-06-21

本文共 756 字,大约阅读时间需要 2 分钟。

最近一直没更新python&量化的博客,是因为忙于看HDF5的书,写VNPY框架,学scrapy爬虫。

本来写博客的目的就是为了当作一种教材,当遇到不会的问题过来找答案。

对于HDF5下面这本书写的很详细了,国内针对HDF5的教材少之又少,python这块应该只有这一本。

 

大概说下,为什么用HDF5吧。一般股票或期货的历史K线数据都会使用MySql或MongoDB(VNPY用的它),但是有下面两个缺点:

1、速度:不管是mysql还是Mongodb的读写都存在进程间通信的问题,不同进程间无法直接通讯,需借助其他工具,这就会增加读写时间。

2、大小:由于数据库(尤其是关系型数据库)在保存数据信息时,还会插入一些关系数据等信息,一同保存进入文件,对股票历史k线数据,这种高度结构化的数据,这些关系数据本身是没用的。额外了占用了存储空间。

 

HDF5优点:

1、速度:直接从硬盘读入内存,绕开了进程间通讯,速度极快。同时它支持切片读取,即不需要把整个dataset读入内存,只读取切片即可。速度和大小都有优化

2、大小:把股票历史数据的dataframe数据作为dataset存入HDF5,列名和索引作为元数据存入HDF5,这样基本上HDF5里没有了与数据不相关的内容,加之其可以使用GZIP和LZF压缩过滤器,在牺牲一部分写入速度的同时,大大减小了存储空间。 

 

大家如果想看的话,就买这本书吧,内容挺全的,基本上能覆盖日常的应用。京东上有卖。

 

 

最后附上该书的目录xmind文件:

https://files.cnblogs.com/files/GavinSimons/Python%26HDF5.rar

转载于:https://www.cnblogs.com/GavinSimons/p/8338470.html

你可能感兴趣的文章
更具体的描述JNI
查看>>
【转】小议Bug敏感度---Bug敏感度的故事(一)
查看>>
BZOJ1111 : [POI2007]四进制的天平Wag
查看>>
Activity的LaunchMode情景思考
查看>>
C#学习笔记(十):反射
查看>>
分析优秀的.NET 文档设计工具Vsdocman 7.1 软件保护技术
查看>>
js 跨域问题
查看>>
诺拉公司2.6一亿元天价罚款侵权 宅男心中的入侵
查看>>
sqlserver 生成UUID随机码
查看>>
Xcode 插件失效的临时解决方案
查看>>
Activity内部Handler引起内存泄露的原因分析
查看>>
【Latex】数学公式排版
查看>>
iOS6和iOS7适应代码(6) —— NSLocalizedString
查看>>
C++使用简单的函数指针
查看>>
获取编译学习笔记 (十三)—— 外部中断
查看>>
oracle表连接——处理连接过程中另外一张表没有相关数据不显示问题
查看>>
unity多边形uv地图
查看>>
ajaxFileUpload+struts2多文件上传(动态添加文件上传框)
查看>>
关于查看文件size
查看>>
HBase初探
查看>>