HDF5
HDF5的特点:
- 易于读取
- 类似于mat数据,但数据压缩性能更强
- 需要全部读进内存里,故HDF5文件大小不能超过内存,可以分成多个HDF5文件,将HDF5子文件路径写入txt中.
- I/O速率不如LMDB.
小数据读写
|
|
大数据读写(超过内存)
打开文件头与文件中的数据头
预留存储空间
数据指定位置赋值
- | mode |
---|---|
r | Read only, file must exist |
r+ | read/write, file must exit |
w | create file, truncate if exists |
w- or x | create file, fail if exists |
a | read/write if exists, create otherwise(defualt) |
脚本在第一次保存时设置为创建模式,之后调整为追加模式。
csv
xls或xlsx
最近帮女票倒腾了一些数据,涉及到excel表的读、写、修改
具体参考了以下几个链接:
第一个链接介绍了xls的读写修改方法,修改方法我没有成功运行,原因是缺了一个模块
第二个链接介绍了把csv和xlsx按行读成list,对于python处理来说比较实用
第三个链接详细介绍了OpenPyXL库的使用方法
第四个链接非常详细的介绍了用python来处理excel文件的方法
- python3 读写修改
- python3读取csv和xlsx文件
- python修改已存在的xlsx件—OpenPyXL
- 利用Python读取和修改Excel文件(包括xls文件和xlsx文件)——基于xlrd、xlwt和openpyxl模块
由于好久没用python处理excel,很多命令生疏了,我把工作分成两部分,
第一部分:读入excel处理数据得到结果保存为xls
第二部分:把得到的结果填到另一张表中
|
|
第二部分
numpy库
有缺失值就扑街
pandas库
|
|
sklearn库中的Imputer
|
|
mat
|
|
pkl
txt
LMDB
LMDB格式的优点:
- 基于文件映射IO(memory-mapped),数据速率更好
- 对大规模数据集更有效.
|
|