自定义数据集
深度学习网络的一切输入,无论是文字、图像或其他数据,都必须转换为数值组成的向量,这一过程称为向量化。向量就是一个行数不限的单列矩阵。
DataVec
DataVec是采用Apache 2.0许可协议的开源工具,用于机器学习中的ETL(提取、转换、加载)操作。DataVec的任务是将原始数据转换为各类机器学习工具均可使用的向量格式。
DataVec提供将图像转换为向量的工具,还可以根据目录名称和结构来标记图像。DataVec也提供读取CSV数据并将字段转换为数值格式的工具。
我们提供的示例中包括了DataVec的示例。
关于DataVec的更多详情请参见此处。