cnvrg.io和NetApp合作提供MLOps数据集缓存
cnvrg.io,数据科学平台简化模型管理和引进先进MLOps行业,宣布与NetApp的合作伙伴关系,首先要充分利用cnvrg.io数据集缓存工具,一组独特的功能立即从缓存中提取数据集以进行任何机器学习作业。cnvrg.io是第一个使用数据集缓存进行端到端机器学习开发的ML平台。缓存使数据集可以在几秒钟而不是几小时内就可以使用,并且缓存的数据集可以由连接到缓存数据的同一计算集群中的多个团队授权和使用。cnvrg.io客户已经在生产级别使用了数据集缓存。
拥有数百个数据集提供模型的情况并不少见。但是,这些数据集可能远离训练模型的计算,例如在公共云或数据湖中。借助NetApp和cnvrg.io的数据集缓存功能,用户可以缓存所需的数据集(和/或其版本),并确保它们位于连接到正在执行计算的GPU计算群集或CPU群集的ONTAP®AI存储中。训练。缓存所需的数据集后,不同的团队成员可以多次使用它们。
cnvrg.io数据集缓存功能可由具有ONTAP AI存储服务器的任何cnvrg.io用户使用。连接到组织后,数据科学家可以将其数据集的提交缓存在该网络文件系统(NFS)上。缓存提交后,用户可以将其附加到作业中以立即获得对数据的高吞吐量访问,并且该作业无需在启动时克隆数据集。cnvrg.io的数据集缓存功能具有以下业务优势:
提高生产率–数据集可以在几秒钟内使用,而不是几小时即可使用。
改进的共享和协作–缓存的数据集可以由连接到缓存数据的同一计算集群中的多个团队授权和使用。
降低成本–模型正在从缓存中提取数据集,从而减少了每次下载的费用。
运营混合云–数据集缓存提供了本地高性能镜像存储。
多云数据集移动性–使用本地缓存作为数据的控制点。
NetApp AI和数据工程高级技术总监Santosh Rao说:“深度学习工作负载是独特的,因为它们需要访问可能来自不同数据源和分散位置的大型数据集中的随机数据样本 。” “此外,深度学习需要接近GPU Compute集群的高性能数据,这需要结合高性能闪存存储系统,边缘,核心和云连接器以进行分散的数据位置访问,并支持NFS广泛使用的数据源格式或统一数据平台上的其他文件系统。NetApp与cnvrg.io形成了首个同类合作伙伴关系,旨在通过采用深度学习来改变其业务的方式向全球客户提供这些功能。”
“我们与NetApp的合作关系为数据团队提高了生产力和效率。” cnvrg.io首席执行官兼联合创始人Yochay Ettun说。“我们很高兴推出用于机器学习的数据集缓存,为NetApp用户和cnvrg.io用户提供高级数据管理和数据版本控制工具,使数据团队能够专注于数据科学,从而更快,更轻松地访问其数据集。超过技术复杂性。”
标签: NetApp cnvrgio MLOps数据集缓存