目的

在线训练需要重复拉取整个数据集很多次,这会非常耗时并占用大量带宽。 因此我们提供了一种将数据缓存到本地的功能以避免上述问题,这会大幅加速训练速度。

1. 创建数据集实例

import dfs
client = dfs.Client(access_token=<YOUR_ACCESSKEY>,dataset_id=<DATASET_ID>)
lmdownloader=LMDataset(client, segment_name='train')

2. 启用缓存

  • 启用前需要确保本地空间足够
lmdownloader.enable_cache()
如果需要指定缓存路径
lmdownloader.enable_cache(<custom_path>)

3. 删除缓存

  • 默认情况下,缓存会在主机重启时自动删除
  • 用户可以使用remove_cache_alone删除本次缓存或remove_cache_all删除全部缓存
Copyright@北京安捷智合科技有限公司 保留所有权 all right reserved,powered by Gitbook更新时间: 2023-07-17 17:21:39

results matching ""

    No results matching ""