目的
在线训练需要重复拉取整个数据集很多次,这会非常耗时并占用大量带宽。 因此我们提供了一种将数据缓存到本地的功能以避免上述问题,这会大幅加速训练速度。
1. 创建数据集实例
import dfs
client = dfs.Client(access_token=<YOUR_ACCESSKEY>,dataset_id=<DATASET_ID>)
lmdownloader=LMDataset(client, segment_name='train')
2. 启用缓存
- 启用前需要确保本地空间足够
lmdownloader.enable_cache()
如果需要指定缓存路径
lmdownloader.enable_cache(<custom_path>)
3. 删除缓存
- 默认情况下,缓存会在主机重启时自动删除
- 用户可以使用
remove_cache_alone
删除本次缓存或remove_cache_all
删除全部缓存