Paper Notes | AllenY's blog

ASPLOS'23 "DeepUM: Tensor Migration and Prefetching in Unified Memory" 论文解析

2023-10-24 15 min read # Paper Notes

发表在ASPLOS'23的DeepUM是一篇关于GPU内存优化的论文。在本文中，作者提出了一个名为DeepUM的框架，利用CUDA Unified Memory（UM）来允许DNNs的GPU内存超额使用。虽然UM通过page fault机制允许内存超额使用，但page migration引入了巨大的开销。DeepUM使用一种新的correlation prefetching技术来隐藏page migration的开销。它是完全自动且对用户透明的。本文还提出了两种优化技术来最小化GPU fault handling time。作者使用来自MLPerf、PyTorch示例和Hugging Face的九个大规模DNN对DeepUM的性能进行评估，并将其性能与六种最先进的GPU内存交换方法进行比较。评估结果表明，DeepUM对于GPU内存超额使用非常有效，并且可以处理其他方法无法处理的更大模型。

AllenY's blog

标签：# Paper Notes

ASPLOS'23 "DeepUM: Tensor Migration and Prefetching in Unified Memory" 论文解析