域名备案企业网站内容八亿建站-马鞍山市网站建设公司-Seo优化

域名备案企业网站内容,八亿建站,网页设计图片欣赏,湖南正规竞价优化公司介绍官网#xff1a;www.deepspeed.ai DeepSpeed 是一个开源深度学习优化库#xff0c;旨在提高大模型训练和运行效率#xff0c;以支持数千亿-万亿参数的超大语言模型。为了提高大模型训练的效率和扩展性#xff0c;DeepSpeed 不仅实现了ZeRO 论文中的核心技术www.deepspeed.ai DeepSpeed 是一个开源深度学习优化库旨在提高大模型训练和运行效率以支持数千亿-万亿参数的超大语言模型。为了提高大模型训练的效率和扩展性DeepSpeed 不仅实现了ZeRO 论文中的核心技术还组合了多个模块并持续跟进前沿训练方法如 MoE混合专家模型支持稀疏激活高效扩展、长序列处理处理超长文本/序列、RLHF人类反馈强化学习对齐人类偏好等。1、Training训练模块实现了ZeRO 是 DeepSpeed 的一个关键组成部分它通过优化数据并行训练中的显存使用显著减少了所需的GPU显存。ZeRO 分为几个不同的级别ZeRO-DP, ZeRO-Officad, ZeRO-Infinity每个级别都提供了不同程度的优化和显存节省允许训练更大的模型或在有限的硬件资源上训练模型。 ZeRO-Offload是ZeRO-DP技术的一个扩展它将部分数据和计算从GPU或其他主要训练设备卸载到CPU从而减轻了GPU的显存负担并使得在有限GPU资源下训练更大的模型成为可能。核心策略如下模型卸载ZeRO-Offload可以将模型的一部分状态如优化器状态、梯度或参数从GPU卸载到CPU内存中从而减少GPU上的内存需求。计算卸载除了模型卸载之外ZeRO-Offload还可以将一部分计算任务如参数更新卸载到CPU减轻GPU的计算负担使得GPU可以专注于更加密集的前向和反向传播计算。同时尽量减少数据在GPU和CPU之间的移动以及减少CPU上的计算时间从而在GPU上节省显存效率和规模在单个NVIDIA V100 GPU上可以实现40 TFlops的性能训练超过100亿参数的模型相比于PyTorch等流行框架在单GPU上能训练的最大模型规模提高了10倍。灵活性和可扩展性设计用于在多GPU上扩展提供接近线性的加速比最多支持128个GPU。ZeRO-Infinity也是ZeRO技术的扩展旨在设计面向百万亿大模型的训练框架。它的主要创新如下全面优化ZeRO-Infinity结合了数据并行、模型并行、流水线并行和ZeRO-Offload的优点提供了一套全面的显存和计算优化方案。高效利用各种存储层通过智能地使用GPU显存、CPU内存和NVMe SSD存储最大化训练设备的存储和计算能力。超大模型规模可以在当前一代GPU集群上训练高达数十甚至数百万亿参数的模型。在单个NVIDIA DGX-2节点上微调万亿参数模型降低了超大模型训练和微调的资源需求。优秀的吞吐量和可扩展性在512个NVIDIA V100 GPU上保持超过25 petaflops的性能达到峰值的40%在不受CPU或NVMe带宽限制的情况下展示了超线性的可扩展性。开源友好Microsoft 在 DeepSpeed 框架中开源实现了ZeRO-Infinity 技术。2、Inference推理模块实现了模型并行Model Parallelism如Tensor切片以支持大型模型的分布式训练。这些技术允许模型的不同部分在不同的计算设备上并行运行从而处理那些单个设备无法容纳的大型模型。实现了流水线并行Pipeline Parallelism通过将模型训练分解为多个阶段并在不同的设备上并行处理这些阶段流水线并行技术可以进一步提高训练效率。这种方法特别适合于顺序依赖较弱的训练任务如某些类型的深度学习模型。3、Compression压缩模块 **实现了显存和带宽优化采用了多种技术来优化显存使用和增加带宽效率如异步I/O、内存池化和压缩通信等。这些优化有助于提高数据加载和模型训练过程中的效率。稀疏注意力Sparse AttentionDeepSpeed 支持稀疏注意力机制这有助于降低训练大模型尤其是那些基于Transformer的模型时的计算和内存需求。稀疏性技术可以减少不必要的计算使模型更加高效。4、DeepSpeed4Science科学计算模块用AI技术创新推动科学发现应用于气候科学、生物医药、物理化学等。DeepSpeed与Transformers集成方式1、使用Trainer参数启动DeepSpeedmodel_wrappedself.model_wrapped指向DeepSpeed 包裹后的最外层模型用于前向传递place_model_on_device是否自动将模型放置到设备如 GPU在DeepSpeed或模型并行场景下该参数必须设为False避免重复放置导致冲突2、使用HfDeepSpeedConfig类以独立配置文件注入 DeepSpeed 训练参数推荐可传入 DeepSpeed 配置文件路径字符串或配置字典直接提供配置内容DeepSpeed框架编译与安装1、更新GCC和G版本# 添加必要的 PPA 仓库然后更新 gcc 和 gsudoadd-apt-repository ppa:ubuntu-toolchain-r/testsudoaptupdatesudoaptinstallgcc-7 g-7# 更新系统的默认 gcc 和 g 指向sudoupdate-alternatives --install /usr/bin/gcc gcc /usr/bin/gcc-760--slave /usr/bin/g g /usr/bin/g-7sudoupdate-alternatives --config.gcc2、创建独立的Anaconda环境如果想要隔离环境建议采用 clone 方式新建一个 DeepSpeed 专用的 Anaconda 环境conda create -n deepspeed --clone base3、安装Transformers和DeepSpeed需要源代码方式安装DeepSpeed要求的transformers版本是dev开发版本需要源代码方式安装transformers、DeepSpeed两者才能正常使用。源代码方式安装transformers遵循官方文档通过命令安装 Transformers:pipinstallgithttps://github.com/huggingface/transformers根据gpu情况并编译安装DeepSpeedtorch.cuda.get_device_capability()输出(7, 5)→Tesla T4 (sm_75)。torch.cuda.get_arch_list()包含sm_75支持 Tesla T4。GPU 兼容性Tesla T4sm_75兼容当前 PyTorch 环境支持sm_75通过源代码安装DeepSpeed解决编译兼容性问题即通过正确设置 GPU 架构TORCH_CUDA_ARCH_LIST确保 DeepSpeed 适配用户硬件。# 1. 克隆 DeepSpeed 仓库gitclone https://github.com/microsoft/DeepSpeed/# 2. 进入项目目录cdDeepSpeed# 3. 清理旧构建文件避免冲突rm-rf build# 4. 执行安装关键命令TORCH_CUDA_ARCH_LIST7.5DS_BUILD_CPU_ADAM1DS_BUILD_UTILS1pipinstall.\--global-optionbuild_ext--global-option-j8--no-cache -v\--disable-pip-version-check21|teebuild.log参数作用TORCH_CUDA_ARCH_LIST7.5指定 GPU 架构替换为实际值如7.5DS_BUILD_CPU_ADAM1启用 CPU OffloadDS_BUILD_UTILS1NVMe OffloadSSD存储卸载计算/存储任务--global-option-j8使用 8 个线程并行编译提升构建速度--no-cache -v禁用缓存详细日志输出便于排查问题21tee build.log安装完成如下提示使用DeepSpeed训练T5模型1、T5模型介绍2019 年由 Google Research 团队提出T5Text-to-Text Transfer Transformer模型。T5 将所有 NLP 任务如翻译、摘要、分类、情感分析、文本补全等都视为“文本到文本”的转换问题。即输入是一段文本通常带有任务前缀输出也是一段文本任务的答案或结果2、使用 DeepSpeed 框架和 ZeRO-2 优化技术来训练 T5-Large 模型7.7亿参数deepspeed --num_gpus1# 使用多少显卡translation/run_translation.py\# transformers 库官方提供的一个示例脚本给翻译任务训练和评估提供一个“开箱即用”的标准流程。这个脚本封装了从数据加载、模型初始化、训练、评估到保存的整个机器学习工作流。用户无需从头编写复杂的训练循环、日志记录、评估代码。--deepspeed config/ds_config_zero2.json\# 指定DeepSpeed ZeRO-2配置文件--model_name_or_path t5-large\# 加载预训练的T5-Large模型--do_train --do_eval\# 执行训练和评估--per_device_train_batch_size4\# 每个GPU的训练批大小为4--per_device_eval_batch_size4\--output_dir output_dir\# 输出目录--overwrite_output_dir\--max_train_samples500\# 仅使用500个训练样本示例/调试用--num_train_epochs1\# 只训练1轮--dataset_name wmt16 --dataset_configro-en\# 使用WMT16英罗翻译数据集--source_lang en --target_lang ro# 指定源语言和目标语言英语 → 罗马尼亚语这是一个小规模测试运行只用了500个样本训练1个epoch主要是为了演示和验证流程而非追求最终模型性能。ZeRO-2配置文件关键内容说明通过ZeRO-2 内存优化自动混合精度自动优化器/调度器配置在有限 GPU 资源下高效训练7.7亿参数的 T5-Large 模型避免内存溢出并加速训练过程。auto参数均表示 DeepSpeed 自动适配硬件环境无需手动调整。# 关键优化参数zero_optimization:{stage:2,# 模型参数/梯度/优化器状态分区存储显著减少GPU内存占用。offload_optimizer:{device:cpu,# 优化器状态卸载到CPUpin_memory:true#CPU使用页锁定内存加速GPU数据传输。},allgather_partitions:true,allgather_bucket_size:2e8,# All-Gather 通信桶大小2亿数据overlap_comm:true,# 通信与计算重叠提升效率。reduce_scatter:true,reduce_bucket_size:2e8,contiguous_gradients:true# 梯度连续存储加速传输},gradient_accumulation_steps:auto,# 自动确定梯度累积步数gradient_clipping:auto,# 自动梯度裁剪steps_per_print:20,# 每20步打印一次日志train_batch_size:auto,train_micro_batch_size_per_gpu:auto,wall_clock_breakdown:false# 训练核心配置fp16:{enabled:auto,# 混合精度训练自动启用FP16loss_scale:0,loss_scale_window:1000,initial_scale_power:16,hysteresis:2,min_loss_scale:1},bf16:{enabled:auto# 混合精度训练自动启用 BFloat16},optimizer:{type:AdamW,# 使用 AdamW 优化器params:{lr:auto,betas:auto,eps:auto,weight_decay:auto}},scheduler:{type:WarmupLR,# 使用 Warmup 学习率调度器params:{warmup_min_lr:auto,warmup_max_lr:auto,warmup_num_steps:auto}}3、ZeRO-3ZeRO-3 是 ZeRO-2 的增强版在保留基础优化能力的同时新增参数卸载功能并提供更精细的内存控制专为超大规模模型训练设计能有效解决 GPU 显存不足问题。// ZeRO-3 配置文件 (ds_config_zero3.json){zero_optimization:{stage:3,offload_optimizer:{device:cpu,pin_memory:true},offload_param:{# 额外支持参数卸载极大减少GPU显存占用可训练更大模型device:cpu,pin_memory:true},overlap_comm:true,contiguous_gradients:true,sub_group_size:1e9,# 控制参数分区粒度ZeRO-3将参数分为更小的子组便于高效卸载/加载reduce_bucket_size:auto,# 控制梯度归并操作的批量大小从固定值到autoZeRO-2固定为2e8→ ZeRO-3自动优化stage3_prefetch_bucket_size:auto,# 控制从CPU预取到GPU的参数批量大小stage3_param_persistence_threshold:auto,# 定义哪些参数应常驻GPU不再卸载stage3_max_live_parameters:1e9,#GPU上同时保留的参数上限限制活跃参数量stage3_max_reuse_distance:1e9,# 判断参数是否应该预取的阈值如果参数在未来较长时间内不会被重用则不预取stage3_gather_16bit_weights_on_model_save:true# 保存模型时将分布在多个GPU上的16位参数收集合并},gradient_accumulation_steps:auto,gradient_clipping:auto,steps_per_print:20,train_batch_size:auto,train_micro_batch_size_per_gpu:auto,wall_clock_breakdown:false}DeepSpeed单机多卡、分布式训练说明1、单机多卡环境下的启动命令如何利用一个简单的命令调用所有GPU进行分布式训练deepspeed --num_gpus显卡数量your_program.py常规参数--deepspeed ds_config.json使用deepspeed启动器并通过--num_gpus和--deepspeed两个参数分别控制硬件资源和优化策略。示例使用4张GPU使用ZeRO Stage 2的配置文件来节省显存deepspeed --num_gpus4translation/run_translation.py\--deepspeed config/ds_config_zero2.json --model_name_or_path t5-3b\--do_train --per_device_train_batch_size4\--do_eval --per_device_eval_batch_size4\--output_dir output_dir --overwrite_output_dir\--max_train_samples500--num_train_epochs1\--dataset_name wmt16 --dataset_configro-en\--source_lang en --target_lang ro\--fp162、分布式训练分布式训练需要在所有节点上安装 DeepSpeed并且序号配置 hostfile 文件# hostname1、hostname2节点的 SSH 主机名或 IP 地址必须能通过 SSH 无密码访问通常配置在 ~/.ssh/config 文件中 # slots8该节点可用的 GPU 数量 hostname1 slots8 hostname2 slots8分布式命令示例deepspeed --num_gpus8--num_nodes2--hostfile hostfile\--master_addr hostname1 --master_port9901\your_program.pynormal cl args--deepspeed ds_config.json参数作用示例值说明--num_gpus每个节点使用的 GPU 数8必须与 hostfile 中每个节点的 slots 数匹配--num_nodes节点总数2必须与 hostfile 中的行数匹配--hostfilehostfile 文件路径hostfile定义所有节点的连接信息--master_addr主节点地址hostname1Rank 0 所在的节点必须是 hostfile 中的某个主机名--master_port主节点端口9901用于节点间通信确保该端口在所有节点都可用且未被占用其余参数与单机训练相同-训练脚本、常规参数、DeepSpeed 配置文件如果感觉hostfile 这种配置太复杂可以考虑使用 SLURM 等集群管理系统

域名备案企业网站内容八亿建站

江门网站制作京东网站难做吗

建设法规课程网站河南浪博网站建设

前端做网站需要学什么软件郑州seo外包平台

百度网站关键字上海网站设计厂家

扫一扫网页版在线使用中国网站优化

泰安建设网站哪个好吉林长春seo网络推广

域名备案企业网站内容八亿建站

江门网站制作京东网站难做吗

建设法规 课程网站河南浪博网站建设

前端做网站需要学什么软件郑州seo外包平台

百度网站关键字上海网站设计厂家

扫一扫网页版在线使用中国网站优化

泰安建设网站哪个好吉林长春seo网络推广

建设法规课程网站河南浪博网站建设