网站怎么快速收录网站维护电话

张小明 2026/1/12 21:59:16
网站怎么快速收录,网站维护电话,装修免费出效果图,哪些专业要学网页制作文章目录P-Tuning v2 概述核心改进关键技术细节代码示例性能对比局限性https://github.com/THUDM/P-tuning-v2 P-Tuning v2 概述 P-Tuning v2 是清华大学团队提出的一种参数高效微调#xff08;Parameter-Efficient Fine-Tuning, PEFT#xff09;方法#xff0c;旨在改进传…文章目录P-Tuning v2 概述核心改进关键技术细节代码示例性能对比局限性https://github.com/THUDM/P-tuning-v2P-Tuning v2 概述P-Tuning v2 是清华大学团队提出的一种参数高效微调Parameter-Efficient Fine-Tuning, PEFT方法旨在改进传统微调方法在大型预训练语言模型如GPT、BERT上的效率和性能。它是P-Tuning的升级版本通过优化提示Prompt设计和参数更新策略显著提升了模型在低资源场景下的表现。核心改进连续提示优化P-Tuning v2 引入了可训练的连续提示Continuous Prompts取代了传统离散提示。这些提示以嵌入向量的形式插入到模型的输入层或中间层通过梯度下降动态调整避免了人工设计提示的局限性。分层提示注入与P-Tuning仅在输入层添加提示不同P-Tuning v2 在模型的每一层或关键层注入提示向量形成分层提示结构。这种设计能更深度地引导模型行为尤其适合深层Transformer架构。参数效率提升P-Tuning v2 仅需微调少量额外参数通常占模型总参数的0.1%-1%大幅降低了计算和存储开销同时保持了与全参数微调相近的性能。关键技术细节提示向量初始化提示向量通常随机初始化或从任务相关词嵌入中采样。实验表明合理的初始化能加速收敛并提升最终效果。训练目标P-Tuning v2 通过标准的下游任务损失如交叉熵优化提示参数同时可结合适配器Adapter或LoRA等轻量级模块进一步减少可训练参数。适用场景小样本学习Few-shot Learning多任务学习通过不同提示区分任务资源受限的设备部署代码示例P-Tuning v2的核心逻辑importtorchclassPrefixEncoder(torch.nn.Module):r The torch.nn model to encode the prefix Input shape: (batch-size, prefix-length) Output shape: (batch-size, prefix-length, 2*layers*hidden) def__init__(self,config):super().__init__()self.prefix_projectionconfig.prefix_projectionifself.prefix_projection:# Use a two-layer MLP to encode the prefixself.embeddingtorch.nn.Embedding(config.pre_seq_len,config.hidden_size)self.transtorch.nn.Sequential(torch.nn.Linear(config.hidden_size,config.prefix_hidden_size),torch.nn.Tanh(),torch.nn.Linear(config.prefix_hidden_size,config.num_hidden_layers*2*config.hidden_size))else:self.embeddingtorch.nn.Embedding(config.pre_seq_len,config.num_hidden_layers*2*config.hidden_size)defforward(self,prefix:torch.Tensor):ifself.prefix_projection:prefix_tokensself.embedding(prefix)past_key_valuesself.trans(prefix_tokens)else:past_key_valuesself.embedding(prefix)returnpast_key_valueshttps://github.com/THUDM/P-tuning-v2/blob/main/model/token_classification.pyclassBertPrefixForTokenClassification(BertPreTrainedModel):def__init__(self,config):super().__init__(config)self.num_labelsconfig.num_labels self.bertBertModel(config,add_pooling_layerFalse)self.dropouttorch.nn.Dropout(config.hidden_dropout_prob)self.classifiertorch.nn.Linear(config.hidden_size,config.num_labels)from_pretrainedFalseiffrom_pretrained:self.classifier.load_state_dict(torch.load(model/checkpoint.pkl))forparaminself.bert.parameters():param.requires_gradFalseself.pre_seq_lenconfig.pre_seq_len self.n_layerconfig.num_hidden_layers self.n_headconfig.num_attention_heads self.n_embdconfig.hidden_size//config.num_attention_heads self.prefix_tokenstorch.arange(self.pre_seq_len).long()self.prefix_encoderPrefixEncoder(config)bert_param0forname,paraminself.bert.named_parameters():bert_paramparam.numel()all_param0forname,paraminself.named_parameters():all_paramparam.numel()total_paramall_param-bert_paramprint(total param is {}.format(total_param))# 9860105defget_prompt(self,batch_size):prefix_tokensself.prefix_tokens.unsqueeze(0).expand(batch_size,-1).to(self.bert.device)past_key_valuesself.prefix_encoder(prefix_tokens)# bsz, seqlen, _ past_key_values.shapepast_key_valuespast_key_values.view(batch_size,self.pre_seq_len,self.n_layer*2,self.n_head,self.n_embd)past_key_valuesself.dropout(past_key_values)past_key_valuespast_key_values.permute([2,0,3,1,4]).split(2)returnpast_key_valuesdefforward(self,input_idsNone,attention_maskNone,token_type_idsNone,position_idsNone,head_maskNone,inputs_embedsNone,labelsNone,output_attentionsNone,output_hidden_statesNone,return_dictNone,):return_dictreturn_dictifreturn_dictisnotNoneelseself.config.use_return_dict batch_sizeinput_ids.shape[0]past_key_valuesself.get_prompt(batch_sizebatch_size)prefix_attention_masktorch.ones(batch_size,self.pre_seq_len).to(self.bert.device)attention_masktorch.cat((prefix_attention_mask,attention_mask),dim1)outputsself.bert(input_ids,attention_maskattention_mask,token_type_idstoken_type_ids,position_idsposition_ids,head_maskhead_mask,inputs_embedsinputs_embeds,output_attentionsoutput_attentions,output_hidden_statesoutput_hidden_states,return_dictreturn_dict,past_key_valuespast_key_values,)sequence_outputoutputs[0]sequence_outputself.dropout(sequence_output)logitsself.classifier(sequence_output)attention_maskattention_mask[:,self.pre_seq_len:].contiguous()lossNoneiflabelsisnotNone:loss_fctCrossEntropyLoss()# Only keep active parts of the lossifattention_maskisnotNone:active_lossattention_mask.view(-1)1active_logitslogits.view(-1,self.num_labels)active_labelstorch.where(active_loss,labels.view(-1),torch.tensor(loss_fct.ignore_index).type_as(labels))lossloss_fct(active_logits,active_labels)else:lossloss_fct(logits.view(-1,self.num_labels),labels.view(-1))ifnotreturn_dict:output(logits,)outputs[2:]return((loss,)output)iflossisnotNoneelseoutputreturnTokenClassifierOutput(lossloss,logitslogits,hidden_statesoutputs.hidden_states,attentionsoutputs.attentions,)性能对比在SuperGLUE基准测试中P-Tuning v2 仅微调0.5%参数时性能可达全参数微调的90%以上同时训练速度提升3-5倍。对于超大规模模型如百亿参数其优势更加显著。局限性提示长度和层数需通过实验调优对某些需要全局参数调整的任务如文本生成可能需结合其他PEFT方法参考 https://github.com/zejunwang1/chatglm_tuning/blob/main/train_ptuning.py
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

自己建设网站需要什么手续农村基本制度建设网站

ClickShow鼠标点击特效工具使用指南 【免费下载链接】ClickShow 鼠标点击特效 项目地址: https://gitcode.com/gh_mirrors/cl/ClickShow 在屏幕录制、教学演示或远程协作过程中,准确展示鼠标操作轨迹和点击位置往往至关重要。ClickShow作为一款专业的鼠标点击…

张小明 2026/1/7 5:42:11 网站建设

利用angular做的网站旅游网站栏目建设

三国杀卡牌制作器完整使用手册:从入门到精通 【免费下载链接】Lyciumaker 在线三国杀卡牌制作器 项目地址: https://gitcode.com/gh_mirrors/ly/Lyciumaker 还在为找不到合适的三国杀卡牌而烦恼吗?Lyciumaker作为一款功能强大的在线卡牌制作工具&…

张小明 2026/1/7 4:28:19 网站建设

沈阳网站制作推广做抽奖的网站犯法吗

STARTRAC终极指南:单细胞T细胞分析与TCR追踪完整教程 【免费下载链接】STARTRAC STARTRAC(Single T-cell Analysis by Rna-seq and Tcr TRACking) 项目地址: https://gitcode.com/gh_mirrors/st/STARTRAC 单细胞T细胞分析是免疫治疗研究中的关键技术挑战。传…

张小明 2026/1/7 14:51:22 网站建设

商标注册网上申请平台常州淄博网站优化

鸿蒙 Electron 与数字孪生 AR 融合实战:虚实协同的全场景智能解决方案 ** 数字孪生通过构建物理世界的 1:1 虚拟映射,实现场景状态实时同步、模拟推演与远程管控;AR(增强现实)通过将虚拟信息叠加至物理场景&#xff0…

张小明 2026/1/11 9:41:03 网站建设

有帮忙做ppt的网站或人吗杭州高端企业网站建设

第一章:量子计算与R语言的交汇量子计算作为下一代计算范式的代表,正逐步从理论研究走向实际应用。尽管主流开发语言多集中于Python和专用量子框架(如Qiskit、Cirq),R语言凭借其在统计分析与数据可视化方面的强大能力&a…

张小明 2026/1/10 17:51:10 网站建设

网站订制公司百度搜索风云榜排行榜

Qwen3-1.7B震撼发布:32k超长上下文AI模型来了! 【免费下载链接】Qwen3-1.7B-Base Qwen3-1.7B-Base具有以下特点: 类型:因果语言模型 训练阶段:预训练 参数数量:17亿 参数数量(非嵌入&#xff09…

张小明 2026/1/7 11:03:07 网站建设