/images/avatar.png

vllbc

N|

trainer

基本用法

下面是使用的一个例子,重点是TrainingArg和data_collator。

dataset = LineByLineTextDataset(tokenizer=tokenizer, file_path='./text.txt', block_size=512)

data_collator = DataCollatorForLanguageModeling( tokenizer=tokenizer, mlm=True, mlm_probability=0.15 ) 

training_args = TrainingArguments( output_dir='./outputs/',
                                  overwrite_output_dir=True, 
                                  num_train_epochs=100, 
                                  per_device_train_batch_size=16, 
                                  save_steps=5000, ) 

trainer = Trainer( model=model, 
                  args=training_args, 
                  data_collator=data_collator, 
                  train_dataset=dataset, ) 

trainer.train() 

trainer.save_model('./outputs/')

的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。 [0089] 图1为本发明第一个实施例提供的一种基于大语言模型自身对上下文进行压缩的 方法的整体流程图; [0090] 图2为本发明第一个实施例提供的一种基于大语言模型自身对上下文进行压缩的 方法的Decoder-only模型架构示意图; [0091] 图3为本发明第一个实施例提供的一种基于大语言模型自身对上下文进行压缩的 方法的利用现有大语言模型训练流程图; [0092] 图4为本发明第一个实施例提供的一种基于大语言模型自身对上下文进行压缩的 方法的预训练大语言模型流程图; [0093] 图5为本发明第一个实施例提供的一种基于大语言模型自身对上下文进行压缩的 方法的推理流程图; [0094] 图6为本发明第一个实施例提供的一种基于大语言模型自身对上下文进行压缩的 方法的虚拟字符检索流程图; [0095] 图7为本发明第二个实施例提供的一种基于大语言模型自身对上下文进行压缩的 方法的各个模型的推理性能对比图; [0096] 图8为本发明第二个实施例提供的一种基于大语言模型自身对上下文进行压缩的 方法的部分压缩示例图。

温度超参数

温度超参数t,一般为softmax结果除以该参数,或者在对比学习中,相似度除以参数t。 如图: image.png 上图为无监督simcse中的损失函数。

t越大,结果越平滑,t越小,得到的概率分布更“尖锐”。 当t趋于0时: image.png 此时只关注最困难的负样本(smax)。 当t趋于∞时: image.png 此时对比损失对所有负样本的权重都相同。