vscode-snippets
指定光标位置:$x 多光标编辑:$x $x 指定 placeholder 文本:${x:placeholder} 指定多选值:${x|aaa,bbb|} 取变量:$Variab
SimCSE
无监督 info Noise Contrastive Estimation loss 有监督 复现代码 只贴最核心的损失函数代码 def simcse_unsup_loss(y_pred, device, temp=0.05): """无监督的损失函数 y_pred (tensor): bert的输出, [batch_size * 2,
trainer
基本用法 下面是使用的一个例子,重点是TrainingArg和data_collator。 dataset = LineByLineTextDataset(tokenizer=tokenizer, file_path='./text.txt', block_size=512) data_collator = DataCollatorForLanguageModeling( tokenizer=tokenizer, mlm=True, mlm_probability=0.15 ) training_args = TrainingArguments( output_dir='./outputs/', overwrite_output_dir=True, num_train_epochs=100, per_device_train_batch_size=16, save_steps=5000, ) trainer = Trainer( model=model, args=training_args,
pooler_output
温度超参数
温度超参数t,一般为softmax结果除以该参数,或者在对比学习中,相似度除以参数t。 如图: 上图为无监督simcse中的损失函数。 t越大,结
继续预训练
领域自适应之继续预训练
验证外星语词典
leetcode地址:953. 验证外星语词典 - 力扣(LeetCode) 简单方法 python列表之间也可以进行比较(太灵活了),比如[1, 2, 3]
latex笔记
文档类与宏包的区别其实并没有想象中的那么大,两者都是由LaTeX代码构成的纯文本文件,都能够进行宏的定义并对最终生成的pdf文档产生影响。一