vllbc02
所有文章
标签
分类
关于
vllbc02
取消
所有文章
标签
分类
关于
所有分类
算法题
课程表(拓扑排序)
跳跃游戏
缺失的第一个正数
和为K的子数组
和为K的子数组
更多 >>
LLM
MHA
dapo
flash attention
GQA
grpo
更多 >>
Machine Learning
FP-Growth
特征选择
最大熵模型
xgboost
LDA
更多 >>
NLP
MHA
world_model
agent概览
MCTS和PRM
llama系列
更多 >>
Deep Learning
Batch Norm
L1 L2正则化
Layer Norm
hinge loss
early-stopping
更多 >>
Reading
BRiTE:Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning
PROCESS REINFORCEMENT THROUGH IMPLICIT REWARDS
Search-R1:Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning
WebThinker:Empowering Large Reasoning Models with Deep Research Capability
First Return, Entropy-Eliciting Explore
更多 >>
Coding
batch_size解释
DataProto
init_workers详解
ray前置知识
verl总体概览
更多 >>
Pandas
bincount
aidc测试
learn_four
rot90
melt
更多 >>
RLHF
dapo
grpo
ppo
Reinforcing General Reasoning without Verifiers
REINFORECE++
更多 >>
分类算法
最大熵模型
决策树
分类算法概述
KNN
线性判别分析
更多 >>
Infra
Activation checkpointing
CPU offloading
梯度累计
remove_padding
3D并行
更多 >>
Einops
einsum
pack and unpack
rearrange
reduce
repeat
更多 >>
Python
LEGB
debugger
WTF
skill
asyncio
更多 >>
优化器
AdaGrad
AdamW
RMSProp
SGD
SGD-Momentum
更多 >>
训练trick
温度超参数
early-stopping
warmup
标签平滑
调参技巧
更多 >>
Api
bincount
rot90
melt
flip
apply_along_axis
更多 >>
Attention
MHA
flash attention
GQA
online attention
paged attention
更多 >>
Reasoning
BRiTE:Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning
PROCESS REINFORCEMENT THROUGH IMPLICIT REWARDS
First Return, Entropy-Eliciting Explore
entropy(reasoning)
思维链压缩
更多 >>
Verl
batch_size解释
DataProto
init_workers详解
ray前置知识
verl总体概览
更多 >>
集成学习
xgboost
Ensemble Learning
Adaboost
随机森林
Stacking
更多 >>
聚类算法
DBSCAN
高斯混合聚类
谱聚类
层次聚类
kmeans
面经
面经2025
北京百分点面经
kd树
前缀树
B树
Agent
Search-R1:Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning
WebThinker:Empowering Large Reasoning Models with Deep Research Capability
world_model
agent概览
工具
shortcode(置顶)
regex
vim
git
损失函数
hinge loss
focal loss
交叉熵损失函数
Smooth L1 Loss
网络正则化
Batch Norm
L1 L2正则化
Layer Norm
Dropout正则化
Boosting
xgboost
Adaboost
GBDT
Planning
LAN-AND-ACT:Improving Planning of Agents for Long-Horizon Tasks
RLVR-World
agent planning综述
优化算法
AdamW
Muon
Adam算法
关联规则算法
FP-Growth
关联规则概念
Apriori算法
循环神经网络系列
GRU
LSTM
RNN
概率图模型
条件随机场
HMM
概率图模型概述
降维算法
LDA
SVD
PCA
Generate
generate
frequency_penalty&presence_penalty
World-Model
world_model
RLVR-World
回归算法
树回归
线性回归
性能指标
精确率和召回率
ROC曲线
Bagging
随机森林
GAN系列
GAN
Hydra
hydra基础
Long Context
长度扩展(外推)
MoE
MoE
Muon
Muon
Survey
agent planning综述
Torch
gather和scatter
串
KMP
比赛相关
数据挖掘比赛
贝叶斯网络
HMM
贪心
跳跃游戏