pd.melt 用法 直观的看就是将宽数据转化为长数据。转化为variable-value这样的形式。 pandas.melt(frame, id_vars=None, value_vars=None, var_name=None, value_name='value', col_level=None) 参数解释: frame:要处理的数据集。 id
梯度下降法 简介 批度梯度下降 其实就是一次将整个数据集进行梯度下降的迭代 ## 随机梯度下降 就是对样本进行循环,每循环一个样本就更新一次参数,但是不容
预训练模型 概述 预训练模型,则是使自然语言处理由原来的手工调参、依靠 ML 专家的阶段,进入到可以大规模、可复制的大工业施展的阶段。而且预训练模型从
矩阵的反转,可以按照各个维度很好理解。 例子: cs_matrix = np.array([[ 4, 3, 2, 1, 0], [ 8, 7, 6, 5, 1], [11, 10, 9, 6, 2], [13, 12, 10, 7, 3], [14, 13, 11, 8, 4]]) np.flip(cs_matrix, 0) 变成了: np.flip(cs_matrix, 1) 变成了:
单隐层多分类神经网络(numpy实现) 使用Numpy实现,并且使用命令行的形式设定参数。 是一个作业里面的,实现的时候踩了一些坑,主要是训练里
序列标注任务 HMM CRF BiLSTM + CRF BERT+CRF BERT + BiLSTM + CRF
浅谈jupyter转pdf问题 老师要求要把之前做的实验打印出来,但是由于学院的系统环境问题,没有办法直接保存为pdf,因此我采用了别的方法
将所有词语装进一个袋子里,不考虑其词法和语序的问题,即每个词语都是独立的 句子1:我 爱 北 京 天 安 门 转换为 [1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0] 句子2:我 喜 欢 上 海
ELMo 在Transformer中提到了ELMo解决了word2vec中存在的多义词问题,其使用双向的LSTM作为特征提取器,考虑了上下文的语义,
Stacking 思想简介 简单得理解,就是对于多个学习器,分别对结果进行预测,然后将预测的结果作为特征,再对结果进行预测。 上一张经典的图: 以这个5折stac