Tokenization技术 本文章主要说说NLP领域中的Tokenization技术,这是很基础的但也是很容易被忽视的一个步骤。在我接的单子
CoVe Cove代表上下文向量,它是一种有监督的预训练模型,其主要思想就是训练了一个NMT系统,并使用它的编码器, 模型训练 主要假设是,为了翻译一个
文本语义匹配是自然语言处理中一个重要的基础问题,NLP 领域的很多任务都可以抽象为文本匹配任务。例如,信息检索可以归结为查询项和文档的匹配,问
EM算法 引入 我们经常会从样本观察数据中,找出样本的模型参数。 最常用的方法就是极大化模型分布的对数似然函数。(最大似然估计:利用已知的样本结果
这是一种句向量的表示方式,即sentence2vec,实际上是对skip thought的改进,
分发饼干 https://leetcode-cn.com/problems/assign-cookies/ class Solution: def findContentChildren(g, s) -> int: g = sorted(g) s = sorted(s) n = 0 for i in range(len(s)): if g[n] <= s[i]: n += 1 if n == len(g): return n return n 贪心算法的题目,考虑局部最优
正则表达式 [abcd]匹配中括号里的所有字符 [^abcd]匹配除了括号里的所有字符 [A-Za-z]匹配所有字母 [\s\S]是匹配所有空白符,
age workclass fnlwgt education education-num marital-status occupation relationship race sex capital-gain capital-loss hours-per-week native-country salary 0 39 State-gov 77516 Bachelors 13 Never-married Adm-clerical Not-in-family White Male 2174 0 40 United-States <=50K 1 50 Self-emp-not-inc 83311 Bachelors 13 Married-civ-spouse Exec-managerial Husband White Male 0 0 13 United-States <=50K 2 38 Private 215646 HS-grad 9 Divorced Handlers-cleaners Not-in-family White Male 0 0 40 United-States <=50K 3 53 Private 234721 11th 7 Married-civ-spouse
pandas实践1 在读取数据之前,我修改了表格里面的表头,以便程序的编写。 先从 excel 读取数据,然后看看 shape 了解行数列数,然后调用 info 方法, 看看有没有
Adam算法 背景 作为机器学习的初学者必然会接触梯度下降算法以及SGD,基本上形式如下: \[ \theta_t = \theta_{t-1} - \alpha \;g(\theta) \] 其中\(\alpha\)为学习率,\(