/images/avatar.png

vllbc

高斯混合聚类

基础就是高斯混合模型,假设我们熟知的高斯分布的概率密度函数为\(p(x\mid \mu, \Sigma)\)。则高斯混合分布为:

\[ p_{\mathcal{M}}(\boldsymbol{x})=\sum_{i=1}^k \alpha_i \cdot p\left(\boldsymbol{x} \mid \boldsymbol{\mu}_i, \boldsymbol{\Sigma}_i\right) \]

分布共由 \(k\) 个混合成分组成, 每个混合成分对应一个高斯分布. 其中 \(\mu_i\)\(\Sigma_i\) 是第 \(i\) 个高斯混合成分的参数, 而 \(\alpha_i>0\) 为相应的 “混合系数” (mixture coefficient), \(\sum_{i=1}^k \alpha_i=1\)。 假设样本的生成过程由高斯混合分布给出: 首先, 根据 \(\alpha_1, \alpha_2, \ldots, \alpha_k\) 定义 的先验分布选择高斯混合成分, 其中 \(\alpha_i\) 为选择第 \(i\) 个混合成分的概率; 然后, 根 据被选择的混合成分的概率密度函数进行采样, 从而生成相应的样本。

tokenization

Tokenization技术

本文章主要说说NLP领域中的Tokenization技术,这是很基础的但也是很容易被忽视的一个步骤。在我接的单子中经常会有此类问题,并且都是外国学校的,说明外国学校还是比较注重这一块的基础的。 首先明确一个概念:token可以理解为一个符号,就代表一个语言单位,tokenize的意思就是把一个句子或语料分成token.

CoVe

CoVe

Cove代表上下文向量,它是一种有监督的预训练模型,其主要思想就是训练了一个NMT系统,并使用它的编码器,

模型训练

主要假设是,为了翻译一个句子,NMT编码器学会理解句子。 因此来自编码器的向量包含有关单词上下文的信息。

EM算法

EM算法

引入

我们经常会从样本观察数据中,找出样本的模型参数。 最常用的方法就是极大化模型分布的对数似然函数。(最大似然估计:利用已知的样本结果,反推最有可能导致这样结果的一组参数)但是在一些情况下,我们得到的观察数据有未观察到的隐含数据,此时我们未知的有隐含数据和模型参数,因而无法直接用极大化对数似然函数得到模型分布的参数。用EM算法可以解决。

regex

正则表达式

  1. [abcd]匹配中括号里的所有字符

  2. [^abcd]匹配除了括号里的所有字符

  3. [A-Za-z]匹配所有字母

  4. [\s\S]是匹配所有空白符,包括换行,非空白符,包括换行

aidc测试

pandas实践1

在读取数据之前,我修改了表格里面的表头,以便程序的编写。

先从 excel 读取数据,然后看看 shape 了解行数列数,然后调用 info 方法, 看看有没有缺失值,发现并没有缺失值,但题目里说了可能有重复或者格式 不对的数据,因为最主要的是学号,一般学号的长度都是 12 个数字,所以筛 选出不是 12 位数的

Adam算法

moment(矩)

矩在数学中的定义,一阶矩(first moment)就是样本的均值(mean), 二阶矩就是方差(variance)。 ## 滑动平均 滑动平均(exponential moving average),或者叫做指数加权平均(exponentially weighted moving average),可以用来估计变量的局部均值,使得变量的更新与一段时间内的历史取值有关。在时间序列预测中也常用。

决策树

参考:https://cuijiahua.com/blog/2017/11/ml_2_decision_tree_1.html

《机器学习》周志华

决策树

决策树是什么?决策树(decision tree)是一种基本的分类与回归方法。举个通俗易懂的例子,如下图所示的流程图就是一个决策树,长方形代表判断模块(decision block),椭圆形成代表终止模块(terminating block),表示已经得出结论,可以终止运行。从判断模块引出的左右箭头称作为分支(branch),它可以达到另一个判断模块或者终止模块。我们还可以这样理解,分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点(node)和有向边(directed edge)组成。结点有两种类型:内部结点(internal node)和叶结点(leaf node)。内部结点表示一个特征或属性,叶结点表示一个类。蒙圈没??如下图所示的决策树,长方形和椭圆形都是结点。长方形的结点属于内部结点,椭圆形的结点属于叶结点,从结点引出的左右箭头就是有向边。而最上面的结点就是决策树的根结点(root node)。这样,结点说法就与模块说法对应上了,理解就好。