/images/avatar.png

vllbc

高斯混合聚类

基础就是高斯混合模型,假设我们熟知的高斯分布的概率密度函数为\(p(x\mid \mu, \Sigma)\)。则高斯混合分布为:

\[ p_{\mathcal{M}}(\boldsymbol{x})=\sum_{i=1}^k \alpha_i \cdot p\left(\boldsymbol{x} \mid \boldsymbol{\mu}_i, \boldsymbol{\Sigma}_i\right) \]

分布共由 \(k\) 个混合成分组成, 每个混合成分对应一个高斯分布. 其中 \(\mu_i\)\(\Sigma_i\) 是第 \(i\) 个高斯混合成分的参数, 而 \(\alpha_i>0\) 为相应的 “混合系数” (mixture coefficient), \(\sum_{i=1}^k \alpha_i=1\)。 假设样本的生成过程由高斯混合分布给出: 首先, 根据 \(\alpha_1, \alpha_2, \ldots, \alpha_k\) 定义 的先验分布选择高斯混合成分, 其中 \(\alpha_i\) 为选择第 \(i\) 个混合成分的概率; 然后, 根 据被选择的混合成分的概率密度函数进行采样, 从而生成相应的样本。

tokenization

Tokenization技术

本文章主要说说NLP领域中的Tokenization技术,这是很基础的但也是很容易被忽视的一个步骤。在我接的单子中经常会有此类问题,并且都是外国学校的,说明外国学校还是比较注重这一块的基础的。 首先明确一个概念:token可以理解为一个符号,就代表一个语言单位,tokenize的意思就是把一个句子或语料分成token.

CoVe

CoVe

Cove代表上下文向量,它是一种有监督的预训练模型,其主要思想就是训练了一个NMT系统,并使用它的编码器,

模型训练

主要假设是,为了翻译一个句子,NMT编码器学会理解句子。 因此来自编码器的向量包含有关单词上下文的信息。

文本匹配概述

文本语义匹配是自然语言处理中一个重要的基础问题,NLP 领域的很多任务都可以抽象为文本匹配任务。例如,信息检索可以归结为查询项和文档的匹配,问答系统可以归结为问题和候选答案的匹配(基于文本的问答系统),对话系统可以归结为对话和回复的匹配。语义匹配在搜索优化、推荐系统、快速检索排序、智能客服上都有广泛的应用。如何提升文本匹配的准确度,是自然语言处理领域的一个重要挑战。

EM算法

EM算法

引入

我们经常会从样本观察数据中,找出样本的模型参数。 最常用的方法就是极大化模型分布的对数似然函数。(最大似然估计:利用已知的样本结果,反推最有可能导致这样结果的一组参数)但是在一些情况下,我们得到的观察数据有未观察到的隐含数据,此时我们未知的有隐含数据和模型参数,因而无法直接用极大化对数似然函数得到模型分布的参数。用EM算法可以解决。

regex

正则表达式

  1. [abcd]匹配中括号里的所有字符

  2. [^abcd]匹配除了括号里的所有字符

  3. [A-Za-z]匹配所有字母

  4. [\s\S]是匹配所有空白符,包括换行,非空白符,包括换行

aidc测试

pandas实践1

在读取数据之前,我修改了表格里面的表头,以便程序的编写。

先从 excel 读取数据,然后看看 shape 了解行数列数,然后调用 info 方法, 看看有没有缺失值,发现并没有缺失值,但题目里说了可能有重复或者格式 不对的数据,因为最主要的是学号,一般学号的长度都是 12 个数字,所以筛 选出不是 12 位数的