字符串转换整数 (atoi)

vllbc 发布于 2022-10-26 收录于算法题

字符串转换整数 (atoi)

https://leetcode-cn.com/problems/string-to-integer-atoi/

#重点是正则表达式

class Solution:
    def myAtoi(s: str):
        import re
        ss = re.findall("^[\+\-]?\d+",s.strip())
        res = int(*ss)
        if res > (231-1):
            res = (231-1)
        if res < -231:
            res = -231
        return res

WA了四次才整出来，太菜了，以为很简单，没有认真读题，要吸取教训。

高斯混合聚类

vllbc 发布于 2022-10-25 收录于 Machine Learning 聚类算法

基础就是高斯混合模型，假设我们熟知的高斯分布的概率密度函数为\(p(x\mid \mu, \Sigma)\)。则高斯混合分布为：

\[ p_{\mathcal{M}}(\boldsymbol{x})=\sum_{i=1}^k \alpha_i \cdot p\left(\boldsymbol{x} \mid \boldsymbol{\mu}_i, \boldsymbol{\Sigma}_i\right) \]

分布共由 \(k\) 个混合成分组成, 每个混合成分对应一个高斯分布. 其中 \(\mu_i\) 与 \(\Sigma_i\) 是第 \(i\) 个高斯混合成分的参数, 而 \(\alpha_i>0\) 为相应的 “混合系数” (mixture coefficient), \(\sum_{i=1}^k \alpha_i=1\)。假设样本的生成过程由高斯混合分布给出: 首先, 根据 \(\alpha_1, \alpha_2, \ldots, \alpha_k\) 定义的先验分布选择高斯混合成分, 其中 \(\alpha_i\) 为选择第 \(i\) 个混合成分的概率; 然后, 根据被选择的混合成分的概率密度函数进行采样, 从而生成相应的样本。

tokenization

vllbc 发布于 2022-10-17 收录于 NLP

Tokenization技术

本文章主要说说NLP领域中的Tokenization技术，这是很基础的但也是很容易被忽视的一个步骤。在我接的单子中经常会有此类问题，并且都是外国学校的，说明外国学校还是比较注重这一块的基础的。首先明确一个概念：token可以理解为一个符号，就代表一个语言单位，tokenize的意思就是把一个句子或语料分成token.

CoVe

vllbc 发布于 2022-10-09 收录于 NLP

CoVe

Cove代表上下文向量，它是一种有监督的预训练模型，其主要思想就是训练了一个NMT系统，并使用它的编码器，

模型训练

主要假设是，为了翻译一个句子，NMT编码器学会理解句子。因此来自编码器的向量包含有关单词上下文的信息。

文本匹配概述

vllbc 发布于 2022-10-07 收录于信息检索文本匹配

文本语义匹配是自然语言处理中一个重要的基础问题，NLP 领域的很多任务都可以抽象为文本匹配任务。例如，信息检索可以归结为查询项和文档的匹配，问答系统可以归结为问题和候选答案的匹配(基于文本的问答系统)，对话系统可以归结为对话和回复的匹配。语义匹配在搜索优化、推荐系统、快速检索排序、智能客服上都有广泛的应用。如何提升文本匹配的准确度，是自然语言处理领域的一个重要挑战。

EM算法

vllbc 发布于 2022-10-03 收录于 Machine Learning

EM算法

引入

我们经常会从样本观察数据中，找出样本的模型参数。最常用的方法就是极大化模型分布的对数似然函数。（最大似然估计：利用已知的样本结果，反推最有可能导致这样结果的一组参数）但是在一些情况下，我们得到的观察数据有未观察到的隐含数据，此时我们未知的有隐含数据和模型参数，因而无法直接用极大化对数似然函数得到模型分布的参数。用EM算法可以解决。

Quick-Thought

vllbc 发布于 2022-10-03 收录于 NLP

这是一种句向量的表示方式，即sentence2vec，实际上是对skip thought的改进，

分发饼干

vllbc 发布于 2022-10-03 收录于算法题

分发饼干

https://leetcode-cn.com/problems/assign-cookies/

class Solution:
    def findContentChildren(g, s) -> int:
        g = sorted(g)
        s = sorted(s)
        n = 0
        for i in range(len(s)):
            if g[n] <= s[i]:
                n += 1
            if n == len(g):
                return n
        return n

贪心算法的题目，考虑局部最优

regex

vllbc 发布于 2022-09-28 收录于 Others

正则表达式

[abcd]匹配中括号里的所有字符
[^abcd]匹配除了括号里的所有字符
[A-Za-z]匹配所有字母
[\s\S]是匹配所有空白符，包括换行，非空白符，包括换行

aidc测试

vllbc 发布于 2022-09-20 收录于 Pandas

pandas实践1

在读取数据之前，我修改了表格里面的表头，以便程序的编写。

先从 excel 读取数据,然后看看 shape 了解行数列数,然后调用 info 方法，看看有没有缺失值，发现并没有缺失值，但题目里说了可能有重复或者格式不对的数据，因为最主要的是学号,一般学号的长度都是 12 个数字，所以筛选出不是 12 位数的