/images/avatar.png

vllbc

Word Embedding

词嵌入

介绍

词嵌入自然语言处理(NLP)中语言模型表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数上的向量。

词嵌入的方法包括人工神经网络、对词语同现矩阵降维概率模型以及单词所在上下文的显式表示等。

在底层输入中,使用词嵌入来表示词组的方法极大提升了NLP中语法分析器文本情感分析等的效果。

以上是百度百科中对词嵌入的定义。本文只介绍传统的词向量,也就是固定的词向量。deep contextualized词向量模型在本博客预训练模型内容里面。词嵌入也可以称为词表征(word representation),可以粗略得把它分为三个阶段:

三数之和

三数之和

题目:

https://leetcode-cn.com/problems/3sum/solution/

思路:

​ 第一眼看就想到了用双指针,注意重复数值的处理问题,算是一个滑动窗口问题

代码:

class Solution:

    def threeSum(self, nums: List[int]) -> List[List[int]]:

        res = []

        if len(nums) < 3:

            return []

        nums.sort()

        for i, num in enumerate(nums):

            if num > 0:

                return res

            if i > 0 and nums[i] == nums[i-1]:

                continue

            left, right = i+1, len(nums) - 1

            while left < right:

                temp = nums[i] + nums[left] + nums[right]

                if temp == 0:

                    res.append([nums[i], nums[left], nums[right]])

                    while left < right and nums[right-1] == nums[right]:

                        right -= 1

                    while left < right and nums[left+1] == nums[left]:

                        left += 1

                    left += 1

                    right -= 1

                if temp > 0:

                    right -=1

                if temp < 0:

                    left += 1

        return res

删除排序数组中的重复项

删除排序数组中的重复项

删除排序数组中的重复项1

题目:

https://leetcode-cn.com/problems/remove-duplicates-from-sorted-array/

思路:

双指针,定义 nums[0...i] 为为非重复数列,遍历整个数列不断的维护这个定义

代码:

class Solution:
    def removeDuplicates(self, nums: List[int]) -> int:
        start = 0
        for i in range(len(nums)):
            if nums[i] != nums[start]:
                start += 1
                nums[i],nums[start] = nums[start],nums[i]
        return start + 1

删除排序数组中的重复项2

题目:

https://leetcode-cn.com/problems/remove-duplicates-from-sorted-array-ii/

思路:

​ 也是利用双指针,一个指针用于遍历数组元素,一个指针指向要拷贝赋值的索引位置