自然语言的理解和连续表达-【新闻】

发布时间：2021-04-05 19:06:28 阅读：次来源：车模型厂家

微软研究院在IJCAI2016的Tutorial上讲述了自己将深度学习、深度神经网络应用于不同场景的情况，之前第二部分提到了深度学习在统计机器翻译和会话中的应用，第三部分是选中自然语言处理任务的连续表达。第四部分是自然语言的理解和连续语言词语的表达。

联合编辑：李尊，章敏，陈圳

自然语言理解，重点在于建立能与使用自然语言的人类进行交互的智能系统。其研究挑战：1）文本意义表达 2）支持有用推理任务。

连续词语表达，重点在于知识基础嵌入和基于知识基础的问题回答&机器理解。

连续词语表达包括：

l 多种创建词语矢量的流行办法

l 编码条件共存信息

l 测量语义相似井

语义嵌入将原始文本转换成连续语义空间

嵌入有效的原因在于：

l 词汇语义词相似度

l 文本简单的语义表达

对神经网络模型进行预先训练

词语嵌入模型样本、评估、相关工作

潜在语义分析包括：SVD概括原始数据、同义词典中不存在明确关系、术语矢量投射K维潜在空间、词语相似度等

RNN-LM词语嵌入

SENNA词语嵌入

CBOW/Skip-gram词语嵌入

DSSM：学习词语含义

GloVe：词语表达的全局矢量

语义相关度能够从词语同现次数个概念来观察

评估：语义词相似度

l 数据：人类判断词组

l 词语相似度排名与人类判断之间的关系

l 独立语义嵌入模型通常不能实现最好的结果

评估：关系相似度

判断两组词是否有同样的关系以及为什么它会有效？

意外发现：从递归神经网络语义模型提取的词语嵌入，关系相似度由余弦值得来。

实验结果

在其他数据集上的相似结果

词汇类比评估。

讨论。1.方向相似性无法处理语义关系；2.矢量计算=相似性计算3.通过计算找到最接近的x。

一些相关工作——模拟不同的词汇关系如：判断是同义词还是近义词。

相关工作——词汇嵌入模型如：其它的词汇嵌入模型；Word2Vec的分析和方向相似性；理论论证与统一；评估NLP的矢量空间表示。

神经语言的理解。

知识库：通过储存上百万实体的性能和它们之间的关系捕获世界的知识。

现在的KB在NLP&IR中的一些应用——回答问题，信息提取，网络搜索。

知识库推理-知识库永远不会完整，模拟多关系数据，知识库嵌入效率和精准度都更高。

知识库嵌入：KB中每一个实体都由一个Rd矢量表示，通过fr（Ve1，Ve2）预测（e1，r，e2）是否是正确的。最在KB嵌入方面的工作：张量分解，神经网络。

张量分解-知识库表示（1/2）：收集-主-谓-宾-（e1，r，e2）

张量分解-知识库表示（2/2）：0输入意味着不正确或者不知道

张量分解对象

测量关系的程度

键入张量分解：关系的主要知识有键入信息，约束和损耗中唯一合法的实体。利用键入信息的好处有三点：模型训练时间短，大KB可高度扩展，预测精度更高。

键入张量分解对象重建误差

加入张量分解对象重建误差

训练过程-交替最小二乘法

实验—KB完成

实体检索