全屏显示课程章节
友情提示:同学您好,此页面仅供预览,在此页面学习不会被统计哦! 请进入学习空间后选择课程学习。
视频



主流人工智能的自然语言处理技术为何处理不了具身性

首先需要指出的是,在抽象的哲学层面上意识到“具身性”之重要性的人工智能专家,并不乏其人。譬如,人工智能专家罗德尼·布鲁克斯(Rodney Brooks)就曾指出:“世界就是认知系统所能够具有的最好的模型”,并说什么“这里的诀窍就是要让系统以恰当之方式感知世界,而这一点常常就足够了”。

不过,布鲁克斯对于感知的强调,并没有引导他给出一条在自然语言处理的领域内处理具身性问题的可行性道路,因为布氏的具体工作模型——即所谓的“包容构架”——最多只能模仿昆虫等低级动物的行为模式,而无法覆盖以语言活动为代表的高级认知活动。

相比较而言,目前在自然语言处理的领域内最为接近“具身化”思路的技术进路,是由人工神经元网络技术提供的。非常粗略地说,神经元网络技术的实质,是利用统计学的方法,在某个层面模拟人脑神经元网络的工作方式,设置多层彼此勾联成网络的计算单位,逐层对输入材料进行信息加工,最终输出某种带有更高层面的语义属性的计算结果。至于这样的计算结果是否符合人类用户的需要,则取决于人类编程员如何用训练样本与反馈算法去调整既有网络各个计算单位之间的权重(请参看图—2)。

图—2 一个被高度简化的人工神经元网络结构模型

而与传统神经元网络相比,“深度学习”网络的计算单位层数有数量级式的提升,全网的反馈算法在计算复杂性上也有极大的提升——因此,其整体的技术性能也明显优于传统的神经元网络技术。

不过,尽管神经元网络技术的工作原理的确具有某种意义上的“类脑性”并因此而与“具身性”发生了某种至少间接意义上的关联,但若我们从金谷武洋的立场上去审视该技术的化,我们就会发现:它依然是一种体现了“上帝的视角”的技术进路,而无法为日语言说者所偏好的“虫子的视角”进行有效的信息编码。

下面以此类技术对于语言中的“文本衍推”(textual entailment)关系的处理方案为例,详细说明这一判断

文本推演

指的是这样一种通常人都有(并且也应当为一种理想的自然语言处理系统所具有的)能力:从像“两个医生在给病人做手术”这样的句子出发,合格的说话人能够从中推出“有医生在给病人做手术”,并知道原始句子所描述的情况是与下面这个句子相互矛盾的:“两个医生在吃汉堡包”。应当看到,对于传统的基于逻辑的符号人工智能进路来说,要具备这种“文本衍推”能力是颇为不易的,因为从形式逻辑的角度看,除非预先给系统输入“任何人在吃汉堡包时无法做手术”这一“框架公理”,系统是无法从“两个医生在给病人做手术”的真中推出“两个医生在吃汉堡包”的假的。

与之相比照,作为一种统计学技术的人工神经元网络技术却貌似能够更好的处理这一问题。其具体的处理思路是:设立一个巨大的数据集——比如所谓的SNLI系统——而这样的数据集将包含大量人类手写的句子对,其中每个句子对都有“衍推关系”或者“互相矛盾”等注脚。而神经元网络构造者的任务,便是让这样的数据集作为训练样本,让系统能够自动为这些零散的句对的两个组成部分之间的关系进行归类——比如将某句对中的两个句子之间的关系归类为“衍推”或“矛盾”,等等。由于构造者本人是事先知道训练样本中各句对的真实标注的,所以,当系统给出的标注与真实标注发生差异时,构造者就会让反馈算法自行启动,以便让系统逐层调整网中各人工神经元之间的信息传播路径的权重,由此使得系统能够逐步学会给出正确的权重分布。而在完成此番训练之后,那么,即使在系统遇到的新句对是处在原来的训练语料库范围之外的,系统也会有很大的几率能够将正确的关系标注词分配给该句对。

友情提示:同学您好,此页面仅供预览,在此页面学习不会被统计哦! 请进入学习空间后选择课程学习。
章节测验