本节核心论点:人和机器成功交互的根本限制在于缺乏共同立场。共同立场的缺乏使得许多会话型的交互难以进行。
艾伦和芭芭拉初步有了许多他们认为彼此共有的知识、信仰和假设,我称之为他们的共同立场(common ground)。他们假设为共同立场的事物体现在他们共同参与的对话中,包括当前的这个对话。艾伦和芭芭拉在一起越久,他们的共同立场就越多……没有共同立场作为基础,他们就无法协调各自的活动。
——赫伯特·克拉克《使用语言》
交流和沟通需要语言学家称之为“共同立场”的东西:作为交互平台的被彼此所共享的相互理解的基础。在上面引自心理语言学家赫伯特·克拉克的文章中,一对虚构的夫妻——艾伦和芭芭拉,将他们的共同立场应用到他们所有共同的活动中,无论是否是语言上的。当来自共同文化和社会团体的人们进行交互时,他们共有的信仰和经验能够确保快速和高效的交互。你们曾经偷听过其他人交谈吗?在步行穿过商场和公园时我常常这么干,当然是出于科学的目的。我常常惊讶于谈话内容的缺失,甚至是在两个人热火朝天的讨论时。一个典型的对话可能像这样:
艾伦:“你知道吗?”
芭芭拉:“是的。”
对于艾伦和芭芭拉来说这样的沟通非常的深入和有意义,而你我将永远不会理解,因为其中涉及我们需要了解的一切关键信息都没有出现,也就是说,我们难以获得他们的共同立场。共同立场的缺失是我们难以同机器交流的主要原因。人和机器所拥有的共同立场非常少。人和人之间呢?机器和机器之间呢?不一样的是人和人,机器和机器彼此之间配合得相当好。人能够和其他人共享共同立场,机器和其他机器也可以。但是对于人和机器来说如何呢?答案是不行的。
当听说机器和机器彼此之间能够共享共同立场时,你也许会很诧异。但这是因为他们的设计师,通常是工程师,花费了大量时间来确保有效通信所需的背景信息能够真正的被共享。当两台机器开始交互时,他们首先要经过一个“仪式”,确保双方都同意共享信息和状态,甚至还有交互的语法。
在通信工程师的行话里,他们管这叫“握手”。非常重要的是,在工程界已经有了一个国际委员会的巨大框架来开发世界范围的标准,以确保通信设备能够共享相同的设定和背景知识。标准很难制定出来,因为他们需要在相互竞争的公司之间进行复杂的谈判,要涉及许多技术、法律、政治问题。
最后的结果很有价值:他们创建了共同的语言、协议和背景知识,这些都是建立共同立场、也就是建立有效的沟通所必需的。想要一个两台机器如何建立共同立场的例子吗?尽管这样的握手通常是默默进行的,并且对于我们人类来说是不可见的,但是几乎每一个会和其他设备通信的设备中都会涉及它,不论是你的电视机和机顶盒通信,还是机顶盒和传输设备通信,或者你的电脑连接到网站上,再或你的手机在你第一次开启它时搜索网络信号。最容易理解的例子来自于传真机发出的各种特殊的声音。当你拨打电话号码后(注意拨号音和回铃声也是握手的形式),你会听到一系列的颤音,此时你的传真机正在同接收端的机器商谈所使用的编码标准、传输速率,以及页面分辨率。接下来,当传真继续时,一台机器传输信号,另一台机器则不断地确认它已经正确接收。相对于两个人之间第一次见面、试图找到他们共同认识的人和可能共有的技能、兴趣而言,机器间的握手是个更加受限制的和机械的版本。
人能够和其他人共享共同立场,机器能够和其他机器协商建立共同立场。但是机器和人存在于两个不同的世界中,一个是由逻辑上相互排斥的规则管理着交互,另一个则由复杂的、上下文依赖的行为构成,同样明确的条件可能会引发不同的行为,因为“环境是不同的”。此外,在目标、行为和感知方面的根本差异导致机器和人无法在一些根本的事情上达成一致,例如世界上正在发生什么?我们能采取什么行动?我们试图达成什么目标?共同立场的缺失是一个巨大的鸿沟,将机器和人远远的分隔开。
人们从过去的经历中学习,并根据所学到的调整他们的行为,这也意味着人们之间的共同立场在随着时间而增长。此外,人们对哪些活动被共享了非常敏感。所以即使是在相似的环境中,艾伦和芭芭拉之间的交互也许会同他与查尔斯的交互截然不同,因为艾伦明白他和芭芭拉之间的共同立场同他和查尔斯之间的共同立场不一样。艾伦、查尔斯和芭芭拉具备交换新的信息的能力,他们能够从经验中学习并相应地调整自己的行为。
相反地,机器几乎不能学习。是的,当它们经历成功或失败时,它们能够调整自己的行为,但是它们的归纳能力非常弱,除了少数的实验室系统之外,几乎相当于不存在。当然,机器的性能正在不断改进,全世界的研究机构都在致力于攻克这些问题。但是,人与人共有的事物和机器与人共有的事物之间仍然存在巨大的鸿沟,这很难在可预见的将来被跨越。
考虑一下在本章开始时提到的三个关于未来机器能力的场景。它们可能实现吗?机器如何知道一个人的想法?它们如何知道在它们的传感器范围之外发生的活动?机器如何能获得关于人的足够的信息,以提出他们自主的建议?答案是:他们不能。
我的冰箱不让我吃鸡蛋?也许我不是现在要吃,也许我是给其他人做鸡蛋。是的,冰箱能够侦测到我要拿走这些鸡蛋,能够通过医学信息网络(那里包含了我的家庭和来自医生办公室的我的部分病例)知道我的体重和胆固醇水平,但是这些仍旧不能够让它了解我的想法和确定我的意图。
我的汽车能够检查我的日程并为我选择一个有趣的驾驶路线?是的,也许除了自然语言交互之外,这个场景中的所有事情都是可能的。但是能讲话的系统正日益完善,所以我将不会把它排除在外。那么我会同意这个选择吗?如果汽车像所描述的那样做的话,这没什么关系:它给出了一个有趣的建议,我也许之前没有想到过,但是现在我能够选择了。那是一个令人愉快的、友好的交互,我当然赞成。
我的房子真的会妒忌附近其他的房屋吗?这是不大可能的,虽然同附近房屋的设备和运转状况进行比较是确保房屋不会落伍的极为明智的方式。从商业角度,这叫做“基准”和跟随“最优方法”。所以,再一次地,这个场景是可能的,尽管未必能使用同样的扬扬得意的语言。
机器在学习和预测新的交互结果方面能力非常有限。它们的设计师将受预算和技术限制的传感器集成起来,除此之外,设计师还必须想像机器所面对的世界会是什么样的。从传感器提供的有限的数据中设计师必须推断实际发生的是什么,以及机器应该执行的行为。只要任务是在一定限制之下,并且没有意料之外的事情发生,许多类似的系统都能够运转得很好。一旦情况发生在预设的参数之外,它们那些简单的传感器、智能决策系统和问题解决程序便不足以应对。浩瀚无边的鸿沟阻隔着人和机器。
人和机器成功交互的根本限制在于缺乏共同立场。但是有一些极为明智的系统可避开这个问题,它们提供建议而不是提出要求,允许人们理解之后进行选择而不是使他们面临莫名其妙的行动。共同立场的缺乏使得许多会话型的交互难以进行,但是如果其中的假设和共性能够非常明确,或许通过隐性行为和自然交互而被人和机器所解读,那么我同样也赞同,而这正是第3章的主题。