新媒易动态
NEWS CENTER
NEWS CENTER
2021-03-29
对话的定义中,有几个关键的组成部分。
1.1.1 对话双方
即一个对话中的信息传递与交互者,这里一般指的是双方的对话,若是超过2人,则视为“群聊”。可以想想微信中的定义:单聊和群聊。
在上述的例子中,对话双方就是你和你妈妈。你们俩通过语言进行信息的交互,如果你爸也参与进来,那就是三方的对话。相较于双方的对话,三方(或更多)的对话,在信息交互上更为复杂些,这不在我们的讨论范围内。
1.1.2 话题
一个对话的进行,必定有其对应的话题,话题与对话双方的核心需求相关联。
没有话题的对话,几乎不存在。当然,你可能会说,那我就漫无目的的闲聊呗,没有固定话题呀。是的,这里我们把“闲聊”也看做一个话题。
“闲聊”虽然看起来漫无目的,但是其本质也是为了满足对话双方的需求与目的。如果没有这个需求,那双方可能连说话/打字都懒得动,故这里把“闲聊”也定义为某个话题。
在上述的例子中,你和你妈妈这个对话的话题就是“吃早餐”,为什么有这个话题?
因为你妈妈关心你早餐吃什么,你不论出于真的想吃早餐也好,想让你妈妈放心也好,都是基于“吃早餐”这个话题,跟你妈妈聊几句。当然你除了聊“吃早餐”,你可能也会在对话中,突然想起你昨天到的快递,进而问你妈妈“快递是不是拿了”。
此时,对话就变成了多个话题:“吃早餐”、“是否拿快递”。
一个对话中,可能只有1个话题,也可能有多个话题。详情你可以回想下生活中的各种对话。当多个话题交织在一起时,对话的结构也会变复杂。但是,几乎没有对话是没话题,对话双方在那儿对话的(想想是不是挺诡异),这种“牛头不对马嘴”的对话,同样也不在我们的讨论范围内。
1.1.3 语言
语言是信息的载体。在对话中,基于话题,对话双方是需要语言来交流的,语言可以通过语音(也就是说话)、文字(也就是打字)来表达。
而我们为什么需要语言呢?因为语言主要是来传递人要表达的信息的,再看上述的例子:你妈妈说:“早餐想吃啥?我给你煮”.
为啥你妈妈要这么说?因为你妈妈要知道你“早餐想吃啥”这个信息,因为获取这个信息,她才能进行接下去的动作:你想喝粥,她就煮粥;你想吃包子,她就热包子;你想吃龙虾,她可能就把你抓过来打你头并说:“一大早你脑子是睡傻了吧你”。
同样的,你说“我喝点粥就好了”,也是通过语言来传递“你想喝粥”的信息给你妈妈,让她接收到这个信息,你们俩都在使用语言传递各自想要表达的信息。
当然,语音、文字这两种方式,能承载的信息是有差别的。语音能承载的信息更多,因为有语调、语速等更多维度的信息。这个也是目前AI对话领域的ASR信息衰减的一个原因,此处在不赘述。
1.1.4 信息交互
对话的本质在于对话双方间的信息交互。信息交互是让对话进行的必要条件。
比如上述的例子中,你妈妈问你:“早餐想吃啥?我给你煮”。而你没回应她,继续玩弄自己的手机。那你妈妈会怎么样呢?你妈妈大概率会再问你一次“早餐想吃啥?”(生气值上升20%)。
为什么?因为在对话中,信息是需要交互的。你没有回应你妈妈问你的话,这是信息的单向传递,你妈妈并没有获取到她想要的信息,所以她再问了你一次。假如你再不回答,那对于这个话题,对话就进行不下去了。你妈妈可能开始质问你,对话的话题就转变为另一个:“为什么你妈妈问你话你不答”。
所以,信息交互对于对话而言,是至关重要的组成部分,也是让对话进行的基石。
看着似乎挺抽象是吧?没事,我们后面会具体讲。简单地说,现在的AI技术决定了对话机器人可以解决的问题是:某个特定行业领域下,基于某类特定问题,提供简单固定的解答/服务。
上述的“吃早餐”对话场景,如果是一个“早餐机器人”,它会怎么做呢?
假设它的工作流程是:询问早餐需求->做早餐,那么,“询问早餐需求”跟你的对话应该是这样的: