第 3 节
作者:
辣椒王 更新:2021-02-26 22:16 字数:5388
不用,查一下我市场帐户的余额。
您的市场帐户的余额为14862。70美元。
从市场帐户转帐1000美元到我的主帐户上。
转帐成功,您还有什么需要效劳的吗?
谢谢,暂时没有。
环宇航空公司。
欢迎致电环宇航空公司自动服务中心,请说您的名字和个人标识代码。
Eric Williams(人名)。 2323。
您好,我可以为你效劳吗?
我想要复查一下。
告诉我您的航班号。
5516。
您对座位安排有什么特殊要求吗?
我喜欢在前面的靠窗或走廊的座位。
您现在看到的是符合您要求的剩余座位情况。
9A可以吗?
座位 9A 预定给了。
您今天需要登记行李吗?
是的。
请前往B6窗口。
这个演示到此为止,就是我们认为在未来的电话上很多的机会,那么我们看到的每一个演示呢,它除了用电话交流之外,我们也看到的有些用手机它有荧幕,能够用的时候,它就利用到了它。我们也看到了有一个网页,网页上有一些字出现,当它讲话的时候,这什么意思,这就是在服务端,这个系统其实我们是用Web Service(Web 服务)做的。那么我们只是让人用电话能跟Web Service(Web 服务) 讲话,这个Web Service(Web 服务)上面的Form(组成),其实是看不到的,但是为了让大家理解,我们把Web(网络)跟 Telephone(电话)做在一起了,我们才做了这样特别的一个演示。
我们刚才曾经提到的,我们可以用Tablet PC,Tablet PC上面呢,做语音识别是很好的一个平台。原因是Tablet PC虽然手写满方便的,而且开会的时候也只能用手写,但是如果我们在自己的房间里,在有隐私的情况之下,手写的速度还是挺慢的。语音的输入可以说远远地超过了手写的速度,所以我们可以用语音输入,如果犯了错,我们可以用笔来做修正。现在我们做一个听写的这个演示。
开始工作。
亲爱的盖茨先生:
重新开始一段非常感谢您光临北京。北京是奥运会举办城市。今天我们很高兴有8000名来自北京各大高校的学生来欢迎您到来。
…重新开始一段
——您的……(信件格式)
我们认为语音有非常多的地方可以有发挥的地方,在电话上是最主要的一个,但是在Tablet PC上; 在multi…model devices(多模式设备);在 Smart phone(智能电话)上都是很多的机会。
我们现在回到文本的输入,Text(文本)的输入,Search( 搜索)。我们今天当然知道Internet上,我们到Google(搜索引擎名);到MSN Search(搜索引擎名);到Yahoo(搜索引擎名) ,可以做简单的一些名词的搜索。但是未来我们搜索应该怎么做呢?未来很大的一个革命,是有结构化的内容, Unified Storge(统一存储),也就是说,XML不但很重要,我们将有承诺,在未来的Windows,下一个版本的Windows里面呢,用 XML,用有序的 Database(数据库)技术。数据库的技术来作为我们的 File system(文档系统),也就是说,我们每一个档案在我们的机器上,它都会是有序的,有结构的,也就是说,每一篇E—mail,我都知道是谁发来的,什么时候发来的,内容是什么,一些关键词是什么。也就是说,每一个Calendar(日程),每一个Appointment(约会) ,我和任何人开会,它都知道我在跟谁开会,在什么地方开会,几点开会,几点结束,然后内容是什么,要带什么东西,它都可以一个一个靠Database File(数据库文件)储存。当你一个整个 File System(文件系统) 的每一个档案,都有序的储存之后,我们就可以用自然语言,来做一个数据库的搜索。比如说我可以说我要找John(人名)寄给我的电子邮件,电子邮件的Subject(主题)是budget (预算),Find email form John about the budget(找John给我的有关预算的电子邮件) 他就应该可以直接把答案找给我。今天我们搜索E—mail非常困难,Help(帮助)得到帮助,我可以说My printer stuck( 我的打印机卡了),或者我想打彩色的打出来的是黑白的,这个时候它告诉我为什么,甚至如果是软件的问题,不是硬件的问题,它可以帮我修好。Task(任务),Ten thousand copies in Kinko’s Beijing(在北京的Kinko打印10000份),这个是一个很实际的例子,因为 Kinko(公司名)是我们的一个合作伙伴,Kinko(公司名)它有一个Web service(Web服务),Kinko(公司名)是美国打印的公司,它在北京也有一个分店,过去你都是要把你的文件带到店里面去,一份一份地影印,但是它现在做了一个 Web service(Web服务),你可以远程地去把一个文件寄给它。
Web service(Web服务)它有几个参数,我可以说我要把这份文件打一万份,我叫李开复,我的帐号是什么什么,或者我的信用卡号码是什么什么的,这都是一些有结构的东西,我可以靠Web service(Web服务)去传给 Kinko(公司名)。比如说盖茨先生来中国非常赶,然后他要印一万份东西,让每人有一份,那他在美国印了,捧这么重的东西过来的话;他的专机可能载不下。那他怎么办呢?他就可以说要打印一万份,而且在北京打印,在北京取货,下了飞机去取货,这样可以节省很多的时间,所以这就是所谓的一种 Task(任务)。当然 Task(任务)和Search 也很像,Search是要找一个东西要找一个结构的,Task(任务)是有一个结构的东西,但是我不是要找它,而是要把它抓起来当做参数去执行,所以这样的一个Web service(Web服务)应该很有用。
当然今天Kinko(公司名)还没有一个自然用户界面,所以你用表格的方法,Graphical user interface(图形用户界面)很繁杂的方法去做你的输入。将来我们可以用自然的用户的界面,写完一篇文章,我就告诉它在哪里打印,打印多少份,指令了之后,它就会做到。 Q & A(问与答)我可以问一个问题, What time will Bill Gates’ talk end?(盖茨的演讲何时结束),你可以告诉我3:55分,如果你有一个Calendar(日程),Calendar(日程)里有一个item(项目)叫Bill。Gates’ talk(比尔·盖茨的演讲),这个Calendar(日程)它是在3:55分结束,所以我问这个问题,它也可以有结构地去做一个 Database Request(数据库需求),就跟一个SQL Request(SQL语言需求)一样的,然后把答案显示给我看。Delegation and Federation(代理和联盟),这个是比较未来,可能是五年以后的一些scenario(景象),Send flowers to my wife on her birthday。太太过生日的时候送花,如果我能说每年送的话,以后就不会挨骂了。Pro…Active agent(主动代理)我可以告诉它,我有很重要的演讲,我不接任何电话,或者说除非是紧急的,除非是比尔·盖茨打来的,或者除非讲完了,这个时候如果你有一个很聪明的web service(web服务),它可以知道你这一秒钟在不在演讲,演讲紧不紧急,你接不接电话,什么电话是紧急的,谁是你的上司,它可以把这些信息都融合进去,能够主动地去帮你做一件事情。所谓的 Pro…Active(主动的),我吩咐它做一件事情,但是它不是马上做,而是一直延续地做下去,它帮我接所有的电话,一直到有一天我叫它不要接为止。Planning(计划)可能是说你要给它一个信息,而它要跟你做一个会话,对话之后它才决定最终你要做什么事情。比如说我要做 Planning(计划),第一步我想去欧洲度假,这时候它可能就问我要花多少钱,去什么国家等等的,怎么样做这样的一个Dialogue(对话),还是比较复杂的问题,比较未来的问题。但是我们很有信心,从上面用Speech(演讲)走,从下面由自然语言走,确实可以达到的。我们刚刚所说的Structural storage,这个XML ,甚至将下一代的XML由Windows来Native(本地化)直接支持用 SQL Database(SQL数据库)的功能。在Windows里支持每一个档案的XML这件事发生之后呢,所谓的很多例子都可以解决,让我们能够把左边的这些例子这些句子,这些自然语言转换成右边的SQL Query(SQL查询),这个其他的工作就很简单了。我们 SQL Database(SQL数据库) ,然后得出来的结果显示给你看,那就得了。所以我们认为非常的乐观的就是说将来当XML真的发展好了以后,世界上的数据更多更多的结构化的,这些结构化的数据呢,它其实是需要一个新的搜索的新的帮助的新的执行的一个用户的界面,让人们能够更流畅地和它来沟通。
现在我有一些显示,也是微软研究院,这个是微软美国研究院做的一个非常有趣的一个工作。它这套系统呢,可以回答任何的问题,世界上的事 它是无所不知,你可以问任何的问题,所以现在我问它一个问题,它现在做的工作是到网上去搜索,所有网上的无序的信息,然后它能把它有序地结构起来。它先用自然语言的方法把这句话,我的话就是问它说,有一个中国的篮球明星,他在美国休斯敦,打篮球,他叫什么名字?它就会把这句问题组合成各种不同的句子,然后到网上去问这个问题,它把网上得来的很多答案,每一个答案可以投一票,它最后投票最多的就是它的答案,所以它不是真的非常智能化的,但是姚明。
下一个问题,尼克松什么时候来过中国?这个问题其实满困难的,因为他来过很多趟。但是有历史性的那一次,也许应该是最合理的答案。我们看看这个系统怎么回答,这系统第一个做的呢就是分析句子的结构,用自然语言的方法把动词宾语等等提炼出来,然后来推测在网上如果有人答这句话,Visit China during什么什么,was in China during what what什么什么,去找这些句子,然后它把里面的答案在抽出答案来,看哪一些更符合When ,像是一个Data(数据)。它这个速度是比较慢的,因为它到网上去搜索各种的信息,1972正确。
当然为了避免大家认为我们这套系统是无所不知的,我也必须让它犯一个错。还好比尔已经走了,这个问题呢,希望他不会生气,我们看看他到底是跟谁结婚的,我们再等几秒钟答案就会见晓。因为这个系统其实没有真正的所谓人工智能,它是靠统计的方法得到答案的,所以它不能够真的知道一些人们非常理解的,很简单的一些 men Scence(常识),所以呢,你会看到它犯了一个错误。但是你可以看到这个例子还是比较有道理的答案,第一个答案是没有道理的,Microsoft(微软),就是因为Microsoft(微软)跟比尔盖茨Marry To(结婚)这两句短语常常在同样的时间出现,它就猜这个是答案,猜错了。他其实在夏威夷结婚的,所以那还是有道理的,第三个答案William。H。Gates ,它不知道比尔盖茨和William。H。Gates 是同一个人,所以就答了同一个答案。但是还好他的太太Melinda Gates第四个答案好歹还是出现了,我们回到Slide(幻灯片)。
所以最后我做一个总结,我认为在一个Digital Decade(数字十年)里面,非常需要自然的用户界面,因为有很多Smart Device,聪明的设备的出现,那只有语音才能够在任何设备。任何的屏幕,任何的键盘,有没有鼠标情况之下,都可以使用。而在Digital decade(数字十年)有 Structural storage,有结构的储存。所以我们既然有储存,储存的目的就是要搜索,就是要Retrieve(搜索),就是要Search(搜索)。那么自然语言是惟一的方法,可以去获取已存的有结构的信息。第三,Web Service(Web服务), Web Service(Web服务)是两个电脑彼此可以沟通,但是人们怎么去要求一个Web Service(Web服务) ,帮我买一束花,这个就要靠自然的用户界面。我也是深深地认为,自然用户界面,不是一个一天可以做到的一个革命性的东西,我们必须要一步一步来。先从最合理的,最自然的,人们最能接受的地方。比如说用语音用电话做,在PC上面呢,用 Search(搜索)和Help(帮助),是它第一个可以做的一个应用。但是我更深深地相信,在十年以后,当我们回顾我们会觉得自然用户界面真的是比图形用户界面更伟大的一次革命,谢谢大家!