投资达茂

当前位置:达茂联合旗总工会 > 投资达茂 >

还需要首先在语音数据库上进行训练

时间:2018-11-01 15:59 作者:admin 点击:

  据消息人士透露,Facebook的语音努力最终体现在2015年到2017年的两个领域:一个是转录Facebook视频的音频,以制作实时字幕,另一个是发布Facebook人工智能部门FAIR(即Facebook人工智能研究)的尖端研究成果。
 
  Facebook在2013年12月启动FAIR项目,该部门常被比作DeepMind——2014年谷歌花费4亿美元并购的AI研究公司。这个部门由50名研究人员组成,在AI研究“大咖”Yann LeCun的带领下解决人工智能中的长期问题。公司内部还有一个类似部门称为AML(即应用机器学习),有大约100名工作人员,负责人工智能研究的商业化。
 
  根据Facebook一位资深人士透露,这些部门的所扮演的角色很复杂——聚集一堆研究者,但对产品开发毫无贡献,还引诱技术熟练的工程师脱离产品开发。“它创造了一个平行的研究世界,”消息人士说。
 
  最终,Facebook之所以没有更多投入于语音技术的开发,原因正如知情者所言:“没有客户,没有人对Facebook说‘我需要这种技术。’”
 
  这正是那些想在更广泛竞争中胜出的高科技公司所面临的挑战。不断创新意味着在一个尚未被证实的技术上投下决定性赌注,即使缺少明显的客户。Facebook之前没有在语音技术上及时发力,等他们出手时,早已时不我待北京时间11月1日早间消息,据美国《福布斯》杂志网站报道,Facebook本月早些时候发布的智能音箱产品Portal背后问题不少,除了数据与隐私争议,这款智能音箱还有个明显的缺陷——缺少Facebook自己的语音助理,而是搭载亚马逊的Alexa。
 
  这样就出现一个很尴尬的局面:花350美元购买Portal的Facebook用户实际上接入的是亚马逊系统,而亚马逊的同类产品Echo Show比Portal至少便宜100美元。而且Facebook无法收集任何语音数据,使其语音技术得到进一步训练。
 
  Facebook从2013年开始大力投资语音技术。然而,尽管起步较早,作为拥有30275名员工、2017年利润近160亿美元的世界最大高科技企业之一,该公司尚未在语音领域赢得一席之地,而该技术被广泛认为是下一代人机沟通的媒介。
 
  这凸显出Facebook在将新技术转化为产品方面存在巨大困难。过去五年,Facebook收购了多家语音公司,并聘请了很多语音技术专家,但两名知情人士表示,上述投资难以转化为有用的服务。原因很大程度上在于Facebook内部的意见分歧——在研发进度上产生混乱,以及开发者无法决定集中的领域。
 
  直到大约两年前,公司内部人员才一致同意开发Portal,但已经太迟。“Facebook想在Portal上使用自己的语音转文本技术,但还没有准备好,”一位不愿意透露姓名的资深工程师对媒体说。使用Alexa是一个“重大劣势”,“如果无法获取数据,就很难进步和学习,并做出改进。”
 
  Facebook的一位发言人在回应中指出,Portal用户可以通过说“嘿,Portal”来激活设备,以启动呼叫和访问设备控制,但该发言人承认,公司必须与亚马逊合作,“提供人们期望从家用设备中获得的各种工具”。Facebook没有回答关于语音技术开发的问题。在2016年,Facebook当时的Messenger主管大卫·马库斯(David Marcus)说,该公司对语音技术的开发“不够积极”。
 
  产品经理与工程师矛盾干扰开发
 
  事实上,Facebook一直致力于语音技术的开发,但产品经理和语音研发者之间的意见分歧干扰了努力方向。由于产品经理的开发进度要求快于技术本身发展的水平,这让工程师倍感压力。
 
  一位资深工程人士说,产品经理经常希望语音技术研究能在“半年内”转化为产品。问题在于,由于语音技术的复杂性,构建语音技术需要半年以上时间。语音数据在不断变化,麦克风的类型不同,还有不同的口音和麦克风之间不同的处理硬件。要构建识别语音的软件,还需要首先在语音数据库上进行训练,然后将其投入实际应用,然后进一步在真实语音上进行训练。
 
  比如苹果Siri的这一过程持续两年多。当苹果在2011年10月推出Siri时,它将语音识别软件外包给了Nuance,一个语音识别领域的老牌企业。但苹果不喜欢在战略产品方面依靠第三方,因此开始着手建立自己的软件。2013年,苹果在波士顿(距离Nuance几英里)设立了语音技术办公室,2015年,苹果公司悄悄放弃了Nuance这一合作伙伴。
 
  就语音识别技术总体而言,谷歌处于领先地位。爱尔兰语音技术初创公司Voysis创始人皮特·卡希尔(Peter Cahill)对硅谷语音领域的描述是:“Google在顶部,然后是亚马逊和苹果,然后是Facebook。”他补充说,“最后一家正在努力冒出来。”
 
  当时在Facebook高管团队中,有人希望使用语音技术研发Siri之类的数字助理,但这些项目需要长期付出大量时间和人力。由于研究者和产品经理之间缺乏合作,最终都不了了之。
 
  消息人士称,很多参与开发Facebook语音项目的产品经理对其中所涉及的技术缺乏清醒的认识。经理们也往往每三到六个月一换,核心人员被吸引到大名鼎鼎的内部研究部门——FAIR和AML。这就相当于不断栽树,却不给它生根成长的机会。说到底,Facebook的问题在于缺少“一个有凝聚力的团队”。
 
  比如,Facebook每六个月举行一次小组产品评审,通常会使研发方向发生变化,从基于语音的搜索,到新闻转录,再到Messenger语音助理——所有这些内部项目均未转化为产品。
 
  收购初创企业获得技术被浪费
 
  值得称道的是,Facebook在语音技术方面起步较早。2013年收购了移动科技(Mobile Technologies)——一家由卡内基梅隆大学(Carnegie Mellon University)推出的初创公司。他们开发了一款早期的翻译应用程序Jibbigo,可以听一种语言的语音,然后用另一种语言播放。当Facebook以未公开金额收购这家初创公司及其几十名研究人员时,引发了令人兴奋的猜测,即Facebook将开始与苹果Siri或者更多竞争对手合作。
 
  “语音技术已经成为人们导航移动设备和网络的方式,其重要性日益显现,”当时领导这项交易的Facebook的汤姆·斯托基(Tom Stocky)写道。“这项技术将帮助我们更新我们的产品以适应进化需要。”
 
  然而,即使Facebook将Jibbigo的团队规模扩充到原来的两倍,后者的语音识别技术最终也没派上用场。据参与交易的人士透露,Facebook主要想利用Jibbigo的技术来翻译用户帖子中的文本,这样就不必依赖微软的必应(Bing)。而Jibbigo研发的语音识别技术在一年后“下马”,此人补充说,这一收购基本上就是一场浪费。“它没有产生足够的点击……(人们)没有那么多说另一种语言的朋友。”
 
  。