梭哈跟德州扑克区别
当前位置:首页 > AI族 >

追一科技刘云峰:今年是NLP技术大年,要做全栈的AI公司

发布时间:2019-10-18 11:26:18 来源:科技讯 作者:佚名
[摘要] 我上个月在南京的差旅住宿,花了多少钱? 我上周五通过信用卡消费了多少钱? …… 上述问题,聊天机器人可以立刻给你答案。 让机器读懂我
“我上个月在南京的差旅住宿,花了多少钱?”

“我上周五通过信用卡消费了多少钱?”

……

上述问题,聊天机器人可以立刻给你答案。

让机器读懂我们的的语言,并且输出我们能明白的回答,这个过程就需要自然语?#28304;?#29702;(NLP)技术的支持。换句话说,NLP充当了机器和人类之间的翻译工作,它在诸多AI应用中发挥着关键作用。

与?#35753;?#30340;计算机视觉、语音识别等技术相比较,研究NLP的创业公司相对少很多,追一科技便是国内首批从事NLP技术和深度学习的企业智能服务AI公司,李开复曾公开表示,“追一科技是国内乃至全球最好NLP公司之一。”

就在最近,由追一科技主办的首届中文NL2SQL挑战赛在南京落幕,从全球1457支队伍中脱颖而出的五支队伍角逐最后的冠军,在此期间,?#31350;?#32593;采访了追一科技的联合创始人兼CTO刘云峰,探讨了当前NLP技术的发展和应用落地情况,以及追一科技在NLP技术浪潮中扮演的角色。

追一科技刘云峰:今年是NLP技术大年,要做全栈的AI公司

图 | 追一科技联合创始人兼CTO刘云峰

NLP是AI的关键一环,追一已经做到技术落地

通常情况下,我们会把AI分为“感知”和“认知”两个部分。其中,计算机视觉和语音识别属于感知部分,而自然语?#28304;?#29702;(NLP)则是认知部分的重要内容。从这个层面去解读,NLP的研究?#35759;?#27604;计算机视觉乃至语音技术都要更上一层楼。

但NLP的发展历程比计算机视觉乃至语音理解都要早,早在上世纪50年代,电子计算机的出现,就带来了许多自然语?#28304;?#29702;的任务需求,其中最典型的就是机器翻译。而我们最为熟悉的NLP应用则是网页搜索,从海量的文本中进行自然语言的信息检索和抽取。

伴随着大数据、深度学习技术的应用,NLP也进入了一个新的阶段,用刘云峰的话来说,“以前我们只需要机器理解人的语言,但现在的自然语言理解,是希望机器像人一样具备一定的常识和思维推理能力,这已经比以前期望值高很多。”

相应的,围绕NLP的创业,技术门槛自然很高,这也恰恰是追一科技的一大优势。

追一科技的主要创始团队中有三人来自腾讯,创始人兼CEO吴悦是原腾讯TEG事?#31561;?#25628;索部门负责人,主持构建了腾讯分布式文件系统、大数据集群、大网页搜索引擎推荐引擎等重要项目;CTO刘云峰在腾讯从事搜索技术、自然语?#28304;?#29702;、机器学习?#36739;?#30340;研究长达十年,在NLP领域有着丰富的技术和实战经验。

成立之初,追一科技从智能?#22836;?#20999;入,举个例子,通过追一科技的AI技术解决方案,可以直接和?#22836;?#26426;器人进行“正常语言”的交流对话,比如询问?#35828;?#24773;况、帮忙订张票、查找附近最近好吃的餐厅等等。

经过三年的发展,他们已经构建了智能语义和算法平台等AI技术栈,打造了以知识为驱动的数字员工产品族,包括智能?#22836;?#25968;字催收、数据?#22987;臁?#19978;岗培训、用户画像、反洗钱分析、警情分析等。

追一科技刘云峰:今年是NLP技术大年,要做全栈的AI公司

目前,追一科技的智能服务解决方案,从?#22836;?#26426;器人到人机协同等,也已经在招商银行信用卡、中国移动、万达、携程等企业中应用落地。

发起NL2SQL挑战赛,今年会是NLP技术大年

在和企业客户打交道过程中,追一科技发现很多企业客户的知识和数据都是以数据库的?#38382;?#23384;储,问题随之而来,能不能基于数据库去解决一些?#25442;?#30340;问题,NL2SQL(自然语言转结构化查询语句)就是答案。

NL2SQL是NLP的一个研究?#36739;潁?#21487;以将人类的自然语言自动转化为相应的SQL语句,进而与数据库直接?#25442;ァ?#24182;返回?#25442;?#30340;结果。比如我们问:大众10万到20万之间的车型有几种?NL2SQL可以让机器理解这样的自然语言,并从表格中检索出答案。

当前,研究NL2SQL的企业非常少,刘云峰表示在年初NL2SQL挑战赛之前,国内除了微软,就是追一科技在做。

所以,为了打开这个新兴垂直技术的天花板,他们发起了此次NL2SQL挑战赛。比赛同期追一科技还发布了?#30340;?#39318;个大规模的中文数据集,包括4870张表格数据、近50000条标注数据以及相应的SQL语句。

追一科技刘云峰:今年是NLP技术大年,要做全栈的AI公司

图 | 首届中文NL2SQL挑战赛决赛现场

从比赛初期的60%准确率,到复赛结束时最高92%的准确率,刘云峰也非常意外,“这个结果比同类数据?#35759;?#26356;低的WikiSQL成绩还要好,说明我们在基础技术的研发方面,已经追上甚至超过了国外同行的技术水平。”

不过他也表示,虽然此次发布的数据集已经覆盖了10多个行业,也具备了一定的泛化能力,但技术真正落地还有很多工程化的工作,比如行业是否有这样的数据积累,数据表格的复杂度以及文本的歧义等等,都需要针?#28304;?#30452;行业做进一步的调优。

谈及举办这次比赛的初衷,刘云峰表示,“从AI的发展规律来看,一个技术如果有专门的技术挑战赛,会加速它的产业化落地,比如视觉领域的ImageNet,这些公开测试集或者挑战赛出现的时间点,恰好都是这个技术从论文走上产业化的临界点。”

刘云峰也强调,从技术成熟度来看,?#30340;?#24050;经解决了很多NLP的基础问题,今年会是NLP的大年,但是落地到场景上会有一、两年的延后。“之后NLP会进入到技术成熟阶段的爆发期,能够解决一些更为复杂的任务。”

NLP之外,做全栈的AI公司

“?#25442;?rdquo;是追一科技产品的核心?#36739;潁?#38500;了早期的文本、语音?#25442;ィ?#37319;访中刘云峰透露,追一科技正在做“多模态?#25442;?#30340;数字人产品”,这是一个区别于虚拟主播等朗读型机器人的?#25442;?#22411;产品,囊括了语音技术、自然语?#28304;?#29702;、视觉三大领域的技术,并且拥有自我进化的能力,能够对数据知识归类分析总结,自我学习。

追一科技刘云峰:今年是NLP技术大年,要做全栈的AI公司

“这个虚拟形象的表情、肢体动作会和说话内容相匹配,可以做到实时的对话?#25442;ァ?rdquo;

刘云峰认为,“未来头部的AI公司一定是全栈的AI公司。”也就是说,每一个AI公司既要有自己最核心、最拿手的?#36739;潁云?#20182;技术也需要了若指掌。

所以,NLP之外,追一科技也在扩大语音和视觉团队,构建语义、语音、多模态等AI技术的?#26632;貳?/p>

目前他们已经做到语音技术的?#26632;罰?#32780;且相较于通用的语音识别,追一科技更关注语音?#25442;?#39046;域的歧义问题,提高上下文场景里的语音识别准确率。视觉方面,追一科技也更加关注?#25442;?#25152;需要的视觉理解,比如用户的手势识别指令。

上?#20035;?#25552;到的“数字人”产品就是追一科技在语音、视觉、NLP三大技术上的“集大成者”。

最后,谈及NLP的大规模商业化问题,刘云峰认为要解决?#39184;?#21270;和平台化的问题,企业服务的特点是定制化需求多,所以要做到“配置即定制”,将产品“PaaS”化,加强产品化能力以及与合作伙伴的黏性,更高效地解决企业需求。

结语:

哪里有语言,哪里就有NLP发挥作用的地方。正如刘云峰所言,NLP这两年在语言模型?#28982;?#30784;能力上已经有所突破,下一步要完善的就是技术落地到商业场景中的工程化问题。

从论文到工业应用,技术的传递链在加速,追一科技要做的就是解决好垂直领域的知识问题,在技术应用爆发到来前,做好准备。

【返回首页】

梭哈跟德州扑克区别 北京赛车pk10官网开奖 全国福利彩票中心地址 长沙湖南省福彩中心地址 胜负彩十四场投注技巧 150期香港六合彩 西甲赛程 常玩白山棋牌作弊器 14场胜负彩奖金计算 辉煌棋牌有没有输钱的啊 2018年斯诺克英锦赛