10月12日,首届中文NL2SQL挑战赛总决赛在南京大学落幕。比赛自6月份启动以来,吸引了来自全世界1457支队伍参赛,参赛者有来自清华大学、北京大学等多所知名院校研究人员,也有包括中国移动、中国平安、搜狗等多家知名企业的技术人员。NL2SQL作为AI领域新兴的底层技术吸引到这样的参赛规模,超出了主办方追一科技的预期。
NL2SQL,即Natural Language to SQL,是一项将人类自然生活语言转化为可执行SQL语句(结构化查询语句)的技术。这项技术缩短了人类语言与机器语言之间的语义理解障碍,很大程度地简化了数据调取和分析流程,目前可见的商业应用场景集中在金融保险、投融资机构、电商等数据富矿领域中。
NL2SQL是NLP(自然语言处理)的一个重要分支。作为视觉与语音之外的第三条AI赛道,NLP的发展开始让包括NL2SQL在内的语言处理技术越来越受到重视。
在英文领域,目前已有Salesforce、斯坦福、耶鲁等多家机构建立了wikiSQL、wikiTableQuestions、Spider等多个大规模英文NL2SQL数据集。wikiSQL是目前全球规模最大的NL2SQL数据集,目前已经包含有超过26375张表格,87726条自然语言问句以及对应的SQL语句,执行结果准确率达到91.8%。
“AI与数据库交互上,我们又一次看到新的想象空间。”创新工场CEO李开复表示,以NL2SQL为代表的NLP技术值得投资界期待。
追一科技CTO刘云峰也认为,NLP技术将在2019年迎来第一个技术大年,并进入一个技术发展的爆发期。“我们在NL2SQL基础技术的研发上,已经追上甚至超过了国外同行的技术水平。”追一科技首席技术官刘云峰对公司正在着力开发的NL2SQL技术很有信心。
与2018年人工智能投资风口RPA(机器人流程自动化)有所差异的是,NLP技术在效率模式的基础上强调自然语言带来流畅的交互效果,并且期待落地场景中的机器可以实现自我学习与进化。目前除了追一科技在今年4月获得4100万美元C轮融资外,相似领域中的智齿科技、竹间智能也在近两年获得超过亿元人民币的融资。
不过这项技术实现彻底的商业落地仍然道阻且长。追一科技在昨天公布了首个中文NL2SQL数据集,这一数据集包括4870张表格、49752条标注数据,虽然这是在中文领域中的一次突破,但与全球规模领先的wikiSQL相比仍然有一定差距。
对于新推出的数据集,刘云峰也直言,现在的团队采用的技术方案,推理预测的耗时都非常高,到真正工业化落地时,生产系统不允许有这么高的耗时。
除了技术发展尚待成熟以外,目前投资人工智能的大环境也正在遇冷。据桔子IT等数据显示,2018年全年有近90%的人工智能公司处于亏损状态,2019年第二季度以来,国内人工智能投资数量和金额双下降。融资项目数仅有30起,同比下降45.5%,融资规模50亿元左右,不到去年同期的40%。
尽管以NL2SQL为代表的NLP技术进入成熟期的时间遇上了人工智能的投资低潮,但这项技术发展与完善仍然值得期待。中国人工智能产业发展联盟副理事长冯俊兰认为,NL2SQL是自然语言处理的一个非常重要的应用领域,涉及到多个核心问题,也是目前产、学、研三方面需要共同提升的关键技术领域。