荣登榜首!科大讯飞刷新机器常识推理水平世界纪录
4月12日,由科大讯飞(002230)承建的我国首个认知智能国家重点实验室,以76.06%的成绩登顶常识推理挑战赛CommonsenseQA 2.0,刷新世界纪录,在让机器“能理解、会思考”上迈出一大步!
CommonsenseQA 2.0是艾伦人工智能研究院(Allen Institute for AI)于2021年主导发布的国际常识推理评测数据集,旨在评估机器对常识知识的理解及掌握水平,吸引了包括Google、Allen Institute for AI、华盛顿大学等众多国际顶尖机构参与挑战。 科大讯飞首次参赛,即创新性地提出ACROSS模型,以全新深度学习算法绝对优势,刷新机器常识推理水平世界纪录。
从做“选择题”到做“判断题”
机器学会常识推理有多难?
常识推理(Commonsense Reasoning)是 NLP 最重要的前进方向之一,其目的是帮助计算机学习常识知识,并利用所掌握的知识进行深层次的理解及推理。该领域的进展及技术突破对人工智能发展具有重要的意义。
当前典型的阅读理解模型所关注的问题类型主要是事实类问题,这类型的问题答案往往能直接在原文中找到,然而如何基于常识和背景知识进行推理以获得答案仍旧是一个巨大的挑战。CommonsenseQA正是为了训练机器像人类一样基于先验知识结合现实情况作答能力而设置的数据集。 当人们回答问题时,往往会利用自身了解的知识结合特定的背景来判断问题答案,比如常识、背景知识、空间关系、科学事实、社会惯例等。
CommonsenseQA 1.0任务示例
如上图任务示例中的第一个问题,“我可以站在河上的什么地方看水流而不会弄湿自己?”可以从选择项中推断我是在桥上。这种知识对人类而言似乎很好理解,但是如何让机器学会常识及背景知识并进行准确推理,仍然是一个巨大的挑战。
CommonsenseQA 2.0是一个二元分类数据集,包含14343个问题,主要分为训练/开发/测试集,需要判断常识性陈述是对还是错。1.0版本所考察的问题,是基于现有常识知识库ConceptNet中的知识三元组构建的,这使得机器在处理该任务时,有能直接聚焦参考的知识。相比较1.0的“选择题”,2.0“判断题”挑战难度更高,仅给定一个主题实体或概念、一个常识类关系(且关系不一定在现有知识库出现),让人类以自然语言的方式去构造机器较难掌握的常识知识。
该构造方法所构造的常识推理问题具有庞大的想象空间,大部分在当前知识库中并未覆盖,无疑显著增加了机器处理该类问题的难度。同时,该评测任务数据构造过程中,还通过人与机器不断博弈对抗的方式,不断迭代设计,最终确定的问题集合基本是当前主流算法都完成得不好的问题。
CommonsenseQA 2.0任务问题示例
CommonsenseQA 2.0任务所覆盖的常识问题类型示例
目前以科大讯飞为代表的中国人工智能力量在常识推理领域中已有很大的进步,但是仍远低于人类94.1%的水平,可见在常识性推理方向仍有很大挑战和进步空间。
科大讯飞提出ACROSS创新方法破解难题
在CommonsenseQA 2.0这项颇具挑战的常识推理评测任务上,业界主流的中等大小预训练模型方法也只能取得55%的水平,略高于随机猜测平均水平。此前国际上该任务的最优方法,通过1750亿级参数量大小的GPT3模型生成针对CommonsenseQA 2.0常识推理问题的相关知识,并基于T5模型进行融合处理,该方法取得了73%的准确率。
本次由科大讯飞承建的认知智能国家重点实验室团队创新提出的面向常识知识推理的ACROSS(Automatic Commonsense Reasoning on Semantic Spaces)模型, 是继2016年科大讯飞提出神经联想模型NAM(Neural Association Model),并取得Winograd Schema Challenge冠军后的又一力作。
该模型实现了统一语义空间下外部知识的有效融合,显著改进了超大规模预训练模型所存在的问题, 在CommonsenseQA 2.0任务上取得76%的准确率。
该评测的常识推理问题,不论在ConceptNet等知识库,或者互联网上,都较难找到直接的答案。从人类进行常识知识运用及推理的习惯出发,对于一个复杂的问题,首先需要查阅相关知识库或典籍,其次会借助互联网搜索去查找相关信息。ACROSS模型正是借鉴该思路,充分收集知识库、互联网相关信息,在统一的语义空间中进行融合处理,最后赋予超大规模预训练模型更强的知识输入,实现准确的常识知识推理。 该方法结果也一定程度上证明了机器已初步具备对于各类复杂文本信息及知识的深入理解及运用能力。
我国在常识推理领域的技术攻坚还在继续。人工智能技术的下一步发展,必须要突破常识推理这一瓶颈,才能在教育、医疗、养老等国计民生场景中,让人工智能产品更具备实用价值。“让机器能听会说、能理解会思考”是清晰可预见的未来,科大讯飞求索未止。
责任编辑:孙知兵
免责声明:本文仅代表作者个人观点,与太平洋财富网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
如有问题,请联系我们!
- 荣登榜首!科大讯飞刷新机器常识推理水平世2022-04-14
- 亿联网络跌4.7% 中信证券长江证券在其高点2022-04-14
- 以岭药业龙虎榜:机构净卖出1.39亿元2022-04-14
- 中国铁物龙虎榜:机构净卖出1.31亿元2022-04-14
- 保利置业集团附属发行公司债券35亿2022-04-14
- 名门地产申请破产重整2022-04-14
- 华侨城A:3月合同销售金额28.9亿2022-04-14
- 芜湖自今日起取消二手房限售2022-04-14
- 亚洲水泥(中国)(00743.HK)料一季度股东应占2022-04-14
- 京能置业近三个交易日累计涨幅达26.65%2022-04-14
- 安踏体育(02020.HK)第一季度安踏品牌产品零2022-04-14
- 《敢达争锋对决》近战天花板出场,天蚀敢达2022-04-14
- 建信信托:服务新发展格局,支持实体经济发2022-04-14
- 泰达宏利基金:多重因素影响A股走势,市场2022-04-14
- 申万宏源:3月国内面临输入性通胀压力2022-04-14
- 抗疫,韵达福建省公司在行动2022-04-14
- 冷轧卷板板块股票有哪些?相关的有八一钢铁2022-04-14
- 大梁茗酒主题曲《度你》首发 演绎人间邛派2022-04-14
- 雾芯科技(RLX.US)盘前涨3.32%报2.18美元 2022-04-14
- 香港中华煤气(0003.HK)“沽售”评级 预测22022-04-14
- 全球汽车制造巨头Stellantis(STLA.US)盘前2022-04-14
- 融捷股份一季度净利同比预增12385%-15159%2022-04-14
- 恒生指数周四涨0.67% 餐饮股领涨2022-04-14
- 中国航空科幻IP《南天门计划》“NFT”数字2022-04-14
- 达美航空(DAL.US)盘前涨1.02%报41.44美元 2022-04-14
- 亿航智能(EH.US)盘前涨2.15%报11.89美元 2022-04-14
- 三湘印象收深交所问询函 要求说明商誉减值2022-04-14
- 航宇科技拟12亿元投建航空发动机燃气轮机用2022-04-14
- 因收购同行迎来“债务危机”的曲美,走过至2022-04-14
- 3.3万股东遭埋!翻倍大牛股上演“天地天”2022-04-14
精彩推荐
- 保利置业集团附属发行公司债券35亿
- 名门地产申请破产重整
- 华侨城A:3月合同销售金额28.9亿
- 芜湖自今日起取消二手房限售
- 亚洲水泥(中国)(00743.HK)料一季度股东...
- 京能置业近三个交易日累计涨幅达26.65%
- 安踏体育(02020.HK)第一季度安踏品牌产...
- 申万宏源:3月国内面临输入性通胀压力
- 冷轧卷板板块股票有哪些?相关的有八一...
- 雾芯科技(RLX.US)盘前涨3.32%报2.18美元...
- 香港中华煤气(0003.HK)“沽售”评级 预...
- 全球汽车制造巨头Stellantis(STLA.US)盘...
- 达美航空(DAL.US)盘前涨1.02%报41.44美...
- 亿航智能(EH.US)盘前涨2.15%报11.89美元...
- 京投发展:一季度签约销售金额为9.86亿,...