科技

人物
互联网
IT
网络安全
网络通信

更多

大数据
云计算
无人机
机器人
智能家居
无人驾驶
机器学习
物联网
智能穿戴
智慧城市

首页 > 行业 > 智慧城市

来源：2023-01-02 01:19:02 热度：

AI研究人员推出更严格的SuperGLUE语义理解基准测试

Facebook人工智能研究员和Google旗下的DeepMind、华盛顿大学、以及纽约大学合作，于今日正式推出了SuperGLUE。作为一个严格的语义理解基准测试项目，其能够针对现代高性能语义理解AI的性能，展开一系列的基准测试。当然，SuperGLUE投入使用的前提，是某会话AI的深度学习模型已经触及了天花板，并希望接受更大的挑战。

SuperGLUE使用谷歌的BERT作为性能基准模型，因为早在2018年的时候，它就已经在多方面被认为是最先进的、甚至打败了新一年的诸多竞争对手，比如微软的MT-DNN、谷歌自家的XLNet、以及Facebook的RoBERTa。

SuperGLUE的前身，是纽约大学、华盛顿大学和DeepMind研究人员于2018年4月推出的针对语义理解AI的‘通用语义理解评估’(GLUE)基准测试。

发展到现在的SuperGLUE，它能够评估比GLUE更复杂的任务表现，鼓励构建能够账务更复杂或细微差别的语义理解模型。

据悉，GLUE能够根据AI对自然语言理解(NLU)系统给出的九个英语短句的识别处理表现，而给出该模型的分值，比如在线影视评论数据集中提取情感细节的斯坦福情感树库(SST-2)。

目前RoBERTa在GLUE基准测试数据库中的得分为榜上第一，但9项GLUE任务中拿到了4项最高分。不过SuperGLUE包含了在一系列困难的NLP任务中测试创造性解决方案的新方法。

Facebook AI研究人员在一篇博客文章中称：这些任务侧重于机器学习在诸多核心领域的创新，包括高效采样、转运、多任务、以及自我监督学习。

为向其他研究人发出挑战，SuperGLUE选择了各种形式的任务、更加细致的问题、尚未被最先进方案所解决的内容、以及很容易被人类理解的题目。

简而言之，新基准测试包括了八项任务，用于测试AI语义理解模型是否遵循基本的因果关系、或者是否在做阅读理解时出现了偏差。

此外，SuperGLUE包含了性别偏见检测工具Winogender。

本文网址：

欢迎关注微信公众号：人工智能报；合作及投稿请联系：editor@cnaiplus.com

智能推荐

无相关信息

精选

AI中国号...

关注微信公众号，了解最新精彩内容

热门文章...

热门标签...

宇树科技创始人王兴兴提醒公众甄别不实信息

【环球网科技综合报道】3月2日消息，宇树科技创始人王兴兴近日以个人身份正式入驻微信视频号，并

2025-03-02
微软全球范围宕机数万人服务受影响

【环球网科技综合报道】3月2日消息，，据Downdetector数据显示，美国东部时间周六下午3点30分后，微

2025-03-02
埃隆·马斯克最新JRE 3小时访谈聊了啥·五万字完整版|谷歌|飞船|人工智能|外星文明|知名企业|埃隆_马斯克|spacex_订阅

2025-03-01
理想汽车2月交付量近2.7万辆，智能驾驶系统升级引市场热议！

[db:简介]

2025-03-01
岚图汽车2月销量破8千辆，同比增长152%，全年冲刺20万辆目标

[db:简介]

2025-03-01
特斯拉FSD入华引热议，车主：这位“老司机”有点不懂中国规矩

[db:简介]

2025-03-01
问界新M5 Ultra预订开启，23.8万起售

[db:简介]

2025-03-01
小鹏汽车2月交付量破3万，同比增长570%

[db:简介]

2025-03-01
DeepSeek 再次震惊全球：价格只有 OpenAI 1/25，利润率却超过 500%|gpu|计算量|大模型|openai|deepseek_订阅

2025-03-01
DeepSeek效应初现：Grok-3补刀ChatGPT，OpenAI已在ICU?|谷歌|微软|算法|预训练|知名企业|云计算费用|openai|deepseek_订阅

2025-03-01
刚刚，DeepSeek全面开源V3/R1推理系统！成本利润率高达545%|路由|冗余|通信|大模型|deepseek_订阅

2025-03-01
DeepSeek公布成本、收入和利润率！最高可日赚346万|冗余|计算量|大模型|deepseek_订阅

2025-03-01
2025西安丝绸之路国际旅游博览会

2025西安丝绸之路国际旅游博览会时间：2025年4月18-20日地点：西安国际会展中心

2025-03-01
2025江苏人形机器人展示洽谈会

2025江苏人形机器人展示洽谈会时间：3月25日-26日地点：南京国际博览中心

2025-03-01
GPT-4.5被DeepSeek 500倍吊打！基准测试全班垫底，OpenAI痛失护城河|gpt|安本正义|云计算费用|openai|埃隆_马斯克|deepseek_订阅

2025-03-01
5分钟顶人类8小时！OpenAI Deep Research订阅全推送，端到端强化微调是关键|智能体|isa|人工智能|deep|云计算费用|openai|research_订阅

2025-03-01
Nature独家爆料：全球机构撤稿率大排行，医学领域成重灾区|文章|学术论文_订阅

2025-03-01
Claude 3.7成精了！偷偷将OpenAI模型换成自己，卡帕西：好搞笑啊|算法|编辑器|openai|python|claude|高吞吐量内核_订阅

2025-03-01
2025机器人灵巧手创新大会暨灵巧手新技术新产品展示推广会

2025机器人灵巧手创新大会暨灵巧手新技术新产品展示推广会灵巧手作为机器人的核心部件是深

2025-03-01
IBM中国投资公司停运，1800员工一夜失业！昔日霸主黯然落幕|微软|大连|裁员|运营|ibm|知名企业_订阅

2025-03-01