news 2026/6/18 20:17:43

2025_NIPS_Large Language Models are Fixated by Red Herrings: Exploring Creative Problem Solving a...

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
2025_NIPS_Large Language Models are Fixated by Red Herrings: Exploring Creative Problem Solving a...

文章核心总结与翻译

一、主要内容

  1. 研究背景:当前大型语言模型(LLMs)虽在多个领域展现出卓越能力,但现有NLP基准测试极少关注创造性问题解决能力——这一人类智能的核心特征。在认知神经科学中,人类的创造性问题解决会受“红鲱鱼”(误导性刺激)影响,产生固着效应(Fixation Effect)和思维定势(Einstellung Effect),而英国益智节目《Only Connect》的“连接墙”环节天然包含此类误导性设计,与经典的远距离联想测试(RAT)高度契合。
  2. 数据集构建:提出全新的Only Connect Wall(OCW)数据集,包含15季节目中的618个连接墙谜题,每个谜题含16个线索词,需分组为4组(每组4词)并识别组内关联;同时生成OCW-Randomized(随机交换组以稀释红鲱鱼)和OCW-WordNet(基于WordNet层级关系移除红鲱鱼)两个衍生数据集,用于验证红鲱鱼对模型的影响。
  3. 实验设计
    • 任务1(分组):采用静态/上下文词嵌入聚类(如GloVe、BERT、E5)和LLMs的少样本上下文学习(GPT-3.5-turbo、GPT-4),使用WD、FMS、ARI等6种指标评估。
    • 任务2(关联识别):通过LLMs的少样本上下文学习,采用精确匹配、ROUGE-1 F1、BERTScore F1三种指标评估。
  4. 核心发现
    • 所有模型(包括
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/9 12:01:57

网盘直链解析工具:告别限速,实现高速下载的完整指南

网盘直链解析工具:告别限速,实现高速下载的完整指南 【免费下载链接】netdisk-fast-download 聚合多种主流网盘的直链解析下载服务, 一键解析下载,已支持夸克网盘/uc网盘/蓝奏云/蓝奏优享/小飞机盘/123云盘等. 支持文件夹分享解析. 体验地址:…

作者头像 李华
网站建设 2026/6/9 12:01:26

LSM6DS3TR-C现货询价,专业FAE技术支持

在当今快速发展的电子产业中,选择合适的传感器对于提升产品性能至关重要。LSM6DS3TR-C作为一款高性能的六轴惯性测量单元(IMU),因其卓越的性能和广泛的应用领域而备受青睐。本文将深入探讨粤科源兴如何通过其作为STMicroelectroni…

作者头像 李华
网站建设 2026/6/9 12:01:00

推荐一款电脑强大工具:完全免费,支持Win、Mac、Linux,非常实用!

聊一聊 现代人的睡眠不知道怎么样。 反正,我的睡眼不怎么样。 免费领取8元现金券,各大平台全部通用 这天给大家分享一款帮助睡眠的软件。 我还没来得及测试,先分享给大家。 软件介绍 离线环境音 Opal 助眠放松,可以定时关机&…

作者头像 李华
网站建设 2026/6/9 12:00:08

AI工具调用模式:让大模型真正动手做事的工程化实践

1. 项目概述:当AI代理不再“纸上谈兵”,而是真正动手干活你有没有遇到过这样的场景:一个大模型聊天界面里,你问“帮我查一下今天上海到北京的航班, cheapest 的经济舱有哪些”,它热情洋溢地告诉你“好的&am…

作者头像 李华
网站建设 2026/6/9 11:57:05

5分钟快速上手:智能票务助手完整教程与实战指南

5分钟快速上手:智能票务助手完整教程与实战指南 【免费下载链接】Automatic_ticket_purchase 大麦网抢票脚本 项目地址: https://gitcode.com/GitHub_Trending/au/Automatic_ticket_purchase 还在为热门演出门票瞬间售罄而烦恼吗?当你手动刷新页面…

作者头像 李华