全球最强大模型易主,GPT-4被超越丨看天下
创始人
2024-03-05 11:30:36

原标题:全球最强大模型易主,GPT-4被超越丨看天下

全球最强AI模型一夜易主。

人工智能初创公司Anthropic4日发布Claude 3 新模型家族。该公司声称,Claude 3 “已经实现了接近人类的理解能力”——在推理、数学、编码、多语言理解和视觉方面,全面超越GPT-4在内的所有大模型。

据悉,这次的Claude 3包括三个模型,Claude 3 Haiku、Claude 3 Sonnet与Claude 3 Opus,能力依次从低到高。

以Claude 3 Opus为例,它在多项AI系统常用评估标准,包括本科级别专业知识(MMLU)、研究生级别专家推理(GPQA)、基础数学(GSM8K),均取得领先业界LLM的性能。

此外,拒绝回答人类问题方面,Claude 3的进步不止一点点,拒绝回答的可能性显著降低。三款模型都在10%左右,Claude 3 Opus更是达到8%左右。

同时,跟Claude 2.1相比,Opus在复杂的开放性问题上,准确度直接翻倍提升,错误答案大大减少。

比如问Claude 3 Opus:Kindle最初的代号指的是什么?

它就会给出正确的回答:Kindle最初的代号是“菲奥娜”,参考了尼尔-斯蒂芬森的《钻石时代》一书中的人物FionaHackworth。

而这个问题,Claude 2.1却答不出来。

在响应时间上,Claude 3大幅缩短,做到近乎实时。官方介绍,即将发布的Haiku能够在3秒内阅读并理解带有图表的长度约10k token的arXiv论文。而Sonnet能够在智能水平更高的基础上,速度比Claude 2和Claude 2.1快2倍,尤其擅长知识检索或自动化销售等需快速响应的任务。Opus的智能水平最高,但速度不减,与Claude 2和Claude 2.1近似。

除了“跑分”战胜了GPT-4,在具体模型能力方面,Claude 3 和 GPT-4 的差别到底在哪呢?

首先是多模态理解与处理能力,Claude 3能够处理和理解图像和视频帧输入,从而解决超出简单文本理解的复杂多模态推理挑战。

在长文本处理方面,Claude 3 模型支持至少1M个 token的上下文,而目前在生产中仅提供最多200ktoken的上下文。在长文档理解、跨文档分析、金融数据分析等方面提供了更详细和可操作的用例。这一点在处理大规模文本数据时,相对于GPT-4可能更有优势,尤其是在需要综合分析和提取大量信息的场景中。

此外,Claude 3的多语言能力也被Anthropic认为是一大亮点。Claude 3 Opus在多语言数学(MGSM)基准测试中达到了超过90%的0-shot成绩,并在8种语言中实现了超过90% 的准确率,包括法语、俄语、简体中文、西班牙语、孟加拉语、泰语、德语和日语。

Anthropic在Claude 3系列模型中首次放出了多模态能力,用户可以上传各类非结构化数据如照片、图表等供AI分析。这三个模型均支持200K token的长上下文窗口,并向特定客户开放超过100万token的上下文输入能力。

不过,Claude 3模型的定价也高于GPT-4。能力最强的Claude 3 Opus比GPT-4 Turbo贵得多:GPT-4 Turbo每百万token 输入价格为10美元,输出价格为30美元,Claude 3 Opus每百万token输入5美元,输出75美元。

其实,作为直接竞争对手,Anthropic与OpenAI颇有“恩怨”。

Anthropic的创始者,就是曾因安全理念不合而从OpenAI“叛逃”出来的员工(Daniela Amodei、Dario Amodei 和 Jared Kaplan)。

Claude发布前月余,业界一直有传闻认为,OpenAI将在Claude 3发布之际,迅速跟进发布最新的GPT-4.5(5),或是秘密研发的 Q* 模型。

不过就在2月29日,特斯拉CEO马斯克突然对OpenAI提起诉讼,指控OpenAI首席执行官奥特曼为了追求商业利益,违背了OpenAI“确保AI造福人类” 的非盈利性初衷。马斯克要求法院强制OpenAI回归开源,并阻止公司及其创始人以及微软等背后支持者从中获利。

所以,在网友们不停跑去奥特曼社交平台留言,喊他“快点开发GPT-5”时,奥特曼或许正焦头烂额应对马斯克呢。

文|记者 冷爽(参考虎嗅APP、环球网科技等)

图|网络

相关内容

东风“老家”开挂!老工业基...
12月8日,深冬时节,走进秦巴山腹地十堰市茅箭区,在恒进感应科技(...
2025-12-23 13:41:57
公务员遴选,成绩第一落选?...
12月23日,重庆市财政局发布情况通报: 关于网上反映的我局公开遴...
2025-12-23 13:32:28
浙江义乌外籍人员参加基本医...
  “我也是一个有‘医靠’的人了,以后更要在义乌安心创业了。”12...
2025-12-23 13:14:06
南京博物院事件,官方最新通...
据央视新闻,23日,记者从国家文物局获悉,国家文物局成立工作组,就...
2025-12-23 11:21:22
家长陪餐制落地江夏纸坊二小...
荆楚网(湖北日报网)讯(记者林杉 通讯员陈龙)12月22日,江夏区...
2025-12-23 11:02:24
日本社会各界批评高市早苗政...
  近来,日本高市早苗政府加快强军扩武。政府高官公然宣称“日本应该...
2025-12-23 10:57:43

热门资讯

东风“老家”开挂!老工业基地凭... 12月8日,深冬时节,走进秦巴山腹地十堰市茅箭区,在恒进感应科技(十堰)股份有限公司车间里,一台轮毂...
公务员遴选,成绩第一落选?重庆... 12月23日,重庆市财政局发布情况通报: 关于网上反映的我局公开遴选公务员有关情况,我局高度重视,现...
浙江义乌外籍人员参加基本医保人...   “我也是一个有‘医靠’的人了,以后更要在义乌安心创业了。”12月17日,来自俄罗斯的索菲亚以灵活...
南京博物院事件,官方最新通报 据央视新闻,23日,记者从国家文物局获悉,国家文物局成立工作组,就南京博物院文物管理中的有关情况开展...
家长陪餐制落地江夏纸坊二小 舌... 荆楚网(湖北日报网)讯(记者林杉 通讯员陈龙)12月22日,江夏区纸坊第二小学的食堂里,几位家长代表...
日本社会各界批评高市早苗政府强...   近来,日本高市早苗政府加快强军扩武。政府高官公然宣称“日本应该拥有核武器”,防卫开支预算提前两年...
一墨西哥海军飞机在美国得州坠海...   当地时间12月22日,当地官员称,一架载有一名一岁患儿及其他7人的墨西哥海军小型飞机当日在美国得...
通湾达海再提速——“轨道上的大...   记者毛鑫、樊曦  22日上午10时许,G9785次“复兴号”列车从广州白云站驶出,一路向南海之滨...
宣恩一条鱼烤出亿元产业 湖北日报全媒记者 金凌云通讯员 黎甜 刘洋“老板,来一份鲊广椒味儿烤活鱼!”12月20日傍晚,宣恩贡...
电梯维保责任不可悬空 □ 湖北日报评论员 谈牧电梯,是很多城市居民出入的重要工具,其安全状况直接关系千家万户的生命财产安全...
波睿达创始人张同存研究的CAR... 张同存在实验室中 受访者供图□楚天都市报极目新闻记者 胡长幸近日,著名《自然》科学杂志报道,CAR-...
山西大同发生4.2级地震,震源...   中国地震台网正式测定:12月22日20时31分在山西大同市灵丘县(北纬39.32度,东经114....
著名历史学家熊铁基教授逝世 湖北日报讯(记者文新)12月22日,著名历史学家、华中师范大学历史文化学院教授熊铁基在武汉逝世,享年...
全球瞭望丨南非学者:非中科技合...   新华社约翰内斯堡12月22日电(记者 杭泽波 靳博文)南非独立在线新闻网站21日刊登约翰内斯堡大...
经济大省挑大梁丨小卷尺“卷”动...   河南商丘虞城,中国 “钢卷尺之城”,2000 多家工量具企业,年产钢卷尺15亿把,如果按照每把5...
视频丨自主育种+智能生产双轮驱...   在寒冷的冬天里,吃顿热火锅是很多人的选择,而火锅里离不开一份菌菇的鲜香,这份藏在烟火气里的美味,...
十堰市房县司法局:筑牢政治建设... 荆楚网(湖北日报网)讯(通讯员 牛伟宇)近年来,十堰市房县司法局始终将政治建设摆在首位,以坚定的政治...
苹果公司滥用市场支配地位被意大...   当地时间12月22日,意大利反垄断机构意大利竞争与市场管理局发布公告称,因苹果公司滥用市场支配地...
中行绿色信贷精准滴灌 助力生物... 荆楚网(湖北日报网)讯(通讯员 文海莉 张美玲)近日,中国银行荆州开发区支行为湖北金珠生物农药有限公...
扩内需为何排在八项重点任务之首...   中央经济工作会议着眼于确保“十五五”开好局、起好步,确定了明年经济工作要抓好的八个方面重点任务,...