查看原文
其他

比 GPT-4 强!Claude 3 Opus 模型发布

思辨view kate人不错 2024-05-19
https://www.anthropic.com/news/claude-3-family

2024年3月4日发布的Claude 3系列模型标志着人工智能领域的一个重大进步。该系列包括Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus三个模型。

主要特点:

  • 性能卓越:Claude 3 Opus 在AI系统的多个评估基准上展现了出色的性能,显示了接近人类的理解和流畅性水平,数据上看比 GPT-4 强。

  • 视觉能力强:Claude 3 Opus 模型的视觉能力也不错,数据上看比 GPT-4V 强。

  • 召回率高:以前 Claude2 被吐槽的召回率,这次也有了改善,超过 99% 的准确率。

  • 速度更快:Anthropic 特别提及了 Claude 3 系列模型的实时反应速度很快,Haiku 是同类智能模型中速度最快、性价比最高的。

claude.ai 新的首页

性能卓越

主流大模型对比

尤其值得注意的是,Opus模型在多项AI系统评估基准测试中表现卓越,其性能展现出了与人类相媲美的理解能力和流畅度。

Claude 3 Opus相对于GPT-4在各项任务的领先幅度,从大到小排序

可以看出,Claude 3 Opus相对于GPT-4在编程和数学方面强很多。

Claude 3 Haiku相对于GPT-3.5的领先幅度,从大到小排序

Claude 3 系列模型区别

OpenAI 模型价格

显而易见,Claude 3 Opus 的定价高于 gpt-4-0125-preview,这归因于其更优越的性能和对更广泛上下文的支持能力。

从成本效益的角度来看,Claude 3 Haiku的售价低于gpt-3.5-turbo-0125,同时提供了更加强大的性能和更长的上下文支持,表现出显著的竞争优势。

视觉能力强

Claude 3 Opus 模型的视觉能力也不错,数据上看比 GPT-4V 强。

召回率高

以前 Claude2 被吐槽的召回率,这次也有了改善,超过99%的准确率。

速度更快

Groq的火爆让我们更加理解生成速度的重要性。Anthropic特别提及了Claude 3 系列模型的实时反应速度很快。

文中提到,Haiku是同类智能模型中速度最快、性价比最高的。它可以在不到三秒的时间内阅读arXiv上包含图表、信息、数据密集的研究论文(约10,000 个token)。
对于绝大多数工作负载,Sonnet 的速度都会比 Claude 2 和 Claude 2.1 快2倍,同时拥有更高的智能水平。它擅长需要快速响应的任务,如知识检索或销售自动化
Opus 的速度与 Claude 2 和 2.1 相似,但智能水平要高得多。
一是反应速度快,二是有了视觉理解,可以预见,我们阅读论文速度将提到极大的提升。

使用渠道

Opus 和 Sonnet 现已可以在 Anthropic 的 API 中使用,该 API 目前已全面开放,开发者可以注册并立即开始使用这些模型。
Haiku 也即将推出。
Sonnet 为 claude.ai 上的免费体验提供支持,而 Opus 可供 Claude Pro 订阅者使用。
Sonnet 今天也可以通过 Amazon Bedrock 获得,并在 Google Cloud 的 Vertex AI Model Garden 提供私人预览—Opus 和 Haiku 也即将同时推出。
Anthropic未来规划
Anthropic计划在未来几个月内对 Claude 3 模型系列进行频繁更新,发布一系列功能来增强模型的能力,特别是针对企业用例和大规模部署。
这些新功能将包括工具使用(即函数调用)、交互式编码(即 REPL)和更高级的代理能力
最吸引我的点
Anthropic在博客里写到Claude 3 Opus的潜在用途
  • 任务自动化: 在不同的API和数据库中规划与执行复杂操作,交互式编程。

  • 研发: 研究论文审阅、集思广益和假设生成、药物发现。

  • 战略制定: 对图表、财务数据和市场趋势进行高级分析,以及预测。


其中任务自动化最吸引我,我欣赏 Open Interpreter、CrewAI、Autogen 的设计理念,上文表格数据显示了 Claude 3 Opus 比 GPT 4 编程能力领先很多,支持更长的上下文-现阶段200k,真的非常期待Claude 3 Opus 在任务自动化上的表现。

其他信息

开发团队通过改进设计、提高模型的可信度和减少偏见,同时保持了对安全的高度关注,旨在提供更加智能、快速和安全的人工智能解决方案。

Claude 3系列模型最初在发布时将提供200K的上下文窗口。但是,所有三个模型都能接受超过100万词元(token)的输入,Anthropic会向需要更高处理能力的特定客户开放此功能。


精选历史文章,请看这里:

Groq API 使用指南:无需申请即可体验,从速率限制到模型参数解析

探索新Ollama Python库:在应用程序中集成本地LLM

Mistral Large 亮相,仅次于 GPT-4 ,介绍+API 使用

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存