东谈主工智能(AI)模子的竞赛再度升温。在OpenAI行将发布备受期待的GPT-5之际,Anthropic当先升级自家模子,推出Claude Opus 4.1,宣称在编程、计划和数据分析智商方面杀青显贵提高。 好意思东工夫8月5日周二,由前OpenAI职工创立的OpenAI强敌Anthropic文书,新模子Opus 4.1在编程评估基准SWE-Bench Verified上的得分达到74.5%,较前代Opus 4的72.5%提高两个百分点。 新模子在顾问大型代码库导航和多文献代码重构方面推崇尤为杰出。GitHub、Rakuten Group等客户响应显露,Opus 4.1在代码修改精确度和调试遵守方面均有显贵改善,大要在不引入缝隙的情况下详细目位需要修正的代码位置。 濒临OpenAI本月可能发布GPT-5的竞争压力,Anthropic选拔聚焦现存居品优化。 Anthropic的首席居品官Mike Krieger暗示,这次Opus模子升级秀气着公司策略转向更频繁的渐进式蜕变,而非仅专注首要版块更新。他说: “昔日,咱们过于专注于只提供进犯的升级。(模子)它咫尺在编码、推理和代理任务方面皆更胜一筹。咱们仅仅思让它更好地行状于东谈主类。” 性能提高聚焦编程限制Anthropic公布的数据显露,Opus 4.1在编程智商方面杀青了试验性破损。 Anthropic公布,在评估大说话模子(LLM)完成现实寰宇软件工程智商的SWE-Bench Verified基准测试中,Opus 4.1取得74.5%的准确率。这一收获比拟Claude Sonnet 3.7的62.3%和Opus 4的72.5%有较着跳跃。 Anthropic强调,升级后的Opus模子在顾问复杂多次第问题时愈加高效,定位为更有用的AI代理。新模子大要更好地导航大型代码库,在代码修改时愈加精确。 Opus 4.1还“提高了Claude 的深远计划和数据分析智商,尤其是在细节跟踪和代理搜索方面。” Anthropic本周二暗示,被Cognition收购的AI编程助手Windsurf响应称,Opus 4.1在其低级斥地东谈主员基准测试中较Opus 4有一个法度差的蜕变,性能提高幅度相配于从Sonnet 3.7跃升至Sonnet 4的水平。 客户响应考阐发用价值Anthropic本周二提到一些企业客户的使用响应,它们阐发了新模子的试验蜕变遵守。 比如日本电商巨头乐天集团(Rakuten Group)发现,Opus 4.1擅长在大型代码库中详细目位需要修正的位置,无需进行不消要的调度或引入缝隙,乐天的团队倾向于诓骗该模子的这种精确性顾问浮浅调试任务。 Windsurf暗示,使用Opus 4.1后编程任务完成速率更快,质地也有所提高。GitHub则指出,Opus 4.1相干于Opus 4在大多半功能上皆有蜕变,在多文献代码重构方面的性能提高尤为显贵。 市集竞争加重配景下的策略调度Anthropic这次发布偶然AI行业竞争尖锐化之际。谷歌和OpenAI皆推出了匡助法度员简化代码编写和调试经过的功能,而OpenAI高管也在公开形势为行将发布的GPT-5造势,有报谈称该居品可能在本月推出。 被问及OpenAI行将发布的居品时,Mike Krieger暗示:"我学到的小数是,咱们要专注于我方领有的东西,尤其是在快速发展的AI限制,其他东谈主要作念什么最终取决于他们我方。" Anthropic本周二暗示,Opus 4.1现已向付费Claude用户怒放,并可通过Anthropic的API、Amazon Bedrock和Google Cloud的Vertex AI得回,订价与Opus 4保合手一致。Anthropic还计较,将来几周内发布更首要的模子更新。 Anthropic被传新融资或推升估值至1700亿好意思元快要两周前,7月中旬媒体称,Anthropic称其年化收入本年上半年增长四倍,已特出40亿好意思元,其爆炸式的收入增长引起部分投资者浓厚意思意思,计划以特出1000亿好意思元的估值进行新一轮投资,较四个月前该司文书融资时的580亿好意思元估值真的翻了一番。 尔后,有媒体在与多位中东投资者疏浚后暗示,Anthropic行将到来的估值更接近1500亿好意思元。 上周又有媒体称,Anthropic正进行Iconiq Capital主导的新一轮融资干系策划,拟融资30亿至50亿好意思元,使公司估值达到1700亿好意思元。另有媒体称,到7月末,Anthropic的年化收入已增至约50亿好意思元。该司预测,到本年年底,其每每性收入可能达到90亿好意思元。 Anthropic的新融资音信突显了市集雠敌部AI公司将来增长的极高预期开云体育(中国)官方网站,尤其是对Anthropic在AI编码这一应用限制的远大变现智商方面。 风险教唆及免责条件 市集有风险,投资需严慎。本文不组成个东谈主投资提议,也未计划到个别用户尽头的投资指标、财务景况或需要。用户应试虑本文中的任何成见、不雅点或论断是否合适其特定景况。据此投资,累赘喜悦。 |