大模型界又一个新的里程碑
火山引擎
刚发布了最新豆包1.5深度思考模型
从榜单来看
数学能力科学推理和编程能力
都赶上业界领先的那几个模型了
稳稳进入第一梯队
关键是还支持多模态
这谁能受得了
这次豆包1.5深度思考模型的整体实力
非常硬核
从各专业领域的测评结果看
完全可以对标行业顶尖水平
学能力和代码生成已经逼近open AI
OSAI Mini Hive和open AI OE1217
科学推理能力也毫不逊色
在博士级别的科学问题表现上
逼近OSAI Mini Hive
已经超过了人类专家水平
而在问答翻译
创业生成等通用任务场景中
多宝1.5深度思考模型的人类评估表现
超Deepsix r e 8%
不仅如此
模型采用MOE架构
总参数200币
激活参数也才20币
通过高效算法和高性能推理系统
实现20毫秒极速低延迟
一句话总结就是
豆包1.5深度思考模型
等于专业领域顶尖水平加通用任务
全能选手加极速推理低延迟
但这些我觉得都是开胃菜
这次最让我惊喜的是
它融合了多模态能力
一旦深度思考模型具备了视觉能力
那应用场景就变得非常多了
我们直接拿一些现实中的问题
来测评一下
不知道大家有没有经常在社交平台
刷到一张美景图
会到处询问网友这是哪
这在社交软件或者旅游行业
是个很刚需的场景
比如这张图
你觉得AI能猜出具体位置吗
我们先试一下这个AI
模型不对
这个没有视觉能力
再换个国产头部模型
它需要调用工具来理解图片和联网
搜索过程
相对慢些
在1分钟以上
但可惜答案错了
正确的答案是北京的金海湖
我们再来换另一个国产头部模型
试一试虽然思考过程仅用时30秒
速度很快
但遗憾也没能答对
我们来看一下
豆瓣1.5深度思考模型的回答
深度思考耗时6.3秒
明显能感觉即使需要视觉理解
模型的延迟也变得更低了
看一下答案
它先通过湖水山体特征
山体坡度北等信息
把地点定位到了华北燕山南路
再通过露营设备和风车
观景台等人工设施等信息
进一步确认
这个地方属于典型的旅游开发露营地
和北京青海湖高度一致
国外几个大模型我也测了
发现大多数大模型都回答错误
虽然推理过程都有理有据
但依然没法精准定位
相似的地方太多了
看来有了豆瓣1.5深度思考模型
通过图片定位地点
这个大难题被很好的解决了
AI的幻觉问题一直是大众所诟病的
在视觉场景中
如果图片都不能做到准确理解
那生成的答案大概率是不能用的
我们再找一个办公场景来测下
这是一张极其复杂
超长的项目管理流程永道图
里面有每个阶段每个角色的分工
如果我问AI
把这里面的产品经理的具体工作
列出来你觉得AI能准确列出吗
可以先来看一下其他模型的情况
国内几个排名靠前的大模型
最大的问
题在于他们自己
把每个阶段的内容
给重新命名和调整了
没有按照原图规定的阶段来进行
这样容易造成混淆
带来比较大的理解成本
测了国外j b t追命奶等模型
是一样的情况
而多宝1.5深度思考模型
遵循了原图信息
把有提到产品经理的工作阶段
单独列了出来
同时把重点工作高亮了
信息从用户的感官来说会非常清晰
容易理解
最缺的是什么
他把产品经理需要产出的所有物料
全部总结列出来了
这个才是用户最需要的答案
能看出这次多宝1.5深度思考模型
确实有非常强大的指令遵循能力
问了几次都不太出现幻觉问题
通过实测
明显感受到
这个模型是以更小参数
实现了更强的效果
高效响应更低延迟
这种融合视觉能力和深度思考的模型
真的很适合大规模商业部署
数学编程科学推理
均达到或接近全球第一梯队
加上强大的视觉推理能力
很适合
比如教育行业中的作业辅导系统
金融量化数据图表风险预判
旅游软件景点识别攻略生成
以及零售业中通过用户画像
预测爆款商品等等
很多场景都可以用到
另外
这次豆瓣纹身图模型也升级到了3.0
生成的图片终于可以高清印刷了
直接就是2K高分辨率
特别适合电商设计等领域
AI的油腻感完全不见
你看我一放大
连毛孔皱纹都能看得清清楚楚
这些看似是高清照相机拍出来的图
其实都是拿它生成
的而且文字也进行了大幅优化
生成的文字
设计感很符合现在流行趋势
他真的很懂大众审美
国内的大模型还是太卷了
现在
大家追求的不仅仅是小身材和大智慧
还得帮企业省钱
这么看
火山引擎这次的豆包1.5深度思考模型
确实性价比拉满
© 版权声明
THE END
喜欢就支持一下吧