-
DeepSeek 发布大一统模型 Janus-Pro:DeepSeek 发布了大一统模型 Janus-Pro,采用统一的 Transformer 架构,能够同时实现图片理解和生成。该模型提供 1B 和 7B 两种规模,适配多种应用场景。Janus-Pro 全面开源,支持商用,使用 MIT 协议,便于开发者部署和应用,且在基准测试中表现优异,展现出全面的能力。当日,DeepSeek 应用在全球多个国家和地区的 App Store 登顶,在美区下载榜超越 ChatGPT,其模型凭借先进技术、高性价比和开源策略,引发全球关注,相关概念股在 A 股市场掀起热潮 。
-
阿里通义千问发布系列模型和框架:阿里通义千问发布开源 Qwen2.5-1M 模型及推理框架,包含 Qwen2.5-7B-Instruct-1M 和 Qwen2.5-14B-Instruct-1M 模型,首次实现 1M 长度的上下文扩展。团队还开源基于 vLLM 的推理框架,通过稀疏注意力技术使处理速度提升 3 至 7 倍。同时,推出 Chat 平台 Qwen Chat (https://chat.qwenlm.ai/) ,用户可进行对话、编程与生成多媒体内容,支持 1M 长序列的处理。此外,通义千问还发布全新视觉模型 Qwen2.5-VL。相较于上一版本,Qwen2.5-VL 开源了 Base 和 Instruct 模型,提供 3B、7B 和 72B 三种模型尺寸,具有更丰富感知能力,能识别分析图像中文本、图表和布局,还具备推理及工具使用能力,初步具备电脑和手机操作能力,并且能够理解超过 1 小时的长视频。
© 版权声明
本站文章版权归奇想AI导航网所有,未经允许禁止任何形式的转载。