应用方面
-
谷歌发布 AI 图像生成工具:谷歌发布全新的 AI 图像生成工具 Imagen,能根据用户文字描述快速生成高质量图像,还支持对生成图像进行亮度、对比度、色彩等参数调整及元素添加或删除,为设计师等提供便捷创作工具。
-
智能学习辅助系统推出:斯坦福大学与 Coursera 合作推出基于 AI 的智能学习辅助系统,可根据学生学习情况量身定制学习计划和内容,具备智能答疑功能,能提高学生学习效果和兴趣。
-
自动驾驶技术突破:Waymo 自动驾驶汽车在复杂城市道路环境下,成功完成 100 公里自动驾驶任务,准确识别交通标志和路况信息,标志其自动驾驶技术达到新高度。
-
AI 眼镜竞争白热化:Meta 与雷朋合作的智能眼镜 “Ray-Ban Meta” 持续热销,2025 年多品牌 AR 功能眼镜将量产上市。
-
人形机器人技术突破:宇树科技春晚 “扭秧歌机器人” 动作同步精度远超特斯拉机器人,AI 训练技术推动具身智能发展,工业场景应用加速落地。
框架方面
-
谷歌推出 Gemini 2.0 系列模型:谷歌全面推出 Gemini 2.0 系列模型,包括 Gemini 2.0 Flash、Gemini 2.0 Flash - Lite 和 Gemini 2.0 Pro 等,其中 Gemini 2.0 Flash - Lite 性价比高,Gemini 2.0 Pro 强调世界知识理解和推理能力,可调用谷歌搜索工具和执行代码,另外还发布了升级版 Gemini 2.0 Flash Thinking,支持 1M 长上下文处理,减少推理矛盾,登顶 Chatbot Arena 排行榜。
-
OpenAI 推出 AI 代理:OpenAI 推出 AI 代理 “Operator”,基于 CUA 模型,可自主执行网页操作任务,支持屏幕截图感知界面并自我纠错,敏感操作需人工确认。
-
字节跳动开源模型:字节跳动开源 UI - TARS 模型,支持自然语言操控电脑界面,在基准测试中超越 GPT - 4 和 Claude,提供 2B、7B、72B 参数版本。
-
阿里云发布新模型:阿里云发布 MoE 架构旗舰模型 Qwen2.5 - Max,预训练数据超 20 万亿 tokens,综合能力超越全球主流开源模型,支持长视频理解和跨设备任务。
-
DeepSeek 发布多模态模型:DeepSeek 发布视觉多模态模型 Janus - Pro(1B/7B 参数),在 GenEval 和 DPG - Bench 评测中击败 DALL - E 3 和 Stable Diffusion,支持多模态生成与理解。
-
中国电信发布新模型:中国电信推出 TeleAI - t1 - preview,在数学和逻辑推理任务中表现卓越,AIME 2024 评测得分 60 分,远超 OpenAI 和 GPT - 4,支持古今单位换算及复杂问题求解,即将上线天翼 AI 开放平台。