2025年2月5日AI热点新闻速览

应用方面

  • 谷歌发布 AI 图像生成工具:谷歌发布全新的 AI 图像生成工具 Imagen,能根据用户文字描述快速生成高质量图像,还支持对生成图像进行亮度、对比度、色彩等参数调整及元素添加或删除,为设计师等提供便捷创作工具。

  • 智能学习辅助系统推出:斯坦福大学与 Coursera 合作推出基于 AI 的智能学习辅助系统,可根据学生学习情况量身定制学习计划和内容,具备智能答疑功能,能提高学生学习效果和兴趣。

  • 自动驾驶技术突破:Waymo 自动驾驶汽车在复杂城市道路环境下,成功完成 100 公里自动驾驶任务,准确识别交通标志和路况信息,标志其自动驾驶技术达到新高度。

  • AI 眼镜竞争白热化:Meta 与雷朋合作的智能眼镜 “Ray-Ban Meta” 持续热销,2025 年多品牌 AR 功能眼镜将量产上市。

  • 人形机器人技术突破:宇树科技春晚 “扭秧歌机器人” 动作同步精度远超特斯拉机器人,AI 训练技术推动具身智能发展,工业场景应用加速落地。

框架方面

  • 谷歌推出 Gemini 2.0 系列模型:谷歌全面推出 Gemini 2.0 系列模型,包括 Gemini 2.0 Flash、Gemini 2.0 Flash - Lite 和 Gemini 2.0 Pro 等,其中 Gemini 2.0 Flash - Lite 性价比高,Gemini 2.0 Pro 强调世界知识理解和推理能力,可调用谷歌搜索工具和执行代码,另外还发布了升级版 Gemini 2.0 Flash Thinking,支持 1M 长上下文处理,减少推理矛盾,登顶 Chatbot Arena 排行榜。

  • OpenAI 推出 AI 代理:OpenAI 推出 AI 代理 “Operator”,基于 CUA 模型,可自主执行网页操作任务,支持屏幕截图感知界面并自我纠错,敏感操作需人工确认。

  • 字节跳动开源模型:字节跳动开源 UI - TARS 模型,支持自然语言操控电脑界面,在基准测试中超越 GPT - 4 和 Claude,提供 2B、7B、72B 参数版本。

  • 阿里云发布新模型:阿里云发布 MoE 架构旗舰模型 Qwen2.5 - Max,预训练数据超 20 万亿 tokens,综合能力超越全球主流开源模型,支持长视频理解和跨设备任务。

  • DeepSeek 发布多模态模型:DeepSeek 发布视觉多模态模型 Janus - Pro(1B/7B 参数),在 GenEval 和 DPG - Bench 评测中击败 DALL - E 3 和 Stable Diffusion,支持多模态生成与理解。

  • 中国电信发布新模型:中国电信推出 TeleAI - t1 - preview,在数学和逻辑推理任务中表现卓越,AIME 2024 评测得分 60 分,远超 OpenAI 和 GPT - 4,支持古今单位换算及复杂问题求解,即将上线天翼 AI 开放平台。

© 版权声明

相关文章