# 2025W33 AI大模型领域精选热点 🔥
---
## 1. Google
> 全能战士:生成视频的模型 veo3,生成图像的 imagen 4,生成音乐的 lyria,用来生成语音的 chirp,还有 gemini 系列模型以及开源的gemma系列。感觉是不是可以替代好莱坞了?
+ 发布 Gemma-3-270M 一个多模态模型,能接受文本和图片输入,并且输出文本。输入图片会标准化为 896 x 896 分辨率。这种大小的模型通常可以放在移动端设备运行。Gemma 3 270M 与 Qwen3 0.6B 架构对比,需要注意的是 Gemma3-270M 只有4个注意力头,Qwen3-0.6B 有16个。通常注意力头多泛化能力会强,相应的复杂任务能力、长距离依赖关系处理也会更好。当然计算成本也高。
模型地址:huggingface.co/google/gemma-3-270m
+ 正式发布上线 Imagen 4 模型,其在文字渲染方面,精准度再创新高,媲美专业排版。美中不足不支持中文!aistudio 可体验。
+ 据报道,在Google和IBM推动下,接近实用的量子计算离实用越来越近了
+ 谷歌开发者大会2025 在上海举行,主题全部与ai相关。带来的除去模型、IDE等更新外,还有需要有趣的demo()
## 2. Meta
Meta推出 DINOv3,DINOv3 是采用自监督学习(SSL)训练的先进计算机视觉模型,能够生成强大且高分辨率的图像特征。相比上一版本,Meta 将无监督训练扩展到 **70 亿参数**的模型和 17 亿张图像数据集。
目前模型、代码以及技术报告均已经开源:
模型地址:huggingface.co/collections/facebook/dinov3-68924841bd6b561778e31009
Repo地址:github.com/facebookresearch/dinov3
技术报告:ai.meta.com/research/publications/dinov3
## 3. 阿里
1. Wan2.2-I2V-Flash 正式上线!图生视频可以更“轻快”,相比Wan2.1,Wan2.2-I2V-Flash推理速度提升12倍,创作效率跃升。阿里的开源 AI 视频模型 Wan 2.2 火出圈了,尤其是在某些灰产领域。
2. 阿里首个多模态 Agent「WebWatcher」开源发布,看图识别、读文理解、跨网页追踪。论文:arxiv.org/abs/2508.05748,repo 地址:github.com/Alibaba-NLP/WebAgent
3. 桌面端移动端的 Qwen Chat 已上线,支持 MCP,有兴趣可以体验 qwen.ai/download
## 4. 腾讯开源世界模型和框架
+ 一个交互式视频生成的基础框架 Yan,是目前分辨率最高的1080p 60帧,比 Google 的 Genie 3 (720p 24帧) 还要高。它包括三个核心模块:Yan-Sim、Yan-Gen 和 Yan-Edit。
+ Yan-Sim 可以对交互式视频环境进行高质量模拟;
+ Yan-Gen 以文本和图像为提示,生成具有很强泛化性的交互式视频;
+ Yan-Edit 支持多粒度、实时编辑交互式视频内容,通过基于文本的交互实现多粒度的视频内容编辑,涵盖结构编辑(例如,添加可交互对象)和风格编辑(例如,更改对象的颜色和纹理)。
地址:greatx3.github.io/Yan
+ Hunyuan-GameCraft 开源,一种用于游戏环境中高动态交互式视频生成的新颖框架(照片生成游戏),在大模型生成的“游戏视频”里面进行自由机位移动!该模型在包含 100 多款 AAA 游戏的 **100 多万**个游戏记录的大规模数据集上进行训练,确保广泛的覆盖范围和多样性,然后在经过仔细注释的合成数据集上进行微调,以提高精度和控制力。 精心策划的游戏场景数据显著提高了视觉保真度、真实感和动作可控性。 大量实验表明,Hunyuan-GameCraft 的性能明显优于现有模型,提高了交互式游戏视频生成的真实感和可玩性。
地址:hunyuan-gamecraft.github.io
## 5. 其他动态
1. OpenAI 发布一些的教程,包括提示词指南,新的参数和工具,如何使用 GPT-5 写前端,使用他们的新提示词优化器。感兴趣可以看看:cookbook.openai.com
2. Anthropic 宣布 Claude-Sonnet-4 支持一百万上下文了!(价格能降一降就更好了)
3. 昆仑万维(Skywork)发布并开源世界模型 Matrix-Game 2.0模型,可以看作是谷歌Genie 3的开源版,该模型能够以 25 FPS 的超快速度跨不同场景生成高质量的分钟级视频。
4. 又一个开源世界模型 Matrix-Game 2.0,模型只有 1.8B, 然后能生成25帧的游戏场景,实时的通过WASD按键来玩这个AI脑补出来的游戏。并且能生成1分钟左右(分辨率较低)。模型地址:huggingface.co/Skywork/Matrix-Game-2.0
5. 微软提出一种AI专用的标记语言 POML:提示词编排标记语言(感觉像是换皮的xml)。旨在为大型语言模型(LLMs)的高级提示工程带来结构化、可维护性和多功能性。它目标是解决提示开发中的常见挑战,如缺乏结构、复杂的数据集成、格式敏感性和工具不足。Repo地址:github.com/microsoft/poml
6. 智谱开源视觉语言大模型GLM-4.5V(模型参数106B总参数,12B激活),图像识别能力非常强,可以直接做灰产了。能够通过截屏、录屏等方式获取PC屏幕上的视觉信息。
模型地址:huggingface.co/zai-org/GLM-4.5V
论文地址: huggingface.co/papers/2507.01006
Repo地址: github.com/zai-org/GLM-V/
7. 2025世界人形机器人运动会贡献多个机器人名场面。地址:whrgoc.com/news
## Github Repos Recommend
1. SQLBot:基于大模型与 RAG 技术的智能问数系统,助力企业轻松实现高质量 text2sql 转换。
Repo 地址:github.com/dataease/SQLBot
2. vLLM-CLI 非官方项目,支持交互式配置菜单系统(无需记忆参数)、自动检测和配置多块 GPU、保存最后的工作配置以便快速重用、实时监控 GPU 使用情况和服务器日志、内置常见场景的配置文件或自定义您的配置文件。
Repo地址:github.com/Chen-zexi/vllm-cli
3. ZipVoice 在cpu就能运行的语音克隆模型
一个基于 Flow Matching 架构的 ZipVoice 零样本单说话人语音合成模型。ZipVoice 解决了现有零样本语音合成模型的参数量大、合成速度慢的痛点,在轻量化建模和推理加速上取得了重要突破,可能是行业内首个可以在 CPU 上实时运行的零样本语音合成模型。
Repo地址:github.com/k2-fsa/ZipVoice
4. Baichuan-M2-32B:基于 Qwen2.5-32B 基座医疗开源模型
- **全球最强医疗开源模型**:在 HealthBench 评测集上超越所有开源模型及众多前沿闭源模型,是最接近 GPT-5 医疗能力的开源大模型
- **医生思维对齐**:基于真实病例数据和患者模拟器训练,具备临床诊断思维和鲁棒的医患交互能力
- **高效部署与推理**:支持 4bit 量化在 RTX4090 单卡部署,MTP 版本单用户场景下 token 吞吐提升 58.5%
深度融合真实病例训练与动态评分机制
Repo 地址:github.com/baichuan-inc/Baichuan-M2-32B
5. Claude Code Unified Agents 集成了 54 个生产级子 agent,覆盖开发、基础设施、质量保证、AI/ML、业务流程、创意设计和专用领域,打造智能多 agent 协作生态。这是一套面向未来的多 agent开发框架。
Repo地址:github.com/stretchcloud/claude-code-unified-agents
---
## 1. Google
> 全能战士:生成视频的模型 veo3,生成图像的 imagen 4,生成音乐的 lyria,用来生成语音的 chirp,还有 gemini 系列模型以及开源的gemma系列。感觉是不是可以替代好莱坞了?
+ 发布 Gemma-3-270M 一个多模态模型,能接受文本和图片输入,并且输出文本。输入图片会标准化为 896 x 896 分辨率。这种大小的模型通常可以放在移动端设备运行。Gemma 3 270M 与 Qwen3 0.6B 架构对比,需要注意的是 Gemma3-270M 只有4个注意力头,Qwen3-0.6B 有16个。通常注意力头多泛化能力会强,相应的复杂任务能力、长距离依赖关系处理也会更好。当然计算成本也高。
模型地址:huggingface.co/google/gemma-3-270m
+ 正式发布上线 Imagen 4 模型,其在文字渲染方面,精准度再创新高,媲美专业排版。美中不足不支持中文!aistudio 可体验。
+ 据报道,在Google和IBM推动下,接近实用的量子计算离实用越来越近了
+ 谷歌开发者大会2025 在上海举行,主题全部与ai相关。带来的除去模型、IDE等更新外,还有需要有趣的demo()
## 2. Meta
Meta推出 DINOv3,DINOv3 是采用自监督学习(SSL)训练的先进计算机视觉模型,能够生成强大且高分辨率的图像特征。相比上一版本,Meta 将无监督训练扩展到 **70 亿参数**的模型和 17 亿张图像数据集。
目前模型、代码以及技术报告均已经开源:
模型地址:huggingface.co/collections/facebook/dinov3-68924841bd6b561778e31009
Repo地址:github.com/facebookresearch/dinov3
技术报告:ai.meta.com/research/publications/dinov3
## 3. 阿里
1. Wan2.2-I2V-Flash 正式上线!图生视频可以更“轻快”,相比Wan2.1,Wan2.2-I2V-Flash推理速度提升12倍,创作效率跃升。阿里的开源 AI 视频模型 Wan 2.2 火出圈了,尤其是在某些灰产领域。
2. 阿里首个多模态 Agent「WebWatcher」开源发布,看图识别、读文理解、跨网页追踪。论文:arxiv.org/abs/2508.05748,repo 地址:github.com/Alibaba-NLP/WebAgent
3. 桌面端移动端的 Qwen Chat 已上线,支持 MCP,有兴趣可以体验 qwen.ai/download
## 4. 腾讯开源世界模型和框架
+ 一个交互式视频生成的基础框架 Yan,是目前分辨率最高的1080p 60帧,比 Google 的 Genie 3 (720p 24帧) 还要高。它包括三个核心模块:Yan-Sim、Yan-Gen 和 Yan-Edit。
+ Yan-Sim 可以对交互式视频环境进行高质量模拟;
+ Yan-Gen 以文本和图像为提示,生成具有很强泛化性的交互式视频;
+ Yan-Edit 支持多粒度、实时编辑交互式视频内容,通过基于文本的交互实现多粒度的视频内容编辑,涵盖结构编辑(例如,添加可交互对象)和风格编辑(例如,更改对象的颜色和纹理)。
地址:greatx3.github.io/Yan
+ Hunyuan-GameCraft 开源,一种用于游戏环境中高动态交互式视频生成的新颖框架(照片生成游戏),在大模型生成的“游戏视频”里面进行自由机位移动!该模型在包含 100 多款 AAA 游戏的 **100 多万**个游戏记录的大规模数据集上进行训练,确保广泛的覆盖范围和多样性,然后在经过仔细注释的合成数据集上进行微调,以提高精度和控制力。 精心策划的游戏场景数据显著提高了视觉保真度、真实感和动作可控性。 大量实验表明,Hunyuan-GameCraft 的性能明显优于现有模型,提高了交互式游戏视频生成的真实感和可玩性。
地址:hunyuan-gamecraft.github.io
## 5. 其他动态
1. OpenAI 发布一些的教程,包括提示词指南,新的参数和工具,如何使用 GPT-5 写前端,使用他们的新提示词优化器。感兴趣可以看看:cookbook.openai.com
2. Anthropic 宣布 Claude-Sonnet-4 支持一百万上下文了!(价格能降一降就更好了)
3. 昆仑万维(Skywork)发布并开源世界模型 Matrix-Game 2.0模型,可以看作是谷歌Genie 3的开源版,该模型能够以 25 FPS 的超快速度跨不同场景生成高质量的分钟级视频。
4. 又一个开源世界模型 Matrix-Game 2.0,模型只有 1.8B, 然后能生成25帧的游戏场景,实时的通过WASD按键来玩这个AI脑补出来的游戏。并且能生成1分钟左右(分辨率较低)。模型地址:huggingface.co/Skywork/Matrix-Game-2.0
5. 微软提出一种AI专用的标记语言 POML:提示词编排标记语言(感觉像是换皮的xml)。旨在为大型语言模型(LLMs)的高级提示工程带来结构化、可维护性和多功能性。它目标是解决提示开发中的常见挑战,如缺乏结构、复杂的数据集成、格式敏感性和工具不足。Repo地址:github.com/microsoft/poml
6. 智谱开源视觉语言大模型GLM-4.5V(模型参数106B总参数,12B激活),图像识别能力非常强,可以直接做灰产了。能够通过截屏、录屏等方式获取PC屏幕上的视觉信息。
模型地址:huggingface.co/zai-org/GLM-4.5V
论文地址: huggingface.co/papers/2507.01006
Repo地址: github.com/zai-org/GLM-V/
7. 2025世界人形机器人运动会贡献多个机器人名场面。地址:whrgoc.com/news
## Github Repos Recommend
1. SQLBot:基于大模型与 RAG 技术的智能问数系统,助力企业轻松实现高质量 text2sql 转换。
Repo 地址:github.com/dataease/SQLBot
2. vLLM-CLI 非官方项目,支持交互式配置菜单系统(无需记忆参数)、自动检测和配置多块 GPU、保存最后的工作配置以便快速重用、实时监控 GPU 使用情况和服务器日志、内置常见场景的配置文件或自定义您的配置文件。
Repo地址:github.com/Chen-zexi/vllm-cli
3. ZipVoice 在cpu就能运行的语音克隆模型
一个基于 Flow Matching 架构的 ZipVoice 零样本单说话人语音合成模型。ZipVoice 解决了现有零样本语音合成模型的参数量大、合成速度慢的痛点,在轻量化建模和推理加速上取得了重要突破,可能是行业内首个可以在 CPU 上实时运行的零样本语音合成模型。
Repo地址:github.com/k2-fsa/ZipVoice
4. Baichuan-M2-32B:基于 Qwen2.5-32B 基座医疗开源模型
- **全球最强医疗开源模型**:在 HealthBench 评测集上超越所有开源模型及众多前沿闭源模型,是最接近 GPT-5 医疗能力的开源大模型
- **医生思维对齐**:基于真实病例数据和患者模拟器训练,具备临床诊断思维和鲁棒的医患交互能力
- **高效部署与推理**:支持 4bit 量化在 RTX4090 单卡部署,MTP 版本单用户场景下 token 吞吐提升 58.5%
深度融合真实病例训练与动态评分机制
Repo 地址:github.com/baichuan-inc/Baichuan-M2-32B
5. Claude Code Unified Agents 集成了 54 个生产级子 agent,覆盖开发、基础设施、质量保证、AI/ML、业务流程、创意设计和专用领域,打造智能多 agent 协作生态。这是一套面向未来的多 agent开发框架。
Repo地址:github.com/stretchcloud/claude-code-unified-agents