# 2025W33 AI大模型领域精选热点 🔥---## 1. Google> 全能战士：生成视频的模型 veo3，生成图像的 imagen 4，生成音乐的 lyria，用来生成语音的 chirp，还有 gemini 系列模型以及开源的gemma系列

16:26 · Aug 17, 2025 · Sun

# 2025W33 AI大模型领域精选热点 🔥

---

## 1. Google

> 全能战士：生成视频的模型 veo3，生成图像的 imagen 4，生成音乐的 lyria，用来生成语音的 chirp，还有 gemini 系列模型以及开源的gemma系列。感觉是不是可以替代好莱坞了？

+ 发布 Gemma-3-270M 一个多模态模型，能接受文本和图片输入，并且输出文本。输入图片会标准化为 896 x 896 分辨率。这种大小的模型通常可以放在移动端设备运行。Gemma 3 270M 与 Qwen3 0.6B 架构对比，需要注意的是 Gemma3-270M 只有4个注意力头，Qwen3-0.6B 有16个。通常注意力头多泛化能力会强，相应的复杂任务能力、长距离依赖关系处理也会更好。当然计算成本也高。
模型地址：huggingface.co/google/gemma-3-270m

+ 正式发布上线 Imagen 4 模型，其在文字渲染方面，精准度再创新高，媲美专业排版。美中不足不支持中文！aistudio 可体验。
+ 据报道，在Google和IBM推动下，接近实用的量子计算离实用越来越近了
+ 谷歌开发者大会2025 在上海举行，主题全部与ai相关。带来的除去模型、IDE等更新外，还有需要有趣的demo（）

## 2. Meta

Meta推出 DINOv3，DINOv3 是采用自监督学习（SSL）训练的先进计算机视觉模型，能够生成强大且高分辨率的图像特征。相比上一版本，Meta 将无监督训练扩展到 **70 亿参数**的模型和 17 亿张图像数据集。

目前模型、代码以及技术报告均已经开源：
模型地址：huggingface.co/collections/facebook/dinov3-68924841bd6b561778e31009
Repo地址：github.com/facebookresearch/dinov3
技术报告：ai.meta.com/research/publications/dinov3

## 3. 阿里

1. Wan2.2-I2V-Flash 正式上线！图生视频可以更“轻快”，相比Wan2.1，Wan2.2-I2V-Flash推理速度提升12倍，创作效率跃升。阿里的开源 AI 视频模型 Wan 2.2 火出圈了，尤其是在某些灰产领域。
2. 阿里首个多模态 Agent「WebWatcher」开源发布，看图识别、读文理解、跨网页追踪。论文：arxiv.org/abs/2508.05748，repo 地址：github.com/Alibaba-NLP/WebAgent
3. 桌面端移动端的 Qwen Chat 已上线，支持 MCP，有兴趣可以体验 qwen.ai/download

## 4. 腾讯开源世界模型和框架

+ 一个交互式视频生成的基础框架 Yan，是目前分辨率最高的1080p 60帧，比 Google 的 Genie 3 (720p 24帧) 还要高。它包括三个核心模块：Yan-Sim、Yan-Gen 和 Yan-Edit。
+ Yan-Sim 可以对交互式视频环境进行高质量模拟;
+ Yan-Gen 以文本和图像为提示，生成具有很强泛化性的交互式视频;
+ Yan-Edit 支持多粒度、实时编辑交互式视频内容，通过基于文本的交互实现多粒度的视频内容编辑，涵盖结构编辑（例如，添加可交互对象）和风格编辑（例如，更改对象的颜色和纹理）。

地址：greatx3.github.io/Yan

+ Hunyuan-GameCraft 开源，一种用于游戏环境中高动态交互式视频生成的新颖框架（照片生成游戏），在大模型生成的“游戏视频”里面进行自由机位移动！该模型在包含 100 多款 AAA 游戏的 **100 多万**个游戏记录的大规模数据集上进行训练，确保广泛的覆盖范围和多样性，然后在经过仔细注释的合成数据集上进行微调，以提高精度和控制力。精心策划的游戏场景数据显著提高了视觉保真度、真实感和动作可控性。大量实验表明，Hunyuan-GameCraft 的性能明显优于现有模型，提高了交互式游戏视频生成的真实感和可玩性。

地址：hunyuan-gamecraft.github.io

## 5. 其他动态

1. OpenAI 发布一些的教程，包括提示词指南，新的参数和工具，如何使用 GPT-5 写前端，使用他们的新提示词优化器。感兴趣可以看看：cookbook.openai.com
2. Anthropic 宣布 Claude-Sonnet-4 支持一百万上下文了！（价格能降一降就更好了）
3. 昆仑万维（Skywork）发布并开源世界模型 Matrix-Game 2.0模型，可以看作是谷歌Genie 3的开源版，该模型能够以 25 FPS 的超快速度跨不同场景生成高质量的分钟级视频。
4. 又一个开源世界模型 Matrix-Game 2.0，模型只有 1.8B, 然后能生成25帧的游戏场景，实时的通过WASD按键来玩这个AI脑补出来的游戏。并且能生成1分钟左右（分辨率较低）。模型地址：huggingface.co/Skywork/Matrix-Game-2.0
5. 微软提出一种AI专用的标记语言 POML：提示词编排标记语言（感觉像是换皮的xml）。旨在为大型语言模型（LLMs）的高级提示工程带来结构化、可维护性和多功能性。它目标是解决提示开发中的常见挑战，如缺乏结构、复杂的数据集成、格式敏感性和工具不足。Repo地址：github.com/microsoft/poml
6. 智谱开源视觉语言大模型GLM-4.5V（模型参数106B总参数，12B激活），图像识别能力非常强，可以直接做灰产了。能够通过截屏、录屏等方式获取PC屏幕上的视觉信息。
模型地址：huggingface.co/zai-org/GLM-4.5V
论文地址: huggingface.co/papers/2507.01006
Repo地址: github.com/zai-org/GLM-V/
7. 2025世界人形机器人运动会贡献多个机器人名场面。地址：whrgoc.com/news

## Github Repos Recommend

1. SQLBot：基于大模型与 RAG 技术的智能问数系统，助力企业轻松实现高质量 text2sql 转换。

Repo 地址：github.com/dataease/SQLBot

2. vLLM-CLI 非官方项目，支持交互式配置菜单系统（无需记忆参数）、自动检测和配置多块 GPU、保存最后的工作配置以便快速重用、实时监控 GPU 使用情况和服务器日志、内置常见场景的配置文件或自定义您的配置文件。

Repo地址：github.com/Chen-zexi/vllm-cli

3. ZipVoice 在cpu就能运行的语音克隆模型

一个基于 Flow Matching 架构的 ZipVoice 零样本单说话人语音合成模型。ZipVoice 解决了现有零样本语音合成模型的参数量大、合成速度慢的痛点，在轻量化建模和推理加速上取得了重要突破，可能是行业内首个可以在 CPU 上实时运行的零样本语音合成模型。
Repo地址：github.com/k2-fsa/ZipVoice

4. Baichuan-M2-32B：基于 Qwen2.5-32B 基座医疗开源模型

- **全球最强医疗开源模型**：在 HealthBench 评测集上超越所有开源模型及众多前沿闭源模型，是最接近 GPT-5 医疗能力的开源大模型
- **医生思维对齐**：基于真实病例数据和患者模拟器训练，具备临床诊断思维和鲁棒的医患交互能力
- **高效部署与推理**：支持 4bit 量化在 RTX4090 单卡部署，MTP 版本单用户场景下 token 吞吐提升 58.5%

深度融合真实病例训练与动态评分机制

Repo 地址：github.com/baichuan-inc/Baichuan-M2-32B

5. Claude Code Unified Agents 集成了 54 个生产级子 agent，覆盖开发、基础设施、质量保证、AI/ML、业务流程、创意设计和专用领域，打造智能多 agent 协作生态。这是一套面向未来的多 agent开发框架。

Repo地址：github.com/stretchcloud/claude-code-unified-agents