周日更新了b站,说了说我不喜欢用 AI 生成代码,有趣的是评论区分为了两派,一是同样感觉 AI 削弱了自身写代码的能力而感到焦虑,二是认为不用 AI 效率跟不上,以后可能被淘汰。

这让我想到几年前,我劝说我爸妈多学习一下使用智能手机,不然出门了寸步难行。然后我给他们换了好的手机,教他们怎么使用 APP。最后的结果是,他们迷上了抖音 😁

AI 给我的感觉也是这样,它不停地给我正反馈,只要我有疑问,它就会返回给我一个解答,不停满足我的需求,这个和短视频刺激多巴胺的效果其实是一样的。

短时间使用 AI 会让我感到“高效”、“快速完成的成就感”,但长时间是什么呢?

:能难独自集中注意力写一小时代码
:很难进入心流
:很难再有写代码的快乐
:同时,也很难获得成长

所有的成长一定是自己通过思考、学习获得的,但是有了 AI 之后,我们不需要思考、也不需要学习,那人会有什么脚踏实地的成长呢?

可能有人会说,可以让 AI 教你如何学习。我实践下来这个太难做到了,首先心态已经不对了,当你知道有一个很强大的工具,就会产生学习的惰性。

我知道 AI 的强大,我知道用 AI 能更便捷、高效,同时我也知道它正在让我变成一个大蠢猪 😁

下班之后绝对不再用 AI 的第 15 天
谷歌今天在 I/O 2025 大会上宣布了一系列新的 AI 模型、工具和订阅服务

生成媒体

- Veo 3 是 Google 最先进的视频生成模型,能够创建带有音效甚至对话的视频,目前在美国,Google AI Ultra 订阅用户可以通过 Gemini 应用和 Flow 使用,也可以在 Vertex AI 上进行私人预览,并将在未来几周内更广泛地推出

- Veo 2 正在获得新功能,例如参考驱动的视频(用于一致的风格和角色)、用于精确镜头调整的相机控制、用于扩展纵横比的外画以及对象添加/删除,现在 Flow 中提供了一些新控件,而 Vertex AI 即将提供全套​​控件

- Imagen 4 可生成更丰富、更细致、更准确的图像,改进文本渲染和快速结果,现已在 Gemini 应用程序、Whisk、Workspace(幻灯片、文档、视频)和 Vertex AI 中免费提供,新的快速版本即将推出

- Flow 是一款全新的 AI 电影制作工具,可让您通过自然语言和资产管理,使用 Veo、Imagen 和 Gemini 创建电影剪辑;现在可供美国的 Google AI Pro 和 Ultra 订阅用户使用

- Google 的音乐生成模型 Lyria 2 现已在 Vertex AI 中上线,用于高保真自适应音乐生成,Lyria RealTime 可作为实验性交互式音乐模型通过 Gemini API 和 Google AI Studio 使用,用于实时创作和演奏生成音乐

Gemini 应用程序

- Canvas 新增一键“创建”按钮,可轻松将聊天内容转换为交互式内容,例如信息图表、测验和 45 种语言的播客,而 Deep Research 现在可让您上传文件和图像,并且即将推出 Google Drive 和 Gmail 集成

- Gemini Live 相机和屏幕共享功能现已在 Android 和 iOS 上免费提供(正在推出),并将很快与日历、Keep、地图和 Tasks 等 Google 应用集成

订阅

- Google AI Pro(每月 19.99 美元)可在美国和其他国家/地区使用,但一些最新功能(如 Chrome 中的 Flow 或 Gemini)将首先在美国推出,并计划在更广泛的范围内推出

- Google AI Ultra(249.99 美元/月,新用户前三个月可享受 50% 的优惠)提供最高的使用限制、最早使用 Veo 3 和 Gemini 2.5 Pro Deep Think 等高级模型、最高限制的 Flow,以及独家使用 Agent Mode 以及 YouTube Premium 和 30TB 存储空间,现已在美国推出,更多国家即将推出

- 美国、英国、巴西、印度尼西亚和日本的大学生可以免费获得一学年的 Google AI Pro

Chrome 和代理模式下的 Gemini

- Chrome 中的 Gemini 正在桌面上推出,供美国(英语)的 Google AI Pro 和 Ultra 用户使用,以便您可以总结、澄清和获取您正在阅读的任何网页的帮助,并通过隐私控制使 Gemini 仅在您提出要求时采取行动

- 代理模式即将面向 Ultra 桌面用户推出,该模式允许 Gemini 使用 MCP 协议和自动导航在线处理复杂的目标,例如筛选列表、填写表格或根据搜索结果进行安排

人工智能在搜索中的应用

- AI 模式将以新标签页的形式在 Google 搜索中向所有美国用户推出,该模式由 Gemini 2.5 提供支持,提供更高级的推理、更长的查询、多模式搜索和即时的高质量答案,其中的“深度搜索”可同时进行数百次搜索并综合引用的报告

- Project Astra 的实时功能(指向你的相机,询问你所看到的内容)、Project Mariner 的代理工具(购买门票、进行预订、管理任务)以及 Gmail 或其他 Google 应用的个人上下文将进入 AI 模式,由用户控制

Gemini 2.5

- Gemini 2.5 Pro 和 2.5 Flash 是领先的编码和推理基准,Gemini 2.5 Flash 有一个新的预览版本,具有更好的速度、效率和编码/推理能力,两种型号都将于 2025 年 6 月全面上市

- Gemini 2.5 Pro Deep Think 引入了一种实验性的增强推理模式,包括用于复杂任务的并行思维技术,在全面推出之前,首先通过 Gemini API 向值得信赖的测试人员推出,然后让用户控制答案深度和速度的思考预算

- Gemini API 和 SDK 原生支持模型上下文协议 (MCP),从而可以更轻松地跨系统集成代理和工具

- Gemini API 和 Vertex AI 现在提供“思想摘要”,逐步解释 Gemini 的推理和工具使用

Project Starline -> Google Beam、Astra -> Gemini Live、Mariner ->特工模式

- Starline 项目现已更名为 Google Beam,这是一个由人工智能驱动的 3D 视频通话平台,可将 2D 流媒体转化为身临其境的逼真会议,并将于今年晚些时候与惠普和其他企业合作伙伴合作推出

- Gemini Live 内置 Astra 的实时摄像头和屏幕共享功能,这些功能已在 Android 上免费提供,现已在 iOS 上推出

- Project Mariner 的代理计算机使用功能(例如多任务处理和浏览器自动化)现已面向美国 Ultra 用户开放,并将很快通过 Gemini API 和 Vertex AI 面向开发者开放

开放模型和开发工具

Gemma 3n 是一种新型高效多模态开放模型,专为快速、低内存设备设计,支持文本、音频、图像和多语言输入,目前已在 AI Studio 和 AI Edge 上为开发者提供预览版。

- Jules 是一款由 Gemini 2.5 Pro 提供支持的异步编码代理,目前处于公开测试阶段,并且免费,可在 GitHub 或您的 repo 中处理实际的编码任务,并具有并发任务和音频更新日志

- Gemini Diffusion 是一种用于快速文本生成的实验性研究模型,其输出速度约为 Google 之前最快模型的五倍,目前已通过候补名单向开发者提供预览。

SynthID Detector 是一个用于检查图像、音频、视频或文本是否由 Google 的 AI 工具生成的门户,目前正通过候补名单向早期测试人员推出,后续将提供更广泛的访问权限

#Google

https://x.com/btibor91/status/1924938391478468754?s=46&t=Egk_JeNH7VpTJDgz1k_q5w

https://blog.google/technology/developers/google-io-2025-collection/ I/O 2025
【[402星]llm-d:Kubernetes原生高性能分布式LLM推理框架,助力大规模语言模型推理部署。亮点:1. 采用vLLM优化的推理调度器,提升性能;2. 支持解耦式服务,灵活部署;3. 提供独立和共享两种KV缓存方案,优化资源利用】
'Kubernetes-Native Distributed Inference at Scale'
GitHub: ​​​https://mapp.api.weibo.cn/fx/14ef7a3e0705282d8111a2eb0d214a89.html
开始扎堆了啊,字节跳动12小时前刚发了个新模型——BAGEL-7B-MoT,给大家带来实测!

这是个混合专家多模态模型,支持视觉理解,文本到图像生成,图像编辑,并且思考模式可以选择开启。官方说要比 Qwen2.5-VL 和 InternVL-2.5 表现好。这个模型本身是基于 Qwen2.5-7B-Instruct 和 siglip-so400m-14-98 ​​​https://mapp.api.weibo.cn/fx/6a64db4262d24a225e5441c7f6d77cb7.html
微软宣布Windows Subsystem for Linux(WSL)开源啦。[哆啦A梦吃惊]
项目主地址: github.com/microsoft/WSL
WSL2中使用的 Linux 内核源代码: github.com/microsoft/WSL2-Linux-Kernel
图形界面支持: github.com/microsoft/wslg
后面两个项目是之前就已经开放了。还有一篇介绍背景的博客: ​​​https://mapp.api.weibo.cn/fx/fc88820982833f6f6906dd13eb37dd69.html
Back to Top