Skip to main content

acshame

  1. Andrej Karpathy分享了一个可能更客观的大模型的评估体系:openrouter这种大模型API服务商的排行榜。
    OpenRouter 允许个人/公司在不同的 LLM 提供商之间快速切换 API。它们的应用场景都是真实的(不是玩具问题或谜题),它们都有自己的私有评估,并且它们都有激励机制来确保选择正确,因此通过选择一个 ​​​https://mapp.api.weibo.cn/fx/3de82c66833ba6695f26597dc379d1ce.html
  2. Visual RAG - 基于Gemini 2.5 与多模态嵌入模型(例如 Cohere 最新的 Embed v4)相结合,实现的视觉 RAG↓ 避免将图像转换为 Markdown的过程,直接处理图像视觉。

    - 直接检索和理解复杂图像(幻灯片、图表、图形、信息图)。
    - 跳过容易出现的图像到 markdown 步骤,保留丰富的视觉信息。
    - 将 Ge ​​​https://mapp.api.weibo.cn/fx/025b8ef019b6962c35cc9219efbed699.html
  3. 【[1.1k星]aipyapp:旨在展示 Python-use 概念的实际应用,它允许用户通过两种模式与 LLM 交互:任务模式,适合不熟悉 Python 的用户,可以通过输入任务来使用;Python 模式,适合熟悉 Python 的用户,可以输入 Python 命令。 亮点:1. 支持自然语言描述任务,自动生成Python代码并执行;2. 提供完整的 ​​​https://mapp.api.weibo.cn/fx/e145b4f156a09764064fbce24cc9f7cd.html
  4. 微软发布了Phi-4-reasoning 模型。参数14b,开源推理模型。
    🔗 huggingface.co/microsoft/Phi-4-reasoning
    该模型基于约 140 万条精心筛选的 o3-mini 推理演示数据进行监督微调,并进行了少量强化学习。
    虽然是个小模型但跑分不低,特别是在AIME 25上。能力应该是侧重于数学和推理。

    #AI创造营# ​​​https://mapp.api.weibo.cn/fx/9bc92fe610f79abbd23d330b73ef44a9.html microsoft/Phi-4-reasoning · Hugging Face