虎牙VAM 1.0是什么虎牙VAM 1.0(Vivid Avatar Model)是虎牙推出的基于DiT架构的实时多模态数字人基础模型,一张照片可生成能说话、能唱歌跳舞的AI数字人。模型以480×83
LongCat-2.0是什么LongCat-2.0 是美团开源的大规模 MoE 语言模型,拥有 1.6 万亿总参数,每 token 激活约 480 亿,基于 AI ASIC 超算集群完成训练与部署。模
RedKnot是什么RedKnot 是小红书开源的长文本 LLM 推理加速引擎,将 KV Cache 按注意力头维度解耦,离线分类为需全局重算的全局头与可局部复用的局部头,配合 SegPagedAtt
Unlimited-OCR是什么Unlimited-OCR 是百度推出的端到端长文档 OCR 模型,通过 Reference Sliding Window Attention机制将解码器 KV cac
MMSkills是什么MMSkills 是上海交通大学与小红书联合推出的面向通用视觉 Agent 的多模态技能框架,支持将可复用技能从纯文本步骤扩展为包含文本流程、运行时状态卡片和多视角关键帧的多模态
Ornith-1.0是什么Ornith-1.0 是 DeepReinforce 团队推出的专为 Agentic 编程任务设计的开源大模型系列,模型基于 Gemma 4 与 Qwen 3.5 预训练基座
PhoneBuddy是什么PhoneBuddy 是腾讯混元团队开源的 4B 参数手机 Agent 模型,核心研究如何在真实手机场景中训练可用的 AI Agent。模型采用真实 App + Mock A
SkillOpt是什么SkillOpt是微软开源的Agent技能文档优化工具。工具将深度学习训练逻辑引入文本空间,把skill.md视为可训练参数,通过轨迹分析生成编辑方向,用文本学习率约束有界修改,
GPT-5.6是什么GPT-5.6 是 OpenAI 推出的最新一代大语言模型,目前受美国政府监管要求仅以”有限预览”形式向少数可信合作伙伴开放。系列首次采用天文学命名体系,推出三档型号:旗舰版 So
Penpot是什么Penpot 是开源的设计与代码协作平台,基于 SVG、CSS、HTML 等开放标准构建,可在浏览器中完成 UI 设计与交互原型制作。平台支持多人实时协作、W3C Design To
Mistral OCR 4是什么Mistral OCR 4 是 Mistral AI 推出的最新一代文档理解模型。模型支持从 PDF、图片、演示文稿等复杂文档中提取文本,能返回带边框定位、区域类型分类
HTML Anything是什么HTML Anything 是 nexu-io 团队开源的 Agent 时代 HTML 编辑器,内置 75 套 Skill 模板覆盖杂志、演示、海报、小红书卡片等 9