微软发布全新的 MAI 模型Microsoft's new MAI models
微软最新发布了两款文本大语言模型 MAI-Thinking-1 和 MAI-Code-1-Flash。MAI-Thinking-1 专注于推理任务,拥有 1T 总参数量和 35B 激活参数,目前仅向特定早期合作伙伴开放。MAI-Code-1-Flash 则专为 GitHub Copilot 等编程场景构建,总参数量为 137B,激活参数为 5B。这两款模型的发布标志着微软在自研大模型架构上的进一步探索与发力。
Simon Willison
微软今天早上发布了两款全新的文本 LLM —— MAI-Thinking-1(推理模型,1T 参数,35B 激活参数,面向“部分早期合作伙伴”提供)和 MAI-Code-1-Flash(137B 参数,5B 激活参数,“专为 GitHub Copilot 和 VS Code 打造,以提供高性能和更低成本 [...] 目前正逐步向 Visual Studio Code 的 GitHub Copilot 个人用户推出”)。我目前还没能亲自试用这两款模型。
看到微软发布参数量如此低的模型非常有意思,尤其是考虑到目前调用大型模型的成本非常昂贵。他们声称 MAI-Thinking-1“在我们进行的人类双盲并排评估中优于 Sonnet 4.6”,这对于一个 35B 的模型来说令人印象深刻,因为我经常在自己的笔记本电脑上运行比这更大的模型。(更新:我在这点上完全弄错了,请参阅下方的说明。)
另外值得注意的是:
我们在 Enterprise 级别、干净且具有商业许可的数据上从头开始训练了 [MAI-Thinking-1],没有使用第三方模型进行蒸馏。
MAI-Code-1-Flash 也是如此:
它由微软使用干净且经过适当授权的数据进行端到端构建。
我非常想了解更多关于这种“经过适当授权”的数据!这会不会是首批没有使用未经授权的网络抓取数据进行训练的通用代码专家模型?(更新:答案是否定的,请参阅下方的说明。)
更新:我最初发布的笔记弄错了模型的大小。我误读了微软的公告,将 MoE(混合专家模型)的激活参数量当成了总参数量,但 MAI-Code-1-Flash 的模型卡片显示其总参数为 137B、激活参数为 5B,而 MAI-Thinking-1 的技术论文则显示它是一个总参数 1T、激活参数 35B 的模型。
我对这个错误深表歉意。
更新 2:该技术论文从第 80 页起详细描述了训练数据。它和所有其他主流 LLM 一样存在许可问题:它是基于对公共网络的抓取数据进行训练的:
我们的网络 HTML 语料库大部分来自专有抓取。在初始的页面发现和选择之后,大约抓取并解析了 1.2 万亿个页面。[...] 除了微软标准政策第 2.4 节外,我们还应用了 UT1 黑名单 (Prigent, 2026) 来移除成人内容和与盗版相关的域名。总体而言,这些过滤将语料库从 1.2 万亿个页面减少到了 7940 亿个页面。鉴于网络上 AI 生成内容的普遍存在,我们还使用专有的 AI 内容检测模型对页面进行评分,并通过人工检查来识别包含大量 AI 生成内容的域名;这些域名会被从训练语料库中过滤掉。 [...] 我们使用相同的流程处理 Common Crawl。[...] 在经过过滤、去重、与专有网络语料库合并,以及最后一轮的精确 URL 和内容级模糊去重之后,Common Crawl 部分包含了 242 亿个页面。
我对这件事的报道做得一点也不好,这多少有些讽刺,因为我在写这篇文章时正坐在 Microsoft Build 大会的现场!很抱歉在发布最初的笔记之前没有进行更深入的挖掘。
需要完整排版与评论请前往来源站点阅读。