Mistral,欧洲大模型,性价比之王
随着企业对生成式人工智能(AI)潜力的认识日益加深,这一技术在全球范围内迅速扩展,预计将对全球GDP产生巨大影响。麦肯锡的报告显示,生成式AI每年可能为全球GDP增加高达4.4万亿美元,基础模型的影响甚至可能覆盖整个经济体。
OpenAI的研究论文表明,随着模型规模、数据量和计算能力的增长,大型语言模型(LLMs)的性能也在提升。由于计算技术的进步及数据可用性和多样性的增加,AI领域已经取得了显著的进展。自1956年以来,计算性能已增长了万亿倍,并预计到2030年,一般计算能力和AI计算能力分别将增加10倍和500倍。
位于法国的Mistral AI是欧洲领先的LLM公司之一,由来自Google、Meta和Hugging Face的顶尖科学家组成的年轻团队领导。Mistral AI专注于开发高效、成本效益更高的大型语言模型,力求性价比。据第三方评估,Mistral 7B型号的成本效率远超GPT-4,大约便宜187倍,且比GPT-3.5便宜约9倍。Mistral AI的产品已广泛应用,其中7B模型的下载量已达210万次,8x7B模型的下载量为33.7万次。其客户群包括知名企业如Brave、法国巴黎银行、Orange和Cloudflare。根据硅谷科技评论(svtr.ai)数据库,Mistral在全球生成式AI独角兽中以50亿美元的估值排名第6位。
一、创立故事
Mistral AI 由 Arthur Mensch(首席执行官)、Timothee Lacroix(首席技术官)和 Guillaume Lample(CSO)于 2023 年创立。他们在大学相识,三人在 2011 年至 2014 年期间都在人工智能领域学习。
Mensch 在他的职业生涯中大部分时间致力于提升人工智能和机器学习系统的效率。他首先在2018年至2020年间作为博士后研究员在法国高等师范学院工作,随后在2020年至2023年间加入谷歌DeepMind,参与了包括RETRO(Google DeepMind 论文,第一个结合 Retrieval 和 LLM 的大模型)和Chinchilla(Google DeepMind 论文,建立了模型数据与参数量的标准)在内的项目。Lacroix和Lample则从2014年至2023年在Meta的人工智能部门工作,他们最初是研究实习生,后来成为博士生和研究员。他们共同撰写了多篇论文,包括2023年2月发表的《开放且高效的基础语言模型》(Open and Efficient Foundation Language Models)。
在2021年,这三位创始人开始讨论他们对人工智能发展方向的看法,他们注意到技术的发展正在加速,并认为有机会采取不同的做法;与其遵循专有模型的方法,他们主张采取开源的方式。在去年年底的一次采访中,Mensch表示Mistral AI的目标是:
在最近采访中,Mensch强调效率是Mistral AI的核心价值,他说:
“我们想成为世界上资本效率最高的人工智能公司。这就是我们的价值所在。在DeepMind 的最大收获是,一个由 5 人组成的团队比一个由 50 人组成的团队更快。除非你将这 50 人组织成 10 个独立的团队,每组 5 人。”
2023年9月,10人不到的小团队Mistral推出了Mistral 7B,这是一个拥有70亿参数的开源人工智能模型,团队声称其性能超过了参数量是其两倍的模型。到2023年12月,法国总统埃马纽埃尔·马克龙对该公司表示赞扬,他说:“向Mistral致敬,这是法国的天才之举。”到2024年1月,Mistral已经聘请了Meta的LLaMA模型背后一半以上的团队成员来开发其开源模型。
二、公司产品
截至2024年4月,Mistral AI开发的基础大型语言模型(LLMs)均为开源设计,采用Apache 2.0许可证,并可免费获取。此外,公司还通过其开发者平台提供“优化”版本的人工智能模型,并根据使用量收费的商业模式进行计费。
1、AI 模型
Mistral 7B
2023年9月公司发布的首个模型。在发布时,Mistral AI声称这个由70亿参数组成的模型在所有标准英语和编码基准测试上超过了“所有当前可用的最高达到130亿参数的开放模型”。
Mistral 7B 能流利地处理英语和编程语言。这个模型采用了Transformer架构,并整合了滑动窗口注意力(sliding window attention)、滚动缓冲区缓存(rolling buffer cache)、预填充与分块( pre-fill & chunking)等技术,从而提升了效率和性能。
滑动窗口注意力可以用一个比喻来解释:想象一个人坐在穿过风景的火车上,但是窗户只允许他们在任何给定时间看到周围几米的景象。随着火车向前移动,他们的视角转移,能够看到新的景色部分,同时失去对已经经过部分的视线。这与滑动窗口注意力类似,模型一次只关注全部数据(如句子中的词语)的一部分。这种方法帮助模型高效处理长序列数据,通过专注于更小、更易管理的数据块,提高速度和资源使用效率,同时不失去进行准确预测所需的上下文。这使得模型更加高效,降低了计算成本,同时允许每个词受到其上下文的影响。
要理解滚动缓冲区缓存,请想象有人在游戏控制台上玩视频游戏。为确保游戏顺畅运行而不出现加载暂停,控制台会保留最新和相关的数据(如即时的游戏环境)在内存中,并随着玩家在游戏世界中的移动,丢弃较旧、不那么相关的数据。滚动缓冲区缓存在计算中的工作原理类似,它存储最近的输入数据,并在新数据进入时,将较旧、较不相关的数据移出缓存。这一过程使系统能够有效管理内存资源,确保只保留最新且必要的数据以便快速访问,这对于处理大量数据而不超出系统内存容量至关重要。
关于预填充和分块,可以想象有人在准备一顿大餐,菜谱中需要许多食材。他们不是边做饭边计量和切割每种食材,而是提前准备好所有东西——切好蔬菜、称好香料等,并将它们分成小的、易于管理的部分(或称为“块”)。这样,到了烹饪的时候,他们可以专注于按正确的顺序结合这些预先准备好的部分,无需暂停去准备每一个。这种方法使烹饪过程更为流畅和高效,确保每个步骤在需要时立即准备好。类似地,在计算上下文中的“预填充和分块”意味着用数据块预先加载模型(“食材”),使处理(或“烹饪”)更加顺畅和高效,无需每次需要新的数据片段时都从头开始处理整个数据集。截至2024年4月,用户可以通过多种方式访问Mistral 7B:(1)直接下载模型;(2) 通过 La Plateforme 使用 Mistral 的 API;(3) 使用命令“ollama run Mistra”在 Ollama 本地运行模型;或 (4) 通过 Hugging Face 访问模型。
Mixtral 8x7B
2023 年 12 月,Mistral AI 发布第二个模型 Mixtral 8x7b。公司称,截至 2023 年 12 月,Mixtral 在“大多数基准测试”上的表现优于 Llama 2 70B,推理速度提高了 6 倍,并且在“大多数标准基准测试”上的表现与 OpenAI 的 GPT 3.5 相当或优于 OpenAI 的 GPT 3.5。
Mistral 8x7B 是一个高质量的稀疏专家混合模型(SMoE,sparse mixture of expert models),拥有开放的权重。可以将 SMoE 想象为一场才艺表演,每位参与者(专家)都拥有独特的技能,而评委(控制决策权重的门控网络)根据观众的当前情绪(输入数据)决定展示哪些表演。不是每次都让所有表演者表演,这样既耗时又无关紧要,而是由评委选择最符合观众兴趣的几个表演,将它们的表现结合起来,创造一个引人入胜的节目。这种方法使节目能够高效地适应不同观众,只使用最相关的才能。这就反映了 SMoE 如何选择“专家”来处理数据。
SMoE 技术在控制成本和延迟的同时增加了模型的参数数量,因为模型每个令牌只使用总参数集的一小部分。因此,Mistral 8x7B 总共有46.7亿参数,但每个令牌只使用130亿参数。所以,这个模型在输入和输出处理上的速度和成本与130亿参数的模型相同。
Mixtral 8x7B 可处理 32K 令牌的上下文,并且精通英语、法语、意大利语、德语、西班牙语和代码。与 Mistral 7B 一样,它在 Apache 2.0 下获得许可并且可以免费使用。截至 2024 年 4 月,Hugging Face 和 Perplexity AI 都允许用户在聊天界面中启用 Mixtral 8x7B,开发人员可以通过 Mistral AI 的 La Plateforme 访问该模型。
Mixtral 8x22B
2024年4月,公司推出第三款模型。这款模型基于1760亿参数构建,具有65000个令牌的上下文窗口,并在Apache 2.0许可证下发布。截至2024年4月,公司网站上尚未提及此模型;Mistral AI 通过在社交媒体平台X上发布的磁力链接宣布了 Mixtral 8x22B 的推出。
2、La Plateforme
La Plateforme 是 Mistral AI 的开发者平台。该平台通过可通过 API 访问的生成端点向开发者提供公司模型的“优化”版本。其目标是为各种用途提供高效的部署和个性化定制。截至2024年4月,La Plateforme 提供了三种“优化”商业模型,每一种都针对特定的性能和成本需求进行了定制:Mistral Small、Mistral Large 和 Mistral Embed。
Mistral Small 提供“针对低延迟工作负载的成本效率推理”。
Mistral Large 提供“顶尖推理”,专为处理高复杂度任务设计。公司称,截至2024年4月,Mistral Large 在所有通过 API 提供的模型中排名第二,提供顶尖的推理能力。
这两个模型都精通英语、法语、意大利语、德语和西班牙语,并且在编程方面也表现出色。它们支持32000令牌的上下文窗口,并具备本地函数调用功能和 JSON 输出能力。Mistral AI 描述这些模型为“简洁、实用、中立,具有完全模块化的审查控制”。
Mistral Embed 是一种“最先进”的语义模型,专为提取文本摘要的表征而设计。该模型能够将文本转换为包含1024维的数学向量,这些高维向量以数字形式表达文本信息,捕捉语义的细微差异,有助于理解和量化不同文本段落之间的相似度。选择1024维度确保了文本的详尽和细致表达,增强了模型处理和分析数据的高精度能力。这种嵌入技术有助于分析大量文本,识别出与特定上下文相关的信息。反过来,这种能力帮助生成模型产生的输出不仅具有上下文感知性,而且高度定制化,以满足应用程序的特定信息需求。
截至2024年4月,Mistral Embed 目前只支持英语,在 Massive Text Embedding Benchmark (MTEB) 上的检索得分为55.26。
3、Le Chat
Le Chat 是 Mistral AI 推出的聊天机器人,功能上相当于 OpenAI 的 ChatGPT,但由 Mistral AI 的基础模型提供支持。自 2024 年 4 月起,Le Chat 可以使用 Mistral Large、Mistral Small 或 Mistral Next,这是一种“设计简洁”的原型模型。自2024年4月起,用户可以免费访问。
Mistral AI 还提供 Le Chat Enterprise,这是一项专为企业设计的服务,旨在“通过自我部署能力和细粒度的审核机制提高团队的生产力”。
三、市场格局
1、公司客户
Mistral AI 的目标是为希望在其产品中实施生成式 AI 的企业提供“性能成本前沿”。根据第三方估计,截至 2023 年 10 月,Mistral 7B 模型比 OpenAI 的 GPT-4 便宜约 187 倍,比 GPT-3.5 便宜 9 倍。截至 2024 年 4 月,Mistral AI 知名客户包括 Lamini、Arcane、Lindy、 Hugging Face、Brave、Cloudflare、Pretto、法国巴黎银行、Orange 和 MongoDB。
2、市场规模
2023年全球人工智能市场规模为1502亿美元,预计到2030年将达到1.35万亿美元,复合年增长率为36.8%。生成式人工智能作为支撑基础模型的技术,每年可为世界经济增加 2.6 万亿至 4.4 万亿美元。
有研究认为,基础模型的潜在市场可能涵盖整个经济。到 2028 年,基础模型将产生 114 亿美元收入。
3、行业竞品
根据硅谷科技评论(svtr.ai)数据库,截止2024年4月底,全球生成式AI独角兽高达22家,其中12家都集中在大模型领域,成立不到1年的Mistral以50亿美元的估值在Gen AI独角兽榜单中排名第6,在所有的大模型公司中估值排名第4,仅次于OpenAI、XAI和Anthropic,是中国大模型独角兽智谱AI、Minimax、月之暗面估值的两倍。值得注意的是,美国三家估值超过百亿美金大模型独角兽,其融资金额都超过70亿元,Mistral当前累计融资不到6亿美元。
成立之初,Mistral AI开发“开放”模型——即该公司的所有模型都可以免费向公众开放,并通过开源许可证进行分发。这种开放模型的策略不仅促进了技术的广泛应用和创新,还支持了更广泛的协作和透明度,允许研究人员、开发者和企业自由地使用、修改和共享这些模型。通过开源,将自己与OpenAI、Anthropic或Google这样的公司开发的是“专有”模型进行差异化竞争。
2024年2月,Mistral从其网站上删除“承诺开放模型”,其创始人最近的一次访谈中表示,这样有机会通过一些商业模式来发展公司业务,此外,这是巩固与云提供商(Azure)的战略关系的好方法。
虽然Mistral 将公司定位为,为生成式 AI 的企业提供“性能成本前沿”。但不容忽视的是,无论是科技巨头还是AI独角兽随着时间的推移和技术的进步,都在不断降本增效,为企业客户提供性价比越来越高的大模型。
OpenAI
成立于2015年,最初是一家非盈利组织,后于2019年转型为盈利公司。以创造生成式预训练变换器(GPT)系列人工智能模型闻名,这些模型在2018年首次推出。公司已经完成了八轮融资,累计筹集资金达到113亿美元,估值超过800亿美元。
OpenAI在成立之初采取开放式的模型开发策略,在2019年11月发布了GPT-2的源代码和模型权重。然而,该公司后来改变了其策略;在2023年3月推出GPT-4之后,联合创始人Ilya Sutskever表示OpenAI在开放模型开发上的做法是错误的。2022年11月推出了其首款面向消费者的产品ChatGPT,两个月内就吸引了1亿月活跃用户。截至2024年4月,该服务的用户总数约为1.805亿,其中每周有1亿活跃用户。
Anthropic
成立于 2021 年,专注于人工智能研究和产品的安全性。公司开发了 Claude,这是一系列封闭式基础人工智能模型,通过一种被称为“宪法人工智能”的方法进行训练和部署,其中训练期间唯一的人类监督是通过一系列规则、原则和道德规范。Anthropic 由前 OpenAI 员工创立,他们因“OpenAI在 2019 年获得微软里程碑式的 10 亿美元投资后,对该集团的方向存在分歧”而离开了 OpenAI创业。截至 2023 年 10 月,该公司在谷歌领投的 20 亿美元企业融资中筹集了 76 亿美元。2023 年 12 月,筹集 7.5 亿美元融资,估值为 184 亿美元。
2024年3月,Anthropic 宣布了 Claude 3 型号系列,其中包括极具性价比的 Haiku, 具有 200k 上下文窗口、图像、视频和文本的多模式功能,支持快速响应的应用场景,例如客户支持、内容审核和物流应用程序。Anthropic之前以成本和性能为重点的模型是Claude Instant 1.2,于2023年8月发布。
Meta AI
成立于 2013 年,开发 LLaMA 系列开源基础人工智能模型。这些模型与 Mistral AI 的模型直接竞争。Meta AI 的 LLaMA 2 7B 和 LLaMA 2 13B 模型与 Mistral 7B 竞争,LLaMA 2 70B 与 Mixtral 8x7B 竞争。尽管 LLaMA 模型被认为比其他模型性能相对较差(截至 2024 年 4 月,LLaMA 2 70B 在 HuggingFace LLM 排行榜中排名第 34 位),但 Meta AI 为人工智能研究做出了重大贡献,包括开发了开源机器学习库PyTorch。
Google AI
自 2014 年收购 DeepMind 以来,谷歌一直在推进人工智能研究,特别是 AlphaGo 等项目以及 2017 年 Transformer 架构的研究论文“Attention is All You Need”。2014 年至 2023 年间,谷歌的人工智能部门被划分为 Google Brain 和 DeepMind。2023 年 4 月,该公司将这些部门合并到 Google AI 品牌下。2023 年 12 月,Google AI 推出了 Bard(于 2024 年 2 月更名为 Gemini),这是一个封闭的基础模型,旨在与 GPT-4 等模型竞争。截至 2024 年 4 月,该公司声称其模型在大多数基准测试中的性能优于 GPT-4。
Cohere
2018年由前Google Brain研究员以及2017年论文《Attention is All You Need》的原始作者之一Aidan Gomez创立,专注于开发针对企业使用优化的开放式和封闭式生成人工智能模型。其专有的大型语言模型(LLMs)通过其API为企业客户提供摘要、文本创建和分类等服务。这些模型设计为可通过用户提供的额外训练数据进行增强。与Mistral AI类似,Cohere也提供了一个名为Coral的聊天机器人助手,以及一个与Mistral Embed直接竞争的嵌入模型,名为Cohere Embed。
2024年3月,Cohere宣布推出Command-R,一款“针对大规模生产工作负载的新LLM”。根据2024年4月的众包LLM排行榜Arena,Command-R位列第六,仅次于Claude 3和GPT-4的不同版本,但领先于Mistral Large和Mistral Medium。截至2024年4月,公司共筹集4.349亿美元的资金,估值达到21亿美元。
四、商业模式
Mistral AI 通过 Apache 2.0 开源许可证免费提供其所有模型。该公司还使用即用即付的商业模式对其产品的“优化”版本进行收费,可通过 La Plateforme 访问。Mistral AI 对每百万个代币(大约 75 万个单词)收取一定的费用;该费用根据模型端点、输入和输出而变化。其定价如下:
公司还对其嵌入 API(Mistral Embed 模型)收取每 100 万代币 0.1 美元的费用。截至 2024 年 4 月,所有端点的速率限制为每秒 5 个请求、每分钟 200 万个令牌、每月 100 亿个令牌。
Mistral AI 还向企业提供 Le Chat 服务,但截至 2024 年 4 月,该服务尚无公开的定价信息。
五、重大进展
截至2024年4月,Mistral AI的收入尚未公开,其首席财务官Florian Bressand指出该公司已经进入了“高速增长”阶段,并且在金融服务、银行业、保险、电信和公共事业等领域拥有重要的客户群。
可以通过在Hugging Face上的下载次数来间接判断Mistral AI产品的受欢迎程度,特别是其开放模型的表现。
截至2023年12月,Mistral 7B模型已被下载210万次;
截至2024年1月,Mixtral 8x7B模型的下载次数为33.7万次。
目前Mistral AI已与两家知名企业建立了显著的合作关系:一家是微软,另一家是Snowflake。
2024年2月,Mistral AI与微软合作,将其开放和商业模型部署在微软Azure平台上。与此同时,微软对Mistral AI进行了1630万美元的投资。
2024年3月,Mistral AI与Snowflake合作,通过将其模型整合到Snowflake的Cortex中,使其模型更易于企业获取。这些合作不仅增强了Mistral AI的市场位置,也提升了其模型的可达性和实用性。
六、公司估值
2023 年 6 月,Mistral AI 在推出四个星期后,完成 1.13 亿美元的种子轮融资,估值为 2.6 亿美元,股东占比接近 50%。由欧洲 LightSpeed 领头,法国的 Redpoint、Index Ventures、Xavier Niel、JCDecaux Holding、Rodolphe Saadé和Motier Ventures,德国的 La Famiglia和 Headline,意大利的 Exor Ventures,比利时的 Sofina,以及英国的 First Minute Capital 和 LocalGlobe 也都参与其中。法国投资银行 Bpifrance 和谷歌前首席执行官Eric Schmidt也是股东。当时在网络渠道公开的Mistral战略备忘录(strategy memo),引起AI和投资圈的极大关注。
2023 年 12 月,筹集 4.15 亿美元的资金,估值达20亿美元。投资方为Andreessen Horowitz、Lightspeed Venture Partners、Salesforce、BNP Paribas、CMA-CGM、General Catalyst、Elad Gil和Conviction。
2024 年 2 月,Mistral AI 与微软建立了分销合作伙伴关系;作为此次合作的一部分,微软向该公司投资 1630 万美元。
截至 2024 年 4 月,Mistral AI 累计融资 5.368 亿美元,投资者包括 a16z、Databricks Ventures、Lightspeed Venture Partners 和微软。
七、概括总结
Mistral AI 旨在通过开发 OpenAI 和 Google 等公司创建的专有模型的开源替代品来塑造人工智能的未来。该公司还强调创建高效且具有成本效益的模型,并致力于透明度和可访问性。这种方法可以帮助 Mistral AI 扩展到人工智能技术尚未显著渗透的市场,例如新兴经济体和中小企业。随着可用数据和计算能力呈指数级增长,Mistral AI 可以进一步增强其人工智能模型的性能和效率。然而,人工智能监管,特别是欧洲人工智能监管,以及人工智能人才供需差距的扩大是其面临的挑战。
硅谷科技评论(svtr.ai)AI创投社区覆盖人数超过10W,其中AI从业者超过10000人,大都来自全球科技大厂、顶尖投资机构和高潜创业企业。如果您有兴趣加入,或者成为我们的导师、顾问或是创业合伙人等,欢迎联系凯瑞(pkcapital2023),与一群志同道合的伙伴一起构建。文末扫码访问AI数据库和社群通讯录。
AI周报:
001 | 002 | 003 | 004 | 005 | 006 | 007 | 008 | 009 | 010 |
011 | 012 | 013 | 014 | 015 | 016 | 017 | 018 | 019 | 020 |
021 | 022 | 023 | 024 | 025 | 026 | 027 | 028 | 029 | 030 |
031 | 032 | 033 | 034 | 035 | 036 | 037 | 038 | 039 | 040 |
041 | 042 | 043 | 044 | 045 | 046 | 047 | 048 | 049 | 050 |
051 |
AI创投
+
AI行业
+
AI公司
+