AI 日报

ai项目工具JetMoE-8B是一款基于稀疏激活架构的AI模型,其出色的性能和低廉的训练成本(不到10万美元)令人瞩目

  • By admin
  • Apr 18, 2024 - 2 min read



JetMoE-8B是一款基于稀疏激活架构的AI模型,其出色的性能和低廉的训练成本(不到10万美元)令人瞩目。更值得一提的是,它的性能甚至超越了知名的LLaMA2-7B、LLaMA-13B以及DeepseekMoE-16B模型。
性能超越LLaMA2-7B!AI模型JetMoE-8B训练成本不到10万美元

JetMoE-8B的结构由24个组件块构成,每一块都融入了两个MoE层:注意力头混合(MoA)和MLP专家混合(MoE)。每一层MoA和MoE都配备了8位专家,且针对每个输入指令,仅有2位专家被激活。这种设计独辟蹊径,有效地降低了计算成本,同时维持了出色的性能。

值得注意的是,虽然JetMoE-8B的总参数量高达80亿,但由于其架构设计独特,每个输入指令激活的参数实际上只有大约22亿,从而大幅降低了整体计算负荷。

另外值得一提的是,JetMoE-8B的训练完全基于公开数据,并且其训练过程和代码都是开源的,这为AI研究和应用提供了极大的方便。

在Open LLM排行榜采用的相同评估标准下,JetMoE-8B的性能超越了LLaMA2-7B、LLaMA-13B以及DeepseekMoE-16B,这充分证明了其高效性能。

与此同时,相较于具有相似训练和推理计算需求的模型(例如Gemma-2B),JetMoE-8B展现出了更加出色的性能。这既凸显了它在性能上的卓越,也显示了它在成本效益方面的明显优势。

panda e ai项目工具,ai网址导航,ai技术学习,ai使用教程,ai大模型,ai算法,ai数据集,ai绘画,ai视频,ai插件想要了解更多或应用此模型,请访问:https://huggingface.co/jetmoe/jetmoe-8b