2026年5月8日,在2026移動云大會主論壇上,中國移動發(fā)布移動模型服務(wù)平臺MoMA。
平臺接入超300款業(yè)界主流AI模型,模型豐富度行業(yè)領(lǐng)先,首創(chuàng)Token集約化運(yùn)營模式。移動云總經(jīng)理孫少陵介紹,MoMA接入MiniMax、豆包、GLM等多類模型,統(tǒng)一API調(diào)用,支持大小模型協(xié)同與多維策略調(diào)度,提供普惠、精品、機(jī)密三檔Token服務(wù)。
該平臺構(gòu)建了“一次接入、智能優(yōu)選、普惠可用、安全可信”的一站式模型服務(wù)體系。平臺提供統(tǒng)一API網(wǎng)關(guān),用戶一次接入即可調(diào)用平臺全部模型資源。目前已接入中國移動自研“九天”基座大模型,以及DeepSeek、通義千問、豆包、Kimi、GLM等業(yè)界優(yōu)質(zhì)模型,覆蓋文本生成、語音處理、多模態(tài)理解等多項(xiàng)能力。
MoMA首創(chuàng)智能路由引擎,可自動分析用戶需求,靈活切換“成本優(yōu)先”“效果優(yōu)先”“均衡優(yōu)先”三種策略。當(dāng)模型出現(xiàn)超時(shí)、限流或故障時(shí),平臺可自動實(shí)現(xiàn)秒級切換。
在成本控制方面,MoMA基于國產(chǎn)算力部署自研推理引擎,結(jié)合智能路由對長尾模型資源調(diào)度,實(shí)現(xiàn)單位Token成本壓降約30%,降低資源占用率50%以上。推理引擎通過深度調(diào)優(yōu)算子、國產(chǎn)多芯適配、PD異構(gòu)分離、KV緩存池化等技術(shù),實(shí)現(xiàn)吞吐量提升20%、時(shí)延降低40%、成本降低30%。平臺實(shí)施流式實(shí)時(shí)計(jì)費(fèi),用戶使用Token計(jì)費(fèi)端到端時(shí)延不超過1分鐘,實(shí)現(xiàn)“即用即付”。
在安全方面,MoMA推出“機(jī)密模型”服務(wù),將模型部署在機(jī)密容器中,基于硬件隔離技術(shù)保障計(jì)算過程的數(shù)據(jù)安全,覆蓋從芯片到應(yīng)用的全鏈路機(jī)密計(jì)算。中國移動董事長陳忠岳表示,公司已將通信服務(wù)、算力服務(wù)、智能服務(wù)明確為主業(yè)。會上還披露了布局吉瓦級AI數(shù)據(jù)園區(qū)、開放萬億級Token服務(wù)體驗(yàn)包等計(jì)劃。中國移動將不斷提升移動模型服務(wù)平臺MoMA服務(wù)質(zhì)效,攜手產(chǎn)業(yè)伙伴推動人工智能更加廣泛、高效、安全地服務(wù)經(jīng)濟(jì)社會發(fā)展。