RockAI,一群要替代Transformer的中国年轻人

0次浏览     发布时间:2025-05-04 16:15:00    

在“百模大战”打得不可开交的时候,一家成立于2023年6月的中国AI初创企业试图掀翻2017年谷歌提出的Transformer架构,深入更底层做创新。

Transformer是目前主流生成式AI所采用的架构,包括引发这一轮AI热潮的ChatGPT在内。谷歌发布Transformer架构的论文标题说,注意力即为一切(Attention Is All You Need)。

这家名为RockAI(岩芯数智)的中国企业却想通过架构创新,减少冗余计算和算力消耗,要“让世界上每一台设备拥有自己的智能(Make every device its own intelligence)”。

不到两年,他们取得了不错的进展。RockAI做出了Yan架构,在2024年1月发布中国首个非Transformer架构Yan1.0大模型,之后将其迭代至多模态Yan1.3版本,可高效处理图文、语音等多模态信息,适配树莓派、无人机、机器人、PC、手机等各类终端设备,在弱网环境、硬件和算力不那么高的条件下实现端侧智能。

在RockAI位于上海的办公室,在一个全开放式办公区里,坐着他们的全部团队约60人。这一群极客少年工作起来十分投入,叫他们名字时通常会被置若罔闻,必须得拍一下肩膀,对方才可能反应过来。

2025年3月底,南方周末研究员在这里见到了RockAI的两位联合创始人刘凡平、邹佳思。温和、内敛,甚至还有些斯文,他们的外表和谈吐,实在不像是喊出如此张扬口号的野心勃勃的创业者。

实际情况便是如此。他们曾在互联网大厂里从事过搜索、游戏开发工作,还有过短暂的小型创业经历,在二三四五网络科技股份有限公司(以下简称“二三四五”,岩山科技(002195.SZ)前身)共事期间一起优化Transformer,穷尽各种可能之后,他们一拍即合,决定创业,建自己的AI架构。

“如果以前是‘软件定义硬件’,那么未来则是‘智能定义硬件’。”RockAI创始人、CEO刘凡平对南方周末表示,智能终端是走向通用人工智能(AGI)的“最优载体”,它的形态将根据需求千变万化,扮演真正的“变形金刚”(Transformers)角色。

就像ChatGPT引爆生成式人工智能革命,DeepSeek颠覆“算力霸权”,Yan架构和它所处的中国制造生态,能否带领群体智能走向AGI?

从底层架构革新

南方周末:你们最早什么时候意识到大模型的效用?

刘凡平:从外界来看大模型好像近两年才爆发,但我们所学专业和工作经历都与算法高度相关,在相关技术最初出现时就有感知,2019年团队做搜索推荐业务时就想用Transformer架构解决问题。几次尝试,发现有效果。

南方周末:“有效果”具体是指什么?

刘凡平:大模型可以改善业务。二三四五当时有个业务叫信息流,就是屏幕下划不断刷新新闻资讯,但有的读者点进去发现浏览全文太长了。我们做了摘要生成的功能,帮助读者了解文章要点,这是大模型早期的典型应用之一。

南方周末:独立创业后,为什么在2023年又回到岩山科技?

邹佳思:2022年初我们刚创业的时候,外界对大模型的感知很弱,很多人不理解,团队主要靠自有资金发展。在寻求投资的过程中,正好遇上岩山科技的实控人变更和AI转型,双方在大模型的理念和认知上一拍即合:岩山科技提供平台和资金支持,而我们也能加快非Transformer架构的研究和落地。

南方周末:ChatGPT爆火之后,2023年成立了很多大模型公司,但多数是基于Transformer架构。你们怎么想到从底层架构介入这个赛道?

刘凡平:我们不是突然想做架构,而是经历了无数试错过程。刚刚提到在二三四五做的大模型确实有效果,可是随后就出现一系列逻辑和幻觉问题。比如明明训练的是“1+1=2”,到了计算环节就变成“1+1=3”。

起初,我们希望改进Transformer架构,尤其是自注意力机制,希望它效率更高、幻觉更少。经过很多次尝试效果甚微,大家便决定干脆革新架构。

南方周末:初创公司一开始就从架构切入,这看起来非常有挑战。

邹佳思:创业过程中其实一直都在“踩坑”。因为架构革新是从0到1的过程,需要耗费大量精力证明效果。2022年初以来,Yan架构已经迭代几十次,直到2024年1月1.0版本才相对稳定,整整花了两年时间,这个过程中需要大量的实验和理论相互验证。

南方周末:AI人才很贵,你们最早怎么组的团队呢?

刘凡平:早期团队只有十几个人,招聘是非常难的,主要是靠“忽悠”前同事和朋友。后面产品逐渐成熟,才有了社招同事和应届生,形成了现在包括算法、工程、产品、市场的不同角色团队。我可以自豪地说,我们成立以来团队离职率是0。大家都属于“极客少年”风格,真正热爱这个行业,这也是我们选人的重要标准。

为什么是“非主流”?

南方周末:你怎么看Transformer架构出现的幻觉问题?

刘凡平:我觉得有三方面的原因:第一是数据依赖性与数据偏差,例如训练数据可能在某些主题或领域上更加密集,而在其他方面则相对稀疏,导致模型在不熟悉的领域生成不准确的信息;第二是缺乏对现实世界的直接理解,Transformer模型处理的是计算机表示的符号,不能完全理解此类符号所代表的现实世界概念,模型在生成内容时无法像人类一样通过感官经验或逻辑推理来验证信息的真实性;第三,生成式模型的本质是概率选择,每一个分支下都有很多种可能。

南方周末:这要如何解决?

刘凡平:我们正通过“类脑激活机制”尝试解决,一方面从数据层面缓解,减少算力依赖;另一方面研究具有更强知识表示能力、记忆能力的模型。在同等小参数量的情况下,Yan 1.3版本的幻觉是低于Llama 3的。

南方周末:“类脑激活机制”是怎么运作的?

刘凡平:Transformer架构即使计算“1+1”这类简单问题,所有参数也会参与运算;基于Transformer的MoE(混合专家)模型缓解了算力消耗过高,但未从根源上解决。

相比之下,人类大脑更加高效,可以根据实际情况选择性激活神经元的某些部分,比如视觉皮层会在你开车时被大量激活,睡觉时只被激活少量。同理,Yan大模型基于仿生神经元驱动的选择算法,也会按照具体问题决定哪些参数参与计算。

形象来说,如果你想从浦西到浦东,可以选择十几座跨江大桥通过。Transformer梳理每一座桥的可行性然后做出选择;MoE调用合适的大桥,其他不去选择;Yan则是在浦西到浦东之间安排一艘快船,船的大小视具体情况而定。

南方周末:意识到Transformer痛点的不只是RockAI,微软、Meta也在做ReNet、Mega等新的架构,你们作为初创公司也做新架构,是怎么考虑的?

刘凡平:一方面,我们经历了从理解Transfomer、改进Transfomer到放弃Transfomer的全过程,最终才决定改变架构;另一方面,这其实反映了跟风创业和主动创业的差别:2023年以来,多数大模型公司都是基于开源代码打造产品,这是比较容易高效产出的,但核心技术不在自己手上。我们希望从底层参与模型搭建,把大模型做扎实。

南方周末:你们从一开始就笃定Yan架构可以做大吗?

刘凡平:从技术发展的视角,AI行业每一次的大起大落,都是算法层面发生革新——反向传播算法、神经网络、深度学习……AI终局远未到来,没有某种算法能够永远持续下去,我们不能肯定Yan架构是AI算法的未来,但它确实是另一条可选路径。

南方周末:除了技术可行性,商业化方面是怎么考虑的?

邹佳思:这就回归到RockAI的成立初衷——“让世界上每一台设备拥有自己的智能”。我们最初的想法是实现智能终端普惠,不论在中国几线城市、世界哪个国家。

端侧直到今天还没有爆发,原因之一就是对高算力和联网的依赖,导致设备容易延时、成本过高、适配性不佳等问题。从底层大刀阔斧创新,我们可以让大模型在更广泛的终端跑起来,对于手机、PC、机器人、穿戴设备都有更大的吸引力。

“智能定义硬件”

南方周末:为什么会提出“让世界上每一台设备拥有自己的智能”的目标?

刘凡平:人工智能无论如何发展,终端都是最基础的载体。现阶段,人们办公或者休闲依赖于手机、电脑和穿戴设备等;未来,终端设备不只是提供这些服务,而且会被AI改变。每一台设备拥有自己的智能,从而实现“群体智能”,机器文明才会到来。

邹佳思:很多大模型公司都在说追求AGI,但对AGI最终的呈现形式并不清楚。我们认为智能终端是走向AGI最好方式之一,真正做到千人千面。

南方周末:想要达成这个目标,目前最紧迫的事情是什么?

刘凡平:我们希望Yan大模型可以尽快应用起来。不过,目前市场对我们不太“友好”,大家没有真正了解底层架构,把主流大模型的一些问题理解成通病,让市场理解我们的架构确实需要一个过程。

南方周末:Yan大模型已经搭载于很多终端,你们是怎样推进合作的?

邹佳思:会有手机、PC和机器人厂商主动找到我们。消费电子已经处于红海市场了,行业格局也基本固定,每家厂商都希望AI大模型成为新的爆发点。一些头部厂商倾向自己做,但是端侧离线模型的门槛还是比较高的。

刘凡平:比如在2024年7月世界人工智能大会上,有个合作伙伴看到了RockAI展台的PC和机器人,于是和我们联系,而我们的样机是随时可以体验的,很快就达成了合作意向。这个合作伙伴做出海市场,有些国家的网络基础设施比较差,有些国家很注重个人隐私,需要端侧AI能力。此外。他们的产品定位下沉市场,设备没有多高的算力支撑。这些挑战刚好能被Yan架构大模型满足。

南方周末:既然你们这么看好终端智能,为什么没有考虑自己做?

刘凡平:时间还没到。如果说以前是“软件定义硬件”,那么未来就是“智能定义硬件”——智能化水平决定终端形态。从这个角度看,大家会更理解为什么具身智能发展似乎是“既快又慢”,因为智能化程度还没有完全匹配。

随着技术迭代,一定会有新的终端形态产生。我们作为AI公司,希望决定硬件的设计和生产过程,探索面对不同场景的最终形态。我们预计今年会继续推进与外部厂商合作,明后年可能布局硬件市场。

南方周末:市场有耐心等吗?RockAI两年时间积累的技术护城河能持续多久?

刘凡平:我们是有信心的。模型架构与传统的软硬件不同,底层架构的算法逻辑是很难模仿的,不是说看到某款产品不错就可以直接“套壳”或者“复制”。探索算法架构需要一个相当长的过程,少则两三年。

南方周末:头部科技企业具备资金和人才优势,不会迭代出自己的底层架构吗?

刘凡平:当然可能。人工智能赛道未到终局,企业之间的竞争就会持续下去。谁都无法保证坚持到最后,至少目前我们是跑在前面的。此外,技术护城河很重要,从业者同样重要,有能力和热爱,像我们一样在外界看不懂的情况下坚持坐“冷板凳”。

AGI还有多远?

南方周末:在RockAI的设想中,智能终端爆发的关键是什么?

刘凡平:现阶段人们对智能终端感受不深,是因为主流大模型采用预训练形式,并不具备自主学习能力,比如ChatGPT可以写作,但是很难模仿作者的风格,只能按照自己学过的知识尽量贴近。

目前,我们正在推进“训推同步”方法,即训练与推理过程同时进行,类似于人际交流:当一个人表达观点时(推理阶段),同时能倾听信息自我学习(训练阶段)。自主学习能力会在今年底发布的Yan 2.0版本中呈现。

南方周末:具备自主学习能力的设备,要如何应对伦理和监管问题?

刘凡平:我们归纳起来有两个问题需要解决,一是“哪些该学”,比如对机器输入“黄赌毒”信息,它不应该去记忆;二是“哪些该说”,机器人在家和用户聊天涉及很多隐私,不应该在他人面前暴露。模型具备自主学习能力后,它的后续发展很难控制,也许出厂阶段合规,与用户接触后变得不合规。这些都有待监管。

南方周末:所以,你们如何规划Yan 2.0的落地方式?

刘凡平:核心前提还是解决“哪些该学”和“哪些该说”,比如我们考虑过把涉及敏感信息的参数固化下来,拒绝一切“不该学”和“不该说”的信息,但是这样会降低它的学习能力。

邹佳思:我们计划以一种“功能”的形式对外发布Yan 2.0,而不是模型形式,例如将Yan 2.0搭载于某种机器人上。它可以通过音视频的输入学习向左、向右的指令,但是接受到非法指令时功能就会被阻断。

南方周末:自主学习之后,大模型是不是就具备了AGI能力?

刘凡平:自主学习是AGI的一个前提。当大模型自主学习,并且能与其他设备相互学习,就可以不断提升自己的各项能力,意味着“群体智能”时代的到来。每个智能终端的能力都得到提升,才是我们设想中的AGI,而不是打造一个万能机器。

例如在六人团队之中,两个人擅长媒体,四个人擅长金融,他们之间可以相互学习。一个月后,擅长金融的人具备媒体人60%的能力,擅长媒体的人则具备金融人60%的能力,整个团队的综合实力就能增强。

南方周末:“群体智能”的最终意义是什么?

刘凡平:具备自主学习的若干智能单元,通过环境感知、自我组织、互动协作共同解决复杂问题,并在不断变化的环境中实现整体智能提升。

邹佳思:“群体智能”也是为了提高生产力。信息流通是生产力进步的关键一环,而人类语言、文字沟通的效率都很低,容易表达不清或造成误解。我们希望达成“群体智能”的设备就像“三体人”,自身进化和彼此交流都很快。

南方周末研究员 曹妍

责编 黄金萍

相关文章

  • RockAI,一群要替代Transformer的中国年轻人
    在“百模大战”打得不可开交的时候,一家成立于2023年6月的中国AI初创企业试图掀翻2017年谷歌提出的Transformer架构,深入更底层做创新。Transformer是目前主流生成式AI所采用的架构,包括引发这一轮AI热潮的ChatGPT在内。谷歌发布Transformer架构的论文标题说,注
    2025-05-04 16:15:00
  • 特斯拉:坚持视觉处理方案,让人人买得起安全智能的产品
    IT之家 5 月 4 日消息,特斯拉官方微博今日发文称,“坚持视觉处理方案,让人人买得起安全智能的产品。”特斯拉称,特斯拉视觉处理方案和端到端神经网络,以及数十亿真实世界数据样本训练,实现多场景、更安全的智能驾驶路径,“特斯拉用实力证明,先进的技术不需要昂贵繁杂的传感器。”上个月,特斯拉 CEO 埃
    2025-05-04 13:07:00
  • 报效祖国 建功西部丨从“象牙白塔”到“西部热土”——西部计划志愿者画像
    新华社北京5月3日电题:从“象牙白塔”到“西部热土”——西部计划志愿者画像新华社记者董博婷、齐琪、唐健辉青春,应该在哪里用力、对谁用情、如何用心?这青春的命题,引一代代青年上下求索。其中,有那么一批人,用热血战胜困难,用奉献传递希望,用岁月书写无悔。五四青年节到来之际,让我们走近西部计划志愿者,倾听
    2025-05-04 11:32:00
  • 节日我在岗 | 爱为药引 为基层百姓熬制健康“良方”
    “赵医生医术好又有耐心,每次看病都给我讲得明明白白!”在九原区赛汗街道社区卫生服务中心说到中医科赵涛,居民们总是不住地夸赞。“五一”假期,当大多数人或是奔赴山川湖海开启一场惬意旅行,或是与亲友相伴享受悠闲时光时,赵涛依然坚守工作岗位,耐心细致地为每一位前来就诊的患者提供医疗服务,用实际行动诠释医者担
    2025-05-03 17:36:00
  • 济南凌晨四点半的劳务市场:微光里藏着最朴实的奋斗身影
      凌晨四点半,夜色还未完全褪去,济南全福立交桥下的劳工市场,却早已人声鼎沸。  “我四点多就来了,现在活不是很多,早早就来等了!”一位背着工具包的大哥在路边徘徊着,等待招工人的到来。昏黄的路灯散发着微弱光芒,照亮了一张张饱经生活磨砺的脸庞,大家焦急地等待着,期盼今天能有一份工作换取报酬。  记者随
    2025-05-01 10:39:00