AI创业者的窘境:大模型的能力边界和OpenAI的演化

新知榜官方账号

2023-11-28 06:00:29

背景

前不久,原阿里首席AI科学家贾扬清的一条朋友圈截图四处流传。贾扬清说,他的一个朋友告诉他,某国产大模型不过是LLaMA架构,只是更换了几个变量名而已。很快有好事者发现,在大模型、数据集开源社区HuggingFace上,就有一位开发者发出了类似质疑:“该模型使用了MetaLLaMA的架构,只修改个tensor(张量)”。

LLaMA是Facebook母公司meta旗下开源免费商用的开源大模型。贾扬清的朋友圈之所以流传,很大程度是因为其戳破了AI圈一个人人皆知的秘密:所谓的自研大模型,其实“水分”很大。一位投资人曾对「暗涌Waves」说:两个月就上线一个大模型,“想想就不对不是嘛”。

早在今年五月的Waves大会上,中国人民大学高瓴人工智能学院卢志武教授就指出,所谓“国产大模型的春天”,不过是很多公司在“微调国外底座模型”的假象。尽管从现实来看,微调似乎是不得而为之的。原因可以很宏观:openAI如此凶狠,除非你能超越它,否则做半天,很可能也不值钱,甚至不如开源。

原因也可以很具体:这是一个没有两三亿美金几乎上不了牌桌的游戏,让一个初创公司从头训练大模型几乎是痴心妄想。昨天的讨论中,青年AI学者符尧也在一个群中表达了自己的理解,他认为“如果因为架构不变而批评一个模型没有创新,这样的批评对任何一个模型都是不公正的”,因为所有的模型都是在前者的基础上接力完成的,“每个模型架构基本都大同小异,但效果完全不同”。有投资人表示,在HuggingFace上,架构一样但名字不同的模型的确很多,因为大部分改动的是训练方法以及数据配比。

贾扬清在后来的声明中也进一步解释道:他批评的并不是模型架构不改变,但是生生改了个名字。改名会带来的麻烦是,原来适配LLaMad的代码可以用,而现在则要做大量工作来适配新名字。这起风波或许偶然,但也呈现出了在追赶OpenAI过程中,速度的紧张与边界的模糊。对于中国的AI创业者——尤其是应用型创业者来说,作为新一代AI技术的追随者,他们正在进入的是一种前所未有的难以与OpenAI区分“你我”的模糊地带。

问题

怎样才是更有道德的“抄作业”?在瞬息万变的创新生态里,往往都是迅猛且边界混乱的,过度“苛求规范”,某种意义的确会影响效率甚至扼杀创新。但即便如此,也应存在底线。就像在最早那条朋友圈的最后,贾扬清发出的具体请求:各位大佬,如果你们就是开源的模型结构,求高抬贵手就叫原来的名字吧,免得我们还要做一堆工作就为了适配你们改名字……保留原来的名字、或者多加个声明,就是这个时代里一份难得的体面。

出路

在当下,一个中国AI创业者、尤其是应用类公司,该怎样找到解法?一个乐观者会告诉你,大模型一定分地域的,所以中国的大模型与OpenAI并不一定有直接竞争。其次,那些基于AI的原生应用、社区以及掌握垂直场景、数据的公司,也会存在回旋的余地与大口呼吸的空隙。事实上,很多应用层创业者,也都来自教育、医疗、游戏等垂直领域。AI的进展也在进一步引燃自动驾驶、电动汽车、机器人等领域。很多人提到“数据壁垒”之说:一种是垂直行业非公开数据积累,而ChatGPT主要是泛行业的公开数据;一种是用户私有数据的积累,“了解越多,就越懂你”。这个逻辑大概率是成立的。因为在未来的垂直场景、数据的争夺战中,必然会迎来掌握崭新技术的AI创业者与手握数据和客户资源的传统企业服务公司、垂直领域龙头公司的一场厮杀。

对于中国的AI创业者,要想在这个领域立足,需要掌握垂直场景和数据,并抓住数据壁垒的机会。同时,也需要不断学习、不断创新,以应对技术和市场的变革。

本页网址:https://www.xinzhibang.net/article_detail-21246.html

寻求报道,请 点击这里 微信扫码咨询

关键词

AI创业者 大模型 OpenAI

分享至微信: 微信扫码阅读

相关工具

相关文章

相关快讯