普通高中教师打造40亿美元独角兽的背后

新知榜官方账号

2023-07-03 10:26:41

普通高中教师打造40亿美元独角兽的背后

舒曼是一位普普通通的高中教师,却创立了LAION数据集,成为生成式AI的浪潮推动者。他在德国汉堡市的高中教物理和计算机科学,两年前他创立了LAION,如今被用于各种生成模型,包括谷歌Imagen、Parti,以及惊艳全球的StableDiffusion。本文讲述他的故事。

创造LAION

OpenAI发表了背后关键模型CLIP的论文,CLIP在4亿个图像-文本对上进行了预训练。由此可见数据集对于CLIP的重要性,但OpenAI并没有进行公开,它只开源了CLIP的代码和模型权重。舒曼就开始在Discord网罗了一群同为AI爱好者的朋友,尝试复制OpenAI同等水平的「文本-图像对」数据集。没想到这一搞就搞了大半年,直到2021年8月他们首次发布了LAION-400M数据集,里面包含了4.13亿图像-文本对。他们用一个非盈利组织CommonCrawl在2014年到2021年期间,抓取的随机HTML代码来定位网络上的图像,并将这些图像与描述性文本联系起来,最后还得根据一定规则来过滤掉不适合的样本。几周之内,他们就拥有了300万对图文对。

LAION的反响

LAION数据集发布之后就收到了各种反响,被用于诸多论文和实验。其中最具代表性的,就是GoogleBrain去年(2022)发布的Imagen——文本生成图像的扩散模型。与此同时,更多机构开始关注到这个非盈利组织并给予资金支持。2021年他们就收到了HuggingFace的一次性捐赠。但印象最深的一次,还要属一个对冲基金经理来到Discord聊天室。当时他二话不说直接送钱,大概意思是:我给你们支付算力费用,没有任何附加条件。如今StabilityAI正在寻求40亿美元(折合276亿元)估值,这主要归功于LAION提供的数据。据彭博社消息,舒曼却并没有从LAION中获利,原因很简单:不感兴趣,希望保持这份工作的独立性。

LAION的争议

LAION被迫卷入两场诉讼之中,一起是StabilityAI与Midjourney等集体诉讼,被指使用艺术家的版权图片来训练他们的模型;另一起是GettyImages起诉StabilityAI,称其1200万张照片被LAION取走,并用来训练StableDiffusion。而舒曼将LAION比作大信息技术海啸之上一艘“小型研究船”,采取海下的样本向世界展示。其实早在构建数据库时,他们就在运行一个自动化过滤工具,不过舒曼感兴趣的不是清理,而是从这些资产中学习。我们本可以从公布的数据中过滤掉暴力,但我们决定不这样做,因为这将加快暴力检测软件的开发。但在舒曼看来,数据集不应该被监控。

本页网址:https://www.xinzhibang.net/article_detail-4854.html

寻求报道,请 点击这里 微信扫码咨询

关键词

LAION 舒曼 数据集

分享至微信: 微信扫码阅读

相关工具

相关文章

相关快讯