新知榜官方账号
2023-07-03 10:26:41
舒曼是一位普普通通的高中教师,却创立了LAION数据集,成为生成式AI的浪潮推动者。他在德国汉堡市的高中教物理和计算机科学,两年前他创立了LAION,如今被用于各种生成模型,包括谷歌Imagen、Parti,以及惊艳全球的StableDiffusion。本文讲述他的故事。
OpenAI发表了背后关键模型CLIP的论文,CLIP在4亿个图像-文本对上进行了预训练。由此可见数据集对于CLIP的重要性,但OpenAI并没有进行公开,它只开源了CLIP的代码和模型权重。舒曼就开始在Discord网罗了一群同为AI爱好者的朋友,尝试复制OpenAI同等水平的「文本-图像对」数据集。没想到这一搞就搞了大半年,直到2021年8月他们首次发布了LAION-400M数据集,里面包含了4.13亿图像-文本对。他们用一个非盈利组织CommonCrawl在2014年到2021年期间,抓取的随机HTML代码来定位网络上的图像,并将这些图像与描述性文本联系起来,最后还得根据一定规则来过滤掉不适合的样本。几周之内,他们就拥有了300万对图文对。
LAION数据集发布之后就收到了各种反响,被用于诸多论文和实验。其中最具代表性的,就是GoogleBrain去年(2022)发布的Imagen——文本生成图像的扩散模型。与此同时,更多机构开始关注到这个非盈利组织并给予资金支持。2021年他们就收到了HuggingFace的一次性捐赠。但印象最深的一次,还要属一个对冲基金经理来到Discord聊天室。当时他二话不说直接送钱,大概意思是:我给你们支付算力费用,没有任何附加条件。如今StabilityAI正在寻求40亿美元(折合276亿元)估值,这主要归功于LAION提供的数据。据彭博社消息,舒曼却并没有从LAION中获利,原因很简单:不感兴趣,希望保持这份工作的独立性。
LAION被迫卷入两场诉讼之中,一起是StabilityAI与Midjourney等集体诉讼,被指使用艺术家的版权图片来训练他们的模型;另一起是GettyImages起诉StabilityAI,称其1200万张照片被LAION取走,并用来训练StableDiffusion。而舒曼将LAION比作大信息技术海啸之上一艘“小型研究船”,采取海下的样本向世界展示。其实早在构建数据库时,他们就在运行一个自动化过滤工具,不过舒曼感兴趣的不是清理,而是从这些资产中学习。我们本可以从公布的数据中过滤掉暴力,但我们决定不这样做,因为这将加快暴力检测软件的开发。但在舒曼看来,数据集不应该被监控。
相关工具
相关文章
相关快讯
推荐
中国首款3A游戏上线,《黑神话:悟空》出圈!
2024-08-21 13:46
盘点15款AI配音工具,短视频配音有救了!
2024-08-12 17:11
短视频文案没创意?10大AI写作工具来帮你!
2024-08-05 16:23
Midjourney发布V6.1版本,我已分不清AI和现实了!
2024-08-01 15:03
我发现了一款国产AI绘画神器,免费易上手!
2024-07-25 16:40
7位AI考生做今年高考题,能过一本线吗?
2024-07-19 17:17
世界上第一所AI学校来了,80亿人只需要1位老师?
2024-07-18 17:12
Sora首部AI广告片上线,广告从业者危险了!
2024-06-27 13:44
OpenAI与中国说拜拜,国产AI如何接棒?
2024-06-26 15:18
人与AI会产生爱情吗,专家发话了!
2024-06-17 17:28