TensorFlow推出TensorFlowDatasets功能,可一键装载公共数据集

新知榜官方账号

2023-10-30 10:06:16

TensorFlow推出TensorFlowDatasets功能,可一键装载公共数据集

在训练机器学习模型时,需要先找数据集、下载、装数据集……太麻烦了,比如MNIST这种全世界都在用的数据集,能不能来个一键装载啥的?Google也这么想。今天,TensorFlow推出了一个新的功能,叫做TensorFlowDatasets,可以以tf.data和NumPy的格式将公共数据集装载到TensorFlow里。目前已经有29个数据集可以通过TensorFlowDatasets装载,其中包括音频、图像、文本、视频等多种类型。具体装载方法可以参考以下代码:

import tensorflow_datasets as tfds

# Fetch the dataset directly
mnist = tfds.image.MNIST()

# or by string name
mnist = tfds.builder('mnist')

# Describe the dataset with DatasetInfo
assert mnist.info.features['image'].shape == (28, 28, 1)
assert mnist.info.features['label'].num_classes == 10
assert mnist.info.splits['train'].num_examples == 60000

# Download the data, prepare it, and write it to disk
mnist.download_and_prepare()

# Load data from disk as tf.data.Datasets
datasets = mnist.as_dataset()
train_dataset, test_dataset = datasets['train'], datasets['test']
assert isinstance(train_dataset, tf.data.Dataset)

# And convert the Dataset to NumPy arrays if you'd like
for example in tfds.as_numpy(train_dataset):
  image, label = example['image'], example['label']
  assert isinstance(image, np.array)

TensorFlow官方明确表示,TensorFlow和TensorFlowDatasets在文本支持方面将会进一步改进。

本页网址:https://www.xinzhibang.net/article_detail-18360.html

寻求报道,请 点击这里 微信扫码咨询

关键词

TensorFlow TensorFlowDatasets 数据集 机器学习 NumPy tf.data

分享至微信: 微信扫码阅读

相关工具

相关文章

相关快讯