您现在的位置是:首页 > 正文

PyTorch中的Dataset

2024-02-29 13:31:34阅读 0

注:本文源码基于PyTorch1.0,目前在PyTorch0.4下没有发现错误。

PyTorch中的Dataset是一个抽象类,我们可以通过继承Dataset来将数据集的源文件、规模和其他非必要的功能打包,从而供DataLoader使用。无论是官方给出的数据集如torchvision.datasets.MNIST等,还是我们在做实验时需要使用自己的数据集,都要继承Dataset类,在继承过程中,须重载的函数包括:

  1. __init__():构造函数,略过不说。
  2. __getitem__():_DataLoaderIter()类中有调用:
# https://pytorch.org/docs/stable/_modules/torch/utils/data/dataloader.html
batch = self.collate_fn([self.dataset[i] for i in indices])
  1. __len__():sampler(如SequentialSampler()类)中有调用len()函数:
# https://pytorch.org/docs/stable/_modules/torch/utils/data/sampler.html
class SequentialSampler(Sampler):
    """Samples elements sequentially, always in the same order.

    Arguments:
        data_source (Dataset): dataset to sample from
    """

    def __init__(self, data_source):
        self.data_source = data_source

    def __iter__(self):
        return iter(range(len(self.data_source)))

    def __len__(self):
        return len(self.data_source)

这三个类是继承时必须重载的函数,我们也可以加入self.loader和self.transform等变量以方便后续处理。需要注意的是,Dataset类只相当于一个打包工具,包含了数据的地址。真正把数据读入内存的过程是由Dataloader进行批迭代输入的时候进行的。

网站文章

  • 【图论】有向图的强连通分量

    【图论】有向图的强连通分量

    目录有向图的强连通分量如何求强连通分量(TarjanTarjanTarjan算法)受欢迎的牛学校网络最大半连通子图 有向图的强连通分量 连通分量: 对于分量中任意两点u,vu,vu,v,必然可以从uu...

    2024-02-29 13:31:26
  • 5个超实用的Visual Studio插件

    5个超实用的Visual Studio插件

    工欲善其事,必先利其器,整理的一些我必装的5款Visual Studio插件,希望你们能get到。01 CodeMaidCodeMaid快速整理代码文件,规范你的代码,提高代码阅读体验。代码自动对齐,...

    2024-02-29 13:30:59
  • 回表查询和聚集索引

    回表查询和聚集索引

    什么是回表查询?这先要从InnoDB的索引实现说起,InnoDB有两大类索引:聚集索引(clustered index) 普通索引(secondary index)InnoDB聚集索引和普通索引有什么...

    2024-02-29 13:30:52
  • Properties类小结

    Properties类的小结

    2024-02-29 13:30:46
  • C++定义一个N*M的矩阵类

    #include<iostream> using namespace std; template<class T> class Matrix{ public: Matrix(int N, int M); //构造函数 Matrix(const Matrix &mat); //拷贝构造函数 ~Matrix(...

    2024-02-29 13:30:39
  • linux centos7 docker Dockerfile 构建springboot镜像并输入日志到宿主机及使用宿主机的application.yml

    linux centos7 docker Dockerfile 构建springboot镜像并输入日志到宿主机及使用宿主机的application.yml

    linux centos7 docker Dockerfile 构建springboot镜像并输入日志到宿主机及使用宿主机的application.yml

    2024-02-29 13:30:10
  • 基于区块链的物流解决方案

    基于区块链的物流解决方案

    科技进步与数字化的发展促成了所谓数字经济的形成,不过对这个术语有许多种解释,根据其中一种解释的说法,数字化被理解为一种在混合现实中运行的经济体。在毛球科技看来,实施这一进程的主要条件包括信息和通信技术...

    2024-02-29 13:30:04
  • mysql索引优化

    mysql索引优化

    mysql索引优化

    2024-02-29 13:29:58
  • mount -t nfs 出现的问题 svc: failed to register lockdv1 RPC service (errno 111).

    mount -t nfs 192.168.1.5:/home/armel /mnt 返回下面的错误: 引用: svc: failed to register lockdv1 RPC service (errno 111). lockd_up: makesock failed, error=-111 mount: mounting 192.168.1.5:/h

    2024-02-29 13:29:30
  • python 的垃圾回收机制?

    python 中的垃圾回收机制是以引用计数为主,分代收集为辅 引用计数,当一个对象的引用数为 0时,python 虚拟机就会回收这个对象的内存。出现循环引入的问题,引入 gc 模块,解决循环引用的问题, gc 模块自动垃圾回收机制,主要作用就是发现并处理不可达的垃圾对 象,采用分代收集的方法,将对象分为三代,一开始,对象在创建的时候,放在一代,如果一次一代的检查中,对象存活...

    2024-02-29 13:29:24