1、Pytorch 建模流程

T4mako大约 2 分钟

Pytorch 下载

创建新环境并下载 Pytorch

conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia

conda install anaconda::jupyter

准备数据、数据预处理
结构化数据一般会使用 Pandas 中的 DataFrame 进行预处理
- 使用 pandas 的函数对字符串的列做 独热编码
- 对数值较大的列做 标准化
定义模型
定义模型时：
- 列数为输入的特征个数 x
- 将输入 特征数 a 转换为 b 个隐层的特征 通常 乘以一个矩阵 w₁ 并添加一个 大小为 b*1 偏置 b₁ ，再加入一层激活函数
对于 回归任务，输出为一个值，同样 w_n，b_n 的大小为 c*1，1*1
对于 w 和 b 都是需要梯度的（requires_grad = True）
训练模型
评估模型
首先评估一下模型在训练集和验证集上的效果
使用模型
保存模型

Pytorch 中构建图片数据管道通常有两种方法

使用 torchvision 中的 datasets.ImageFolder 来读取图片然后用 DataLoader 来并行加载
通过继承 torch.utils.data.Dataset 实现用户自定义读取逻辑然后用 DataLoader 来并行加载
- 该方法是读取用户自定义数据集的通用方法，既可以读取图片数据集，也可以读取文本数据集

文本数据预处理较为繁琐，包括文本切词，构建词典，编码转换，序列填充，构建数据管道等等。

通过继承 torch.utils.data.Dataset 实现自定义时间序列数据集。

torch.utils.data.Dataset 是一个抽象类，用户想要加载自定义的数据只需要继承这个类，并且覆写其中的两个方法即可：

不覆写这两个方法会直接返回错误。

昵称

邮箱

网址