Skip to content

paddle v2 训练速度慢 #3675

@xlhlhlx

Description

@xlhlhlx

背景

预提交到mpi集群的paddle任务(预测用户对视频内容的阅读时长),本地单机调试的过程中,发现500条sample,batch_size=256,20个pass,每个pass要跑70秒左右,后续全量数据训练样本数量级大概在亿级别,因此先本地进行训练速度上的优化。

当前问题

性能瓶颈在哪里?如何优化?
打印了reader和总的每个pass的处理时间,具体如下:
88
后续把用户及视频内容的泛化特征给都去掉,只保留id特征,reader的时间未发生变化(因为读取的数据字段还是跟之前一样,只是在模型训练的时候未用到,所以这块儿的处理时间肯定是一样的),但每个pass的处理时间却快了10倍,由原来的70秒左右变成了7秒左右,具体如下:
new cost

读取数据的代码

reader

获取用户特征的代码

user

获取内容特征的代码

content

Metadata

Metadata

Assignees

Labels

User用于标记用户问题

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions