-
Notifications
You must be signed in to change notification settings - Fork 5.9k
Closed
Labels
User用于标记用户问题用于标记用户问题
Description
背景
预提交到mpi集群的paddle任务(预测用户对视频内容的阅读时长),本地单机调试的过程中,发现500条sample,batch_size=256,20个pass,每个pass要跑70秒左右,后续全量数据训练样本数量级大概在亿级别,因此先本地进行训练速度上的优化。
当前问题
性能瓶颈在哪里?如何优化?
打印了reader和总的每个pass的处理时间,具体如下:

后续把用户及视频内容的泛化特征给都去掉,只保留id特征,reader的时间未发生变化(因为读取的数据字段还是跟之前一样,只是在模型训练的时候未用到,所以这块儿的处理时间肯定是一样的),但每个pass的处理时间却快了10倍,由原来的70秒左右变成了7秒左右,具体如下:

读取数据的代码
获取用户特征的代码
获取内容特征的代码
Metadata
Metadata
Assignees
Labels
User用于标记用户问题用于标记用户问题


