偏好非线性单调函数。可微。非单调的表现可能会“奇怪”,但是有应用。
过去常用的函数,单调可微。
Moins de problème de gradients, les opérations sont plus simples.
Beaucoup de valeurs d'unités ReLU est à 0. Peut être trop simplifié. "Dead ReLU".
当 Relu。
由于其中有很多零值,可以用稀疏矩阵节省空间。
固定的
平均值0,方差1。
Développé par Google Brain et basé sur PFLU. $$ f(x) = x * \frac 1 {1 + e^{-x}} $$ 当有一个较小的负值时仍然有更新。
La somme de probablités devient égale à 1. Chaque classe vaut entre 0 et 1.
直接完成了对结果的演绎。
指数运算、正则化。之后用
一些学过的定义,true positive, false positive, etc.
衡量 precision 和 accuracy 关系。“不平衡”的数据集可能导致较大区别。
另一个衡量的工具,更 robust,但是对多个类效果不佳。
选择好的门槛(theshold)。
https://en.wikipedia.org/wiki/Receiver_operating_characteristic
micro, samples, macro, weighted, None.
Il est important que les données de test ne soient utilisées en aucune façon pour créer le classeur.
Certains programmes fonctionnent en deux étapes : construire la strcuture de base ; optimiser les réglages des hyperparamètres. 所以可以有三个数据集: train, test, validation. Validation 用于选择合适的模型。
Si le modèle fonctionne bien, on peut re-entraîner le modèle pour toutes les données.
拆开数据集,如三分之一测试,三分之二作训练。重复三次。
La fonction de coûts dans un réseau de neurones sert principalement à mesurer l'erreur de chaque unité à chaque couche.
一范数、二范数。
CE 和 NLLL 的输出格式不同,但是计算近似。
Principalement utilisée dans les SVM.
KL vaplus loin que l'entropie en calculant comment compresser de façon à s'aooriher de l'encodage optimal.
较小的结果代表较少的信息丢失。
“相似程度”。