- 有监督学习:任务导向
- 无监督学习:数据导向
- 强化学习:
- 类似人类学习
- agent 的选择对 env 有影响
- env 对 agent 行为有所反馈
mathématiquement, un agent est complètement spécifié par une fonction d'agent
例如:电子游戏中人物应当尽快移动到终点——不移动时给予负反馈
L'environnement peut être inconnu, stochastique, complexe. Il est cependant séquentiel.
Maximisation de la récompense dans le temps.
- police
- association état/action
- comportement de l'agent
- fonction de récompense
- but dans le problème de RL
- association état/action avec un nombre réel
- ne change jamais, mais peut affecter la police
- La stratégie classique en exploration adverse : Min-Max
- ...
table de chiffres pour chaque états possibles
dernière estimation de la chance de l'état : gagner la partie
la table est donc la fonction de valeur apprise
si
si
L'agent et l'env interagissent en temps discret.
- tâche associative
- dépend de la situation
- association de situations aux actions qui sont les plus capables
- tâche non-associative
- ne dépend pas de la situation
- pas d'associations d'actions qui diffèrent selon la situation
- tâche stationnaire 最优解永远是最优解
- tâche non stationnaire ……不一定,随时间变换
Chaque action a une récompense moyenne :
- la valeur de cette action
- c'est une estimation maintenu, si nous la connaissions ; trivial
Posons la vraie valeur de l'action
取加权均值?
En supposant
...
训练时随机选择。
Dans l'approche purement gloutonne, on ne fait qu'exploiter.
Notre sélection était aléatoire, mais uniforme.
Avec softmax: $$ \frac{e^{Q_t(a)/t}}{\sum_b {e^{Q_t(b)/t}}} $$
有$\epsilon$ 机会选择随机行为,$1 - \epsilon$ 机会选择最佳解。
On incrémente la probabilité $a_{t+1} = a^{t+1}$ de cette façon : $$ \pi{t+1} (a^{t+1}) = \pi{t+1} (a^_{t+1}) + \beta[1 - \pi_t(a^_{t+1})] $$ les autres son t décrémentés.
Dans le RL, les actions qui mènent à de grandes récompenses devraient être sélectionnées plus souvent...
Référence reward : on peut calculer la moyenne des récompenses.