Samenvatting

Samenvatting Reinforcement Learning, ISBN: 9780262193986 Reinforcement Learning (6013B0359Y)

Name: Samenvatting Reinforcement Learning, ISBN: 9780262193986 Reinforcement Learning (6013B0359Y)
SKU: doc_2509493
Rating: 4.50 (2 reviews)
Author: feanne1

Beoordeling

4.5

(2)

Verkocht

Pagina's

Geüpload op

24-03-2023

Geschreven in

2022/2023

Dit is een uitgebreide samenvatting van de lectures van Reinforcement met daarbij nog een aantal tips & aantekeningen. De samenvatting is net zoals het vak in het engels en er zijn veel formules toegevoegd.

Instelling

Vak

Voorbeeld van de inhoud

Reinforcement Learning Summary
Lecture 1

RL = what to do to maximize a numerical reward
1 action for each situation -> highest reward

Problem of RL:
• Sense of the state of the environment
• Take actions -> affect the state
• Goal relating to the state

Learning from interactions, directly from its environment

Exploration-Exploitation dilemma:
Exploitation: profit from your experience
Exploration: look for better options in the future

Elements of RL:
1. Policy
Behavior of learning agent in time
Action to be taken
Policies may be stochastic
2. Reward Rt
Goal of the problem
Reward-signal
3. Value function V (s)
Total amount of reward expected to accumulate over the future, starting from state s
Long-run desirability of the state, considering future states & rewards
Actions based on value judgements
Value estimation
4. Model environment
Model-free: trial & error learner
Model-based given state & action, model predicts next state & R

→ What action to take as a function of the state signal
→ Learn while interacting

Multi-armed bandits

k-armed bandit → k options & 1 situation: non-associative feedback problem
k: number of actions
t: time step
At: action at t
q* (a): true value of action a (expected reward) = E[Rt | At = a]

q* (a) unknown → We use Qt (a) as an estimation at time t

𝞹

, Action-value methods
Types of actions: Greedy approach: exploiting, so choose a with highest Qt(a)
Exploring actions

= number of times a has been selected until time t

If Nt (a) = 0 , then Qt (a) = c, some default time
If Nt (a) → ♾ , then Qt (a) → q* (a)

Selection:
1. Random selection: P[ At = a ] = 1/k
2. Greedy action selection method At = arg maxa {Qt (a)}
3. -greedy action selection: with prob. select randomly from all actions with equal probability,
otherwise greedy

Offline computing: all data already available : computationally inefficient
Qn = (R1 + … + Rn-1) / (n - 1)
Qn+1 = (R1 + … + Rn-1) / n

Online computing:

new estimate = old estimate + stepwise ( target - old estimate )

Non-stationary: rewards probabilities change over time
give more weight to recent reward than to long-past reward

Varying step-size n (a): convergence for n (a) = 1/2
& no convergence for n (a) = and varying Qn+1
Sample average: bias disappears when actions are selected at least once

Optimistic initial value for Q1(a) → forces to select all options at least once
→ Qt (a) to proper level

𝜺 𝜶 𝜺 𝜶 𝜶 𝜶

, Lecture 2

Observations multi-armed bandits

Optimistic initial value Q1(a):
• Qt+1 = Qn(a) + [Rn(a) - Qn(a)], Q1(a) = c, influence high for small
• Qn+1 = Qn(a) + 1/n [Rn(a) - Qn(a)], whatever Q1(a) = c → Q2(a) = R1(a)

Greedy (with average reward value):
• t > t0 → At = a0, action a0 as long as Qt(a0) > 0 and if q*(a0) > 0
• t→♾ → Qt(a0) → q*(a0), for the ‘absorbing’ action

-Greedy (with average reward value):
• t→♾ → Qt(a) → q*(a), for all actions
• t→♾ → P[At = a*] = ( 1 - ) + / k, with a* = arg maxa {q* (a)}: optimal

Greedy selection (optimal initial value, exp. regency weighted average):
• Higher average reward (high Rt: slow decrease Qt), ‘absorbing’ action often optimal action

Do better by: giving exploiting priority and when we explore:
• Avoid low reward actions (no random selections)
• Good choices for pi: select greedy with high prob. for p1
• Low reward actions will still be selected

Upper-confidence-bound action selection
Explore non-greedy actions with high potential & keep exploring, also in the long-run

Behaviour:
• Sqrt-term measure of uncertainty, like confidence interval
• Value of actions increases in time, even when not selected
• When selected the uncertainty term decreases
• Subtle favoring of less-frequent selected actions

Multi-bandit problem non-associative task: find or track the best action for a single situation (or
state), either stationary or non-stationary

Contextual Bandits
Associative task: find best action for multiple situations (or states), i.e. learn a policy
Associative search: trial-and-error learning and association of actions to situations

Full RL associative task: Actions affect next situation (or state)

𝜺

𝜶 𝜺 𝜺 𝜶

Meld schending auteursrecht

Gekoppeld boek

Richard S. Sutton, Andrew G. Barto Reinforcement Learning

Uitgave:Onbekend
ISBN:9780262193986
Druk:Onbekend

Geschreven voor

Instelling: Universiteit van Amsterdam (UvA)
Studie: Econometrics
Vak: Reinforcement Learning (6013B0359Y)

Alle documenten voor dit vak (1)

Documentinformatie

Heel boek samengevat?: Ja
Geüpload op: 24 maart 2023
Aantal pagina's: 28
Geschreven in: 2022/2023
Type: SAMENVATTING

Onderwerpen

reinforcement learning
markov process
monte carlo
q learning
marl
agents

$14.83

Krijg toegang tot het volledige document:

Geschreven door studenten die geslaagd zijn

Direct beschikbaar na je betaling

Online lezen of als PDF

Maak kennis met de verkoper

feanne1

4.0

(3)

Ook beschikbaar in voordeelbundel

Beoordelingen van geverifieerde kopers

Alle 2 reviews worden weergegeven

matthijskelder Econometrics · 4 beoordelingen

10 maanden geleden

zulkarneync Econometrics and Operations Research · 6 beoordelingen

3 jaar geleden

4.5

2 beoordelingen

Betrouwbare reviews op Stuvia

Alle beoordelingen zijn geschreven door echte Stuvia-gebruikers na geverifieerde aankopen.

Maak kennis met de verkoper

feanne1 Universiteit van Amsterdam

Bekijk profiel

Volgen

Verkocht

Lid sinds

3 jaar

Aantal volgers

Documenten

Laatst verkocht

1 dag geleden

4.0

3 beoordelingen

Recent door jou bekeken

Waarom studenten kiezen voor Stuvia

Gemaakt door medestudenten, geverifieerd door reviews

Kwaliteit die je kunt vertrouwen: geschreven door studenten die slaagden en beoordeeld door anderen die dit document gebruikten.

Niet tevreden? Kies een ander document

Geen zorgen! Je kunt voor hetzelfde geld direct een ander document kiezen dat beter past bij wat je zoekt.

Betaal zoals je wilt, start meteen met leren

Geen abonnement, geen verplichtingen. Betaal zoals je gewend bent via iDeal of creditcard en download je PDF-document meteen.

“Gekocht, gedownload en geslaagd. Zo makkelijk kan het dus zijn.”

Alisha Student

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Je krijgt een PDF, die direct beschikbaar is na je aankoop. Het gekochte document is altijd, overal en oneindig toegankelijk via je profiel.

Tevredenheidsgarantie: hoe werkt dat?

Onze tevredenheidsgarantie zorgt ervoor dat je altijd een studiedocument vindt dat goed bij je past. Je vult een formulier in en onze klantenservice regelt de rest.

Van wie koop ik deze samenvatting?

Stuvia is een marktplaats, je koop dit document dus niet van ons, maar van verkoper feanne1. Stuvia faciliteert de betaling aan de verkoper.

Zit ik meteen vast aan een abonnement?

Nee, je koopt alleen deze samenvatting voor $14.83. Je zit daarna nergens aan vast.

Is Stuvia te vertrouwen?

4,6 sterren op Google & Trustpilot (+1000 reviews) Afgelopen 30 dagen zijn er 50056 samenvattingen verkocht Opgericht in 2010, al 16 jaar dé plek om samenvattingen te kopen

Samenvatting Reinforcement Learning, ISBN: 9780262193986 Reinforcement Learning (6013B0359Y)

Voorbeeld van de inhoud

Gekoppeld boek

Geschreven voor

Documentinformatie

Onderwerpen

Ook beschikbaar in voordeelbundel

Beoordelingen van geverifieerde kopers

Maak kennis met de verkoper

Recent door jou bekeken

Waarom studenten kiezen voor Stuvia

Gemaakt door medestudenten, geverifieerd door reviews

Niet tevreden? Kies een ander document

Betaal zoals je wilt, start meteen met leren

Bezig met je bronvermelding?

Veelgestelde vragen

Wat krijg ik als ik dit document koop?

Tevredenheidsgarantie: hoe werkt dat?

Van wie koop ik deze samenvatting?

Zit ik meteen vast aan een abonnement?

Is Stuvia te vertrouwen?