Rollout Sampling Approximate Policy Iteration

16 years 3 months ago

Download www.springerlink.com

Several researchers have recently investigated the connection between reinforcement learning and classification. We are motivated by proposals of approximate policy iteration schemes without value functions, which focus on policy representation using classifiers and address policy learning as a supervised learning problem. This paper proposes variants of an improved policy iteration scheme which addresses the core sampling problem in evaluating a policy through simulation as a multi-armed bandit machine. The resulting algorithm offers comparable performance to the previous algorithm achieved, however, with significantly less computational effort. An order of magnitude improvement is demonstrated experimentally in two standard reinforcement learning domains: inverted pendulum and mountain-car.

Christos Dimitrakakis, Michail G. Lagoudakis

Real-time Traffic

Approximate Policy Iteration | Bandit Problems | Classification | Reinforcement Learning | Rollouts | Sample Complexity |

posted by olethros

» Approximate Policy Iteration using LargeMargin Classifiers

» Efficient exploration through active learning for value function approximation in reinforc...

» Learning nearoptimal policies with Bellmanresidual minimization based fitted policy iterat...

» Approximate dynamic programming using support vector regression

» ModelFree LeastSquares Policy Iteration

» Modelfree reinforcement learning as mixture learning

» An Incremental Samplingbased Algorithm for Stochastic Optimal Control

» FiniteSample Convergence Rates for QLearning and Indirect Algorithms

Post Info
More Details (n/a)

Added	14 Mar 2010
Updated	19 Mar 2010
Type	Journal
Year	2008
Where	Machine Learning 72
Authors	Christos Dimitrakakis, Michail G. Lagoudakis

Comments (0)

	Complexity of Stochastic Branch and Bound Methods for Belief Tree Search in Bayesian Reinforcement Learning 509 views
	Reid et al.'s Distance Bounding Protocol and Mafia Fraud Attacks over Noisy Channels 545 views
	Rollout Sampling Approximate Policy Iteration 334 views
	Bayesian variable order Markov models. 404 views
	Statistical Decision Making for Authentication and Intrusion Detection 634 views

Sciweavers

Rollout Sampling Approximate Policy Iteration

Approximate Policy Iteration | Bandit Problems | Classification | Reinforcement Learning | Rollouts | Sample Complexity |

Explore & Download

Productivity Tools

Sciweavers