Class ThompsonSamplingExploration<T>

Thompson Sampling (Bayesian) exploration for discrete action spaces. Maintains Beta distributions for each action and samples from posteriors.

public class ThompsonSamplingExploration<T> : ExplorationStrategyBase<T>, IExplorationStrategy<T>

Inheritance: object

ExplorationStrategyBase<T>

ThompsonSamplingExploration<T>

Inherited Members: ExplorationStrategyBase<T>.NumOps

ExplorationStrategyBase<T>.BoxMullerSample(Random)

ExplorationStrategyBase<T>.ClampAction(Vector<T>, double, double)

ExplorationStrategyBase<T>.ValidateActionSize(int, int, string)

object.Equals(object)

object.Equals(object, object)

object.GetHashCode()

object.GetType()

object.MemberwiseClone()

object.ReferenceEquals(object, object)

object.ToString()

Constructors

Initializes a new instance of the Thompson Sampling exploration strategy.

public ThompsonSamplingExploration(double priorAlpha = 1, double priorBeta = 1)

priorAlpha double: Prior alpha parameter for Beta distribution (default: 1.0).
priorBeta double: Prior beta parameter for Beta distribution (default: 1.0).

Selects action by sampling from Beta posteriors for each action.

public override Vector<T> GetExplorationAction(Vector<T> state, Vector<T> policyAction, int actionSpaceSize, Random random)

Resets all action distributions to prior.

public override void Reset()

Updates internal parameters (call UpdateDistribution separately for each action).

public override void Update()

Updates the Beta distribution for a specific action based on reward.

public void UpdateDistribution(int actionIndex, double reward)