【3DBall】MlAgents案例场景代码分析

csx · 发表于 2022-12-3 10:41

【3DBall】MlAgents案例场景代码分析
相当于Start()方法的方法
用于一开始就执行的方法，相当于基本Unity方法中的Start方法：
该方法用于
获得掉落的球的Rigid body组件
获得小球的参数（结合下面代码显示，是获得mass值和scale，不实际获得，结合SetResetParameters()获取）
设置小球的参数（方法里面是调用了m_ResetParams获得mass值和scale的）

public override void Initialize()
{
   m_BallRb = ball.GetComponent<Rigidbody>();
   m_ResetParams = Academy.Instance.EnvironmentParameters;
   SetResetParameters();
}

收集观察场景的各种数据
该方法时用于收集训练场景中训练所需的参数
useVecObs为一个bool值，判断是否收集，目前代码中并没发现相关改变该值的代码
收集训练对象的旋转z值
收集训练对象的旋转x值
小球与训练对象的相对位置，个人觉得是训练对象position不存在移动，所以并不需要纳入观察范围，
相对位置比单独小球位置更准确一点
再是收集小球的速度值（官方文档说，如果不给小球的速度值给训练对象，训练效果将会大打折扣）

public override void CollectObservations(VectorSensor sensor)
{
      if (useVecObs)
      {
         sensor.AddObservation(gameObject.transform.rotation.z);
         sensor.AddObservation(gameObject.transform.rotation.x);
         sensor.AddObservation(ball.transform.position - gameObject.transform.position);
         sensor.AddObservation(m_BallRb.velocity);
      }
}

行为判断和奖励
该方法用于管理和做出训练对象的行为，根据对应的结果进行奖励
定义两个float类型的变量，钳制训练对象做出的行为参数的大小
第一个if：
如果r.z在0到0.25或者-0.25到0这个区间，就执行z轴的旋转
第二个if：
如果r.x在0到0.25或者-0.25到0这个区间，就执行x轴的旋转
第三个if:
如果小球y轴位置比训练对象y轴坐标低-2个位置||
小球x轴坐标远离训练对象x轴大于3个位置||
y轴相差大于3个位置
则：惩罚-1分，结束该步训练
else:持续奖励0.1分

public override void OnActionReceived(ActionBuffers actionBuffers)
{
      var actionZ = 2f * Mathf.Clamp(actionBuffers.ContinuousActions[0], -1f, 1f);
      var actionX = 2f * Mathf.Clamp(actionBuffers.ContinuousActions[1], -1f, 1f);

      if ((gameObject.transform.rotation.z < 0.25f && actionZ > 0f) ||
         (gameObject.transform.rotation.z > -0.25f && actionZ < 0f))
      {
         gameObject.transform.Rotate(new Vector3(0, 0, 1), actionZ);
      }

      if ((gameObject.transform.rotation.x < 0.25f && actionX > 0f) ||
         (gameObject.transform.rotation.x > -0.25f && actionX < 0f))
      {
         gameObject.transform.Rotate(new Vector3(1, 0, 0), actionX);
      }
      if ((ball.transform.position.y - gameObject.transform.position.y) < -2f ||
         Mathf.Abs(ball.transform.position.x - gameObject.transform.position.x) > 3f ||
         Mathf.Abs(ball.transform.position.z - gameObject.transform.position.z) > 3f)
      {
         SetReward(-1f);
         EndEpisode();
      }
      else
      {
         SetReward(0.1f);
      }
}

当训练开始时（每一次/步的对象训练，非人为开始对象的训练）
训练对象旋转坐标重置为0
随机旋转训练对象的x轴
随机旋转训练对象的y轴
重置小球的速度
重置小球位置为随机训练对象平面中的上方
调用重设参数方法

public override void OnEpisodeBegin()
{
      gameObject.transform.rotation = new Quaternion(0f, 0f, 0f, 0f);
      gameObject.transform.Rotate(new Vector3(1, 0, 0), Random.Range(-10f, 10f));
      gameObject.transform.Rotate(new Vector3(0, 0, 1), Random.Range(-10f, 10f));
      m_BallRb.velocity = new Vector3(0f, 0f, 0f);
      ball.transform.position = new Vector3(Random.Range(-1.5f, 1.5f), 4f, Random.Range(-1.5f, 1.5f))
         + gameObject.transform.position;
      //Reset the parameters when the Agent is reset.
      SetResetParameters();
}

手动操作模式
当手动操作模式时，可以在对应操作行为中操作训练对象
continuousActionsOut[0]为水平旋转操作，设置为键盘a左d右操作
同理上

public override void Heuristic(in ActionBuffers actionsOut)
{
      var continuousActionsOut = actionsOut.ContinuousActions;
      continuousActionsOut[0] = -Input.GetAxis("Horizontal");
      continuousActionsOut[1] = Input.GetAxis("Vertical");
}

上方的设置参数方法
实际就是调用setball方法，设置小球的大小或者重力，不过该场景只涉及默认大小和重力
public void SetBall()
{
      //Set the attributes of the ball by fetching the information from the academy
      m_BallRb.mass = m_ResetParams.GetWithDefault("mass", 1.0f);
      var scale = m_ResetParams.GetWithDefault("scale", 1.0f);
      ball.transform.localScale = new Vector3(scale, scale, scale);
}

public void SetResetParameters()
{
      SetBall();
}

账号		自动登录	找回密码
密码			立即注册

【3DBall】MlAgents案例场景代码分析

论坛元老

灌水之王