简介:摘要:在应急救援任务中,借助卫星通信加强气象监测站的报文传输,是对救援活动提供支持的重要手段。对于观测站间的点对点通信,本文建立了强化学习模型,根据场景需求制定针对性的传输方案学习策略,综合应用模型和策略求解出最优传输方案。观测站间的信息交互,都会影响目标站点的信息状态及后续决策,是一种典型的马尔可夫决策过程(MDP),因此选择建立强化学习模型进行求解。编写程序为观测站实体创设训练环境,观测站信息构成模型的状态空间,观测站间的气象报文传输构成模型的动作空间,报文传输动作改变观测站信息状态变化作为状态迁移过程,以单次动作的信息传达效率评估价值并制定奖赏,以ε-greedy贪心策略提升求解效率及避免陷入局部最优。经理论计算评估,选定信息传输策略,主站只负责传输主站信息,副站只负责向主站传输本站信息,主站优先传输主站信息,所有主站信息共享完成后开始传输副站信息。经模型训练,在概率不低于0.9和K=7的限制条件下,得出最优的站点数为9,以及具体的传输方案和主站包含副站点信息概率表。经检验,模型表现出较好的适用性和推广性。