奖励函数设计的合理性对于提升深度强化学习算法的性能至关重要。针对投资组合管理任务,识别并解决了现有奖励函数的两大缺陷:一是过度关注短期市场波动而忽略长期趋势;二是对带来奖励和造成损失行为的奖惩相当,这并不符合投资者的损失厌恶心理。为此,借鉴行为金融学中的投资者损失厌恶理论,创新性地提出了一种多步损失厌恶 (Multi-step Loss Aversion, MSLA) 奖励函数,以更准确地刻画投资者在交易中的行为模式,并据此构建了在线投资组合管理策略。选取A股市场上三个具有代表性的指数,构建了相应的投资组合,在2019年至2023年的历史数据上进行了回测实验。实验结果表明,MSLA奖励函数显著提升了策略的整体性能,从累计收益率、夏普比率和最大回撤等指标来看,普遍优于现有的其他算法。此外,该策略不仅适用于不同市值大小股票组成的投资组合,而且在上涨、下跌和震荡的市场状态下均能保持稳健的性能,这充分说明了该算法在投资组合管理中的有效性和实用性。