以高維數據的分析決策為研究目標,將深度網(wǎng)絡(luò )結構與強化學(xué)習算法相結合,以大規模決策任務(wù)為 應用平臺,提出一系列面向高維數據的新型深度網(wǎng)絡(luò )結構以及基于深度表示的強化學(xué)習方法。重點(diǎn)研究不同深度網(wǎng)絡(luò )結構和不同強化學(xué)習算法之間的關(guān)系,優(yōu)化傳統深度強化學(xué)習方法的性能,提出深度網(wǎng)絡(luò )結構參數的快速學(xué)習方法。優(yōu) 化的側重點(diǎn)包括:算法收斂的 速度和穩定性、模型的訓練周 期、解決戰略性挑戰任務(wù)時(shí)的 表現、算法應用場(chǎng)景的擴展、 模型自我學(xué)習、記憶、規劃能 力的挖掘等。通過(guò)以上研究進(jìn) 一步提高深度強化學(xué)習智能體 解決大規??臻g下決策任務(wù)的 能力,并拓寬智能體在現實(shí)場(chǎng) 景中的應用范圍。