概述

AI Agent：人类给予目标，AI自己想办法达成。
RL局限：需要为了每一个任务以RL训练模型。
现在直接用LLM。

根据经验调整行为

从Agent的记忆（memory）中读取（read）相关的片段，对现在的action进行决策。
Read模组是一个检索系统（其实就是RAG）。不过一个是自己的经验一个是别人的经验。
StreamBench经验：负反馈没有帮助。（与其告诉LLM不要做什么，不如告诉LLM要做什么）
Write模组判断什么需要被记下来。
Reflection模组对于记忆中的资讯做重新整理。

工具使用

把成百上千的工具描述（工具包）放到agent的记忆（memory）中，通过工具选择模块挑选出工具，作为LLM的输入。
LLM也可以自己做工具，放入它的工具包里。

什么样的外部知识比较容易说服AI：
（1）外部知识和内部知识差距较小时；
（2）更详细AI同类的话（比如同一个问题有两篇解答，一篇是AI写的答案为A，一篇是人类写的答案为B，LLM倾向于回答答案为A）；
（3）meta data会对AI有影响（比如同样两篇文章，A是2024年发布,B是2020年发布，模型会倾向于A，但若仅仅修改A、B的发布时间，其它完全不变，即A是2020年发布，B是2024年发布，此时模型会倾向于B）；
（4）资料来源没有影响；
（5）模型倾向于好看的模板（内容一模一样）；（模型也看脸o_0)

做计划

让LLM先产生计划（plan）再执行动作（action）。
每一次都需要重新想想计划是否需要修改（因为外部情况可能与预期不同）。