AI Agent笔记

概述

AI Agent:人类给予目标,AI自己想办法达成。
RL局限:需要为了每一个任务以RL训练模型。
现在直接用LLM。

根据经验调整行为

从Agent的记忆(memory)中读取(read)相关的片段,对现在的action进行决策。
Read模组是一个检索系统(其实就是RAG)。不过一个是自己的经验一个是别人的经验。
StreamBench经验:负反馈没有帮助。(与其告诉LLM不要做什么,不如告诉LLM要做什么)
Write模组判断什么需要被记下来。
Reflection模组对于记忆中的资讯做重新整理。

工具使用

把成百上千的工具描述(工具包)放到agent的记忆(memory)中,通过工具选择模块挑选出工具,作为LLM的输入。
LLM也可以自己做工具,放入它的工具包里。

什么样的外部知识比较容易说服AI:
(1)外部知识和内部知识差距较小时;
(2)更详细AI同类的话(比如同一个问题有两篇解答,一篇是AI写的答案为A,一篇是人类写的答案为B,LLM倾向于回答答案为A);
(3)meta data会对AI有影响(比如同样两篇文章,A是2024年发布,B是2020年发布,模型会倾向于A,但若仅仅修改A、B的发布时间,其它完全不变,即A是2020年发布,B是2024年发布,此时模型会倾向于B);
(4)资料来源没有影响;
(5)模型倾向于好看的模板(内容一模一样);(模型也看脸o_0)

做计划

让LLM先产生计划(plan)再执行动作(action)。
每一次都需要重新想想计划是否需要修改(因为外部情况可能与预期不同)。

Licensed under CC BY-NC-SA 4.0
最后更新于 2025-07-31 14:59 UTC
使用 Hugo 构建
主题 StackJimmy 设计