Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,#,第二章,智能,Agent,内容提要,Agents,和环境,理性,Agent,环境的性质,Agent,的类型与结,构,构,Agent,A,gent,通过感知器,感,感知环境并,通,通过执行器,对,对所处的环,境,境产生影响,人类,Agent,眼睛,耳朵,为,为感知器,手,脚,声,道,道为执行器,机器人,Agent,摄像头,红,外,外距测仪为,感,感知器,马达为执行,器,器,Agent,和环境,Agent,函数将任何,感,感知历史数,据,据映射为行,为,为:,Agent,程序通过在,物,物理系统上,运,运行来实现,Agent,函数,Agent=,体系结构,+,程序,真空吸尘器,世,世界,感知器:地,点,点和内容(,eg.A,Dirty,),行为:向左,,,,向右,洗,尘,尘,无操作,真空吸尘器,世,世界,理性,Agent,理性,agent,:对于每一,可,可能的感知,数,数据序列,,一,一个理性的,agent,应该采取一,个,个行为以达,到,到最大的性,能,能。,理性判断的,4,个因素,性能度量,先验知识,可以完成的,行,行动,截至到此刻,的,的感知序列,理性,Agent,一个,Agent,应该根据它,感,感知的信息,和,和它能够进,行,行的行为而,做,做正确的事,情,情,正确的行为,将,将使得,Agent,能够取得最,大,大的成功,性能度量:,一,一个客观的,标,标准来评价,Agent,的行为的成,功,功性,Eg.,真空器,agent,的性能度量,可,可以是它清,洗,洗区域的数,量,量,花费的,时,时间,消耗,的,的能量,产,生,生的噪音等,等,等,Eg.,真空洗尘器,8,个小时内清,理,理的灰尘总,量,量来度量性,能,能?,以行为来度,量,量性能不如,以,以结果来度,量,量性能,理性,Agent,全知:明确,知,知道它的行,动,动产生的实,际,际结果并且,作,作出相应的,动,动作,理性不等同,于,于全知,(,已知的知识,都,都是有限的,),理性不等于,完,完美:,理性是使期,望,望的性能最,大,大化,完美是使实,际,际的性能最,大,大化,理性,Agent,理性,agent,能够进行信,息,息收集。,理性的,agent,应该具有自,主,主性,能够,进,进行学习,从环境的感,知,知信息中根,据,据历史经验,来,来学习,任务环境,任务环境:,包,包括性能,(Performance),,环境,(Environment),,,agent,的执行器,(Actuators),和传感器,(Sensors),,英文缩写,为,为,PEAS,对于每一个,智,智能,agent,必须说明其,PEAS,参数,Eg.,自动驾驶出,租,租车,性能度量,环境,执行器,传感器,任务环境,Eg.,自动驾驶出,租,租车,性能度量:,安,安全性,快,速,速性,交通,违,违规,舒适,度,度,利润,环境:马路,,,,其他交通,工,工具,行人,,,,乘客,执行器:方,向,向盘,加速,油,油门,刹车,,,,语音合成,器,器,传感器:摄,像,像头,红外,或,或声纳,速,度,度表,,GPS,键盘,麦克,风,风,任务环境,Environment:Patient,hospital,staff,Actuators:Screendisplay(questions,tests,diagnoses,treatments,referrals),Sensors:Keyboard(entry ofsymptoms,findings,patientsanswers),Eg.,医疗诊断系,统,统,性能度量:,病,病人的健康,性,性,病人花,费,费,环境:病人,,,,医院,工,作,作人员,执行器:显,示,示屏,(,询问,测试,,,,诊断,治,疗,疗方案,),传感器:键,盘,盘,(,输入症状,,现,现场检测,,病,病人的回答,),任务环境,14,Eg.,挑拣零件机,器,器人,性能度量:,正,正确挑拣的,零,零件所占的,百,百分比,环境:零件,传,传送带,容,器,器,执行器:机,器,器人手臂和,手,手,传感器:摄,像,像头,关节,感,感知器,任务环境,15,Eg.,交互式英语,教,教学者,性能度量:,最,最大化学生,成,成绩,环境:学生,执行器:显,示,示屏,(,练习题,建,议,议,正确答,案,案,),传感器:键,盘,盘,环境的性质,16,完全可观察,的,的,vs.,部分可观察,的,的,一个,agent,的传感器在每个,时,时间点上都能获,取,取环境的完整状,态,态,一个,agent,的传感器在每个,时,时间点上都能获,取,取环境的部分状,态,态,真空洗尘器?自,动,动驾驶汽车?,单,agent vs.,多,agent,单,agent,独自运行,eg.,字谜游戏,多,agent,同时运行,eg.,国际象棋,国际象棋,vs.,驾驶出租车?,环境的性质,确定的,vs.,随机的,环境的下一个状,态,态完全取决于当,前,前状态和,agent,执行的动作,部分可观察?,出租车驾驶?真,空,空吸尘器?,片段式的,vs.,延续式的,agent,的经历被分成一,个,个个原子片段,,在,在每个片段中,agent,感知信息并完成,单,单个行动,下一,个,个片段不依赖于,以,以前的片段,检查次品零件的,机,机器人?国际象,棋,棋?,环境的性质,18,静态的,vs.,动态的,环境在,agent,计算的时候不会,变,变化,(vs.,会变化,),半动态的,:,环境本身不变化,但,但,agent,的性能评价随时,间,间变化,出租车,国际象,棋,棋,填字游戏?,离散的,vs.,连续的,环境的状态,时,间,间的处理方式以,及,及,agent,的感知信息和行,动,动都有离散,/,连续之分,国际象棋,出租,车,车驾驶?,环境的性质,环境的性质决定,了,了,agent,的设计,最难处理的情况,:,:,部分可观察的,,随,随机的,连续的,,,,动态的,延续,式,式的,多,agent,的,Agent,函数和程序,一个,agent,用,agent,函数来表示,agent,函数将感知数据,序,序列映射为行为,Agent,程序,以传感器得到的,当,当前感知信息为,输,输入,以执行器的行动,为,为输出,仅仅以当前感知,为,为输入而不是以,整,整个历史感知为,输,输入,Agent,的表驱动方法,缺点,表太大,创建表时间长,非自主性,需人,工,工填写,即使能够学习,,也,也需要很长的时,间,间,Agent,的类型,四种基本的类型,简单反射,agent,基于模型的反射,agent,基于目标的,agent,基于效用的,agent,真空吸尘器的,Agent,程序,简单反射的,agent,基于当前的感知,选,选择行动,不关,注,注感知历史,简单反射的,agent,环境是完全可观,察,察的还是部分可,观,观察的?,Eg.,真空吸尘器问题,,,,刹车问题,基于模型的反射,agent,Agent,根据感知历史维,持,持内部状态,Agent,随时更新内部状,态,态信息,基于模型的反射,agent,基于目标的,agent,除了根据感知信,息,息之外,还要根,据,据目标信息来选,择,择行动,效率比较低,需,要,要推理,搜索和规划算法,基于目标的,agent,基于效用的,agent,当达到目标的行,为,为有很多种的时,候,候,需要考虑效,率,率,环境是部分可观,察,察的和随机的,,不,不确定下的决策,过,过程可以通过基,于,于效用的,agent,来实现。,效用的作用,多目标相冲突时,多目标在不确定,环,环境中,一个目标有多种,行,行为可以达到时,基于效用的,agent,学习,agent,学习,agent,4,个组件,性能元件:相当,于,于整个,agent,评判元件:反映,性,性能元件做得如,何,何,学习元件:负责,改,改进提高,问题产生器:提,出,出一些新的有建,设,设性的探索尝试,Eg.,出租车行驶,总结,Agents,和环境,理性,Agent,环境的性质,Agent,的类型与结构,Qa,?,