天空小说网

AI的“试错神功”:强化学习到底是怎么回事?(第1/3页)

天空小说网【tkxs.cc】第一时间更新《大白话聊透人工智能》最新章节。

一、先搞懂:强化学习是ai的“游戏通关式学习法”

提到ai学习,我们常听到监督学习、无监督学习,强化学习和它们有啥不一样?用大白话讲,监督学习就像有老师手把手教,ai跟着标准答案学;无监督学习是ai自己对着一堆数据瞎琢磨,找里面的规律;而强化学习,就是ai的“试错学习法”,核心逻辑和咱们玩游戏通关一模一样——不断尝试、接收反馈、调整玩法,直到找到最优套路。

打个比方,你第一次玩消消乐,没人教你怎么玩,只能瞎点乱点。点对了消除方块得分,这就是“奖励”;点半天没反应,或者错过高分组合,这就算“隐性惩罚”。玩得多了,你就知道“凑够三个一样的能消除”“连消能得高分”,慢慢从新手变高手。ai的强化学习也是这个路子,在“尝试-反馈-调整”的循环里,一步步学会做最优决策。

二、强化学习的“铁三角”:谁在学?在哪学?学好了有啥好处?

强化学习的过程看着复杂,其实拆解开来就三个核心角色,用“玩游戏”的例子一对应,立马就懂了。这三个角色就是“智能体”“环境”和“奖励”,堪称强化学习的“铁三角”。

1.

智能体:要“通关”的ai本人

“智能体”就是咱们说的ai,是学习和做决策的主体。就像玩贪吃蛇时握着手机操作的你,ai就是那个“握着”虚拟方向键的“玩家”。它的任务很简单:在环境里不断做动作,比如贪吃蛇里按“上下左右”,自动驾驶里踩油门、打方向,然后根据反馈调整动作。

一开始,智能体就是个“小白”,啥也不懂。比如让ai玩贪吃蛇,它一开始根本不知道“蛇头不能撞墙”“要吃食物”,只会随机乱按方向键,跟刚拿到游戏的小朋友没啥区别。但它有个优点:记仇也记好,不管是奖励还是惩罚,都会牢牢记住,下次绝不再犯(或者少犯)。

2.

环境:ai“玩耍”的舞台

“环境”就是智能体所处的场景,是所有影响它决策的因素的总和。玩贪吃蛇时,环境就是游戏画面里的一切:蛇的身体、食物的位置、四周的边界。这些东西不是固定不变的——蛇吃了食物会变长,食物被吃了会换位置,边界虽然不动,但蛇头靠近就有危险。

换到其他场景也一样,比如训练ai下围棋,环境就是棋盘和黑白棋子的位置;训练ai做家务,环境就是家里的布局、家具的位置、待做的家务清单。环境就像个“考官”,会根据智能体的动作给出不同的“考题”,智能体得根据当下的环境情况做判断。

3.

奖励:ai的“指挥棒”

更多内容加载中...请稍候...

本站只支持手机浏览器访问,若您看到此段落,代表章节内容加载失败,请关闭浏览器的阅读模式、畅读模式、小说模式,以及关闭广告屏蔽功能,或复制网址到其他浏览器阅读!

本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!

新书推荐

换亲后,她成了豪门霸总的白月光道痕1剑出淮南:我在三国开军校柯南的噩梦女扮男装后,她轰动了全球综影视:攸宁的演绎人生重生七零:绝不当圣母美女战神:全能总裁的契约妻凯文:从黄金庭院开始的救世之旅崩坏:开局被芽衣捡回家早点努力,早点躺平玩家在七零年代的生存手册两界穿越,我改变了大唐重生之在魔法大陆当辅助穿成冷宫皇子:从挨打到打皇帝做你心间的朱砂痣米游战锤,40K时代腰软娇妻超好孕,疯批暴君抢又夺开局满级的我选择在大明当老六去你丫的炮灰!劳资天生就是主角重生试爱:展少又吃醋了恋爱报告:亲爱的秦先生神级天赋被削?我转手又抽超神级749局:神秘档案穿越年代:卷!从小山村开始魔道实验室界限1娇娇她恶贯满盈,众卿争当裙下臣说好的塌房,主角团为他神魂颠倒大宋十大奇案徒步人间怕死修什么仙家父,汉景帝身在异世,我的梦境能成真洪荒:人族崛起,从废圣法开始攻略古代幼崽,夫子她心态崩了!华妃重生之回到火烧碎玉轩前三日让动漫角色做我哥哥宫斗宅斗?我掌掴所有人舅舅开门!我又捡凶兽回来啦