在线观看不卡亚洲电影_亚洲妓女99综合网_91青青青亚洲娱乐在线观看_日韩无码高清综合久久

鍍金池/ 教程/ Python/ 強(qiáng)化學(xué)習(xí)
人工智能開發(fā)環(huán)境配置
計(jì)算機(jī)視覺
啟發(fā)式搜索
人工智能監(jiān)督學(xué)習(xí)(回歸)
賭勝負(fù)
強(qiáng)化學(xué)習(xí)
人工智能無監(jiān)督學(xué)習(xí):聚類
人工智能入門概念
深度學(xué)習(xí)
NLTK包
人工智能(Python)教程
神經(jīng)網(wǎng)絡(luò)
自然語言處理
人工智能邏輯編程
遺傳算法
人工智能監(jiān)督學(xué)習(xí)(分類)
人工智能數(shù)據(jù)準(zhǔn)備
人工智能機(jī)器學(xué)習(xí)
語音識(shí)別
分析時(shí)間序列數(shù)據(jù)

強(qiáng)化學(xué)習(xí)

在本章中,您將詳細(xì)學(xué)習(xí)使用Python進(jìn)行AI強(qiáng)化學(xué)習(xí)的概念。

強(qiáng)化學(xué)習(xí)基礎(chǔ)

這種類型的學(xué)習(xí)被用來加強(qiáng)或加強(qiáng)基于評(píng)論者信息的網(wǎng)絡(luò)。 也就是說,在強(qiáng)化學(xué)習(xí)下訓(xùn)練的網(wǎng)絡(luò)從環(huán)境中獲得一些反饋。 但是,反饋是評(píng)價(jià)性的,并且不像監(jiān)督式學(xué)習(xí)的情況那樣具有啟發(fā)性。 基于這種反饋,網(wǎng)絡(luò)將對(duì)權(quán)重進(jìn)行調(diào)整以獲得更好的評(píng)論信息。

這個(gè)學(xué)習(xí)過程類似于監(jiān)督學(xué)習(xí),但我們可能擁有的信息非常少。 下圖給出了強(qiáng)化學(xué)習(xí)的框圖 -

構(gòu)建模塊:環(huán)境和代理

環(huán)境和代理是人工智能強(qiáng)化學(xué)習(xí)的主要構(gòu)件。 本節(jié)詳細(xì)討論它們 -

媒介代理

代理媒介是能夠通過傳感器感知其環(huán)境并通過效應(yīng)器作用于該環(huán)境的任何事物。

  • 人用媒介具有與傳感器平行。諸如眼睛,耳朵,鼻子,舌頭和皮膚之類的感覺器官以及用于效應(yīng)器的諸如手,腿,嘴等其他器官。
  • 機(jī)器人媒介取代了傳感器的攝像頭和紅外測(cè)距儀,以及各種效應(yīng)器的馬達(dá)和執(zhí)行器。
  • 軟件媒介已將位串編碼為其程序和操作。

代理術(shù)語

以下術(shù)語在AI中的強(qiáng)化學(xué)習(xí)中更頻繁地使用 -

  • 代理的性能測(cè)量 - 這是決定代理成功程度的標(biāo)準(zhǔn)。
  • 代理的行為 - 代理在任何給定的感知順序之后執(zhí)行的行為。
  • 感知 - 它是特定實(shí)例中代理的感知輸入。
  • 感知序列 - 這是代理人迄今為止所了解的所有歷史。
  • 代理功能 - 它是從訓(xùn)示序列到動(dòng)作的映射。

環(huán)境
某些程序在局限于鍵盤輸入,數(shù)據(jù)庫(kù),計(jì)算機(jī)文件系統(tǒng)和屏幕上字符輸出的完全人造環(huán)境中運(yùn)行。

相比之下,一些軟件代理(如軟件機(jī)器人或軟驅(qū))存在于豐富且無限的軟域中。 模擬器具有非常詳細(xì)和復(fù)雜的環(huán)境。 軟件代理需要實(shí)時(shí)從多種行為中進(jìn)行選擇。

例如,設(shè)計(jì)用于掃描顧客的在線偏好并向顧客展示有趣物品的軟堆可在真實(shí)環(huán)境和人工環(huán)境中工作。

環(huán)境屬性
如下所述,環(huán)境具有多重屬性 -

  • 離散/連續(xù) - 如果環(huán)境的數(shù)量有限且截然不同,則環(huán)境是離散的,否則它是連續(xù)的。 例如,象棋是一個(gè)離散的環(huán)境,駕駛是一個(gè)連續(xù)的環(huán)境。
  • 可觀察/部分可觀察 - 如果可以從知覺中確定每個(gè)時(shí)間點(diǎn)環(huán)境的完整狀態(tài),則可觀察到; 否則它只是部分可觀察的。
  • 靜態(tài)/動(dòng)態(tài) - 如果環(huán)境在代理正在執(zhí)行時(shí)沒有改變,那么它是靜態(tài)的; 否則它是動(dòng)態(tài)的。
  • 單個(gè)代理/多個(gè)代理 - 環(huán)境可能包含其他代理,這些代理可能與代理的類型相同或不同。
  • 可訪問/不可訪問 - 如果代理的傳感設(shè)備可以訪問完整的環(huán)境狀態(tài),則可以訪問該代理的環(huán)境; 否則它是無法訪問的。
  • 確定性/非確定性 - 如果環(huán)境的下一個(gè)狀態(tài)完全由當(dāng)前狀態(tài)和代理的行為決定,那么環(huán)境是確定性的; 否則它是非確定性的。
  • 情節(jié)式/非情節(jié)式 - 在情節(jié)化環(huán)境中,每個(gè)情節(jié)由代理人感知并然后行動(dòng)組成。 其行動(dòng)的質(zhì)量取決于情節(jié)本身。 隨后的劇集不依賴于前幾集中的動(dòng)作。 情景環(huán)境要簡(jiǎn)單得多,因?yàn)榇砣瞬恍枰崆八伎肌?br>

用Python構(gòu)建環(huán)境

對(duì)于建設(shè)強(qiáng)化學(xué)習(xí)代理,將使用OpenAI Gym軟件包,該軟件包可使用以下命令來安裝 -

pip install gym

OpenAI健身房有各種各樣的環(huán)境可以用于各種目的。 其中很少是:Cartpole-v0,Hopper-v1和MsPacman-v0。 他們需要不同的引擎。 OpenAI Gym的詳細(xì)文檔可以在 https://gym.openai.com/docs/ 找到。

以下代碼顯示了cartpole-v0環(huán)境的Python代碼示例 -

import gym
env = gym.make('CartPole-v0')
env.reset()
for _ in range(1000):
   env.render()
   env.step(env.action_space.sample())

您可以用類似的方式構(gòu)建其他環(huán)境。

用Python構(gòu)建一個(gè)學(xué)習(xí)代理

對(duì)于構(gòu)建強(qiáng)化學(xué)習(xí)代理,我們將使用如下所示的OpenAI Gym包 -

import gym
env = gym.make('CartPole-v0')
for _ in range(20):
   observation = env.reset()
   for i in range(100):
      env.render()
      print(observation)
      action = env.action_space.sample()
      observation, reward, done, info = env.step(action)
      if done:
         print("Episode finished after {} timesteps".format(i+1))
         break

觀察小推車可以平衡。