国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

游戲AI行為決策——MLP(多層感知機/人工神經(jīng)網(wǎng)絡)

0
分享至


【USparkle專欄】如果你深懷絕技,愛“搞點研究”,樂于分享也博采眾長,我們期待你的加入,讓智慧的火花碰撞交織,讓知識的傳遞生生不息!

這是侑虎科技第1902篇文章,感謝作者狐王駕虎供稿。歡迎轉發(fā)分享,未經(jīng)作者授權請勿轉載。如果您有任何獨到的見解或者發(fā)現(xiàn)也歡迎聯(lián)系我們,一起探討。(QQ群:793972859)

作者主頁:

https://home.cnblogs.com/u/OwlCat

你一定聽說過神經(jīng)網(wǎng)絡的大名,你有想過將它用于游戲AI的行為決策上嗎?其實在(2010年發(fā)布的)《最高指揮官2》中就有應用了,今天請允許我班門弄斧一番,與大家一同用C# 實現(xiàn)最經(jīng)典的神經(jīng)網(wǎng)絡 —— 多層感知機(Multilayer Perceptron,簡稱MLP)。


一、前言

神經(jīng)網(wǎng)絡或者深度學習,總給人一種「量子力學」的感覺,總感覺它神秘無比,又無所不能。我未學習神經(jīng)網(wǎng)絡之前,總以為它是某種能夠修改自身代碼的代碼,否則怎么能做到從「不會」變成「會」的呢?但在親自學習后才會明白,它并沒有做到這種地步,但依舊十分神奇。多層感知機是最基礎的神經(jīng)網(wǎng)絡,很多其它類別的神經(jīng)網(wǎng)絡都是在這之上的變形??梢哉f,學會它是邁入深度學習的第一步。

多層感知機雖說經(jīng)典,但并不過時。提到神經(jīng)網(wǎng)絡,大多數(shù)人腦海里想到的大概也就是類似這樣的圖片:


這就是一張典型的多層感知機結構圖,看著好像很復雜,但實現(xiàn)它所需要用到的數(shù)學原理和編程知識都不難,早年間,研究神經(jīng)網(wǎng)絡的學者們還用C語言實現(xiàn)呢!

二、什么是多層感知機

現(xiàn)在進入正題,我們先來簡單講講MLP的原理(如果你對此十分熟悉,只是對代碼實現(xiàn)感興趣,那可以跳過這部分)。

既然叫「多層感知機」,那有單個的感知機嗎?那是自然,單個感知機的結構十分簡單:


它其實就是個算式(為方便理解,我將其分成兩部分):


將傳入感知機的多個輸入x,與對應的權重w相乘(輸入的數(shù)量與權重的數(shù)量是一樣的,且數(shù)量是任意的,本例中用了3個),再加上偏置b就可以得出一個計算值sum。再將這個計算值傳入一個函數(shù)f(x)就可得到感知機的最終輸出out。

相信你肯定能理解,只是可能對f(x)函數(shù)有些好奇,它具體內容是什么呢?這個函數(shù)也被稱為「激活函數(shù)」,為什么叫這個名字?這就得提感知機的另一個名字 —— 人工神經(jīng)元。其實感知機正是受神經(jīng)元結構啟發(fā)而被提出來的:


神經(jīng)元會通過樹突接受輸入信號并匯總,而神經(jīng)元對于各個輸入刺激的響應強度并不相同,所以我們給各個輸入設置了相應權重來模擬這個現(xiàn)象。之后,將處理的信息通過軸突傳給末梢(終端)。但實際上,只有匯總的信號強度大于一定程度時神經(jīng)元才會向末梢傳遞信號,而模擬這個現(xiàn)象的就是「激活函數(shù)」。

那偏置b又是模擬什么的?其實它是從數(shù)學角度考慮的、方便調整輸入加權和的變量值而已。

既然感知機被稱為「人工神經(jīng)元」,那多層感知機豈不就是「人工神經(jīng)網(wǎng)絡」?一點沒錯,我們現(xiàn)在所說的「神經(jīng)網(wǎng)絡」,基本都是指人工神經(jīng)網(wǎng)絡,而不是真正的、生物的神經(jīng)網(wǎng)絡。而「神經(jīng)網(wǎng)絡」起初就是指多層感知機,只不過現(xiàn)在種類多了,定義也變寬泛了。

結合我們對單個感知機的認識,再看看多層感知機:


但這里的單個感知機(后面用「神經(jīng)元」來代稱)怎么輸出了多個值(看標藍色的那部分)?這種結構圖可能會誤導某些人,我做個解釋,這里的每一條線并不是輸出,可以看到它是有箭頭的,每條線表示它所指向的那個神經(jīng)元的一個權重。加上箭頭是為了表示數(shù)據(jù)傳遞的方向。

不難看出,它就是將多個感知機以層為單位進行了組合,每層都有任意數(shù)量(每層的數(shù)量可以不同)的感知機,并將一層感知機的輸出作為下一層的輸入,依次套娃下去。像圖中,下一層神經(jīng)元的權重數(shù)量 = 上一層的神經(jīng)元數(shù)量,稱為全連接,是神經(jīng)網(wǎng)絡中常見的連接方式,本文也只考慮這種連接方式。

這里的「輸入層」其實就是輸入的數(shù)據(jù)(是的,這一層不是神經(jīng)元),類似之前的x0、x1、x2;「輸出層」就是用于輸出的神經(jīng)元所組成的層,有了多個感知機,我們也可以得到多個輸出;夾在「輸入層」與「輸出層」之間的就叫「隱藏層」,因為在實際使用神經(jīng)網(wǎng)絡時,就只是輸入一組數(shù)值作為「輸入層」,再看看「輸出層」得到的結果,并不關心中間的運算。

我們常說的「深度學習」里的「深度」指的就是神經(jīng)網(wǎng)絡中「隱藏層」的層數(shù)(只不過現(xiàn)在這個詞有點被炒作了),當一個神經(jīng)網(wǎng)絡的隱藏層超過3層時,它就是「深度神經(jīng)網(wǎng)絡」。

通過改變神經(jīng)網(wǎng)絡的結構或者調節(jié)神經(jīng)網(wǎng)絡的權重和偏置,我們可以用神經(jīng)網(wǎng)絡近似任何的函數(shù)、甚至是一些摸不著頭腦的規(guī)律。

比如影響小明今天玩不玩網(wǎng)游的因素有:今日作業(yè)量、心情、本月剩余流量、今天是星期幾,但我們并不知道這些因素與小明玩不玩的具體數(shù)學關系,只能大概地推斷:今天小明作業(yè)多,不會玩游戲;又或者今天是星期六,雖然作業(yè)還有很多,但他還是會玩游戲……可一旦知道具體數(shù)學關系,我們就可以通過計算準確預測小明是否會玩游戲,就像我們知道了牛頓力學公式,就可以根據(jù)物體的質量和被射出的力來計算它的運動軌跡一樣。


所以我們所關心的、實際所使用的都是這種已經(jīng)設置好正確權重和偏置的神經(jīng)網(wǎng)絡,像在與GPT聊天時怕「污染數(shù)據(jù)庫」這類事就不用操心了。

要如何為神經(jīng)網(wǎng)絡的各個神經(jīng)元的各個權重設置正確的值,使它能夠輸出我們預期的結果呢?手動調肯定不現(xiàn)實,所以我們會運用一些數(shù)學知識讓程序自行調整權重,這個過程就是「訓練/學習」。

我們會給出一些輸入以及該輸入所對應的正確輸出,比如我們可以記錄小明上個學期玩網(wǎng)游時的各因素值以及不玩時的各因素值,這些作為「訓練集」。然后設計一個「損失函數(shù)」評判當前神經(jīng)網(wǎng)絡的輸出與正確輸出之間的差距。而程序就是不斷地調節(jié)各個權重,使差距越來越小,這種調節(jié)的根據(jù)是「導數(shù)」,但在這里我就不展開了??傊绻柧毜卯?,神經(jīng)網(wǎng)絡的損失就會越來越小,直到停在一個值附近,這就是「收斂」。


篇幅所限,我刻意沒有講相關的數(shù)學原理,如果你對此感興趣,又或者對MLP的運作仍有困惑,可以看看以下兩個視頻。如果準備好了,下面就進入代碼實現(xiàn)環(huán)節(jié)吧。

視頻1:


https://www.bilibili.com/video/BV1bx411M7Zx/?spm_id_from=333.999.0.0&vd_source=c9a1131d04faacd4a397411965ea21f4

視頻2:


https://www.bilibili.com/video/BV1o64y1i7yw/?spm_id_from=333.788&vd_source=c9a1131d04faacd4a397411965ea21f4

三、代碼實現(xiàn)

1. 相關數(shù)學

關于數(shù)學部分,我只進行簡要說明,不講它們的數(shù)學原理,也不過多注釋。如果你只是想將神經(jīng)網(wǎng)絡應用到游戲中,那這部分完全可以不必深究原理,弄清它們應用的場合即可。

a. 初始化權重函數(shù)

神經(jīng)網(wǎng)絡權重的初始化十分重要,它會影響你的神經(jīng)網(wǎng)絡最后能否訓練成功。這里實現(xiàn)了3種典型的初始化方法:

  • 隨機初始化(std = 0.01):是比較普通的方法,深度學習新手接觸的第一個初始化方式。

  • Xavier初始化:適用于激活函數(shù)為Sigmoid和Tanh的場合。

  • He初始化:適用于激活函數(shù)為ReLU及其衍生函數(shù),如Leaky ReLU的場合。


這里我還用了枚舉,方便在編輯時切換初始化的方法(后續(xù)幾類數(shù)學函數(shù)也會用這種方法):

                                                           using System;


namespaceJufGame.AI.ANN
{
publicstaticclassInitWFunc
{
publicenum Type
{
Random, Xavier, He, None
}
public static void InitWeights(Type initWFunc, Neuron neuron)
{
switch(initWFunc)
{
case Type.Xavier:
XavierInitWeights(neuron.Weights);
break;
case Type.He:
HeInitWeights(neuron.Weights);
break;
case Type.Random:
RandomInitWeights(neuron.Weights);
break;
default:
break;
}
}
private static void RandomInitWeights(float[] weightsList)
{
var rand = new Random();
for (int i = 0; i < weightsList.Length; ++i)
{
//使用較小的標準差,適合普通的隨機初始化
weightsList[i] = (float)(rand.NextGaussian() * 0.01);
}
}
private static void XavierInitWeights(float[] weightsList)
{
var rand = new Random();
var scale = 1f / MathF.Sqrt(weightsList.Length);
for (int i = 0; i < weightsList.Length; ++i)
{
weightsList[i] = (float)(rand.NextDouble() * 2 * scale - scale);
}
}
private static void HeInitWeights(float[] weightsList)
{
var rand = new Random();
var stdDev = MathF.Sqrt(2f / weightsList.Length); //計算標準差
for (int i = 0; i < weightsList.Length; ++i)
{
//生成服從正態(tài)分布的隨機數(shù),并乘以標準差
weightsList[i] = (float)(rand.NextGaussian() * stdDev);
}
}
// 用于生成服從標準正態(tài)分布的隨機數(shù)的輔助方法
private static double NextGaussian(this Random rand)
{
double u1 = 1.0 - rand.NextDouble(); // 生成 [0, 1) 之間的隨機數(shù)
double u2 = 1.0 - rand.NextDouble();
// 使用 Box-Muller 變換生成正態(tài)分布的隨機數(shù)
return Math.Sqrt(-2.0 * Math.Log(u1)) * Math.Sin(2.0 * Math.PI * u2);
}
}
}

b. 激活函數(shù)

一般神經(jīng)網(wǎng)絡中所有隱藏層都使用同一種激活函數(shù),輸出層根據(jù)問題需求可能會使用和隱藏層不一樣的激活函數(shù)。激活函數(shù)都有非線性且可導的特點,我也實現(xiàn)了一些典型的激活函數(shù):


  • 直接輸出(Identify):不做處理直接輸出,用于輸出層。

  • Sigmoid:早期的主流,現(xiàn)在一般用于輸出層需要將輸出值限制在0~1的場合,或者是只有兩個輸出的二分問題。

  • Tanh:相當于Sigmoid的改造,將輸出限制在了-1~1。

  • ReLU:當今的主流激活函數(shù),長得十分友好,甚至不用加減運算。一般選它準沒錯。

  • Leaky ReLU:ReLU的改造,使得對負數(shù)輸入也有響應,但并沒有說它一定好于ReLU。如果你用ReLU訓練出現(xiàn)問題,可以換這個試試。

  • Softmax:把一系列輸出轉為總和為1的小數(shù),并且維持彼此的大小關系,相當于把輸出結果轉為了概率。適用于多分類問題,但一定要搭配交叉熵損失函數(shù)使用。

                                                           using System;

namespaceJufGame.AI.ANN
{
publicstaticclassActivationFunc
{
private delegate float FuncCalc(float x);
privatestatic FuncCalc curAcFunc;
publicenum Type
{
Identify, Softmax, Tanh, Sigmoid, ReLU, LeakyReLU
}
//按層使用激活函數(shù)計算
public static void Calc(Type funcType, Layer layer)
{
if(funcType == Type.Softmax)
{
Softmax_Calc(layer);
}
else
{
curAcFunc = funcType switch
{
Type.Sigmoid => Sigmoid_Calc,
Type.Tanh => Tanh_Calc,
Type.ReLU => ReLU_Calc,
Type.LeakyReLU => LeakyReLU_Calc,
_ => Identify_Calc,
};
for(int i = 0; i < layer.Neurons.Length; ++i)
{
layer.Output[i] = curAcFunc(layer.Neurons[i].Sum);
}
}
}
//根據(jù)傳入下標index選取層中神經(jīng)元,并進行求導
public static float Diff(Type funcType, Layer layer, int index)
{
return funcType switch
{
Type.Softmax => Softmax_Diff(layer, index),
Type.Sigmoid => Sigmoid_Diff(layer, index),
Type.Tanh => Tanh_Diff(layer, index),
Type.ReLU => ReLU_Diff(layer, index),
Type.LeakyReLU => LeakyReLU_Diff(layer, index),
_ => Identify_Diff(),
};
}

#region 直接輸出
private static float Identify_Calc(float x)
{
return x;
}
private static float Identify_Diff()
{
return1;
}
#endregion

#region Softmax
private static void Softmax_Calc(Layer layer)
{
var neurons = layer.Neurons;
var expSum = 0.0f;
for(int i = 0; i < neurons.Length; ++i)
{
layer.Output[i] = MathF.Exp(neurons[i].Sum);
expSum += layer.Output[i];
}
for(int i = 0; i < neurons.Length; ++i)
{
layer.Output[i] /= expSum;
}
}
private static float Softmax_Diff(Layer outLayer, int index)
{
return outLayer.Output[index] * (1 - outLayer.Output[index]);
}
#endregion

#region Sigmoid
private static float Sigmoid_Calc(float x)
{
return1.0f / (1.0f + MathF.Exp(-x));
}
private static float Sigmoid_Diff(Layer outLayer, int index)
{
return outLayer.Output[index] * (1 - outLayer.Output[index]);
}
#endregion

#region Tanh
private static float Tanh_Calc(float x)
{
var expVal = MathF.Exp(-x);
return (1.0f - expVal) / (1.0f + expVal);
}
private static float Tanh_Diff(Layer outLayer, int index)
{
return1.0f - MathF.Pow(outLayer.Output[index], 2.0f);
}
#endregion

#region ReLU
public static float ReLU_Calc(float x)
{
return x > 0 ? x : 0;
}
public static float ReLU_Diff(Layer outLayer, int index)
{
return outLayer.Neurons[index].Sum > 0 ? 1 : 0;
}
#endregion

#region LeakyReLU
private static float LeakyReLU_Calc(float x)
{
return x > 0 ? x : 0.01f * x;
}
private static float LeakyReLU_Diff(Layer outLayer, int index)
{
return outLayer.Neurons[index].Sum > 0 ? 1 : 0.01f;
}
#endregion
}
}

c. 更新權重函數(shù)

權重的更新涉及一些「超參數(shù)」,比如學習率、最大迭代次數(shù)等。這些參數(shù)是程序不會進行更新的,只能人工提前設置好。在神經(jīng)網(wǎng)絡的學習中,學習率的值很重要,過小會導致訓練費時;過大則會導致學習發(fā)散而不能正確進行。但好在后面人們想出來更好的權重更新函數(shù),它們對「超參數(shù)」的依賴會減小很多。我們所實現(xiàn)的有:


  • SGD:隨機梯度下降,最簡單的一種更新方法,但有時并不是這么高效,容易陷入局部最優(yōu)解。

  • Movement:基于物理上的動量概念,它會在更新權重的過程中考慮先前的更新步驟,需要為每個權重設置額外參數(shù)(用m表示)來記錄「動量」。

  • AdaGrad:運用了學習率衰減的技巧,為每個權重適當?shù)卣{整學習率,相當于給每個權重都設置了獨立的學習率,也需要額外參數(shù)(用v表示)記錄。

  • Adam:將Movment與AdaGrad結合了起來,通過組合二者的優(yōu)點,有望實現(xiàn)參數(shù)空間的高效搜索。

當然,上述4個方法各有優(yōu)劣,可以優(yōu)先考慮SGD和Adam。

順帶一提,權重的更新都是建立在「梯度」之上的,「梯度」可以理解為對神經(jīng)網(wǎng)絡整體權重的變化趨勢。你想,有這么多權重要更新,有時訓練一個樣本A后,會要求權重w0+ = 0.01、w1- = 0.05以減小誤差,但訓練下一個樣本B時,又要求w0- = 0.02、w1+ = 0.04,一個訓練集有這么多樣本,要以哪個樣本訓練時產(chǎn)生的權重變化為準呢?


答案是累加每個樣本帶來的誤差并取平均值。如果覺得還不清楚,可以看看這個視頻:


https://www.bilibili.com/video/BV16x411V7Qg/?spm_id_from=333.999.0.0&vd_source=c9a1131d04faacd4a397411965ea21f4

還有一點,偏置b也是隨著權重更新的,它可以視為一個輸入始終為1,權重為b的權重。在后續(xù)的實現(xiàn)中,我將偏置放在儲存權重的列表的最后一位。(但后來才知道不提倡這種寫法。)

                                                           using System;

namespaceJufGame.AI.ANN
{
publicstaticclassUpdateWFunc
{
privateconstfloat MinDelta = 1e-7f;
privateconstfloat beta1 = 0.9f;
privateconstfloat beta2 = 0.999f;
private delegate void UpdateLayer(Neuron curNeuron, float learningRate, int curEpochs, int samplesCount);
publicenum Type
{
SGD, Momentum, AdaGrad, Adam
}
public static void UpdateNetWeights(Type type, NeuralNet net, int samplesCount)
{
UpdateLayer updateLayerFunc = type switch
{
Type.Momentum => Momentum_UpdateW,
Type.AdaGrad => AdaGrad_UpdateW,
Type.Adam => Adam_UpdateW,
_ => SGD_UpdateW,
};
var curLayer = net.OutLayer;
for(int j = 0; j < curLayer.Neurons.Length; ++j)
{
updateLayerFunc(curLayer.Neurons[j], net.LearningRate, net.CurEpochs ,samplesCount);
}
for(int i = 0; i < net.HdnLayers.Length; ++i)
{
curLayer = net.HdnLayers[i];
for(int j = 0; j < curLayer.Neurons.Length; ++j)
{
updateLayerFunc(curLayer.Neurons[j], net.LearningRate, net.CurEpochs, samplesCount);
}
}
}

#region 各參數(shù)損失貢獻計算
//計算各參數(shù)對損失的貢獻程度(也是各參數(shù)的變化的值)
public static void CalcDelta(NeuralNet net, float[] input)
{
var lastInput = input;
for(int i = 0; i < net.HdnLayers.Length; ++i)
{
var curLayer = net.HdnLayers[i];
CalcLayerDelta(curLayer, lastInput);
lastInput = curLayer.Output;
}
CalcLayerDelta(net.OutLayer, lastInput);
}
private static void CalcLayerDelta(Layer curLayer, float[] lastInput)
{
for(int j = 0, k; j < curLayer.Neurons.Length; ++j)
{
var curNeuron = curLayer.Neurons[j];
for(k = 0; k < lastInput.Length; ++k)
{
//通過反向傳播時神經(jīng)元的損失,計算每個權重的貢獻貢獻并累加
curNeuron.WeightParams["Delta"][k] += curNeuron.Params["Error"] * lastInput[k];
}
//同理計算偏置的損失貢獻
curNeuron.WeightParams["Delta"][k] += curNeuron.Params["Error"];
}
}
#endregion

#region SGD
private static void SGD_UpdateW(Neuron curNeuron, float learningRate, int curEpochs, int samplesCount)
{
for(int k = 0; k < curNeuron.Weights.Length; ++k)
{
var gradient = curNeuron.WeightParams["Delta"][k] / samplesCount;
curNeuron.Weights[k] -= learningRate * gradient;
curNeuron.WeightParams["Delta"][k] = 0;
}
}
#endregion

#region Momentum
private static void Momentum_UpdateW(Neuron curNeuron, float learningRate, int curEpochs, int samplesCount)
{
for(int k = 0; k < curNeuron.Weights.Length; ++k)
{
var gradient = curNeuron.WeightParams["Delta"][k] / samplesCount;
curNeuron.WeightParams["m"][k] = beta1 * curNeuron.WeightParams["m"][k] - learningRate * gradient;
curNeuron.Weights[k] += curNeuron.WeightParams["m"][k];
curNeuron.WeightParams["Delta"][k] = 0;
}
}
#endregion

#region AdaGrad
private static void AdaGrad_UpdateW(Neuron curNeuron, float learningRate, int curEpochs, int samplesCount)
{
for(int k = 0; k < curNeuron.Weights.Length; ++k)
{
var gradient = curNeuron.WeightParams["Delta"][k] / samplesCount;
curNeuron.WeightParams["v"][k] += gradient * gradient;
curNeuron.Weights[k] -= learningRate * gradient / MathF.Sqrt(curNeuron.WeightParams["v"][k] + MinDelta);
curNeuron.WeightParams["Delta"][k] = 0;
}
}
#endregion

#region Adam
private static void Adam_UpdateW(Neuron curNeuron, float learningRate, int curEpochs, int samplesCount)
{
for(int k = 0; k < curNeuron.Weights.Length; ++k)
{
var gradient = curNeuron.WeightParams["Delta"][k] / samplesCount;
curNeuron.WeightParams["m"][k] = beta1 * curNeuron.WeightParams["m"][k] + (1 - beta1) * gradient;
curNeuron.WeightParams["v"][k] = beta2 * curNeuron.WeightParams["v"][k] + (1 - beta2) * gradient * gradient;
var mHat = curNeuron.WeightParams["m"][k] / (1 - MathF.Pow(beta1, curEpochs));
var vHat = curNeuron.WeightParams["v"][k] / (1 - MathF.Pow(beta2, curEpochs));
curNeuron.Weights[k] -= learningRate * mHat / (MathF.Sqrt(vHat) + MinDelta);
curNeuron.WeightParams["Delta"][k] = 0;
}
}
#endregion
}
}

d. 損失函數(shù)

損失函數(shù)用來衡量輸出與正確值之間的差距,這里實現(xiàn)的是最常用的兩個損失函數(shù):

  • 均方差函數(shù):簡單實用,形式如下:


  • 交叉熵函數(shù):主要用在多分類問題上,配合Softmax使用:


                                                           using System;

namespaceJufGame.AI.ANN
{
publicstaticclassLossFunc
{
privateconstfloat MinDelta = 1e-7f;
publicenum Type
{
MeanSqurad, CrossEntropy,
}
public static float Calc(Type type, float[] targetOut, Layer outLayer)
{
return type switch
{
Type.MeanSqurad => MeanSquradErr_Calc(targetOut, outLayer),
_ => CrossEntropy_Calc(targetOut, outLayer),
};
}
public static void Diff(Type type, float[] targetOut, Layer outLayer)
{
switch(type)
{
case Type.MeanSqurad:
MeanSquradErr_Diff(targetOut, outLayer);
break;
case Type.CrossEntropy:
CrossEntropy_Diff(targetOut, outLayer);
break;
};
}

private static float MeanSquradErr_Calc(float[] targetOut, Layer outLayer)
{
var errSum = 0.0f;
for(int i = 0; i < targetOut.Length; ++i)
{
errSum += MathF.Pow(outLayer.Output[i] - targetOut[i], 2);
}
return errSum / (2 * targetOut.Length);
}
private static void MeanSquradErr_Diff(float[] targetOut, Layer outLayer)
{
for(int i = 0; i < targetOut.Length; ++i)
{
var curNeuron = outLayer.Neurons[i];
curNeuron.Params["Error"] = outLayer.Output[i] - targetOut[i];
}
}

private static float CrossEntropy_Calc(float[] targetOut, Layer outLayer)
{
var errSum = 0.0f;
for(int i = 0; i < targetOut.Length; ++i)
{
//加上一個極小值再取log,放置出現(xiàn)log(0)報錯
errSum -= targetOut[i] * MathF.Log(outLayer.Output[i] + MinDelta);
}
return errSum;
}
private static void CrossEntropy_Diff(float[] targetOut, Layer outLayer)
{
for(int i = 0; i < targetOut.Length; ++i)
{
var curNeuron = outLayer.Neurons[i];
//用Output[i]的前提:神經(jīng)網(wǎng)絡的輸出經(jīng)過了softmax處理
curNeuron.Params["Error"] = outLayer.Output[i] - targetOut[i];
}
}
}
}

2. 感知機(神經(jīng)元)


簡單地對神經(jīng)元結構進行實現(xiàn),只是神經(jīng)元在訓練時,需要為自身或者自身的權重記錄一些額外信息,所以多了WeightParams和Params備以記錄。

  • 為什么不記錄激活函數(shù)的計算結果out?

因為在訓練過程中常常要以層為單位統(tǒng)一處理激活函數(shù)的計算結果,故而將out都記錄在層中了。(實際上Python中許多深度學習框架庫都是以層為最小單位構建神經(jīng)網(wǎng)絡的,這有利于進行矩陣運算,但在我們的實現(xiàn)中,一來沒用到矩陣運算,二來是希望能讓大家更直接地看到神經(jīng)網(wǎng)絡訓練、計算的細節(jié),所以我們以單個神經(jīng)元作為最小的單位。)

  • 為什么沒有激活函數(shù)f(x)?

因為我們之前說過,神經(jīng)網(wǎng)絡的隱藏層都是使用同一種激活函數(shù),頂多輸出層用的不太一樣。也就是說我們只需要記錄兩個函數(shù)的類型,所以讓后續(xù)實現(xiàn)的神經(jīng)網(wǎng)絡類記下就行了,沒必要每個神經(jīng)元都記錄,浪費空間。

                                                           using System;
using System.Collections.Generic;
using UnityEngine;


namespaceJufGame.AI.ANN
{
[Serializable] // 方便在編輯器頁面查看
publicclassNeuron
{
//神經(jīng)元權重列表,末位放置偏置b
publicfloat[] Weights => weights;
//加權和
publicfloat Sum => sum;
//為各個權重分配的額外參數(shù)
public Dictionary WeightParams{ get; privateset; }
//為神經(jīng)元本身分配的額外參數(shù)
public Dictionary Params{ get; privateset; }
[SerializeField]privatefloat[] weights;
privatefloat sum;
public Neuron(int weightCount)
{
weights = newfloat[weightCount + 1];//末尾放偏置
}
///
/// 初始化訓練所需參數(shù)列表,僅在訓練時調用
///
public void InitCache()
{
Params = new Dictionary
{
["Error"] = 0,//該值用來記錄,每次更新時的累計損失
};
WeightParams = new Dictionary
{
//記錄權重待變化值
["Delta"] = newfloat[weights.Length],
//Momentum和Adam中,用于記錄權重變化的「動量」
["m"] = newfloat[weights.Length],
//AdaGrad和Adam中,用于記錄權重獨立學習率
["v"] = newfloat[weights.Length],
};
}
//計算Sum
public float CalcSum(float[] input)
{
int i;
sum = 0;
for(i = 0; i < input.Length; ++i)
{
sum += weights[i] * input[i];//加權和
}
sum += weights[i];//加上權重
return Sum;
}
}
}

3. 層

沒有太多必要說的,就是嵌套調用了包含的各神經(jīng)元的函數(shù),比如層的計算就是各個神經(jīng)元的計算,其它同理。

                                                           using System;
using UnityEngine;


namespaceJufGame.AI.ANN
{
[Serializable]
publicclassLayer
{
public Neuron[] Neurons => neurons;//存儲神經(jīng)元
publicfloat[] Output => output;//存儲各神經(jīng)元激活函數(shù)輸出
[SerializeField] private Neuron[] neurons;
[SerializeField] privatefloat[] output;
public Layer(int neuronCount)
{
output = newfloat[neuronCount];
neurons = new Neuron[neuronCount];
}
//對層中的每個神經(jīng)元的權重進行初始化
public void InitWeights(int weightCount, InitWFunc.Type initType)
{
for(int i = 0; i < neurons.Length; ++i)
{
neurons[i] = new Neuron(weightCount);
InitWFunc.InitWeights(initType, neurons[i]);
}
}
//初始化層中每個神經(jīng)元的額外參數(shù)
public void InitCache()
{
for(int i = 0; i < neurons.Length; ++i)
{
neurons[i].InitCache();
}
}
//計算該層,實際上就是計算所有神經(jīng)元的加權和,并求出激活函數(shù)的輸出
public float[] CalcLayer(float[] inputData, ActivationFunc.Type acFuc)
{
for(int i = 0; i < neurons.Length; ++i)
{
neurons[i].CalcSum(inputData);
}
ActivationFunc.Calc(acFuc, this);
return output;
}
}
}

4. 多層感知機(神經(jīng)網(wǎng)絡)

神經(jīng)網(wǎng)絡也一樣,是對層的各個功能的再度包裝,只是多了些超參數(shù)成員變量。

  • 為什么沒有輸入層?

因為輸入層其實就只是輸入的數(shù)值,沒必要單獨設置一個層(Python中許多深度學習框架也是這樣的)。

  • 怎么讀取輸出?

直接讀取輸出層的輸出列表即可。

                                                           using System;
using UnityEngine;

namespaceJufGame.AI.ANN
{
[Serializable]
publicclassNeuralNet
{
publicfloat TargetError = 0.0001f;//預期誤差,當損失函數(shù)的結果小于它時,就停止訓練
publicfloat LearningRate = 0.01f;//學習率
publicint CurEpochs;//記錄當前迭代的次數(shù)
public ActivationFunc.Type hdnAcFunc;//隱藏層激活函數(shù)類型
public ActivationFunc.Type outAcFunc;//輸出層激活函數(shù)類型
public Layer[] HdnLayers => hdnLayers;//隱藏層
public Layer OutLayer => outLayer;//輸出層
[SerializeField] private Layer[] hdnLayers;
[SerializeField] private Layer outLayer;

public NeuralNet(int hdnLayerCount, int[] neuronsOfLayers, int outCount,
ActivationFunc.Type hdnAcFnc, ActivationFunc.Type outAcFnc,
float targetError = 0.0001f, float learningRate = 0.01f)
{
outLayer = new Layer(outCount);
hdnLayers = new Layer[hdnLayerCount];
for(int i = 0, j = 0; i < hdnLayerCount; ++i)
{
hdnLayers[i] = new Layer(neuronsOfLayers[j]);
}
hdnAcFunc = hdnAcFnc;
outAcFunc = outAcFnc;
TargetError = targetError;
LearningRate = learningRate;
}
//初始化各神經(jīng)元權重
public void InitWeights(int inputDataCount, InitWFunc.Type initType)
{
int neuronNum = inputDataCount;
for(int i = 0; i < HdnLayers.Length; ++i)
{
hdnLayers[i].InitWeights(neuronNum, initType);
neuronNum = HdnLayers[i].Neurons.Length;
}
outLayer.InitWeights(neuronNum, initType);
}
//初始化各神經(jīng)元額外參數(shù)列表
public void InitCache()
{
for(int i = 0; i < HdnLayers.Length; ++i)
{
hdnLayers[i].InitCache();
}
outLayer.InitCache();
}
//計算神經(jīng)網(wǎng)絡
public float[] CalcNet(float[] inputData)
{
var curInput = inputData;
for(int j = 0; j < hdnLayers.Length; ++j)
{
curInput = hdnLayers[j].CalcLayer(curInput, hdnAcFunc);
}
return outLayer.CalcLayer(curInput, outAcFunc);
}
}
}

至此,神經(jīng)網(wǎng)絡就搭建完成了,并沒有想象的那么復雜。

5. 訓練器

先實現(xiàn)一個訓練器的基類……等等,明明就一種神經(jīng)網(wǎng)絡,為什么還要有基類,直接寫不好嗎?

其實最初是打算實現(xiàn)多種神經(jīng)網(wǎng)絡的,但后來考試臨近,不得不轉移重心,最終只實現(xiàn)了最簡單的MLP。Unity本身也已經(jīng)可以導入ONNX模型,如果要在游戲里想實現(xiàn)圖像識別這類復雜功能的話,導入模型似乎更方便,所以實現(xiàn)更多神經(jīng)網(wǎng)絡的必要性就值得考慮了。當然,這些文末會再進行討論。

先來看看這個基類有哪些東西:

                                                           using UnityEngine;

namespaceJufGame.AI.ANN
{
publicabstractclassTraining
{
public NeuralNet TrainingNet;//需要訓練的神經(jīng)網(wǎng)絡
publicfloat[][] InputSet => inputSet;//訓練輸入集

/*沒有「訓練輸出集」是因為并非所有類型的神經(jīng)網(wǎng)絡都需要「訓練輸出」
所以它不是基類必需的,當然,這些就是題外話了*/

protectedfloat[][] inputSet;
[SerializeField] protectedint maxEpochs;//最大迭代次數(shù)

public Training(NeuralNet initedNet, int maxEpochs)
{
this.maxEpochs = maxEpochs;
TrainingNet = initedNet;
}

public void SetInput(float[][] inputSet)//設置訓練輸入集
{
this.inputSet = inputSet;
}
public abstract bool IsTrainEnd();//是否訓練完成
public abstract void Train(); //不斷訓練神經(jīng)網(wǎng)絡
public abstract void Train_OneTime();//訓練(迭代)一次神經(jīng)網(wǎng)絡

//打印神經(jīng)網(wǎng)絡輸出的結果,調試用的
public static void DebugNetRes(NeuralNet net, float[][] testInput)
{
for(int i = 0; i < testInput.GetLength(0); ++i)
{
var res = net.CalcNet(testInput[i]);
for(int j = 0; j < res.Length; ++j)
{
Debug.Log("檢驗結果 " + i + " = " + res[j]);
}
}
}
}
}

最后,就是真正用來訓練的類了,我們將采用最常見梯度下降法進行訓練。其中涉及前向傳播和反向傳播,我稍作解釋:

  • 前向傳播(Forward Propagation):傳入訓練輸入樣本計算出當前神經(jīng)網(wǎng)絡模型的輸出,并進一步計算損失(損失函數(shù)的計算結果其實在反向傳播中并沒有用,只是給開發(fā)者看的,用來判斷當前訓練情況)。

  • 反向傳播(Backward Propagation):從損失函數(shù)開始,用鏈式求導法則,反向(輸出層?隱藏層?輸入層)計算每個神經(jīng)元的損失(下圖中的δ、代碼中的Params["Error"])。通過神經(jīng)元的損失,可以計算出神經(jīng)元的每個參數(shù)(權重、偏置)的損失貢獻(權重更新函數(shù)代碼中的WeightParams["Delta"])并一直累加,直到訓練集被讀取完。這時,我們就說完成了一次訓練迭代


完成一次迭代后(不是訓練完一個樣本后),將累加的損失除以訓練樣本數(shù)取得均值,再用權重更新函數(shù)對各參數(shù)進行更新。

這一迭代過程反復進行,直到損失函數(shù)計算的誤差達到可容許范圍(也就是小于預期損失)或達到最大訓練次數(shù),詳情可看《解讀反向傳播算法(圖與公式結合)》[1](但注意!該文章為了方便講解,訓練完一個樣本就開始更新權重了),實現(xiàn)如下:

                                                           using UnityEngine;


namespaceJufGame.AI.ANN
{
[System.Serializable]
publicclassBPNN : Training
{
publicfloat[][] OutputSet => outputSet;
[SerializeField] privatefloat meanError = float.MaxValue;
[SerializeField] private LossFunc.Type errorFunc;
[SerializeField] private UpdateWFunc.Type updateWFunc;
privatefloat[][] outputSet;
public BPNN(NeuralNet initedNet, LossFunc.Type errorFunc, UpdateWFunc.Type updateWFunc, int maxEpochs): base(initedNet,maxEpochs)
{
this.errorFunc = errorFunc;
this.updateWFunc = updateWFunc;
}
public void SetOutput(float[][] outputSet)
{
this.outputSet = outputSet;
}
public override bool IsTrainEnd()//判斷是否訓練完成
{
return meanError < TrainingNet.TargetError
|| maxEpochs < TrainingNet.CurEpochs;
}
public override void Train()
{
meanError = float.MaxValue;
while(!IsTrainEnd())
{
Train_OneTime();
}
}
public override void Train_OneTime()
{
int samplesCount = inputSet.GetLength(0);//記下樣本數(shù)量
++TrainingNet.CurEpochs;//更新迭代次數(shù)
meanError = 0;
for(int i = 0; i < samplesCount; ++i)
{
ForWard(i);
Backpropagation();
UpdateWFunc.CalcDelta(TrainingNet, inputSet[i]);
}
UpdateWFunc.UpdateNetWeights( updateWFunc, TrainingNet, samplesCount);
meanError /= samplesCount;//取樣本誤差均值作為本次迭代的誤差
#if UNITY_EDITOR
Debug.Log($"誤差:{meanError}");//調試時用的
#endif
}
private void ForWard(int trainIndex)
{
var outLayer = TrainingNet.OutLayer;
TrainingNet.CalcNet(inputSet[trainIndex]);
meanError = LossFunc.Calc(errorFunc, outputSet[trainIndex], outLayer);
/*這里圖省事,將反向傳播的第一步一并計算了*/
LossFunc.Diff(errorFunc, outputSet[trainIndex], outLayer);//損失函數(shù)求導
for(int i = 0; i < outLayer.Neurons.Length; ++i)//輸出層激活函數(shù)求導
{
outLayer.Neurons[i].Params["Error"] *= ActivationFunc.Diff(TrainingNet.outAcFunc, outLayer, i);
}
}
private void Backpropagation()
{
var lastLayer = TrainingNet.OutLayer;
for(int i = TrainingNet.HdnLayers.Length - 1; i > -1; --i)
{
var curLayer = TrainingNet.HdnLayers[i];
for(int j = 0; j < curLayer.Neurons.Length; ++j)
{
var curNeuron = curLayer.Neurons[j];
//每次計算損失時要清零,避免上次迭代結果產(chǎn)生的干擾
curNeuron.Params["Error"] = 0;
for(int k = 0; k < lastLayer.Neurons.Length; ++k)
{
var lastNeuron = lastLayer.Neurons[k];
curNeuron.Params["Error"] += lastNeuron.Params["Error"] * lastNeuron.Weights[j];
}
curNeuron.Params["Error"] *= ActivationFunc.Diff(TrainingNet.hdnAcFunc, curLayer, j);
}
lastLayer = curLayer;
}
}
}
}

四、使用教程

一切都準備就緒了,那要怎么運轉這個神經(jīng)網(wǎng)絡呢?我們創(chuàng)建一個繼承了MonoBehavior的腳本,并聲明下面三個公開的字段:

                                                           using UnityEngine;
using JufGame.AI.ANN;


public class TrainANN : MonoBehaviour
{
public int inputCount;
public BPNN bp;
public InitWFunc.Type initW;
}

將它掛載在場景的任一物體上,不出意外的話,你可以在編輯器看到神經(jīng)網(wǎng)絡類的許多關鍵變量都可以顯示出來(如果你的沒有,就要注意是否遺漏[System.Serializable]或設置成了私有類):


我們再完善下腳本,設置好訓練輸入和輸出(以「異或」運算為例),使得神經(jīng)網(wǎng)絡能在Unity運行時逐幀訓練:

                                                           public classTrainANN : MonoBehaviour
{
publicint inputCount;
public BPNN bp;
public InitWFunc.Type initW;

privatefloat[][] inSet = //異或運算的輸入
{
newfloat[]{1, 0},
newfloat[]{1, 1},
newfloat[]{0, 0},
newfloat[]{0, 1},
};
privatefloat[][] outSet = //異或運算的輸出
{
newfloat[]{1},
newfloat[]{0},
newfloat[]{0},
newfloat[]{1},
};

private void Awake()
{
...

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
穆里尼奧談執(zhí)教皇馬:如果我想回歸皇馬,就不會對弗洛倫蒂諾說不

穆里尼奧談執(zhí)教皇馬:如果我想回歸皇馬,就不會對弗洛倫蒂諾說不

夏侯看英超
2026-03-02 01:35:31
特朗普:若伊朗進行報復 將對伊朗發(fā)動打擊

特朗普:若伊朗進行報復 將對伊朗發(fā)動打擊

財聯(lián)社
2026-03-01 13:27:05
默茨的大單剛到手,德政府二號人物對華“開炮”:別把德國當傻子

默茨的大單剛到手,德政府二號人物對華“開炮”:別把德國當傻子

享用人生
2026-03-01 16:41:38
武漢相親女帶8個親戚蹭飯,點18個菜人均消費過200,男生直接離場

武漢相親女帶8個親戚蹭飯,點18個菜人均消費過200,男生直接離場

潮鹿逐夢
2026-02-28 23:42:48
曉數(shù)點|一周個股動向:這只電力股七連板,六大行業(yè)獲主力青睞

曉數(shù)點|一周個股動向:這只電力股七連板,六大行業(yè)獲主力青睞

第一財經(jīng)資訊
2026-03-01 20:28:59
外媒:伊朗前總統(tǒng)內賈德遇襲身亡

外媒:伊朗前總統(tǒng)內賈德遇襲身亡

澎湃新聞
2026-03-01 22:00:04
OpenAI宣布完成1100億美元融資

OpenAI宣布完成1100億美元融資

參考消息
2026-03-01 16:11:05
原來,費翔這輩子愛得最深的,不是葉倩文。而是大他7歲的她

原來,費翔這輩子愛得最深的,不是葉倩文。而是大他7歲的她

她時尚丫
2026-03-01 19:26:59
他是新四軍猛將職務高于粟裕,錯殺后主席大怒:為何不讓他回延安

他是新四軍猛將職務高于粟裕,錯殺后主席大怒:為何不讓他回延安

小舟談歷史
2026-03-01 22:03:49
新加坡大滿貫,莫雷加德犀利銳評樊振東,句句不提球技卻一針見血

新加坡大滿貫,莫雷加德犀利銳評樊振東,句句不提球技卻一針見血

清衣渡a
2026-03-01 15:00:09
“突然理解道明寺媽媽了”,高鐵上小少爺走紅,讓普通人看透現(xiàn)實

“突然理解道明寺媽媽了”,高鐵上小少爺走紅,讓普通人看透現(xiàn)實

妍妍教育日記
2026-02-28 17:41:50
長餐桌已經(jīng)退出中國家庭,學浙江人的做法,很多人都開始紛紛效仿

長餐桌已經(jīng)退出中國家庭,學浙江人的做法,很多人都開始紛紛效仿

室內設計師有料兒
2026-02-27 20:49:11
比薩拉赫還拉胯!利物浦首位清理目標鎖定,斯洛特別猶豫

比薩拉赫還拉胯!利物浦首位清理目標鎖定,斯洛特別猶豫

奶蓋熊本熊
2026-03-02 05:35:50
胡歌的父親原來是他,妻子得乳腺癌去世7年,兒子孫女成精神寄托

胡歌的父親原來是他,妻子得乳腺癌去世7年,兒子孫女成精神寄托

踏青云看世界
2026-03-01 20:44:52
沈陽已官宣的四場演唱會!還期待誰呢!

沈陽已官宣的四場演唱會!還期待誰呢!

沈陽百姓一家親
2026-03-02 00:09:44
白發(fā)長哪里,病就藏哪里!別不信,你的身體早已通過白發(fā)向你“報警”!

白發(fā)長哪里,病就藏哪里!別不信,你的身體早已通過白發(fā)向你“報警”!

環(huán)球網(wǎng)資訊
2026-02-01 08:57:23
3500億訂單被取消!美方想要圍堵芯片,卻意外炸出中方底牌

3500億訂單被取消!美方想要圍堵芯片,卻意外炸出中方底牌

劉曠
2026-02-28 17:52:18
華為2025年營收超 8800 億,遠不如蘋果三星,但有一點徹底勝出!

華為2025年營收超 8800 億,遠不如蘋果三星,但有一點徹底勝出!

好賢觀史記
2026-03-01 18:56:32
印度游客添亂,泰國悔悟:還是中國游客香

印度游客添亂,泰國悔悟:還是中國游客香

華山穹劍
2026-02-27 19:47:38
別被騙了!明天A股大變天!黃金炸了!

別被騙了!明天A股大變天!黃金炸了!

龍行天下虎
2026-03-02 02:38:50
2026-03-02 06:27:00
侑虎科技UWA incentive-icons
侑虎科技UWA
游戲/VR性能優(yōu)化平臺
1552文章數(shù) 986關注度
往期回顧 全部

科技要聞

榮耀發(fā)布機器人手機、折疊屏、人形機器人

頭條要聞

特朗普警告伊朗“不要報復” 伊朗外長回應

頭條要聞

特朗普警告伊朗“不要報復” 伊朗外長回應

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂要聞

黃景瑜 李雪健坐鎮(zhèn)!38集犯罪大劇來襲

財經(jīng)要聞

中東局勢升級 如何影響A股、黃金和原油

汽車要聞

理想汽車2月交付26421輛 歷史累計交付超159萬輛

態(tài)度原創(chuàng)

藝術
房產(chǎn)
健康
教育
手機

藝術要聞

清代豪門過年儀式感

房產(chǎn)要聞

濱江九小也來了!集齊海僑北+哈羅、寰島...江東教育要炸了!

轉頭就暈的耳石癥,能開車上班嗎?

教育要聞

收27fall新的學生了:英國最強留學工作室了解下?

手機要聞

現(xiàn)場直擊!榮耀Robot Phone機器人手機長啥樣

無障礙瀏覽 進入關懷版