色狠狠色噜噜av天堂一区,少妇性l交大片毛多

五月综合激情婷婷六月,日韩欧美国产一区不卡,他扒开我内裤强吻我下面视频 ,无套内射无矿码免费看黄,天天躁,日日躁,狠狠躁

公司動態(tài)

產(chǎn)品資訊

行業(yè)資訊

pytorch中為什么要用 zero_grad() 將梯度清零

調(diào)用backward()函數(shù)之前都要將梯度清零，因為如果梯度不清零，pytorch中會將上次計算的梯度和本次計算的梯度累加。

這樣邏輯的好處是，當我們的硬件限制不能使用更大的bachsize時，使用多次計算較小的bachsize的梯度平均值來代替，更方便，壞處當然是每次都要清零梯度。

optimizer.zero_grad()
output = net(input)
loss = loss_f(output, target)
loss.backward()

補充：Pytorch 為什么每一輪batch需要設(shè)置optimizer.zero_grad

CSDN上有人寫過原因，但是其實寫得繁瑣了。

根據(jù)pytorch中的backward()函數(shù)的計算，當網(wǎng)絡(luò)參量進行反饋時，梯度是被積累的而不是被替換掉；但是在每一個batch時毫無疑問并不需要將兩個batch的梯度混合起來累積，因此這里就需要每個batch設(shè)置一遍zero_grad 了。

其實這里還可以補充的一點是，如果不是每一個batch就清除掉原有的梯度，而是比如說兩個batch再清除掉梯度，這是一種變相提高batch_size的方法，對于計算機硬件不行，但是batch_size可能需要設(shè)高的領(lǐng)域比較適合，比如目標檢測模型的訓練。

關(guān)于這一點可以參考這里

關(guān)于backward()的計算可以參考這里

補充：pytorch 踩坑筆記之w.grad.data.zero_()

在使用pytorch實現(xiàn)多項線性回歸中，在grad更新時，每一次運算后都需要將上一次的梯度記錄清空，運用如下方法:

w.grad.data.zero_()
b.grad.data.zero_()

但是，運行程序就會報如下錯誤：

報錯，grad沒有data這個屬性，

原因是，在系統(tǒng)將w的grad值初始化為none，第一次求梯度計算是在none值上進行報錯，自然會沒有data屬性

修改方法：添加一個判斷語句，從第二次循環(huán)開始執(zhí)行求導運算

for i in range(100):
 y_pred = multi_linear(x_train)
 loss = getloss(y_pred,y_train)
 if i != 0:
  w.grad.data.zero_()
  b.grad.data.zero_()
 loss.backward()
 w.data = w.data - 0.001 * w.grad.data
 b.data = b.data - 0.001 * b.grad.data

以上為個人經(jīng)驗，希望能給大家一個參考，也希望大家多多支持本站。

美國穩(wěn)定服務(wù)器

版權(quán)聲明：本站文章來源標注為YINGSOO的內(nèi)容版權(quán)均為本站所有，歡迎引用、轉(zhuǎn)載，請保持原文完整并注明來源及原文鏈接。禁止復制或仿造本網(wǎng)站，禁止在非maisonbaluchon.cn所屬的服務(wù)器上建立鏡像，否則將依法追究法律責任。本站部分內(nèi)容來源于網(wǎng)友推薦、互聯(lián)網(wǎng)收集整理而來，僅供學習參考，不代表本站立場，如有內(nèi)容涉嫌侵權(quán)，請聯(lián)系alex-e#qq.com處理。

相關(guān)文章

動態(tài)撥號：關(guān)鍵詞排名下降是啥緣故，快速提高排名怎樣做

排名優(yōu)化：網(wǎng)站排名優(yōu)化方法有什么，如何做有效果

老域名：怎樣才算老域名，老域名建站有什么影響

內(nèi)容優(yōu)化：關(guān)鍵字排名要做哪些方面的優(yōu)化，怎樣做

技巧：網(wǎng)站轉(zhuǎn)化率究竟是什么，有什么提升的技巧

一下吧：外貿(mào)站優(yōu)化有哪些基本的做法和注意事項

概要：競價推廣費用大概要多少呢，競價推廣好不好

一下吧：SEO中site是什么意思，作用和應(yīng)用是怎樣的

郵箱：付費郵箱有哪些優(yōu)勢，付費郵箱挑選要考慮什么

集群是什么意思：集群是什么意思，都有哪些優(yōu)勢呢