Bir pitorch modelinde parametrelerin nasıl yapraklanmaması ve hesaplama grafiğinde olması gerekir?

10

Güncelleme / bir sinir ağı modelinin parametrelerini değiştirmeye çalışıyorum ve daha sonra güncellenen sinir ağının ileri geçişine sahip hesaplama grafiğinde (kaç değişiklik / güncelleme yaptığımız önemli değil).

Bu fikri denedim ama her ne zaman yapsam pitorch güncellenmiş tensörlerimi (modelin içinde) yapraklara ayarlar, bu da degradeleri almak istediğim ağlara degradelerin akışını öldürür. Degradelerin akışını öldürür çünkü yaprak düğümleri, olmasını istediğim şekilde hesaplama grafiğinin bir parçası değildir (gerçekte yapraklar olmadığı için).

Birden çok şey denedim ama hiçbir şey işe yaramıyor. Degradeleri olmasını istediğim ağların gradyanlarını basan kendi içinde bulunan bir kukla kod oluşturdum:

import torch
import torch.nn as nn

import copy

from collections import OrderedDict

# img = torch.randn([8,3,32,32])
# targets = torch.LongTensor([1, 2, 0, 6, 2, 9, 4, 9])
# img = torch.randn([1,3,32,32])
# targets = torch.LongTensor([1])
x = torch.randn(1)
target = 12.0*x**2

criterion = nn.CrossEntropyLoss()

#loss_net = nn.Sequential(OrderedDict([('conv0',nn.Conv2d(in_channels=3,out_channels=10,kernel_size=32))]))
loss_net = nn.Sequential(OrderedDict([('fc0', nn.Linear(in_features=1,out_features=1))]))

hidden = torch.randn(size=(1,1),requires_grad=True)
updater_net = nn.Sequential(OrderedDict([('fc0',nn.Linear(in_features=1,out_features=1))]))
print(f'updater_net.fc0.weight.is_leaf = {updater_net.fc0.weight.is_leaf}')
#
nb_updates = 2
for i in range(nb_updates):
    print(f'i = {i}')
    new_params = copy.deepcopy( loss_net.state_dict() )
    ## w^<t> := f(w^<t-1>,delta^<t-1>)
    for (name, w) in loss_net.named_parameters():
        print(f'name = {name}')
        print(w.size())
        hidden = updater_net(hidden).view(1)
        print(hidden.size())
        #delta = ((hidden**2)*w/2)
        delta = w + hidden
        wt = w + delta
        print(wt.size())
        new_params[name] = wt
        #del loss_net.fc0.weight
        #setattr(loss_net.fc0, 'weight', nn.Parameter( wt ))
        #setattr(loss_net.fc0, 'weight', wt)
        #loss_net.fc0.weight = wt
        #loss_net.fc0.weight = nn.Parameter( wt )
    ##
    loss_net.load_state_dict(new_params)
#
print()
print(f'updater_net.fc0.weight.is_leaf = {updater_net.fc0.weight.is_leaf}')
outputs = loss_net(x)
loss_val = 0.5*(target - outputs)**2
loss_val.backward()
print()
print(f'-- params that dont matter if they have gradients --')
print(f'loss_net.grad = {loss_net.fc0.weight.grad}')
print('-- params we want to have gradients --')
print(f'hidden.grad = {hidden.grad}')
print(f'updater_net.fc0.weight.grad = {updater_net.fc0.weight.grad}')
print(f'updater_net.fc0.bias.grad = {updater_net.fc0.bias.grad}')

Herkes bunun nasıl yapılacağını biliyorsa lütfen bana bir ping verin ... Güncelleme işleminin hesaplama grafiğinde rasgele sayıda olması gerektiğinden güncelleme sayısını 2 olarak ayarladım ... 2.

Kesinlikle ilgili yazı:

Çapraz yayınladı:

— Pinokyo
kaynak

İçin argümanlar denediniz backwardmi? Yani retain_graph=Trueve / veya create_graph=True?

— Szymon Maszke

3

Belirtilen parametre modülleri silindiği için düzgün çalışmıyor.

Bu işe yarıyor gibi görünüyor:

import torch
import torch.nn as nn

from torchviz import make_dot

import copy

from collections import OrderedDict

# img = torch.randn([8,3,32,32])
# targets = torch.LongTensor([1, 2, 0, 6, 2, 9, 4, 9])
# img = torch.randn([1,3,32,32])
# targets = torch.LongTensor([1])
x = torch.randn(1)
target = 12.0*x**2

criterion = nn.CrossEntropyLoss()

#loss_net = nn.Sequential(OrderedDict([('conv0',nn.Conv2d(in_channels=3,out_channels=10,kernel_size=32))]))
loss_net = nn.Sequential(OrderedDict([('fc0', nn.Linear(in_features=1,out_features=1))]))

hidden = torch.randn(size=(1,1),requires_grad=True)
updater_net = nn.Sequential(OrderedDict([('fc0',nn.Linear(in_features=1,out_features=1))]))
print(f'updater_net.fc0.weight.is_leaf = {updater_net.fc0.weight.is_leaf}')
#
def del_attr(obj, names):
    if len(names) == 1:
        delattr(obj, names[0])
    else:
        del_attr(getattr(obj, names[0]), names[1:])
def set_attr(obj, names, val):
    if len(names) == 1:
        setattr(obj, names[0], val)
    else:
        set_attr(getattr(obj, names[0]), names[1:], val)

nb_updates = 2
for i in range(nb_updates):
    print(f'i = {i}')
    new_params = copy.deepcopy( loss_net.state_dict() )
    ## w^<t> := f(w^<t-1>,delta^<t-1>)
    for (name, w) in list(loss_net.named_parameters()):
        hidden = updater_net(hidden).view(1)
        #delta = ((hidden**2)*w/2)
        delta = w + hidden
        wt = w + delta
        del_attr(loss_net, name.split("."))
        set_attr(loss_net, name.split("."), wt)
    ##
#
print()
print(f'updater_net.fc0.weight.is_leaf = {updater_net.fc0.weight.is_leaf}')
print(f'loss_net.fc0.weight.is_leaf = {loss_net.fc0.weight.is_leaf}')
outputs = loss_net(x)
loss_val = 0.5*(target - outputs)**2
loss_val.backward()
print()
print(f'-- params that dont matter if they have gradients --')
print(f'loss_net.grad = {loss_net.fc0.weight.grad}')
print('-- params we want to have gradients --')
print(f'hidden.grad = {hidden.grad}') # None because this is not a leaf, it is overriden in the for loop above.
print(f'updater_net.fc0.weight.grad = {updater_net.fc0.weight.grad}')
print(f'updater_net.fc0.bias.grad = {updater_net.fc0.bias.grad}')
make_dot(loss_val)

çıktı:

updater_net.fc0.weight.is_leaf = True
i = 0
i = 1

updater_net.fc0.weight.is_leaf = True
loss_net.fc0.weight.is_leaf = False

-- params that dont matter if they have gradients --
loss_net.grad = None
-- params we want to have gradients --
hidden.grad = None
updater_net.fc0.weight.grad = tensor([[0.7152]])
updater_net.fc0.bias.grad = tensor([-7.4249])

Teşekkür: Pytorch ekibinden güçlü albanD: https://discuss.pytorch.org/t/how-does-one-have-the-parameters-of-a-model-not-be-leafs/70076/9?u= Pinokyo

— Pinokyo
kaynak

çocuklar, bu yanlış, bu kodu kullanmayın, degradeleri 1 adımdan fazla yaymaya izin vermez. Bunun yerine şunu kullanın: github.com/facebookresearch/higher

— Pinokyo

bu ppl çalışmıyor!

— Pinokyo

yüksek kütüphane henüz benim için çalışmıyor.

— Pinokyo

0

Aynı tensörleri tutmaya çalışmalısınız, yenilerini oluşturmayın.

Özelliklerine gidin datave yeni bir değer belirleyin.

for (name, w) in loss_net.named_parameters():
    ....
    w.data = wt.data

Bu benim için bu soruda işe yaradı: Geriye yayılmayı bozmadan bir pitorch değişkenine yeni bir değer nasıl atanır?

— Daniel Möller
kaynak