Seltsames Verhalten mit Adam Optimizer beim zu langen Training

Ich versuche, ein einzelnes Perzeptron (1000 Eingabeeinheiten, 1 Ausgabe, keine versteckten Ebenen) auf 64 zufällig generierten Datenpunkten zu trainieren. Ich verwende Pytorch mit dem Adam-Optimierer: import torch from torch.autograd import Variable torch.manual_seed(545345) N, D_in, D_out = 64,...