model.zero_grad()                                   # Reset gradients tensors
for i, (inputs, labels) in enumerate(training_set):
		inputs = inputs.to(device)                      # Load data on GPU
    predictions = model(inputs)                     # Forward pass
    loss = loss_function(predictions, labels)       # Compute loss function
    loss.backward()                                 # Backward pass
    optimizer.step()                                # Now we can do an optimizer step
    model.zero_grad()                               # Reset gradients tensors
    if (i+1) % evaluation_steps == 0:               # Evaluate the model when we...
        evaluate_model()

0. 학습 팁 코드

Train_tips.ipynb

Huggingface Tutorial

1. GPU ram 차지하는 부분 이해하기

GPU 램을 많이 잡아먹는다는 점은 모두 아는 사실입니다. 그래서 주어진 gpu에 따라 모델 및 배치 사이즈 선택 등이 제한되게 됩니다.
어떻게 하면 제한된 자원으로 효과적인 학습/추론을 진행할 수 있을까요?
우선 우리가 데이터와 모델을 램에 올리는 방식을 생각해봐야 합니다.
학습 시 GPU 램에 올라가는 부분들은 다음과 같습니다.
1. 모델 : 모델 내부의 파라미터들이 올라가게 됩니다. 즉, 모델이 커지게 되면, GPU 램을 더 잡아먹습니다.
2. 데이터 : 매 iteration마다 데이터가 새로 gpu에 올라가게 됩니다.
3. 그래디언트 : 모델 내부에서 별도의 텐서로 존재하기는 하지만 그래디언트 역시 연산 과정에서 계속 축적되게 됩니다.
4. 옵티마이저
zero_grad() 메소드는 그래디언트를 비워버리는 역할을 합니다. 즉, 메모리에서 지워집니다.
이때, 다음과 같은 상황을 생각해봅시다.

BERT-base 모델 두 개를 이용해서 전체 구조를 학습시키고 싶은데 모델 두 개를 사용하자니 배치가 4밖에 올라가지 않는다…

모델이 고정된 상황에서 너무 작은 배치는 학습에 악영향을 미치기도 하고, 모델 구조를 생각할 때 제한상황으로 작용하게 됩니다. ㅈ
즉, 모델이 차지하는 gpu ram은 고정되어 있으므로 배치사이즈나 옵티마이저를 조정하여 학습 환경을 구성하게 됩니다.
- batch가 커질수록 ram을 많이 사용하게 됩니다.
- 옵티마이저 종류에 따라 ram 사용량이 달라지게 됩니다. (momentum 계산 등)

0. 학습 팁 코드

1. GPU ram 차지하는 부분 이해하기

2. Gradient Accumulation