Softmax 결과의 총합이 1 이하로 나오는 경우

AI/PyTorch

Softmax 결과의 총합이 1 이하로 나오는 경우

검정비니 2022. 7. 18. 19:02

728x90

만약 softmax를 썼는데 결과의 총합이 1이 아닐 경우, 이는 softmax를 사용한 위치와 loss 함수의 특성을 다시 한번 살펴봐야 한다.

대표적인 예로, 만약 loss 함수로 CrossEntropyLoss를 쓰는데 모델이 output을 logit이 아니라 softmax의 결과 값을 쓴다면 이와 같은 문제가 발생할 수 있다. PyTorch에서 CrossEntropyLoss는 내부적으로 log_softmax와 NLLLoss를 사용하며, input 값이 probability가 아닌 logit 값이 들어오기를 기대한다. 따라서, softmax와 log_softmax의 중복으로 인해 위와 같은 문제가 발생할 수 있다. 당연히 이는 학습을 불안정하게 하는 원인이 된다.

참고: https://discuss.pytorch.org/t/softmax-not-summing-to-1/58526/6

Softmax not summing to 1

Unrelated to your question, but note that nn.CrossEntropyLoss expects logits as the model output not probabilities coming from softmax. Internally F.log_softmax and nn.NLLLOSS will be used so you can just remove the softmax as the output activation. Also n

discuss.pytorch.org

'AI > PyTorch' 카테고리의 다른 글

텐서에서 Top-K 결과를 받아오는 방법 (0)	2023.10.26
cuDNN benchmark 활성화를 통한 최적의 알고리즘 선택 (0)	2023.10.14
PyTorch에서 이미지 데이터에 대해 normalize를 할 때, mean=[0.485, 0.456, 0.406]과 std=[0.229, 0.224, 0.225]를 쓰는 이유는? (2)	2023.10.09
Torch.mm과 Torch.matmul 차이점 (0)	2022.03.16

현재글Softmax 결과의 총합이 1 이하로 나오는 경우

As I've always been

docker, 오픈소스AI, decoder-only transformer, LLM, 라마3, GPT, MultiHead Attention, mixtral, SQLAlchemy, llama3.1, opensource llm, pytorch, flask, MultiQuery Attention, 파이썬 성능 튜닝, fifo queue, Multi-Query Attention, Python, simple queue service, SQL,

Today :
Yesterday :

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

As I've always been