低精度训练方法[chat][metaso]

半精度浮点数（FP16）和8位浮点数（FP8） ****训练 [#1]
INT4 量化 [#2]
```
 QLora
```

混合精度训练（Mixed Precision Training）

 结合单精度（FP32）和半精度（FP16或BFLOAT16）进行训练

量化训练（Quantization Training）
```
 **感知量化训练（QAT）**
```

低精度训练-实战[1]

半精度训练-llama[20] [#1]

现象 loss先变大，再为0 loss爆炸，loss消失

解决方案 padding=left 改为padding=right

import torch
model = AutoModelForCausalLM.from_pretrained("D:/Pretrained_models/modelscope/Llama-2-7b-ms", low_cpu_mem_usage=True, torch_dtype=torch.half, device_map="auto")