일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- gemma2
- lora+
- Gemma
- Lora
- tensor-parallel
- backbone
- llm
- llama-4
- nccl
- glibcxx
- PEFT
- transformer
- domain-adapted pre-training
- prompt
- error: mkl-service + intel(r)
- Text-to-Image
- ubuntu
- llama-4-scout-17b-16e-instruct
- gemma-3-27b-it
- CPT
- langchain
- diffusion
- instruction tuning
- Fine-tuning
- ViT
- multi-gpu
- gemma-3
- Mac
- vLLM
- sfttrainer
- Today
- Total
목록CPT (2)
꾸준하게
지금까지 QLoRA에서 Q가 LoRA에 붙어있으니 당연히 LoRA에 적용되는줄 알았다..디버깅 해보니, LoRA는 fp16, base model layer들은 uint8로 찍힌다. 이때, 4bit가 아닌 8bit로 보이는 이유는, 겉으로는 8bit로 보이지만 내부적으로 2개의 weight를 하나의 8bit로 합쳐서 저장하기 때문으로, 실제로는 4bit로 저장되는게 맞다고 한다.bnb_config = BitsAndBytesConfig( load_in_4bit=True, bnb_4bit_quant_type="nf4", bnb_4bit_compute_dtype=torch.bfloat16, bnb_4bit_use_double_quant=False,)device_map = {"": devic..

ICLR 2024 Conference [github] [paper]Daixuan Cheng, Yuxian Gu, Shaohan Huang, Junyu Bi, Minlie Huang, Furu WeiMicrosoft Research | Tsinghua UniversitySubmitted on 6 Jun 2024 AbstractLM 모델들이 비지도학습만으로 좋은 성능을 내고있으며, 사후 학습으로 지도학습(SFT, Instruction Tuning)을 통해 생성 능력을 더 높힐 수 있다. 저자는 Instruction Pre-Training이라는 supervised multitask pre-training을 제안하였는데 이는, instruction-response 페어 형태의 거대한 raw corpora를 통해..