일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- PEFT
- CPT
- domain-adapted pre-training
- Fine-tuning
- sfttrainer
- Gemma
- nccl
- gemma-3-27b-it
- llama-4-scout-17b-16e-instruct
- langchain
- error: mkl-service + intel(r)
- instruction tuning
- multi-gpu
- Text-to-Image
- ubuntu
- glibcxx
- backbone
- diffusion
- transformer
- Mac
- gemma2
- gemma-3
- Lora
- llm
- llama-4
- vLLM
- prompt
- ViT
- lora+
- tensor-parallel
- Today
- Total
목록분류 전체보기 (32)
꾸준하게
```# LlamaCUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 python -m vllm.entrypoints.openai.api_server\ --model unsloth/Llama-4-Scout-17B-16E-Instruct \ --served-model-name Llama-4-Scout-17B-16E-Instruct \ --tensor_parallel_size 8 \ --dtype bfloat16 \ --max-model-len 128000 \ # 131072 > 65GB --max-num-batched-tokens=1408000 \ # 262144 > 65GB --task generate \ --port 4000 \ --enable-auto-too..
H100 * 8 환경의 서버 2개에서 각각 같은 환경의 Docker로 LLama4, Gemma3를 구동하였는데 A서버의 경우, 4개 이상의 gpu로 잘 동작하는 반면, B서버의 경우, 2개까지의 gpu만 동작하고 4개 이상의 gpu를 할당할 경우 아래와 같은 오류가 발생하였다. ```ERROR 05-07 10:11:11 [core.py:396] File "/opt/conda/lib/python3.11/site-packages/vllm/v1/executor/multiproc_executor.py", line 370, in wait_for_ready ERROR 05-07 10:11:11 [core.py:396] raise e from None ERROR 05-07 10:11:11 [core.py:396] E..
에러 전문mysql 부분에서 아래와 같은 에러가 발생하였다.ImportError: ~/bin/../lib/libstdc++.so.6: version `GLIBCXX_3.4.32' not found (required by /lib/x86_64-linux-gnu/libmysqlclient.so.21)ERROR 12-03 01:36:14 multiproc_worker_utils.py:116] Worker VllmWorkerProcess pid 2536513 died, exit code: -15INFO 12-03 01:36:14 multiproc_worker_utils.py:120] Killing local vLLM worker processes~/lib/python3.11/multiprocessing/reso..
vLLM에서 gemma-2 아키텍처를 사용하는데 아래와 같은 에러가 발생하였다.Gemma2ForCausalLM이 지원되는 아키텍처이지만 에러가 발생하였다. pydantic_core._pydantic_core.ValidationError: 1 validation error for VLLM Value error, Model architectures ['Gemma2ForCausalLM'] are not supported for now. Supported architectures: ['AquilaModel', 'AquilaForCausalLM', 'ArcticForCausalLM', 'BaiChuanForCausalLM', 'BaichuanForCausalLM', 'BloomForCausalLM', 'Cohe..
instruction tuning 시, (항상은 아니지만) instruction 부분 토큰은 학습에 포함되지 않도록 하는데, 그에 관한 코드를 기록하기 위해 글을 작성하였다. CustomDataset과 collate_fn을 SFTTrainer의 인자값으로 넣어주면 된다.아래 코드는 multi-turn tuning시에도 적용 가능한 코드이다. class CustomDataset(Dataset): def __init__(self, chats, tokenizer, max_length): self.data = chats self.tokenizer = tokenizer self.max_length = max_length self.IGNORE_INDEX = -..
지금까지 QLoRA에서 Q가 LoRA에 붙어있으니 당연히 LoRA에 적용되는줄 알았다..디버깅 해보니, LoRA는 fp16, base model layer들은 uint8로 찍힌다. 이때, 4bit가 아닌 8bit로 보이는 이유는, 겉으로는 8bit로 보이지만 내부적으로 2개의 weight를 하나의 8bit로 합쳐서 저장하기 때문으로, 실제로는 4bit로 저장되는게 맞다고 한다.bnb_config = BitsAndBytesConfig( load_in_4bit=True, bnb_4bit_quant_type="nf4", bnb_4bit_compute_dtype=torch.bfloat16, bnb_4bit_use_double_quant=False,)device_map = {"": devic..

ICLR 2024 Conference [github] [paper]Daixuan Cheng, Yuxian Gu, Shaohan Huang, Junyu Bi, Minlie Huang, Furu WeiMicrosoft Research | Tsinghua UniversitySubmitted on 6 Jun 2024 AbstractLM 모델들이 비지도학습만으로 좋은 성능을 내고있으며, 사후 학습으로 지도학습(SFT, Instruction Tuning)을 통해 생성 능력을 더 높힐 수 있다. 저자는 Instruction Pre-Training이라는 supervised multitask pre-training을 제안하였는데 이는, instruction-response 페어 형태의 거대한 raw corpora를 통해..

arXiv 2024 [paper]Hadi Pouransari, Chun-Liang Li, Jen-Hao Rick Chang, Pavan Kumar Anasosalu Vasu, Cem Koc, Vaishaal Shankar, Oncel TuzelApplesubmitted on 21 May 2024 Abstract본 논문에서는 고정된 길이의 토큰 시퀀스로 구성된 데이터셋을 사용하는 기존 방식의 한계를 지적하며, 이를 해결하기 위해 '데이터셋 분해'라는 새로운 가변 시퀀스 길이 학습 기법을 제안하였다. 기존 방법은 다양한 길이의 문서를 무작위로 연결한 후 고정된 길이로 잘라내는 방식인데, 이로 인해 시퀀스 내에서 문서 간 attention이 발생하는 비효율성과 계산 비용이 증가하는 문제가 있다. 특히 긴 시..