일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 |
- ViT
- transformer
- error: mkl-service + intel(r)
- prompt
- ubuntu
- llama-4-scout-17b-16e-instruct
- instruction tuning
- sfttrainer
- vLLM
- torch._C._cuda_getDeviceCount()
- gemma-3
- Gemma
- Lora
- diffusion
- PEFT
- gemma-3-27b-it
- llama-4
- Fine-tuning
- multi-gpu
- glibcxx
- tensor-parallel
- nccl
- gemma2
- CPT
- backbone
- langchain
- llm
- aimv2
- Mac
- Text-to-Image
- Today
- Total
목록전체 글 (34)
꾸준하게
ValueError: 'aimv2' is already used by a Transformers config, pick another name. vllm 실행 시 위 에러가 발생했으며, transformers 4.55 버전을 4.54로 다운그레이드 했더니 해결이 되었다.pip install "transformers
dpkg -l | grep -i fabricmanager || rpm -qa | grep -i fabricmanagersudo apt-get install -y nvidia-fabricmanager-57sudo systemctl enable --now nvidia-fabricmanagerpython -c "import torch; print(torch.cuda.is_available())" nvidia-smi, nvcc -V 모두 이상이 없지만 위와 같이 torch에서 cuda를 사용할 수 없다고 나온다.reboot 하면 해결된다는 글들이 많지만 나는 fabricmanager라는게 dead 상태였고, 이를 다시 작동시켜 해결하였다. 참고로 사용 GPU는 a100*8 환경이다.>>> import torc..
```# LlamaCUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 python -m vllm.entrypoints.openai.api_server\ --model unsloth/Llama-4-Scout-17B-16E-Instruct \ --served-model-name Llama-4-Scout-17B-16E-Instruct \ --tensor_parallel_size 8 \ --dtype bfloat16 \ --max-model-len 128000 \ # 131072 > 65GB --max-num-batched-tokens=1408000 \ # 262144 > 65GB --task generate \ --port 4000 \ --enable-auto-too..
H100 * 8 환경의 서버 2개에서 각각 같은 환경의 Docker로 LLama4, Gemma3를 구동하였는데 A서버의 경우, 4개 이상의 gpu로 잘 동작하는 반면, B서버의 경우, 2개까지의 gpu만 동작하고 4개 이상의 gpu를 할당할 경우 아래와 같은 오류가 발생하였다. ```ERROR 05-07 10:11:11 [core.py:396] File "/opt/conda/lib/python3.11/site-packages/vllm/v1/executor/multiproc_executor.py", line 370, in wait_for_ready ERROR 05-07 10:11:11 [core.py:396] raise e from None ERROR 05-07 10:11:11 [core.py:396] E..
에러 전문mysql 부분에서 아래와 같은 에러가 발생하였다.ImportError: ~/bin/../lib/libstdc++.so.6: version `GLIBCXX_3.4.32' not found (required by /lib/x86_64-linux-gnu/libmysqlclient.so.21)ERROR 12-03 01:36:14 multiproc_worker_utils.py:116] Worker VllmWorkerProcess pid 2536513 died, exit code: -15INFO 12-03 01:36:14 multiproc_worker_utils.py:120] Killing local vLLM worker processes~/lib/python3.11/multiprocessing/reso..
vLLM에서 gemma-2 아키텍처를 사용하는데 아래와 같은 에러가 발생하였다.Gemma2ForCausalLM이 지원되는 아키텍처이지만 에러가 발생하였다. pydantic_core._pydantic_core.ValidationError: 1 validation error for VLLM Value error, Model architectures ['Gemma2ForCausalLM'] are not supported for now. Supported architectures: ['AquilaModel', 'AquilaForCausalLM', 'ArcticForCausalLM', 'BaiChuanForCausalLM', 'BaichuanForCausalLM', 'BloomForCausalLM', 'Cohe..
instruction tuning 시, (항상은 아니지만) instruction 부분 토큰은 학습에 포함되지 않도록 하는데, 그에 관한 코드를 기록하기 위해 글을 작성하였다. CustomDataset과 collate_fn을 SFTTrainer의 인자값으로 넣어주면 된다.아래 코드는 multi-turn tuning시에도 적용 가능한 코드이다. class CustomDataset(Dataset): def __init__(self, chats, tokenizer, max_length): self.data = chats self.tokenizer = tokenizer self.max_length = max_length self.IGNORE_INDEX = -..
지금까지 QLoRA에서 Q가 LoRA에 붙어있으니 당연히 LoRA에 적용되는줄 알았다..디버깅 해보니, LoRA는 fp16, base model layer들은 uint8로 찍힌다. 이때, 4bit가 아닌 8bit로 보이는 이유는, 겉으로는 8bit로 보이지만 내부적으로 2개의 weight를 하나의 8bit로 합쳐서 저장하기 때문으로, 실제로는 4bit로 저장되는게 맞다고 한다.bnb_config = BitsAndBytesConfig( load_in_4bit=True, bnb_4bit_quant_type="nf4", bnb_4bit_compute_dtype=torch.bfloat16, bnb_4bit_use_double_quant=False,)device_map = {"": devic..