일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- continued pre-train (cpt)
- continued pre-training
- instruction tuning
- CPT
- ubuntu
- sfttrainer
- prompt
- instruct pre-training
- lora+
- Mac
- domain-adapted pre-training
- PEFT
- diffusion
- langchain
- backbone
- glibcxx
- Lora
- full fine-tuning (fft)
- instruction tuning (it)
- Fine-tuning
- error: mkl-service + intel(r)
- continual pre-training
- ViT
- llm
- instruct-pt
- llm tuning
- gemma2
- Text-to-Image
- cross-document attention
- transformer
- Today
- Total
목록분류 전체보기 (30)
꾸준하게
에러 전문mysql 부분에서 아래와 같은 에러가 발생하였다.ImportError: ~/bin/../lib/libstdc++.so.6: version `GLIBCXX_3.4.32' not found (required by /lib/x86_64-linux-gnu/libmysqlclient.so.21)ERROR 12-03 01:36:14 multiproc_worker_utils.py:116] Worker VllmWorkerProcess pid 2536513 died, exit code: -15INFO 12-03 01:36:14 multiproc_worker_utils.py:120] Killing local vLLM worker processes~/lib/python3.11/multiprocessing/reso..
vLLM에서 gemma-2 아키텍처를 사용하는데 아래와 같은 에러가 발생하였다.Gemma2ForCausalLM이 지원되는 아키텍처이지만 에러가 발생하였다. pydantic_core._pydantic_core.ValidationError: 1 validation error for VLLM Value error, Model architectures ['Gemma2ForCausalLM'] are not supported for now. Supported architectures: ['AquilaModel', 'AquilaForCausalLM', 'ArcticForCausalLM', 'BaiChuanForCausalLM', 'BaichuanForCausalLM', 'BloomForCausalLM', 'Cohe..
instruction tuning 시, (항상은 아니지만) instruction 부분 토큰은 학습에 포함되지 않도록 하는데, 그에 관한 코드를 기록하기 위해 글을 작성하였다. CustomDataset과 collate_fn을 SFTTrainer의 인자값으로 넣어주면 된다.아래 코드는 multi-turn tuning시에도 적용 가능한 코드이다. class CustomDataset(Dataset): def __init__(self, chats, tokenizer, max_length): self.data = chats self.tokenizer = tokenizer self.max_length = max_length self.IGNORE_INDEX = -..
지금까지 QLoRA에서 Q가 LoRA에 붙어있으니 당연히 LoRA에 적용되는줄 알았다..디버깅 해보니, LoRA는 fp16, base model layer들은 uint8로 찍힌다. 이때, 4bit가 아닌 8bit로 보이는 이유는, 겉으로는 8bit로 보이지만 내부적으로 2개의 weight를 하나의 8bit로 합쳐서 저장하기 때문으로, 실제로는 4bit로 저장되는게 맞다고 한다.bnb_config = BitsAndBytesConfig( load_in_4bit=True, bnb_4bit_quant_type="nf4", bnb_4bit_compute_dtype=torch.bfloat16, bnb_4bit_use_double_quant=False,)device_map = {"": devic..

ICLR 2024 Conference [github] [paper]Daixuan Cheng, Yuxian Gu, Shaohan Huang, Junyu Bi, Minlie Huang, Furu WeiMicrosoft Research | Tsinghua UniversitySubmitted on 6 Jun 2024 AbstractLM 모델들이 비지도학습만으로 좋은 성능을 내고있으며, 사후 학습으로 지도학습(SFT, Instruction Tuning)을 통해 생성 능력을 더 높힐 수 있다. 저자는 Instruction Pre-Training이라는 supervised multitask pre-training을 제안하였는데 이는, instruction-response 페어 형태의 거대한 raw corpora를 통해..

arXiv 2024 [paper]Hadi Pouransari, Chun-Liang Li, Jen-Hao Rick Chang, Pavan Kumar Anasosalu Vasu, Cem Koc, Vaishaal Shankar, Oncel TuzelApplesubmitted on 21 May 2024 Abstract본 논문에서는 고정된 길이의 토큰 시퀀스로 구성된 데이터셋을 사용하는 기존 방식의 한계를 지적하며, 이를 해결하기 위해 '데이터셋 분해'라는 새로운 가변 시퀀스 길이 학습 기법을 제안하였다. 기존 방법은 다양한 길이의 문서를 무작위로 연결한 후 고정된 길이로 잘라내는 방식인데, 이로 인해 시퀀스 내에서 문서 간 attention이 발생하는 비효율성과 계산 비용이 증가하는 문제가 있다. 특히 긴 시..
적용 방법1. vi ~/.bashrc에 아래 내용 삽입 후2. source ~/.bashrc 명령어를 통해 적용# enable current branchparse_git_branch() { git branch 2> /dev/null | sed -e '/^[^*]/d' -e 's/* \(.*\)/(\1)/'}export PS1="\e[01;32m\u@\h \[\e[34m\]\w\[\e[91m\]\$(parse_git_branch)\[\e[00m\]$ "

발생 이슈NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running. 해결방법 : Azure가 아닌 일반 local machine에서 해결 가능한 방법Secure Boot : Enable 상태일 경우 Bios 모드에 진입해서 Disable로 바꾸어야한다. Secure Mode일때 Nvidia driver를 설치할 때 Sign을 막아서 생기는 문제로 Disable로 수정하면 해결이 된다. 만약 Azure를 사용중이라면 VM 생성 시 Security type을 Trusted launch virtual machin..