Table 5 Cold-Start Hyperparameter Settings

Hyperparameter	Description	Parameter Value
Batch_size	Batch size for training	2
Learning_rate	Learning rate	1e-4
Max_len	Maximum context length	2048
Num_epochs	Number of training epochs	3
gradient_accumulation_steps	Gradient accumulation steps	4

Quick links

Search