Table 2 Hyperparameter settings for each module in the model.

Parameter		Setting
BERT Module	Hidden Layer Dimension	768
	Number of Attention Heads	12
	Learning Rate	2e-5 (Adam Optimizer)
GCN Module	Hidden Layer Dimension	768
	Number of Graph Convolution Layers	2
	Output Dimension per Layer	32
	Activation Function	ReLU
	Regularization Parameter	L2 Regularization (1e-5)
	Number of Training Epochs	100
	Batch Size	32

Quick links

Search