Table 1 Training hyper-parameters

	n-Epochs	Batch-size	Learning rate η	η Scheduler milestones	scheduler γ	L2-rate λ
MNIST	96	128	5 × 10⁻⁴	[32, 64]	0.2	1 × 10⁻⁶
COCO	48	128	5 × 10⁻⁴	0.25	OneCycleLR	1 × 10⁻⁵
CelebA	32	128	2 × 10⁻⁴	[16, ]	0.1	5 × 10⁻⁴
Contrast Detect.	32	64	1 × 10⁻⁴	0.25	OneCycleLR	5 × 10⁻⁴
Contrast Discrim.	32	64	1 × 10⁻⁴	0.25	OneCycleLR	5 × 10⁻⁴
Ori. Change Detect.	64	64	5 × 10⁻⁴	0.25	OneCycleLR	1 × 10⁻⁴
Fig-Grnd-Sep	64	64	2 × 10⁻⁴	0.125	OneCycleLR	1 × 10⁻⁴
Curve Tracing	64	128	5 × 10⁻⁴	–	–	1 × 10⁻⁶
CIFAR-100	64	64	5 × 10⁻⁴	0.125	OneCycleLR	1 × 10⁻⁴
Multi-Modal Search	64	64	1 × 10⁻⁴	–	–	5 × 10⁻⁵

Contrast Detect.: Contrast detection. Contrast Discrim.: Contrast discrimination. Ori. Change-Detect.: Orientation-change detection.

Quick links

Search