Table 2 Pre-training data

Category		Sources	Size
Image Captioning	English	COCO⁴⁷, VG⁴⁸, CC3M⁴⁹, CC12M⁵⁰	410M
	English	LAION-COCO⁴³, COYO⁴⁴, LAION-2B⁴³	410M
	Chinese	AIC⁵¹, LAION-2B-Chinese⁴³, WuKong⁵²	110M
	Chinese	Zero-Chinese⁵³, etc.	110M
OCR+Knowledge	English	WIT⁵⁴, IDL⁵⁵, SynthText⁵⁶, SynthDoG-en⁵⁷	39M
	English	SynthDoG-zh⁵⁷, ArxivCap⁵⁸, etc.	39M
	Chinese	WIT⁵⁴, LAION-2B-OCR	11M

The pre-training data consists of image captioning and OCR data in English and Chinese. LAION-2B-OCR is generated by applying OCR tools to LAION-2B images.

Quick links

Search