Table 1 Comparison of Transformer-based Fusion Approaches.

Approach	Data Types	Attention Mechanism	Domain Adaptation	Industrial Validation
Standard Transformer⁹	Homogeneous sequences	Single-scale self-attention	General purpose	Limited
Vision Transformer¹⁰	Image + text	Patch-based attention	Computer vision	None
TimesFormer¹¹	Video sequences	Spatial–temporal attention	Video analysis	None
Industrial BERT¹²	Text + numerical	Pre-trained embeddings	Manufacturing	Simulated data
Proposed Method	Multi-modal heterogeneous	Multi-scale adaptive	Chemical engineering	Real-world deployment

Quick links

Search