Table 14 Comparison of CNN/LSTM and transformer-based HAR models with XTinyHAR.

Model	Architecture type	Accuracy (%)	Modality	Model complexity
CNN/LSTM-based HAR models
CNN-LSTM ¹⁹	Deep learning hybrid	90.89	IMU	High
Attention-LSTM ²⁰	Attention-based RNN	94.30	IMU	High
Self-supervised CNN ²¹	Conv-based SSL	96.50	IMU	Medium
DeepConvLSTM ²²	CNN + LSTM	93.70	IMU	High
MC-HARNet ²³	Multiscale CNN	95.20	IMU	Medium

Transformer-based HAR models
Spectro-transformer ²⁵	Transformer (spectrogram)	97.80	IMU	High
Contrastive transformer ²⁶	Contrastive + Transformer	98.60	IMU	High
RFID-transformer ²⁷	RFID + Transformer	99.10	RFID	High
Skeleton-ViT ²⁸	ViT for skeleton data	98.50	Skeleton	High
Student-teacher HAR ²⁹	Transformer KD	98.70	Multi to IMU	Medium
DMFT ³⁰	Distilled multi-modal transformer	93.97	Multi-modal	Medium
XTinyHAR (ours)	Lightweight inertial transformer (KD)	98.71 (UTD), 98.55 (MM-Fit)	IMU	Low (2.45 MB)

Quick links

Search