Entity · technique

Lightning Attention

techniqueactivelightning-attention-c6cf0029·1 events·first seen Jun 10, 2026

Aliases: Lightning Attention

Co-occurring entities

Conservation Laws from Data Symmetry in Neural Networks

More like this (12)

Lightning AI DashAttention FlashAttention-3 Set Attention Block lightningpixel Differential Attention attention head circuit reference attention cross-attention Flash Attention 2 positional attention heads global attention

Recent events (1)

4arXiv · cs.LG·Jun 10, 2026·source ↗

Conservation laws from data symmetry in neural network gradient-flow training

A new arXiv preprint investigates whether intrinsic symmetries in training data produce conserved quantities during gradient-flow training of neural networks. The authors prove that for analytic, non-polynomial loss functions, data symmetries generically do not induce additional integrals of motion, but for MSE loss, data augmentation can yield extra conserved quantities. They introduce a framework of 'tensorizable networks'—architectures including linear, polynomial, and Lightning Attention networks—where parameter and input dependence can be separated via an intermediate representation.

Training Infrastructure Lightning Attention Conservation Laws from Data Symmetry in Neural Networks