提出了一种基于Transformer架构的查询驱动端到端文本检测和识别模型TextFormer,通过文本查询实现分类、分割和识别任务的并行建模和优化,并设计了自适应全局聚合模块提取不同方向的特征,实现对任意形状文本的读取。