Verbesserung der Leistung von Bild-Text-Retrieval durch Cross-Modal und Uni-Modal Soft-Label Alignment.