Core Concepts
Niedrigressourcen-Sprachen sind bei der Verwendung von LLMs kostspieliger, aber durch verschiedene Techniken kann die Kostenbelastung reduziert werden, ohne die Leistung zu beeinträchtigen.
Abstract
Das Paper untersucht die Kostenoptimierung bei der Verarbeitung von Niedrigressourcen-Sprachaufgaben mit kommerziellen LLMs. Es zeigt, dass die Verwendung von LLMs für Niedrigressourcen-Sprachen teurer ist, aber durch Techniken wie Codemixing, Übersetzung und Transliteration die Kosten um bis zu 90% gesenkt werden können. Es werden verschiedene Experimente mit dem IndicXTREME-Datensatz durchgeführt, um die Auswirkungen auf die Kosten, die Tokenanzahl und die Qualität zu analysieren.
Abstract
LLMs bieten beeindruckende Leistungen für Niedrigressourcen-Sprachen.
Kosten für LLM-Training sind hoch, daher werden sie als Netzwerkdienst genutzt.
Ziel: Kosten für die Verarbeitung von Niedrigressourcen-Sprachen senken, ohne die Qualität zu beeinträchtigen.
Einführung
LLMs wie GPT-4 tragen zur NLP-Entwicklung bei.
Kommerzielle LLM-Dienste berechnen nach Anzahl der Tokens.
LRLs sind benachteiligt, da LLMs mehr Tokens generieren.
Methodik
Untersuchung verschiedener Techniken zur Reduzierung der generierten Tokens.
Vergleich der Leistung und Kosten für verschiedene Ansätze.
Experimente und Ergebnisse
Übersetzung verbessert die Leistung von GPT-4.
Open-Source-MT reduziert die Kosten im Vergleich zu anderen Techniken.
Stats
Die Kosten für die Verarbeitung von Niedrigressourcen-Sprachen können um bis zu 90% gesenkt werden.
Die Kosten für die Verwendung von GPT-4 variieren je nach Modell und Tokenanzahl.
Quotes
"Unser Ziel ist es, diese Ungleichheit zu verringern."
"Die Verwendung von LRL-HRL-Wörtern kann die Kosten senken."