ProtTeX-CC: Zwei-Stufen-Kompression ermöglicht In-Context-Lernen Protein-LLMs
Die neueste Variante von ProtTeX, genannt ProtTeX-CC, löst zwei zentrale Probleme moderner Protein‑LLMs. Durch eine intelligente Kompression, die Sequenz‑ und Strukturdaten auf Residuenebene zusammenführt, wird die Eingabelänge um die Hälfte reduziert, ohne dass die Modellleistung leidet. Anschließend fasst ein selbstlernender Kompressionsmodul jede komplette Demonstration auf weniger als 16 Tokens zusammen, was zu einer Gesamtkürzung des Prompts um rund 93,7 % führt. Damit kann ProtTeX-CC in wenigen Beispielen (16‑Shot) In‑Context‑Learning durchführen, obwohl das ursprüngliche Modell nur Einzelprotein‑Inputs unterstützt. Die Anpassungen erfordern lediglich wenige zusätzliche Parameter und verändern die Kernarchitektur nicht, sodass die Methode schnell einsatzbereit ist und die Generalisierungsfähigkeit von Protein‑LLMs deutlich verbessert.