APA-Tech-Talk: Semantische Suche - vom Prototypen zum Business Case

Wie Technologien und KI-gestützte Bots Suchergebnisse und Nutzer:innenerfahrung verbessern – APA-Tech-Talk über Herausforderungen und Chancen von semantischer Suche und einer eigens trainierten KI-Lösung aus der APA-Gruppe

Wer mit ChatGPT oder ähnlichen Large Language Models (LLM) arbeitet, kennt das: Ein und derselbe Prompt führt zu unterschiedlichen Ergebnissen, von Transparenz oder Reproduzierbarkeit keine Spur. Das macht eine Skalierung diverser Anwendungen als Business Case, etwa im E-Commerce oder in der Mediennutzung, zur Herausforderung. Welche Strategie APA-Tech im Bereich semantische Suche und verwandte Technologien verfolgt, wie diese im eigenen Haus entwickelt und eingesetzt werden, was man im ersten Kundenprojekt gelernt hat und was die APA künftig für ihre Kundinnen und Kunden im Portfolio hat – das waren die Themen beim APA-Tech-Talk am Dienstag, 8. Oktober, im APA-Pressezentrum. Expert:innen-Know-how kam dabei von APA-IT-Geschäftsführer Clemens Prerovsky, APA-CDO Andreas Mauczka sowie Maika Jirous, DIZ München GmbH, und Sophie Hlinka, Product Owner bei APA-Tech.

Die vielen Vorteile der semantischen Suche

Die semantische Suche ermöglicht, nicht nur nach Schlüsselwörtern, sondern nach Bedeutungen und Zusammenhängen zu suchen, und liefert auch dann passende Ergebnisse, wenn die exakten Wörter in der Suchanfrage gar nicht vorkommen. Sie gilt als Wendepunkt in der Art, wie Menschen nach Informationen suchen, diese finden und verarbeiten. Die semantische Suche lasse sich jedoch beeinflussen, erläuterte Andreas Mauczka, Chief Digital Officer der APA, indem man mit eigenem Content den inhaltlichen Schwerpunkt in das zugrundeliegende Modell trainiert. Das sei auch die Grundlage für einen sinnvollen Einsatz des sogenannten RAG-Konzepts (Retrieval Augmented Generation). Dabei werden dem Sprachmodell eine möglichst treffsichere eigene qualitative Datenbasis zur Verfügung gestellt und dadurch seine Möglichkeiten für „Kreativität“ eingeschränkt. „Das Modell muss dann nicht googeln oder halluzinieren, sondern spuckt faktenorientierte Ergebnisse aus“, betonte der CDO.

Use Case Süddeutsche Zeitung

Vom ersten großen Kundenprojekt berichteten Sophie Hlinka, Product Owner APA-Tech, und Maika Jirous vom Archivdienstleister und Contentvermarkter DIZ München, wo auch das Archiv der Süddeutschen Zeitung betrieben wird. “Die Archivsuche sollte effizienter werden, um damit Zeit für Faktenchecks freizuspielen“, erzählte Jirous, man wollte der Redaktion und Archivkunden, basierend auf den eigenen Daten, das bestmögliche Sucherlebnis bieten.

Die APA, die sich seit Jahren mit semantischer Suche beschäftigt, war für das DIZ die logische Wahl für ein gemeinsames Proof of Concept-Projekt. Denn alle Daten- und Contentmanagement-Dienste der APA-Gruppe basieren auf der von APA-Tech entwickelten Volltextdatenbank-Technologie „PowerSearch“, deren Funktionalitäten um eine Vektordatenbank erweitert wurden. „Alle Services setzen heute auf sehr spezifische Abfragen, bis hin zu semantischen Suchen, die beinahe die Intention hinter einer Abfrage erkennen“, erläuterte Clemens Prerovsky, APA-IT-Geschäftsführer.

„Im Gegensatz zu rein technischen Anbietern greifen wir in unserem Modell auf die intellektuelle tägliche Arbeit, das heißt die Inhalte der APA-Redaktion sowie von APA-PictureDesk, zu und stellen den Kund:innen österreich-spezifische, APA-trainierte KI-Services zur Verfügung“, so Mauczka.

Für das DIZ entwickelte die APA eine Oberfläche mit verschiedenen Testfunktionen, wie etwa semantische Suche, Q/A (Frage/Antwort) oder eine Chatbot-Anwendung. Da das Standardmodell keine zufriedenstellenden Ergebnisse lieferte, entschied man sich, für den Kunden ein eigenes Modell zu trainieren und ein Embedding Modell für die semantische Suche zu bauen. Aus Datenschutzgründen kam bei der Wahl des Sprachmodells nicht ChatGPT, sondern ein lokales Setup mit Mistral, einem europäischen Modell, zum Zug. ChatGPT habe die User in punkto Leistung und Kosten verwöhnt. „Unser Ziel ist es aber, mit kleineren Modellen ähnlich gute Ergebnisse zu liefern“, so Hlinka.

„Wir sind nicht Google, aber dennoch groß: 1,4 Milliarden Dokumente sind in der APA-PowerSearch-Datenbank vorhanden, Monat für Monat kommen Millionen Datensätze hinzu“, veranschaulichte Prerovsky das Alleinstellungsmerkmal. Darüber hinaus würden top gewartete Metadaten die Datenbank zu einer verfizierten Datenbasis machen. „Wir haben den technologischen Unterbau, können Modelle jederzeit niederschwellig an Kunden anpassen und skalieren”, verspricht Prerovsky.

Im Modell der APA sind KI und faktenorientierte Information kein Widerspruch, das Feld der möglichen Use Cases ist weit.

Videoaufzeichnung und Präsentationen des Events: APA-Tech-Talk | Semantische Suche | APA

Foto-Impressionen vom Event: APA-Fotogalerie

Über APA-Tech

APA-Tech bündelt das Angebot der APA-IT Informations Technologie GmbH, einem Tochterunternehmen der APA – Austria Presse Agentur, und liefert die ISO-zertifizierte IT-Infrastruktur der österreichischen Nachrichtenagentur sowie zahlreicher weiterer Unternehmen – darunter Cineplexx, ORF, Moser Holding uvm. Das Spektrum reicht von Cloud-Services bis zu Housing und Hosting sowie hochwertigen IT-Services rund um das Erzeugen, Analysieren, Verbreiten und Vermarkten von digitalem Content. Zudem ist APA-Tech spezialisiert auf State-of-the-Art Container-Verwaltung auf Basis von OpenShift. Hohe Verfügbarkeit und Ausfallsicherheit sind u.a. durch 24×7-Support und zwei Rechenzentren mit Standort Wien gewährleistet.

Source link