Filtern? Treffervorschläge? Dateien durchsuchen? Es gibt unterschiedliche Suchmaschinen, die für die interne Suche einer Webseite zum Einsatz kommen können. Wir bei wegewerk setzen meist die Indexed Search oder die Solr-Suche ein. Daher möchten wir die beiden Varianten genauer unter die Lupe nehmen und der Frage auf den Grund gehen: Worin unterscheiden sich die Suchmaschinen?

Um auf einer Webseite schnell das zu finden, was man sucht, sind Suchfunktionen äußerst hilfreich. Für TYPO3 Webseiten kommen dafür oft die Solr-Suche und die Indexed Search zum Einsatz. Die TYPO3 Indexed Search ist die Standard-Suchfunktion von TYPO3 und wird als TYPO3 Core Extension mitgeliefert. Sie muss lediglich für das jeweilige Projekt konfiguriert werden. Die Solr-Suche hingegen ist eine externe Suchlösung auf Basis von Apache Solr. Sie ist deutlich leistungsfähiger und bietet zahlreiche Erweiterungs-Optionen.

Für einen ersten Überblick, haben wir die Hauptunterschiede der beiden Suchfunktionen in einer Tabelle gegenübergestellt:

Merkmal TYPO3 Indexed Search Solr Search
Einrichtung Einfach, in TYPO3 integriert, muss
nur konfiguriert werden
Komplexer, erfordert externe
Installation und umfangreichere
Konfiguration
Performance Gut für kleine bis mittelgroße Websites mit
einfachen Suchanfragen
Sehr leistungsfähig, ideal für
große Websites mit viel Traffic
und komplexen Suchanfragen
Skalierbarkeit Begrenzte Skalierbarkeit Hohe Skalierbarkeit, unterstützt große
Datenmengen und Cluster-Betrieb
Suchgeschwindigkeit Grundlegend und ausreichend
für kleine Datenmengen
Sehr schnell, optimiert für große Datenmengen
Relevanz-Ranking* Grundlegendes Ranking nach Indexierung Fortgeschrittenes Ranking,
basierend auf Algorithmen
Sortierung Relevanz: Sortierung nach Keyword-Vorkommen.
Datum: Neuere Inhalte oben.
Titel: Alphabetische Sortierung.
Relevanz (Score): Erweiterte Relevanzberechnung
Datum: Sortierung nach Veröffentlichungsdatum.
Ansonsten sortierbar nach beliebigen
Feldern. Mehrfachsortierung:
Kombinierte Sortierung
(z.B. Relevanz + Datum) möglich.
Facettierte Suche* Nicht unterstützt Bietet Filter und
facettierte Navigation
Erweiterbarkeit Eingeschränkt, nur
grundlegende Funktionen verfügbar
Hohe Erweiterbarkeit,
zahlreiche Plugins und
Anpassungen möglich
Treffervorschläge* Wird nicht unterstützt Unterstützt die automatische
Vervollständigung eines Suchwortes
Stoppwörter und Synonyme* Wird nicht unterstützt Ermöglicht die Eingabe von
alternative Begriffen und Stoppwörtern
Suchindizierung Lokale Indexierung in der TYPO3-Datenbank Externe Indexierung, sehr flexibel
und leistungsfähig
Datei-Indizierung* Unterstützt einfache Dateien
wie HTML und PDF
Dateien können nur über
zusätzliche (Teils kostenpflichtige) Erweiterungen
indiziert werden
Mehrsprachigkeit Grundlegend unterstützt,
mit mehr Einschränkungen
Sehr leistungsfähig,
unterstützt komplexe mehrsprachige Websites
durch Trennung in Solr-Cores
Multidomainfähig Separate Indizes für jede Domain möglich
mit begrenzter Skalierbarkeit
und weniger Konfigurationsmöglichkeiten
Erstellung von separaten Indizes für
verschiedene Domains oder Projekte möglich
Hosting Keine Zusatzkosten für Hosting
und Wartung, da in TYPO3 integriert
Separate Laufzeitumgebung nötig
(zusätzliche Kosten für Hosting und Wartung)
Zusatzkosten
(über initiale Konfiguration hinaus)
keine Je nach Erweiterungswunsch
und/oder Zusatzfeature können
weitere Konfigurations- oder
Fremdkosten entstehen

* Wie die Tabelle veranschaulicht, bietet Solr mehr Möglichkeiten als die Indexed Search. Ein paar der Features von Solr wollen wir uns im Folgenden mal etwas genauer ansehen:

Welche Besonderheiten gibt es bei Solr?

Facettierte Suche

Eines der Hauptargumente für den Einsatz von der Solr-Suche ist vermutlich die Facetten-Suche. Unter der Facetten-Suche versteht man die Gruppierung der Treffer in definierte Kategorien. Diese einzelnen Kategorien bezeichnet man als Facetten.

Dabei können einzelne Felder oder ganze Feldgruppen als Facette dienen. Welche Felder oder Feldgruppe zum Einsatz kommen sollen, können von Projekt zu Projekt variieren. Meist bieten sich eine oder mehrere der, im System hinterlegten, Kategorie-Gruppen an. Die Entscheidung darüber, treffen wir in der Regel gemeinsam mit unseren Kund*innen in der Konzeptionsphase. Damit können die Suchergebnisse auf Basis der festgelegten Facetten eingeschränkt werden. Auch ermöglicht die Solr-Suche die Kombination mehrerer Facetten.

Treffervorschläge

Eine weitere Funktion der Solr-Suche ist die vereinfachte Eingabe von Suchbegriffen. Anhand der Eingabe der Nutzer*innen wird mithilfe der automatischen Vervollständigung versucht, das gewünschte Wort zu antizipieren. Diese Treffervorschläge können unterschiedliche Ausprägungen haben:

Rechtschreibkorrektur: Das „did you mean?“-Feature schlägt bei fehlerhaften Eingaben alternative Suchbegriffe vor.

Auto-Suggestion: Basierend auf der bereits eingetippten Zeichenfolge macht Solr während der Eingabe Suchwort-Vorschläge.

Ähnliche Suchbegriffe: Häufig geklickte oder relevante Ergebnisse werden von dem Top-Treffer-Feature direkt in der Suchleiste vorgeschlagen.

Stoppwörter und Synonyme

Zusätzlich zu der Vereinfachung der Sucheingabe, ermöglicht Solr eine Optimierung der Ergebnisse. Dazu können im TYPO3 Backend Synonyme und Stoppwörter definiert oder importiert werden.

Stoppwörter: Stoppwörter haben in Suchanfragen wenig bis gar keinen Informationswert (z.B. und, oder, der, die, das etc.). Diese Wörter werden von Solr während der Indexierung und/oder bei der Suche entfernt, um die relevanten Begriffe besser hervorzuheben. Stoppwörter können somit ein effizientes Werkzeug sein, um die Relevanz der Suchergebnisse zu steigern. Sie sollten jedoch sorgfältig an die Anforderungen der Website und die Art der Inhalte angepasst werden um sicherzustellen, dass keine wichtigen Begriffe versehentlich herausgefiltert werden.

Synonyme: Synonym-Listen ermöglichen es, Suchanfragen zu erweitern, indem alternative Begriffe für bestimmte Wörter berücksichtigt werden. Das verbessert die Auffindbarkeit von Inhalten, da Solr auch ähnliche oder verwandte Begriffe in die Suche miteinbeziehen kann. Sonderfälle bilden dabei zusammengesetzte, neue oder spezielle Begriffe, die so nicht im Duden stehen oder auch alternative Schreibweisen von Wörtern. Beispiele für solche Begriffe sind: wegewerk., Wegewerk, ww oder TYPO3, Typo3, typo3, t3, T3.

Warum ist das wichtig?

Werden die Synonyme nicht angegeben, ist jede Variante technisch ein eigenes "Suchergebnis". Das System betrachtet die Begriffe als zwei verschiedene Wörter, auch wenn sie logisch dasselbe meinen. Das hat zur Folge, dass die Suche nach „wegewerk“ andere Ergebnisse liefert als nach „Wegewerk“.

Um das zu vermeiden, sollten redaktionell Synonyme für diese speziellen Wörter angelegt werden, damit Solr die Suchergebnisse richtig zusammenfasst.

Dateiinhalte

Bei der Indexed Search können einfache Dateien wie PDF und HTML indexiert werden. Um Dateien und deren Meta-Daten in Solr durchsuchen zu können, ist hingegen eine separate Extension für TYPO3 notwendig. Damit können verlinkte Dateien oder ganze Ordner im Fileadmin indexiert werden. Hier stehen unterschiedliche Extensions (kostenlose und kostenpflichtige) zur Auswahl. Wir beraten Sie gerne welche Erweiterung für Ihr Projekt am sinnvoll ist.

Relevanzkriterien und Boosting

Auch das Ranking der Suchergebnisse unterscheidet sich bei den beiden Varianten. Während die Indexed Search ein grundlegendes Ranking nach der Indexierung vornimmt, wird in Solr die Relevanz von Suchergebnissen vor allem durch Ranking-Algorithmen berechnet. Diese bestimmen die Bedeutung oder Wichtigkeit einer Seite in Bezug auf eine Suchanfrage. Dabei spielt eine Rolle, wie oft ein Begriff auf einer Seite vorkommt und wie selten ein Begriff im gesamten Index ist.

Diese Relevanzbewertung von Solr kann durch das sogenannte Boosting verändert werden. Das Boosting von Suchergebnissen erhöht die Relevanz bestimmter Dokumente oder Felder in der Suchergebnisliste, basierend auf vordefinierten Kriterien. Dies kann gezielt genutzt werden, um bestimmte Inhalte in den Suchergebnissen höher zu gewichten, indem ihnen ein höherer Boost-Wert zugewiesen wird.

Dabei gibt es die Möglichkeit das Boosting auf Feldebene, dokumentenbasiertes Boosting oder funktionsbasiertes Boosting (z.B. z.B. Popularität, Bewertungen oder Datum) vorzunehmen.

In der Standardkonfiguration von Solr wird kein explizites Boosting angewendet. Alle Felder und Dokumente werden also erstmal gleich gewichtet. Um ein Boosting zu aktivieren, muss dies explizit in der Konfiguration oder in der Suchanfrage erfolgen. Sollte das gewünscht sein, ist es sinnvoll, im Vorfeld konkrete Use Cases zu definieren, anhand derer man das Boosting testen und verfeinern kann. 

Solr und Indexed Search? – Für welchen Zweck eignet sich welche Suche?

Je nach Komplexität der eigenen Webseite und die bestehenden Anforderungen an die Suchfunktion, ist der Einsatz von Solr oder Indexed Search besser geeignet. Welche Suche also nutzen?

Solr: Solr eignet sich dann, wenn sehr viele Suchergebnisse gefiltert werden sollen. Üblicherweise kommen dazu Facetten wie Kategorien, Typ des Ergebnisses oder Zeitspannen zum Einsatz. Gerade umfangreiche Seiten mit vielen (unterschiedlichen) Inhalten profitieren von der leistungsfähigen Suchmaschine.

Indexed Search: Die Indexed Search eignet sich hingegen für kleine bis mittelgroße Webseiten mit einer überschaubaren Anzahl an Suchergebnissen. Hier genügen oft die Funktionen der Relevanz-Suche, die bei der Indexed Search voreingestellt ist.

Bei der Frage danach, welche Suchmaschine für das eigene Projekt am besten geeignet ist, beraten wir gerne.

Tipps und Tricks im Umgang mit Solr - Antworten auf die häufigsten Fragen zu der Solr-Suche:

Warum wird mein PDF nicht gefunden?

Um Dateien in TYPO3 mithilfe von Solr zu finden, wird eine zusätzliche Extension benötigt. Diese Extension muss zuerst installiert und eingerichtet werden.

Das PDF muss außerdem auch öffentlich zugänglich sein.

Warum wird meine Seite/mein Inhalt nicht gefunden?

Gerade bei neu angelegten Seiten oder Inhalten kann es passieren, dass der Server noch nicht die Zeit hatte, den Content zu indexieren, also zu durchsuchen.

Wie lange die Indexierung der Seite dauert, hängt von diversen Faktoren ab und lässt sich nicht genau bestimmen. Bei großen Seiten kann die Wartezeit durchaus eine Stunde oder länger betragen.

Warum steht das erwartete Suchergebnis nicht an erster Stelle?

Bei Solr kommt ein Ranking-Algorithmus zum Einsatz. Wenn die Suchergebnisse nicht den erwarteten Ergebnissen entsprechen, können diese Ranking-Faktoren mit Boosting-Einstellungen projektspezifisch angepasst werden.