Filtern? Treffervorschläge? Dateien durchsuchen? Solr-Suche vs. Indexed Search
Filtern? Treffervorschläge? Dateien durchsuchen? Es gibt unterschiedliche Suchmaschinen, die für die interne Suche einer Webseite zum Einsatz kommen können. Wir bei wegewerk setzen meist die Indexed Search oder die Solr-Suche ein. Daher möchten wir die beiden Varianten genauer unter die Lupe nehmen und der Frage auf den Grund gehen: Worin unterscheiden sich die Suchmaschinen?
Um auf einer Webseite schnell das zu finden, was man sucht, sind Suchfunktionen äußerst hilfreich. Für TYPO3 Webseiten kommen dafür oft die Solr-Suche und die Indexed Search zum Einsatz. Die TYPO3 Indexed Search ist die Standard-Suchfunktion von TYPO3 und wird als TYPO3 Core Extension mitgeliefert. Sie muss lediglich für das jeweilige Projekt konfiguriert werden. Die Solr-Suche hingegen ist eine externe Suchlösung auf Basis von Apache Solr. Sie ist deutlich leistungsfähiger und bietet zahlreiche Erweiterungs-Optionen.
Für einen ersten Überblick, haben wir die Hauptunterschiede der beiden Suchfunktionen in einer Tabelle gegenübergestellt:
Merkmal | TYPO3 Indexed Search | Solr Search |
---|---|---|
Einrichtung |
Einfach, in TYPO3 integriert, muss nur konfiguriert werden |
Komplexer, erfordert externe Installation und umfangreichere Konfiguration |
Performance |
Gut für kleine bis mittelgroße Websites mit einfachen Suchanfragen |
Sehr leistungsfähig, ideal für große Websites mit viel Traffic und komplexen Suchanfragen |
Skalierbarkeit | Begrenzte Skalierbarkeit |
Hohe Skalierbarkeit, unterstützt große Datenmengen und Cluster-Betrieb |
Suchgeschwindigkeit |
Grundlegend und ausreichend für kleine Datenmengen |
Sehr schnell, optimiert für große Datenmengen |
Relevanz-Ranking* | Grundlegendes Ranking nach Indexierung |
Fortgeschrittenes Ranking, basierend auf Algorithmen |
Sortierung |
Relevanz: Sortierung nach Keyword-Vorkommen. Datum: Neuere Inhalte oben. Titel: Alphabetische Sortierung. |
Relevanz (Score): Erweiterte Relevanzberechnung Datum: Sortierung nach Veröffentlichungsdatum. Ansonsten sortierbar nach beliebigen Feldern. Mehrfachsortierung: Kombinierte Sortierung (z.B. Relevanz + Datum) möglich. |
Facettierte Suche* | Nicht unterstützt |
Bietet Filter und facettierte Navigation |
Erweiterbarkeit |
Eingeschränkt, nur grundlegende Funktionen verfügbar |
Hohe Erweiterbarkeit, zahlreiche Plugins und Anpassungen möglich |
Treffervorschläge* | Wird nicht unterstützt |
Unterstützt die automatische Vervollständigung eines Suchwortes |
Stoppwörter und Synonyme* | Wird nicht unterstützt |
Ermöglicht die Eingabe von alternative Begriffen und Stoppwörtern |
Suchindizierung | Lokale Indexierung in der TYPO3-Datenbank |
Externe Indexierung, sehr flexibel und leistungsfähig |
Datei-Indizierung* |
Unterstützt einfache Dateien wie HTML und PDF |
Dateien können nur über zusätzliche (Teils kostenpflichtige) Erweiterungen indiziert werden |
Mehrsprachigkeit |
Grundlegend unterstützt, mit mehr Einschränkungen |
Sehr leistungsfähig, unterstützt komplexe mehrsprachige Websites durch Trennung in Solr-Cores |
Multidomainfähig |
Separate Indizes für jede Domain möglich mit begrenzter Skalierbarkeit und weniger Konfigurationsmöglichkeiten |
Erstellung von separaten Indizes für verschiedene Domains oder Projekte möglich |
Hosting |
Keine Zusatzkosten für Hosting und Wartung, da in TYPO3 integriert |
Separate Laufzeitumgebung nötig (zusätzliche Kosten für Hosting und Wartung) |
Zusatzkosten (über initiale Konfiguration hinaus) |
keine |
Je nach Erweiterungswunsch und/oder Zusatzfeature können weitere Konfigurations- oder Fremdkosten entstehen |
* Wie die Tabelle veranschaulicht, bietet Solr mehr Möglichkeiten als die Indexed Search. Ein paar der Features von Solr wollen wir uns im Folgenden mal etwas genauer ansehen:
Welche Besonderheiten gibt es bei Solr?
Facettierte Suche
Eines der Hauptargumente für den Einsatz von der Solr-Suche ist vermutlich die Facetten-Suche. Unter der Facetten-Suche versteht man die Gruppierung der Treffer in definierte Kategorien. Diese einzelnen Kategorien bezeichnet man als Facetten.
Dabei können einzelne Felder oder ganze Feldgruppen als Facette dienen. Welche Felder oder Feldgruppe zum Einsatz kommen sollen, können von Projekt zu Projekt variieren. Meist bieten sich eine oder mehrere der, im System hinterlegten, Kategorie-Gruppen an. Die Entscheidung darüber, treffen wir in der Regel gemeinsam mit unseren Kund*innen in der Konzeptionsphase. Damit können die Suchergebnisse auf Basis der festgelegten Facetten eingeschränkt werden. Auch ermöglicht die Solr-Suche die Kombination mehrerer Facetten.
Treffervorschläge
Eine weitere Funktion der Solr-Suche ist die vereinfachte Eingabe von Suchbegriffen. Anhand der Eingabe der Nutzer*innen wird mithilfe der automatischen Vervollständigung versucht, das gewünschte Wort zu antizipieren. Diese Treffervorschläge können unterschiedliche Ausprägungen haben:
Rechtschreibkorrektur: Das „did you mean?“-Feature schlägt bei fehlerhaften Eingaben alternative Suchbegriffe vor.
Auto-Suggestion: Basierend auf der bereits eingetippten Zeichenfolge macht Solr während der Eingabe Suchwort-Vorschläge.
Ähnliche Suchbegriffe: Häufig geklickte oder relevante Ergebnisse werden von dem Top-Treffer-Feature direkt in der Suchleiste vorgeschlagen.
Stoppwörter und Synonyme
Zusätzlich zu der Vereinfachung der Sucheingabe, ermöglicht Solr eine Optimierung der Ergebnisse. Dazu können im TYPO3 Backend Synonyme und Stoppwörter definiert oder importiert werden.
Stoppwörter: Stoppwörter haben in Suchanfragen wenig bis gar keinen Informationswert (z.B. und, oder, der, die, das etc.). Diese Wörter werden von Solr während der Indexierung und/oder bei der Suche entfernt, um die relevanten Begriffe besser hervorzuheben. Stoppwörter können somit ein effizientes Werkzeug sein, um die Relevanz der Suchergebnisse zu steigern. Sie sollten jedoch sorgfältig an die Anforderungen der Website und die Art der Inhalte angepasst werden um sicherzustellen, dass keine wichtigen Begriffe versehentlich herausgefiltert werden.
Synonyme: Synonym-Listen ermöglichen es, Suchanfragen zu erweitern, indem alternative Begriffe für bestimmte Wörter berücksichtigt werden. Das verbessert die Auffindbarkeit von Inhalten, da Solr auch ähnliche oder verwandte Begriffe in die Suche miteinbeziehen kann. Sonderfälle bilden dabei zusammengesetzte, neue oder spezielle Begriffe, die so nicht im Duden stehen oder auch alternative Schreibweisen von Wörtern. Beispiele für solche Begriffe sind: wegewerk., Wegewerk, ww oder TYPO3, Typo3, typo3, t3, T3.
Warum ist das wichtig?
Werden die Synonyme nicht angegeben, ist jede Variante technisch ein eigenes "Suchergebnis". Das System betrachtet die Begriffe als zwei verschiedene Wörter, auch wenn sie logisch dasselbe meinen. Das hat zur Folge, dass die Suche nach „wegewerk“ andere Ergebnisse liefert als nach „Wegewerk“.
Um das zu vermeiden, sollten redaktionell Synonyme für diese speziellen Wörter angelegt werden, damit Solr die Suchergebnisse richtig zusammenfasst.
Dateiinhalte
Bei der Indexed Search können einfache Dateien wie PDF und HTML indexiert werden. Um Dateien und deren Meta-Daten in Solr durchsuchen zu können, ist hingegen eine separate Extension für TYPO3 notwendig. Damit können verlinkte Dateien oder ganze Ordner im Fileadmin indexiert werden. Hier stehen unterschiedliche Extensions (kostenlose und kostenpflichtige) zur Auswahl. Wir beraten Sie gerne welche Erweiterung für Ihr Projekt am sinnvoll ist.
Relevanzkriterien und Boosting
Auch das Ranking der Suchergebnisse unterscheidet sich bei den beiden Varianten. Während die Indexed Search ein grundlegendes Ranking nach der Indexierung vornimmt, wird in Solr die Relevanz von Suchergebnissen vor allem durch Ranking-Algorithmen berechnet. Diese bestimmen die Bedeutung oder Wichtigkeit einer Seite in Bezug auf eine Suchanfrage. Dabei spielt eine Rolle, wie oft ein Begriff auf einer Seite vorkommt und wie selten ein Begriff im gesamten Index ist.
Diese Relevanzbewertung von Solr kann durch das sogenannte Boosting verändert werden. Das Boosting von Suchergebnissen erhöht die Relevanz bestimmter Dokumente oder Felder in der Suchergebnisliste, basierend auf vordefinierten Kriterien. Dies kann gezielt genutzt werden, um bestimmte Inhalte in den Suchergebnissen höher zu gewichten, indem ihnen ein höherer Boost-Wert zugewiesen wird.
Dabei gibt es die Möglichkeit das Boosting auf Feldebene, dokumentenbasiertes Boosting oder funktionsbasiertes Boosting (z.B. z.B. Popularität, Bewertungen oder Datum) vorzunehmen.
In der Standardkonfiguration von Solr wird kein explizites Boosting angewendet. Alle Felder und Dokumente werden also erstmal gleich gewichtet. Um ein Boosting zu aktivieren, muss dies explizit in der Konfiguration oder in der Suchanfrage erfolgen. Sollte das gewünscht sein, ist es sinnvoll, im Vorfeld konkrete Use Cases zu definieren, anhand derer man das Boosting testen und verfeinern kann.
Solr und Indexed Search? – Für welchen Zweck eignet sich welche Suche?
Je nach Komplexität der eigenen Webseite und die bestehenden Anforderungen an die Suchfunktion, ist der Einsatz von Solr oder Indexed Search besser geeignet. Welche Suche also nutzen?
Solr: Solr eignet sich dann, wenn sehr viele Suchergebnisse gefiltert werden sollen. Üblicherweise kommen dazu Facetten wie Kategorien, Typ des Ergebnisses oder Zeitspannen zum Einsatz. Gerade umfangreiche Seiten mit vielen (unterschiedlichen) Inhalten profitieren von der leistungsfähigen Suchmaschine.
Indexed Search: Die Indexed Search eignet sich hingegen für kleine bis mittelgroße Webseiten mit einer überschaubaren Anzahl an Suchergebnissen. Hier genügen oft die Funktionen der Relevanz-Suche, die bei der Indexed Search voreingestellt ist.
Bei der Frage danach, welche Suchmaschine für das eigene Projekt am besten geeignet ist, beraten wir gerne.
Tipps und Tricks im Umgang mit Solr - Antworten auf die häufigsten Fragen zu der Solr-Suche:
Warum wird mein PDF nicht gefunden?
Um Dateien in TYPO3 mithilfe von Solr zu finden, wird eine zusätzliche Extension benötigt. Diese Extension muss zuerst installiert und eingerichtet werden.
Das PDF muss außerdem auch öffentlich zugänglich sein.
Warum wird meine Seite/mein Inhalt nicht gefunden?
Gerade bei neu angelegten Seiten oder Inhalten kann es passieren, dass der Server noch nicht die Zeit hatte, den Content zu indexieren, also zu durchsuchen.
Wie lange die Indexierung der Seite dauert, hängt von diversen Faktoren ab und lässt sich nicht genau bestimmen. Bei großen Seiten kann die Wartezeit durchaus eine Stunde oder länger betragen.
Warum steht das erwartete Suchergebnis nicht an erster Stelle?
Bei Solr kommt ein Ranking-Algorithmus zum Einsatz. Wenn die Suchergebnisse nicht den erwarteten Ergebnissen entsprechen, können diese Ranking-Faktoren mit Boosting-Einstellungen projektspezifisch angepasst werden.