Fragen zur Optimierung des LanguageTool

WernerB · December 14, 2020, 6:23pm

Hallo zusammen,

ich habe ein paar Fragen zur Nutzung und Konfiguration des LanguageTools:

• Laufzeit und Rules: Gibt es Tipps, wie man die Laufzeit reduzieren kann?

• Gibt es eine Möglichkeit, grammatikalische Prüfungen abzuschalten, um die Laufzeit zu verbessern?
• Ich habe mit angepasstem create_dict.sh-Skript das de_DE.dict um eigene Einträge ergänzt. Dabei habe ich festgestellt, dass die Rechtschreibprüfung nicht funktioniert, wenn ich die Datei de_DE.dic (ohne t) nicht im hunspell-Verzeichnis ablege, meine Ergänzungen aber berücksichtigt werden, wenn die de_DE.dic vorhanden ist. Wozu benötigt man denn dann das de_DE.dict (mit t)?
• Gibt es Lösungsvorschläge/Erfahrungen bzgl. Mischung von alter und neuer Rechtschreibung? Wie handhaben sie es?
• Zusammengesetzte Wörter:
o Wie kann das Wörterbuch sinnvoll erweitert werden, damit das Erkennen von etwas ausgefalleneren zusammengesetzten Wörtern (Bsp.: “Chircoeefest”) besser funktioniert?
o Was hat es mit Bindestrichen links und/oder rechts von Begriffen im Wörterbuch auf sich?
• Text mit fremdsprachigen Abschnitten: Wie geht man damit um?
• XML und Rechtschreibprüfung: Gibt es da andere Möglichkeiten als den Annotationsansatz (s. Bsp.)?

Bsp. Annotationsansatz:
A test

muss folgendermaßen an das LT übergeben werden:

{"annotation":[
 {"text": "A "},
 {"markup": "<b>"},
 {"text": "test"},
 {"markup": "</b>"}
]}

Über Antworten und Erfahrungsberichte würde ich mich freuen.

Gruß
Werner

dnaber · December 15, 2020, 8:08pm

Am besten ist, es die cacheSize in den Properties zu setzen (siehe Ausgabe von java -jar languagetool-server.jar).

Mit dem Parameter disabledRules (HTTP-API) kann man Regeln abstellen, IIRC laufen die dann auch nicht.

Die Schreibweisen der alten Rechtschreibung werden als Fehler angesehen (außer natürlich die Wörter, bei denen es jetzt zwei Schreibweisen gibt).

Das wird über GitHub - danielnaber/jwordsplitter: small Java library for splitting German compound words erledigt, eine direkte Datei, um Teile von Komposita einzutragen, gibt es in LT nicht.

Sofern man das Filtern nicht außerhalb von LT machen will, fällt mir da spontan keine andere Möglichkeit ein.

WernerB · December 18, 2020, 4:22pm

Herzlichen Dank für die schnelle Antwort. Das hilft uns sicher schon mal weiter.

Ich hätte aber noch ein paar Nachfragen:
• Ich hatte ja mit angepasstem create_dict.sh-Skript das de_DE.dict um eigene Einträge ergänzt. Dabei hatte ich festgestellt, dass die Rechtschreibprüfung mit meinen Ergänzungen nur funktioniert, wenn ich die leserliche Datei de_DE.dic im hunspell-Verbezeichnis ablege. Wofür sind denn diese beiden Dateien gedacht bzw. warum gibt es zwei Dateien?
• Wie werden zusammengesetzte (komplexere) Wörter erkannt? Muss das Wort selbst im Dictionary enthalten sein oder genügt es, wenn die einzelnen Teile des Wortes enthalten sind? Bsp.: Suizidbegleitung
• Gibt es Tutorials für das LanguageTool?
• Zum Thema disabledRules:
Genügt es enabledOnly=true zu setzen und als enabledRules nur GERMAN_SPELLER_RULE anzugeben, um sämtliche grammatikalische Prüfungen abzuschalten?
• Was ist der Unterschied zwischen Ergänzung des Dictionary und Nutzung der Datei spelling_custom.txt?

Viele Grüße
Werner

dnaber · December 18, 2020, 5:20pm

Meine obige Antwort war irreführend, wenn es um die Rechtschreibung geht. Beide Teile müssen im Wörterbuch mit einem entsprechenden Flag vorhanden sein, das die Nutzung in Komposita erlaubt, dann werden auch Komposita damit erkannt (meine Antwort oben bezog sich auf grammatische Informationen bei Komposita). Das ist übrigens nicht LT-spezifisch, sondern das normale Vorgehen bei hunspell.

Die spelling_custom.txt existiert vor allem, um das binäre Dict nicht anfassen zu müssen. Ich weiß jetzt gerade keinen Grund, spelling_custom.txt nicht zu nutzen.

So ist es gedacht, ja.

Die anderen Fragen kann ich jetzt gerade ohne Recherche nicht beantworten…

WernerB · January 19, 2021, 8:51am

Vielen Dank für die Antworten. Das hilft mir wieder weiter.

Eine Frage habe ich noch:

Ist es möglich, die Suggestions (aus Performancegründen) abzuschalten, wenn nur GERMAN_SPELLER_RULE als enabledRules angegeben ist (Test unter LanguageTool HTTP API mit enabledOnly=true)?
Ein Versuch, zusätzlich noch HUNSPELL_NO_SUGGEST_RULE anzugeben, hat die Suggestions nicht unterdrückt.

In einem alten Dialog unter

https://sourceforge.net/p/languagetool/mailman/languagetool-devel/thread/5112AFAB.7010104@o2.pl/?page=0

habe ich folgenden Eintrag gefunden:

From: Daniel Naber … - 2013-02-07 19:56:56

Is there, in turn, a way to disable spelling

suggestions for languages where spelling suggestions are supported?

No, all you can do is ignore them.

Ist das also immer noch so?

Viele Grüße

Werner

dnaber · January 19, 2021, 9:04am

Ja, man müsste den Java-Code ändern, um die Vorschläge abzuschalten.

HannaP · October 6, 2025, 12:11pm

Hey!

We would also like to disable suggestions as we don’t need them and they might add to the performance.

There is already the maxSpellingSuggestions server config where one can only reduce the number of spelling errors that suggestions are generated for (e.g. if a spell check for one word failed because of multiple rules) but that’s a different requirement/use case.

@dnaber We plan to add a server config option to generally disable suggestions in our fork. Is this something that would create any value in upstream project? If so, we can create a PR

And another question: @dnaber can you estimate if the performance impact would be noticeable?

Thanks you for your time and effort!

dnaber · October 6, 2025, 12:18pm

@SteVio1989 can maybe answer that. It’s true that spell checker suggestions are slow, so it might be worth turning them off for performance. I guess turning off non-spelling suggestions won’t help much.

SteVio1989 · October 7, 2025, 10:24am

PRs are always welcome; if this feature is behind a server config option I see no issue with it.

Splash · October 21, 2025, 6:16am

Hallo,
ich hefte mich einmal hier mit ran, auch wenn ich technisch gesehen wenig Ahnung habe.
Ich nutze das LanguageTool als Plugin schon eine ganze Weile, in Form der Rechtschreibhilfe für Webseiten. Mittlerweile ist es aber leider so „unbrauchbar“ geworden, was mit Sicherheit auch an den jeweiligen CMS liegt, dass ich es leider so nicht nutzen kann.
Als Beispiel habe ich WordPress als CMS mit Elementor (sei dahingestellt, ob gut oder nicht), worüber die Edition läuft. Im extremen Beispiel mit der FAQ Sektion ist es schier unmöglich damit zu arbeiten. Es dauert teilweise Minuten, bis ein einfaches copy&paste möglich ist bzw. was noch schlechter ist, schleust es wohl durch die Sache teilweise Fremdcode ein (keine Ahnung warum, aber über Wochen nun beobachtet). Mit deaktiviertem LanguageTool ist alles in Ordnung…was ja aber nicht die Lösung ist. Das Ganze ist auch browserübergreifend.
Evtl. gibt es ja hierzu eine ganz banale Lösung…zumindest hoffe ich dies.
1.000 Dank