ich habe ein paar Fragen zur Nutzung und Konfiguration des LanguageTools:
• Laufzeit und Rules: Gibt es Tipps, wie man die Laufzeit reduzieren kann?
• Gibt es eine Möglichkeit, grammatikalische Prüfungen abzuschalten, um die Laufzeit zu verbessern?
• Ich habe mit angepasstem create_dict.sh-Skript das de_DE.dict um eigene Einträge ergänzt. Dabei habe ich festgestellt, dass die Rechtschreibprüfung nicht funktioniert, wenn ich die Datei de_DE.dic (ohne t) nicht im hunspell-Verzeichnis ablege, meine Ergänzungen aber berücksichtigt werden, wenn die de_DE.dic vorhanden ist. Wozu benötigt man denn dann das de_DE.dict (mit t)?
• Gibt es Lösungsvorschläge/Erfahrungen bzgl. Mischung von alter und neuer Rechtschreibung? Wie handhaben sie es?
• Zusammengesetzte Wörter:
o Wie kann das Wörterbuch sinnvoll erweitert werden, damit das Erkennen von etwas ausgefalleneren zusammengesetzten Wörtern (Bsp.: “Chircoeefest”) besser funktioniert?
o Was hat es mit Bindestrichen links und/oder rechts von Begriffen im Wörterbuch auf sich?
• Text mit fremdsprachigen Abschnitten: Wie geht man damit um?
• XML und Rechtschreibprüfung: Gibt es da andere Möglichkeiten als den Annotationsansatz (s. Bsp.)?
Herzlichen Dank für die schnelle Antwort. Das hilft uns sicher schon mal weiter.
Ich hätte aber noch ein paar Nachfragen:
• Ich hatte ja mit angepasstem create_dict.sh-Skript das de_DE.dict um eigene Einträge ergänzt. Dabei hatte ich festgestellt, dass die Rechtschreibprüfung mit meinen Ergänzungen nur funktioniert, wenn ich die leserliche Datei de_DE.dic im hunspell-Verbezeichnis ablege. Wofür sind denn diese beiden Dateien gedacht bzw. warum gibt es zwei Dateien?
• Wie werden zusammengesetzte (komplexere) Wörter erkannt? Muss das Wort selbst im Dictionary enthalten sein oder genügt es, wenn die einzelnen Teile des Wortes enthalten sind? Bsp.: Suizidbegleitung
• Gibt es Tutorials für das LanguageTool?
• Zum Thema disabledRules:
Genügt es enabledOnly=true zu setzen und als enabledRules nur GERMAN_SPELLER_RULE anzugeben, um sämtliche grammatikalische Prüfungen abzuschalten?
• Was ist der Unterschied zwischen Ergänzung des Dictionary und Nutzung der Datei spelling_custom.txt?
Meine obige Antwort war irreführend, wenn es um die Rechtschreibung geht. Beide Teile müssen im Wörterbuch mit einem entsprechenden Flag vorhanden sein, das die Nutzung in Komposita erlaubt, dann werden auch Komposita damit erkannt (meine Antwort oben bezog sich auf grammatische Informationen bei Komposita). Das ist übrigens nicht LT-spezifisch, sondern das normale Vorgehen bei hunspell.
Die spelling_custom.txt existiert vor allem, um das binäre Dict nicht anfassen zu müssen. Ich weiß jetzt gerade keinen Grund, spelling_custom.txt nicht zu nutzen.
So ist es gedacht, ja.
Die anderen Fragen kann ich jetzt gerade ohne Recherche nicht beantworten…
Vielen Dank für die Antworten. Das hilft mir wieder weiter.
Eine Frage habe ich noch:
Ist es möglich, die Suggestions (aus Performancegründen) abzuschalten, wenn nur GERMAN_SPELLER_RULE als enabledRules angegeben ist (Test unter LanguageTool HTTP API mit enabledOnly=true)?
Ein Versuch, zusätzlich noch HUNSPELL_NO_SUGGEST_RULE anzugeben, hat die Suggestions nicht unterdrückt.
We would also like to disable suggestions as we don’t need them and they might add to the performance.
There is already the maxSpellingSuggestionsserver config where one can only reduce the number of spelling errors that suggestions are generated for (e.g. if a spell check for one word failed because of multiple rules) but that’s a different requirement/use case.
@dnaber We plan to add a server config option to generally disable suggestions in our fork. Is this something that would create any value in upstream project? If so, we can create a PR
And another question: @dnaber can you estimate if the performance impact would be noticeable?
@SteVio1989 can maybe answer that. It’s true that spell checker suggestions are slow, so it might be worth turning them off for performance. I guess turning off non-spelling suggestions won’t help much.
Hallo,
ich hefte mich einmal hier mit ran, auch wenn ich technisch gesehen wenig Ahnung habe.
Ich nutze das LanguageTool als Plugin schon eine ganze Weile, in Form der Rechtschreibhilfe für Webseiten. Mittlerweile ist es aber leider so „unbrauchbar“ geworden, was mit Sicherheit auch an den jeweiligen CMS liegt, dass ich es leider so nicht nutzen kann.
Als Beispiel habe ich WordPress als CMS mit Elementor (sei dahingestellt, ob gut oder nicht), worüber die Edition läuft. Im extremen Beispiel mit der FAQ Sektion ist es schier unmöglich damit zu arbeiten. Es dauert teilweise Minuten, bis ein einfaches copy&paste möglich ist bzw. was noch schlechter ist, schleust es wohl durch die Sache teilweise Fremdcode ein (keine Ahnung warum, aber über Wochen nun beobachtet). Mit deaktiviertem LanguageTool ist alles in Ordnung…was ja aber nicht die Lösung ist. Das Ganze ist auch browserübergreifend.
Evtl. gibt es ja hierzu eine ganz banale Lösung…zumindest hoffe ich dies.
1.000 Dank