Fragen zur Optimierung des LanguageTool

Hallo zusammen,

ich habe ein paar Fragen zur Nutzung und Konfiguration des LanguageTools:

• Laufzeit und Rules: Gibt es Tipps, wie man die Laufzeit reduzieren kann?

• Gibt es eine Möglichkeit, grammatikalische Prüfungen abzuschalten, um die Laufzeit zu verbessern?
• Ich habe mit angepasstem create_dict.sh-Skript das de_DE.dict um eigene Einträge ergänzt. Dabei habe ich festgestellt, dass die Rechtschreibprüfung nicht funktioniert, wenn ich die Datei de_DE.dic (ohne t) nicht im hunspell-Verzeichnis ablege, meine Ergänzungen aber berücksichtigt werden, wenn die de_DE.dic vorhanden ist. Wozu benötigt man denn dann das de_DE.dict (mit t)?
• Gibt es Lösungsvorschläge/Erfahrungen bzgl. Mischung von alter und neuer Rechtschreibung? Wie handhaben sie es?
• Zusammengesetzte Wörter:
o Wie kann das Wörterbuch sinnvoll erweitert werden, damit das Erkennen von etwas ausgefalleneren zusammengesetzten Wörtern (Bsp.: “Chircoeefest”) besser funktioniert?
o Was hat es mit Bindestrichen links und/oder rechts von Begriffen im Wörterbuch auf sich?
• Text mit fremdsprachigen Abschnitten: Wie geht man damit um?
• XML und Rechtschreibprüfung: Gibt es da andere Möglichkeiten als den Annotationsansatz (s. Bsp.)?

Bsp. Annotationsansatz:
A test

muss folgendermaßen an das LT übergeben werden:

{"annotation":[
 {"text": "A "},
 {"markup": "<b>"},
 {"text": "test"},
 {"markup": "</b>"}
]}

Über Antworten und Erfahrungsberichte würde ich mich freuen.

Gruß
Werner

Am besten ist, es die cacheSize in den Properties zu setzen (siehe Ausgabe von java -jar languagetool-server.jar).

Mit dem Parameter disabledRules (HTTP-API) kann man Regeln abstellen, IIRC laufen die dann auch nicht.

Die Schreibweisen der alten Rechtschreibung werden als Fehler angesehen (außer natürlich die Wörter, bei denen es jetzt zwei Schreibweisen gibt).

Das wird über GitHub - danielnaber/jwordsplitter: small Java library for splitting German compound words erledigt, eine direkte Datei, um Teile von Komposita einzutragen, gibt es in LT nicht.

Sofern man das Filtern nicht außerhalb von LT machen will, fällt mir da spontan keine andere Möglichkeit ein.

Herzlichen Dank für die schnelle Antwort. Das hilft uns sicher schon mal weiter.

Ich hätte aber noch ein paar Nachfragen:
• Ich hatte ja mit angepasstem create_dict.sh-Skript das de_DE.dict um eigene Einträge ergänzt. Dabei hatte ich festgestellt, dass die Rechtschreibprüfung mit meinen Ergänzungen nur funktioniert, wenn ich die leserliche Datei de_DE.dic im hunspell-Verbezeichnis ablege. Wofür sind denn diese beiden Dateien gedacht bzw. warum gibt es zwei Dateien?
• Wie werden zusammengesetzte (komplexere) Wörter erkannt? Muss das Wort selbst im Dictionary enthalten sein oder genügt es, wenn die einzelnen Teile des Wortes enthalten sind? Bsp.: Suizidbegleitung
• Gibt es Tutorials für das LanguageTool?
• Zum Thema disabledRules:
Genügt es enabledOnly=true zu setzen und als enabledRules nur GERMAN_SPELLER_RULE anzugeben, um sämtliche grammatikalische Prüfungen abzuschalten?
• Was ist der Unterschied zwischen Ergänzung des Dictionary und Nutzung der Datei spelling_custom.txt?

Viele Grüße
Werner

Meine obige Antwort war irreführend, wenn es um die Rechtschreibung geht. Beide Teile müssen im Wörterbuch mit einem entsprechenden Flag vorhanden sein, das die Nutzung in Komposita erlaubt, dann werden auch Komposita damit erkannt (meine Antwort oben bezog sich auf grammatische Informationen bei Komposita). Das ist übrigens nicht LT-spezifisch, sondern das normale Vorgehen bei hunspell.

Die spelling_custom.txt existiert vor allem, um das binäre Dict nicht anfassen zu müssen. Ich weiß jetzt gerade keinen Grund, spelling_custom.txt nicht zu nutzen.

So ist es gedacht, ja.

Die anderen Fragen kann ich jetzt gerade ohne Recherche nicht beantworten…

Vielen Dank für die Antworten. Das hilft mir wieder weiter.

Eine Frage habe ich noch:

Ist es möglich, die Suggestions (aus Performancegründen) abzuschalten, wenn nur GERMAN_SPELLER_RULE als enabledRules angegeben ist (Test unter LanguageTool HTTP API mit enabledOnly=true)?
Ein Versuch, zusätzlich noch HUNSPELL_NO_SUGGEST_RULE anzugeben, hat die Suggestions nicht unterdrückt.

In einem alten Dialog unter

https://sourceforge.net/p/languagetool/mailman/languagetool-devel/thread/5112AFAB.7010104@o2.pl/?page=0

habe ich folgenden Eintrag gefunden:

From: Daniel Naber … - 2013-02-07 19:56:56

Is there, in turn, a way to disable spelling

suggestions for languages where spelling suggestions are supported?

No, all you can do is ignore them.

Ist das also immer noch so?

Viele Grüße

Werner

Ja, man müsste den Java-Code ändern, um die Vorschläge abzuschalten.