Spelling.txt aufgeräumt

Hi, wir haben mal die spelling.txt aufräumen müssen und ihren Inhalt zum Original Hunspell-Wörterbuch hinzugefügt (de_DE.dic). Hintergrund ist der, dass eine längere spelling.txt zu Overhead bei jeder Anfrage führt. Wenn die spelling.txt wieder groß wird, werden wir das wiederholen. Das aber nur zur Info, es können gerne wie bisher dort Wörter aufgenommen werden. Wörter mit Leerzeichen verbleiben auch dort und werden nicht nach de_DE.dic überführt.

Diese Änderung hat eine gute und eine schlechte Nebenwirkung: Komposita mit Bestandteilen aus der spelling.txt wurden bisher akzeptiert, z.B. “Au-pair-Agentur”. Das ist jetzt nicht mehr der Fall. Dafür werden auch bisher falsche Komposita, in denen das Fugen-S fehlte, jetzt nicht mehr akzeptiert (z.B. “Helizitätoperator” statt “Helizitätsoperator”). Wie man das lösen soll, weiß ich nicht genau. Eine Lösugn wäre, direkt in der de_DE.dic Wörter hinzuzufügen und auch die dortige Syntax zu benutzen, mit der man die Komposition angeben kann. Da vor allem @Jan_Schreiber dort arbeitet ist seine Meinung gefragt…

PR:

Es wäre schön, wenn die Syntax am Anfang der Datei erklärt werden könnte (oder alternativ ein Wiki-Eintrag geschrieben). Dann spricht ja eigentlich nichts dagegen, neue Wörter direkt in die .dic-Datei zu schreiben.

Das ist allerdings der Nachteil an der de_DE.dic: die Syntax ist etwas komplizierter, d. h. man muss de_DE.aff beachten. Allerdings sind die “einfachen” Suffixe wie /S (fügt ein “s” an) und /N (fügt ein “n” an) - glaube ich - die gleichen wie bisher.

OK … die Syntax der de_DE.aff hab ich auch nicht verstanden. :blush:

Na ja, mal sehen, ob ich mich da irgendwie mal reinfuchse oder lieber bei der spelling.txt bleibe.

Okay. Im Alltag heißt das für mich, dass ich weitermache wie bisher, oder?

Ich habe mir (zum x-ten Mal) die Man Page zu Hunspell und die Datei de_DE.aff angesehen, aber ich werde nicht schlau daraus.
Genügt es, wenn ich unerwünschte Komposita wie “Helizitätoperator” zu prohibit.txt hinzufüge?
Dass das Vorkommen in Komposita explizit erlaubt werden müsste, kann ich nirgends entdecken.

Es wäre sehr hilfreich, wenn mal jemand Beispiele dafür angeben könnte, was genau die Flags in de_DE.aff machen. Ich versuche schon seit fünfzehn Jahren, da durchzusteigen, war aber immer erfolglos.

Anderen scheint es ähnlich zu gehen: Man gebe auf languagetool.org mal “ADGB-Vorsitzenderr” ein und schaue sich die Vorschläge an.

1 Like

Ich kann auch nicht das ganze System erklären, aber ein paar Hinweise:

  • Flags wie i (Definition: PFX i 0 -/coyf .) sind rekursiv, d.h. sie erzeugen wieder andere Flags, statt direkt etwas am Wort zu ändern
  • Komposita werden nur gebildet, wenn explizit erlaubt. Zum Beispiel hat “Arbeit” einen Eintrag Arbeits/hij, der wohl besagt, dass “Arbeits” als erster Teil eines Kompositums genutzt werden kann
  • Mit unmunch kann man die Flags expandieren - leider funktioniert das bei Komposita nicht mehr. Aber unmunch /tmp/test.txt de_DE.aff mit ADGB-Vorsitzender/NR in /tmp/test.txt bestätigt, dass da falsch expandiert wird.

Für mich sieht das so aus, als würden wir Fehler geradezu provozieren. Wer soll sich das denn alles merken?

Wir sind etwa fünf Personen auf der Welt, die glauben, das System verstanden zu haben, und selbst das nicht richtig. :thinking:

You can ask me. I am quite familiar with Hunspel affs. For word exclusion, there is a clause
Forbiddenword XX, where xx is a flag. You should be able to locate this in the affix file.
Then
falseword/XX in the dictionary will forbid this word.

Anyway, it might be wise to preserve the collected LT additions and deletions, to be able to add them to future LT releases.