Seines Pyjamashorts, ihres Pyjamashorts (löst keinen Fehler aus, obwohl ihr ein Fehler ist, weils Pruralwöter sind, wie mir immer @Jan_Schreiber mitteilte.)[Homepage kennt das Wort “Pyjamashorts” nicht]
Hier fehlen Regeln und manche Regeln werden nicht richtig beachtet. Ich habe alles mit der Homapage getestet und “ihre Sportshorts” wurde mir als Fehler in LibreOffice mit aktivierten LanguageTool als Fehler erkannt, was kein Fehler ist, weswegen ich gleich mal alle Kombinationen getestet habe und kam zu diesen Ergebnisse und bevor der Funktionsstop kommt, wo nur noch aktiv an LanguageTool 4.1 entwickelt wird, haue sie jetzt alle raus, bevor es zu spät ist.
LanguageTool weiß noch nicht, dass das Wort “Shorts” im Plural steht. Ich werde das bei Gelegenheit eintragen. Das Problem könnte insgesamt aber etwas komplizierter sein, muss ich mir mal ansehen.
Genau, “Sports” + “Hort” . In GermanCompoundTokenizer in Zeile 44 kannst Du eine Ausnahme hinzufügen. Ich habe es direkt im jwordsplitter geändert, aber der ist ja extern und muss erst ein Update bekommen.
Ich habe leider keine Java-Kenntnisse, deshalb verstehe ich den Zweck der Datei nur ansatzweise. Kann ich dort nur ein Wort eintragen, damit es zur Analyse nicht in zwei Wörter aufgesplittet wird? Dies wäre ja nur die halbe Miete. Eigentlich wäre es ja schön, wenn er erkennt, dass jedes Wort, das auf “-shorts” ended, (auch) ein Kompositum mit “Shorts” sein könnte. Denn sonst müsste ich ja alle theoretisch möglichen Komposita mit “Shorts” in added.txt eintragen.
Ja, bzw. man kann die Trennung angeben. Wenn als zweiter Parameter die Liste nur ein Element hat, heißt das “nicht trennbar”. Besser geht es im Moment nicht, wenn ich mich richtig erinnere.
etc. ein und dann übernimmt er den POS von “Shorts”? Und das hat dann denselben Effekt, wie die Komposita in added.txt einzugeben mit dem Unterschied, dass es etwas weniger Aufwand ist?
Es muss Collections.singletonList("Sport", "shorts") heißen statt Collections.singletonList("Sport, Shorts"). Das POS ist dann ein anderer Schritt, aber wenn das Wort korrekt getrennt wird, sollte es richtig sein.
Ich habe das Problem ziemlich verfolgt und das sieht nach ziemlich viel Arbeit aus und ich freue mich, dass zumindes “ihre Sportshorts” klappte, was die halbe Miete.
“seine Sportshorts” kommt bestimmt noch dazu und ich freue mich, wenn die Probleme gelöst sind