Back to LanguageTool Homepage - Privacy - Imprint

[DE]GermanCompoundTokenizer.java

Moin liebes LanguageTool-Team

Ich möchte es wagen, mich an dieser Datei GermanCompoundTokenizer.java auszutoben, um sie zu verstehen. Das Gleiche habe ich mit der Added.txt gemacht und ich weiß, wie ich die Token muss, wenn ich die Zugehörigkeit des Wortes kenne. Das Gleiche möchte ich mit der GermanCompoundTokenizer.java versuchen, um Wörter hinzufügen. Eines war Zweihänder.

Nur weiß ich nicht, welches Programm dafür geeignet ist, eine Java-Datei zu bearbeiten bzw. in Java zu programmieren. Auf Github möchte ich nicht herumspielen, denn ich möchte die Auswirkungen selbst testen.

Am besten wäre ein PortablesProgramm. Habt ihr dafür Vorschläge?

Grüße Dallun511

1 Like

Zum Programmieren in Java brauchst du eine Entwicklungsumgebung (ich nutze IntelliJ IDEA), Java selber in Form des JDK (Version 8), und Maven. Dann muss der Code in IntelliJ importiert werden. Das alles aufzusetzen kann etwas knifflig und frustrierend sein und lohnt sich wohl nur, wenn man bereit ist, entsprechend Zeit zu investieren.

Würde die kostenlose Version reichen?

Ja. Vielleicht gibt es aber auch noch eine andere Möglichkeit, nämlich das alles im Browser zu machen, ganz ohne Installation. Dazu schicke ich dir mal eine private Message.

GermanCompoundTokenizer$ExtendedGermanWordSplitter
Wo versteckt sich diese Datei auf Github?

Ich habe in dieser Datei GermanCompoundTokenizer eine Code-Zeile als Test hinzugefügt.

Das Ergebnis ist.


wordSplitter.addException("Hochzeitsdessous", asList("Hochzeits", "dessous"));

Ich habe dieses Kombination genommen, da Hochzeit und Dessous einzeln Token bekommen, aber nicht als Komposition. Ich habe mich an den Code orentiert, aber sobald ich irgendeine Code-Zeile ändern gibt es nur Fehler. Ich vermute, dass das Konventieren von Java in Class nicht einfach funktioniert oder ich die oben genannte Datei ändern muss.

Java ist halt eine Herausforderung.

Grüße Dallun511

ExtendedGermanWordSplitter ist hier: https://github.com/languagetool-org/languagetool/blob/2cd6441a39af0af865b72eac9e9c767783601052/languagetool-language-modules/de/src/main/java/org/languagetool/tokenizers/de/GermanCompoundTokenizer.java#L44

Die Fehlermeldung kenne ich nicht, sie dürfte eher nichts mit deinen Änderungen zu tun haben.

GermanCompoundTokenizer$ExtendedGermanWordSplitter
Diese meinte ich, nicht die ExtendedGermanWordSplitter. Die habe ich problemlos gefunden.


Als Beispiel sind in diesem Verzeichnis zwei Dateien, während in Github nur eine existiert. Deswegen frage ich, wo die andere Datei ist, weil ich dort den Fehler vermute.

Es gibt keine eigene *.java-Datei dazu, sie ist Teil von GermanCompoundTokenizer.java.

Okay, ich verstehe jetzt, warum ich sie nicht finde.
Das muss ich nur noch herausbekommen, warum meine Code-Zeile nicht möchte.

Ich habe eine Programmiersoftware gefunden, die Portable ist und Maven unterstüzt. Das erspart mir der lange Start und ich kann Offline herumexperimentieren. Ich muss nur noch das Projekt importieren, damit alles funktioniert.

Grüße Dallun511

Du hast wirklich recht, das ist nicht einfach und bisher habe ich das LanguageTool nicht zum Laufen bekommen. Das ist wirklich schade, vlt muss ich mehr Zeit investieren. Bisher nur Fehler bekommen, ohne auch nur den Code zu bearbeiten.

Noch gebe ich nicht auf. Vlt bekomme ich das hin, das würde mich zumindest freuen.

Grüße Dallun511