Lemmatisierung auf der Webseite in Javascript

Hallo,

Wir verschlagworten Texte und benutzen dazu aktuell den Snowball-Stemmer (nicht so gut).

Ich dachte, die LT-Lemmatisierung wäre da brauchbarer.

Ich benötige also auf meiner Webseite die Daten aus der internen Analyse von LanguageTool (so wie hier: Text Analysis - LanguageTool). Genauer: Lemma und Genus.

Kann ich das mit der API hinbekommen?

Noch lieber wäre mir ein Standalone-Ansatz, d.h. z.B. die Lemmatisierung als npm-package (Die Website ist eh eine riesige SPA, d.h. 100 MB wären zb kein Problem).

Gibt es da einen Ansatz?

Danke.

Hallo, die API von LanguageTool dient nur der Textprüfung. Die linguistische Analyse findet nur intern statt. Man müsste sich also mit der Java-API selber was bauen (Klasse GermanTagger).

@dnaber: Vielen Dank. Das müsste ich dann aber vermutlich Serverseitig?

Gibt es bzgl. linguistischer Analyse da irgendeinen anderen Ansatz für die Client-Seite in Javascript?

Ich konnte nur den german-snowball Stemmer finden bisher.

Ja, das wäre server-seitig. Die Analyse macht auch nicht viel anderes, als in einem großen Lexikon nachzuschauen, ob die Form bekannt ist. Das könnte man vielleicht auch in Javascript bauen, aber die Daten sind sehr groß (unkomprimiert einige hundert MB). Außerdem fehlt dann noch die Logik, Komposita zu zerlegen, es würde also wirklich nur Wörter gefunden, die genau so im Lexikon stehen. Eine fertige reine JS-Lösung kenne ich nicht.