Problem mit Wortwiederholungserkennung

Die Erkennung von Wortwiederholungen am Satzanfang scheint unerwarteterweise von der Textformatierung abzuhängen. Im folgenden Text (im Original aus einem Nachrichtenportal) wird die Wiederholung „Die“ korrekt erkannt:

Die Bahn hatte die GDL bereits am Freitag "auf Grundlage des Gesamtvorschlags der Moderatoren" zu Verhandlungen am Montag
eingeladen. Die Gewerkschaft lehnte dies allerdings ab und bezeichnete den Vorschlag als nicht annehmbar. Die Kernforderung der GDL in der
Tarifauseinandersetzung ist die schrittweise Einführung einer 35-Stunden-Woche bei vollem Lohnausgleich. Die Moderatoren -
Schleswig-Holsteins Ministerpräsident Daniel Günther und der frühere Bundesinnenminister Thomas de Maizière - hatten eine Verkürzung der
Wochenarbeitszeit in zwei Stufen von 38 auf 36 Stunden bei vollem Lohnausgleich bis 2028 vorgeschlagen.

Wird derselbe Text jedoch auf eine maximale Zeilenlänge von 72 Zeichen umbrochen, so schlägt die Erkennung fehl:

Die Bahn hatte die GDL bereits am Freitag "auf Grundlage des
Gesamtvorschlags der Moderatoren" zu Verhandlungen am Montag
eingeladen. Die Gewerkschaft lehnte dies allerdings ab und bezeichnete
den Vorschlag als nicht annehmbar. Die Kernforderung der GDL in der
Tarifauseinandersetzung ist die schrittweise Einführung einer
35-Stunden-Woche bei vollem Lohnausgleich. Die Moderatoren -
Schleswig-Holsteins Ministerpräsident Daniel Günther und der frühere
Bundesinnenminister Thomas de Maizière - hatten eine Verkürzung der
Wochenarbeitszeit in zwei Stufen von 38 auf 36 Stunden bei vollem
Lohnausgleich bis 2028 vorgeschlagen.

Ich kann das Verhalten sowohl mit einer lokalen Installation eines LT-Servers im Zusammenspiel mit Emacs beobachten als auch in der Prüfmaske unter Grammatik-, Stil- und Rechtschreibprüfung - LanguageTool. Daher nehme ich an, dass es sich nicht um ein Problem mit dem Texteditor handelt.

System:

  • Xubuntu 20.04
  • LT-Server v6.4-Snapshot vom 28.2.2024 inkl. DE-N-Gramme
  • OpenJDK 11.0.22
  • Emacs 26.3, langtool.el v2.3.7

Habe es nochmal mit dem (aktuellen) Kommandozeilenwerkzeug nachgestellt. In der angehängten Datei schlägt die Regel GERMAN_WORD_REPEAT_BEGINNING_RULE nur im Absatz mit den längeren Zeilen an, unabhängig von der Reihenfolge der Absätze.

$ java -jar /opt/LanguageTool/languagetool-commandline.jar -l de-DE die-bahn.txt
Expected text language: German (Germany)
Working on die-bahn.txt...
1.) Line 13, column 107, Rule ID: GERMAN_WORD_REPEAT_BEGINNING_RULE premium: false prio=-61
Message: Drei aufeinanderfolgende Sätze beginnen mit dem gleichen Wort. Evtl. können Sie den Satz umformulieren, zum Beispiel, indem Sie ein Synonym nutzen.
...zeichnete den Vorschlag als nicht annehmbar. Die Kernforderung der GDL in der Tarifauseinande...
                                                ^^^                                             
Time: 14925ms for 8 sentences (0.5 sentences/sec)

$ java -jar /opt/LanguageTool/languagetool-commandline.jar --version
LanguageTool version 6.4-SNAPSHOT (2024-03-12 18:59:39 +0100, 3bdf1b3)

die-bahn.txt (1.2 KB)

Habe ein Issue aufgemacht: https://github.com/languagetool-org/languagetool/issues/10408