[DE] Richtiger Umgang mit POS Tags

Wie kann ich den Begriff Advanced Encryption Standard in dieser Getrenntschreibweise korrekt mit POS-Tags versehen, z. B. mit EIG:NOM:SIN:MAS,EIG:DAT:SIN:MAS,EIG:AKK:SIN:MAS, damit bspw. der folgende Satz mit falschem Artikel nicht mehr als korrekt durchgeht?

Die Advanced Encryption Standard ist sicher.

POS-Tags halte ich nicht für möglich. Da müsste man eine XML-Regel schreiben.

1 Like

Leider ist das wirklich nicht möglich, ich habe es mit High Heels versucht. Bindestriche sind in der Added.txt erlaubt, aber Leerzeichen werden nicht akzeptiert. Hier hilft nur eine neue Regel, wie du schon richtig erkannt hast.

Ich habe es schon mit einer neuen Regel in der Datei disambiguation.xml in folgender Form probiert:

   <rule id="ADVANCED_ENCRYPTION_STANDARD" name="Advanced Encryption Standard">
        <!-- Getrennte Schreibweise des Begriffs -->
        <pattern case_sensitive="yes">
            <token postag="ART:.*" postag_regexp="yes"/>
            <marker>
                <token>Advanced</token>
                <token>Encryption</token>
                <token>Standard</token>
            </marker>
        </pattern>
        <disambig action="replace" postag="EIG:NOM:SIN:MAS,EIG:DAT:SIN:MAS,EIG:AKK:SIN:MAS"/>
    </rule>

Aber in diesem Beispiel ich weiß bisher noch nicht, wie ich die POS-Tags der drei Token Advanced, Encryption und Standard durch meine selbstdefinierten POS-Tags ersetzen kann.

Wenn ich das disambiguator log richtig interpretiere, wird nur das POS-Tag des ersten Tokens (hier Advandced) der via marker gekennzeichnten Token durch die definierte Aktion mit meinen POS-Tags ersetzt:

Disambiguator log:

ADVANCED_ENCRYPTION_STANDARD[1]: Advanced[Advanced/null] -> Advanced[Advanced/EIG:NOM:SIN:MAS,EIG:DAT:SIN:MAS,EIG:AKK:SIN:MAS]

Ich möchte jedoch die Ersetzung aller POS-Tags für den gesamten Begriff Advanced Encryption Standard bestehend aus drei Token durchführen.

Ist dies durch eine XML-Regel möglich oder muss für diesen Anwendungsfall neuer Code geschrieben werden?