Χρήστης:AtouBot/ξεν και PAGENAME στα ξένα λήμματα/ξένα λήμματα 3

  1. λήψη των τίτλων που τροποποιήθηκαν από το προηγούμενο μποτ
    εντολή: mkdir ξένα_λήμματα_2 ; mv titles.04-19-2008.txt titles-from-bot.txt ξένα_λήμματα_2/
    ./getchangesbyuser.sh today today-5h AtouBot
    cat titles.04-19-2008.txt | awk -F' 2008' '{ print $1 }' > titles-from-bot.txt
  2. αφαίρεση αυτών των τίτλων από τον κατάλογο λέξεων που δεν περιέχουν {{ξεν|xx|{{PAGENAME}}}} στο αρχείο χωρίς-ξεν-PAGENAME-2.xml
    εντολή: cat χωρίς-ξεν-PAGENAME-2.xml | ./remove-titles.pl titles-from-bot.txt > χωρίς-ξεν-PAGENAME-3.xml
  3. κατάλογος λημμάτων με '''λήμμα''', πχ
    {{=io=}}
    {{-ουσ-|io}}
    '''agosto'''
    εντολή: cat χωρίς-ξεν-PAGENAME-3.xml | ./parsexml.pl --page > με-έντονο-κείμενο-χωρίς-ξεν.xml
    ενημερωμένος κώδικας του parsexml.pl εδώ
    λόγω ενός σφάλματος στην perl, αναβλήθηκαν τα παρακάτω προς το παρόν (δείτε την αναφορά για λεπτομέρειες). Βρήκα προσωρινή λύση!
  4. τίτλοι για το replace.py
    grep 'title' με-έντονο-κείμενο-χωρίς-ξεν.xml | sed -e 's/\s*<title>/[[/; s/<\/title>/]]/;' > με-έντονο-κείμενο-χωρίς-ξεν-titles.xml
  5. fixes.py για την μετατροπή '''λήμμα''' σε {{ξεν|xx|{{PAGENAME}}}}
    εντολή: python ./replace.py -fix:ksena_lhmmata_3 -file:με-έντονο-κείμενο-χωρίς-ξεν-titles.xml
    κώδικας εδώ
    κατάλογος τίτλων: με-έντονο-κείμενο-χωρίς-ξεν-titles.xml