Χρήστης:AtouBot/ξεν και PAGENAME στα ξένα λήμματα/ξένα λήμματα 4

Τόσο τεμπέλης είμαι που βγήκε το καινούργιο αρχείο xml πριν κάνω το επόμενο βήμα! Ξαναρχίζουμε:

  1. κατέβασμα του αρχείου XML από τις 25 Μαΐου [1]
  2. ενημέρωση του αρχείου
    εντολή: cp elwiktionary-20080525-pages-articles.xml.bz2 last_full.xml.bz2
    ./getrcs.sh today today-8h
  3. βρίσκουμε πάλι τα λήμματα χωρίς πρότυπο γλώσσας
    εντολή: mkdir all_langs; cd all_langs; bzcat ../last_full.xml.bz2 | ../xml-split-by-lang.pl
    grep title junk | sed -e 's/\s*<title>/[[/; s/<\/title>/]]/;' > χωρίς_προτύπου_γλώσσας.txt
  4. προσθήκη προτύπου σε αυτά τα λήμματα (τουλάχιστον τα ξένα λήμματα):
    ρευστός εύχρηστος μηλίτσα καψερός επιρρώνυμι αβακίσκος Μήνη βοοειδή δυφιονιάδα δυφιόρρευμα δυφιοαυλός τζιτζί Grève
  5. ενημέρωση του αρχείου XML
    εντολή: cd ..; mv tmp tmp1; ./getrcs.sh today lastrun
  6. δημιουργία αρχείου με τα ξένα μόνο λήμματα
    εντολή: bzcat last_full.xml.bz2 | ./xml-σελίδες-με-έκφραση.pl --not --noredirs '{{=el=}}' > no-el.xml
  7. αφαίρεση και των λημμάτων με {{=grc=}}...
    εντολή: cat no-el.xml | ./xml-σελίδες-με-έκφραση.pl --not --noredirs '{{=grc=}}' > no-grc.xml
  8. αφαίρεση των λημμάτων με {{=διεθ=}} και κανένα άλλο πρότυπο γλώσσας
    εντολή: cat no-grc.xml | ./parsexml.pl --page > no-dieth.xml
  9. αφαίρεση των λημμάτων με {{ξεν|xx|{{PAGENAME}}}} σε κάθε μέρος του λόγου (αν λείπει ακόμα από ένα, το κρατάμε)
    εντολή: cat no-dieth.xml | ./parsexml.pl --page > λείπουν-ξεν-PAGENAME.xml
    κώδικας για τη συνάρτηση checkmatch.pl εδώ
  10. κρατάμε τώρα τις σελίδες με '''{{PAGENAME}}''' μετά από το μέρος του λόγου (με ίσως μερικές κενές γραμμές ενδιάμεσες)
    εντολή: cat λείπουν-ξεν-PAGENAME.xml | ./parsexml.pl --pages --noredirs > PAGENAME_και_έντονα_γράμματα.xml
    κώδικας για τη συνάρτηση checkmatch.pl εδώ
  11. τίτλοι για το replace.py
    grep '<title>' PAGENAME_και_έντονα_γράμματα.xml | sed -e 's/\s*<title>/[[/; s/<\/title>/]]/;' > PAGENAME_και_έντονα_γράμματα-titles.xml
  12. fixes.py για την μετατροπή '''{{PAGENAME}}''' σε {{ξεν|xx|{{PAGENAME}}}}
    εντολή: python ./replace.py -fix:ksena_lhmmata_4 -file:PAGENAME_και_έντονα_γράμματα-titles.xml
    κώδικας εδώ
    κατάλογος τίτλων: PAGENAME_και_έντονα_γράμματα-titles.xml