Χρήστης:AtouBot/ξεν και PAGENAME στα ξένα λήμματα/ξένα λήμματα 1

  1. κατέβασμα του αρχείου XML από τις 5 Απριλίου 2008 [1]
  2. ενημέρωση του αρχείου
    εντολή: ./getrcs.sh today today-8
    κώδικας των προγραμμάτων εδώ
  3. δημιουργία αρχείου με τα λήμματα χωρίς πρότυπο γλώσσας
    εντολή: mkdir all_langs; cd all_langs; bzcat ../last_full.xml.bz2 | ../xml-split-by-lang.pl)
    κώδικας εδώ
  4. κατάλογος τίτλων:
    grep title junk | sed -e 's/\s*<title>/[[/; s/<\/title>/]]/;' > χωρίς_προτύπου_γλώσσας.txt
  5. προσθήκη προτύπου σε αυτά τα λήμματα:
    εύχρηστος επιρρώνυμι αβακίσκος Μήνη βοοειδή δυφιονιάδα δυφιόρρευμα δυφιοαυλός τζιτζί
  6. ενημέρωση του αρχείου XML
    εντολή: mv tmp tmp1; ./getrcs.sh today lastrun
  7. δημιουργία αρχείου με τα ξένα μόνο λήμματα
    εντολή: bzcat last_full.xml.bz2 | ./xml-σελίδες-με-έκφραση.pl --not --noredirs '{{=el=}}' > no-el.xml
    κώδικας εδώ
  8. αφαίρεση και των λημμάτων με {{=grc=}}...
    εντολή: cat no-el.xml | ./xml-σελίδες-με-έκφραση.pl --not --noredirs '{{=grc=}}' > no-grc.xml
  9. αφαίρεση των λημμάτων με {{=διεθ=}} και κανένα άλλο πρότυπο γλώσσας
    εντολή: cat no-grc.xml | ./parsexml.pl --page > no-dieth.xml
    κώδικας εδώ
  10. αφαίρεση των λημμάτων με {{ξεν|xx|{{PAGENAME}}}}
    εντολή: cat no-dieth.xml | ./xml-σελίδες-με-έκφραση.pl --not --noredirs '{{PAGENAME}}}}' > χωρίς-ξεν-PAGENAME.xml
    επιβεβαίωση ότι μόνο γραμμές του τύπου {{ξεν|xx|{{PAGENAME}}}} περιέχουν {{PAGENAME}}}}:
    grep '{{PAGENAME}}}}' no-el.xml | more| grep -v ξεν
  11. λήμματα με {{PAGENAME}}: θα τα μετατρέψουμε αυτά πρώτα
    εντολή: cat χωρίς-ξεν-PAGENAME.xml | ./xml-σελίδες-με-έκφραση.pl --noredirs '{{PAGENAME}}' > με-PAGENAME.xml
  12. τίτλοι για το replace.py
    grep 'title' με-PAGENAME.xml | sed -e 's/\s*<title>/[[/; s/<\/title>/]]/;' > με-PAGENAME-titles.xml
  13. μέρη του λόγου για το replace.py
    εντολή: ./getcat.sh 'Πρότυπα για τα μέρη του λόγου'
    κώδικας εδώ
  14. fixes.py για την μετατροπή {{PAGENAME}} σε {{ξεν|xx|{{PAGENAME}}}}
    εντολή: python ./replace.py -fix:ksena_lhmmata_1 -file:με-PAGENAME-titles.xml
    κώδικας εδώ
    κατάλογος τίτλων: με-PAGENAME-titles.xml


Σημειώσεις:

  • Δεν βάζουμε {{ξεν}} για αρχαίες ελληνικές λέξεις.
  • Δεν βάζουμε {{ξεν}} για {{=διεθ=}} (αφού δεν υπάρχει αντίστοιχο βικιλεξικό!)
  • Επίσης σε λέξεις με μτγ ή μσν δεν βάζουμε.