Χρήστης:AtouBot/ξεν και PAGENAME στα ξένα λήμματα/ξένα λήμματα 1

 1. κατέβασμα του αρχείου XML από τις 5 Απριλίου 2008 [1]
 2. ενημέρωση του αρχείου
  εντολή: ./getrcs.sh today today-8
  κώδικας των προγραμμάτων εδώ
 3. δημιουργία αρχείου με τα λήμματα χωρίς πρότυπο γλώσσας
  εντολή: mkdir all_langs; cd all_langs; bzcat ../last_full.xml.bz2 | ../xml-split-by-lang.pl)
  κώδικας εδώ
 4. κατάλογος τίτλων:
  grep title junk | sed -e 's/\s*<title>/[[/; s/<\/title>/]]/;' > χωρίς_προτύπου_γλώσσας.txt
 5. προσθήκη προτύπου σε αυτά τα λήμματα:
  εύχρηστος επιρρώνυμι αβακίσκος Μήνη βοοειδή δυφιονιάδα δυφιόρρευμα δυφιοαυλός τζιτζί
 6. ενημέρωση του αρχείου XML
  εντολή: mv tmp tmp1; ./getrcs.sh today lastrun
 7. δημιουργία αρχείου με τα ξένα μόνο λήμματα
  εντολή: bzcat last_full.xml.bz2 | ./xml-σελίδες-με-έκφραση.pl --not --noredirs '{{=el=}}' > no-el.xml
  κώδικας εδώ
 8. αφαίρεση και των λημμάτων με {{=grc=}}...
  εντολή: cat no-el.xml | ./xml-σελίδες-με-έκφραση.pl --not --noredirs '{{=grc=}}' > no-grc.xml
 9. αφαίρεση των λημμάτων με {{=διεθ=}} και κανένα άλλο πρότυπο γλώσσας
  εντολή: cat no-grc.xml | ./parsexml.pl --page > no-dieth.xml
  κώδικας εδώ
 10. αφαίρεση των λημμάτων με {{ξεν|xx|{{PAGENAME}}}}
  εντολή: cat no-dieth.xml | ./xml-σελίδες-με-έκφραση.pl --not --noredirs '{{PAGENAME}}}}' > χωρίς-ξεν-PAGENAME.xml
  επιβεβαίωση ότι μόνο γραμμές του τύπου {{ξεν|xx|{{PAGENAME}}}} περιέχουν {{PAGENAME}}}}:
  grep '{{PAGENAME}}}}' no-el.xml | more| grep -v ξεν
 11. λήμματα με {{PAGENAME}}: θα τα μετατρέψουμε αυτά πρώτα
  εντολή: cat χωρίς-ξεν-PAGENAME.xml | ./xml-σελίδες-με-έκφραση.pl --noredirs '{{PAGENAME}}' > με-PAGENAME.xml
 12. τίτλοι για το replace.py
  grep 'title' με-PAGENAME.xml | sed -e 's/\s*<title>/[[/; s/<\/title>/]]/;' > με-PAGENAME-titles.xml
 13. μέρη του λόγου για το replace.py
  εντολή: ./getcat.sh 'Πρότυπα για τα μέρη του λόγου'
  κώδικας εδώ
 14. fixes.py για την μετατροπή {{PAGENAME}} σε {{ξεν|xx|{{PAGENAME}}}}
  εντολή: python ./replace.py -fix:ksena_lhmmata_1 -file:με-PAGENAME-titles.xml
  κώδικας εδώ
  κατάλογος τίτλων: με-PAGENAME-titles.xml


Σημειώσεις:

 • Δεν βάζουμε {{ξεν}} για αρχαίες ελληνικές λέξεις.
 • Δεν βάζουμε {{ξεν}} για {{=διεθ=}} (αφού δεν υπάρχει αντίστοιχο βικιλεξικό!)
 • Επίσης σε λέξεις με μτγ ή μσν δεν βάζουμε.