Χρήστης:AtouBot/ξεν και PAGENAME στα ξένα λήμματα/ξένα λήμματα 1
- κατέβασμα του αρχείου XML από τις 5 Απριλίου 2008 [1]
- ενημέρωση του αρχείου
- εντολή: ./getrcs.sh today today-8
- κώδικας των προγραμμάτων εδώ
- δημιουργία αρχείου με τα λήμματα χωρίς πρότυπο γλώσσας
- εντολή: mkdir all_langs; cd all_langs; bzcat ../last_full.xml.bz2 | ../xml-split-by-lang.pl)
- κώδικας εδώ
- κατάλογος τίτλων:
- grep title junk | sed -e 's/\s*<title>/[[/; s/<\/title>/]]/;' > χωρίς_προτύπου_γλώσσας.txt
- προσθήκη προτύπου σε αυτά τα λήμματα:
- ενημέρωση του αρχείου XML
- εντολή: mv tmp tmp1; ./getrcs.sh today lastrun
- δημιουργία αρχείου με τα ξένα μόνο λήμματα
- εντολή: bzcat last_full.xml.bz2 | ./xml-σελίδες-με-έκφραση.pl --not --noredirs '{{=el=}}' > no-el.xml
- κώδικας εδώ
- αφαίρεση και των λημμάτων με {{=grc=}}...
- εντολή: cat no-el.xml | ./xml-σελίδες-με-έκφραση.pl --not --noredirs '{{=grc=}}' > no-grc.xml
- αφαίρεση των λημμάτων με {{=διεθ=}} και κανένα άλλο πρότυπο γλώσσας
- εντολή: cat no-grc.xml | ./parsexml.pl --page > no-dieth.xml
- κώδικας εδώ
- αφαίρεση των λημμάτων με {{ξεν|xx|{{PAGENAME}}}}
- εντολή: cat no-dieth.xml | ./xml-σελίδες-με-έκφραση.pl --not --noredirs '{{PAGENAME}}}}' > χωρίς-ξεν-PAGENAME.xml
- επιβεβαίωση ότι μόνο γραμμές του τύπου {{ξεν|xx|{{PAGENAME}}}} περιέχουν {{PAGENAME}}}}:
- grep '{{PAGENAME}}}}' no-el.xml | more| grep -v ξεν
- λήμματα με {{PAGENAME}}: θα τα μετατρέψουμε αυτά πρώτα
- εντολή: cat χωρίς-ξεν-PAGENAME.xml | ./xml-σελίδες-με-έκφραση.pl --noredirs '{{PAGENAME}}' > με-PAGENAME.xml
- τίτλοι για το replace.py
- grep 'title' με-PAGENAME.xml | sed -e 's/\s*<title>/[[/; s/<\/title>/]]/;' > με-PAGENAME-titles.xml
- μέρη του λόγου για το replace.py
- εντολή: ./getcat.sh 'Πρότυπα για τα μέρη του λόγου'
- κώδικας εδώ
- fixes.py για την μετατροπή {{PAGENAME}} σε {{ξεν|xx|{{PAGENAME}}}}
- εντολή: python ./replace.py -fix:ksena_lhmmata_1 -file:με-PAGENAME-titles.xml
- κώδικας εδώ
- κατάλογος τίτλων: με-PAGENAME-titles.xml
Σημειώσεις:
- Δεν βάζουμε {{ξεν}} για αρχαίες ελληνικές λέξεις.
- Δεν βάζουμε {{ξεν}} για {{=διεθ=}} (αφού δεν υπάρχει αντίστοιχο βικιλεξικό!)
- Επίσης σε λέξεις με μτγ ή μσν δεν βάζουμε.