Χρήστης:AtouBot/ξεν και PAGENAME στα ξένα λήμματα/ξένα λήμματα 4
Τόσο τεμπέλης είμαι που βγήκε το καινούργιο αρχείο xml πριν κάνω το επόμενο βήμα! Ξαναρχίζουμε:
- κατέβασμα του αρχείου XML από τις 25 Μαΐου [1]
- ενημέρωση του αρχείου
- εντολή: cp elwiktionary-20080525-pages-articles.xml.bz2 last_full.xml.bz2
- ./getrcs.sh today today-8h
- βρίσκουμε πάλι τα λήμματα χωρίς πρότυπο γλώσσας
- εντολή: mkdir all_langs; cd all_langs; bzcat ../last_full.xml.bz2 | ../xml-split-by-lang.pl
- grep title junk | sed -e 's/\s*<title>/[[/; s/<\/title>/]]/;' > χωρίς_προτύπου_γλώσσας.txt
- προσθήκη προτύπου σε αυτά τα λήμματα (τουλάχιστον τα ξένα λήμματα):
- ενημέρωση του αρχείου XML
- εντολή: cd ..; mv tmp tmp1; ./getrcs.sh today lastrun
- δημιουργία αρχείου με τα ξένα μόνο λήμματα
- εντολή: bzcat last_full.xml.bz2 | ./xml-σελίδες-με-έκφραση.pl --not --noredirs '{{=el=}}' > no-el.xml
- αφαίρεση και των λημμάτων με {{=grc=}}...
- εντολή: cat no-el.xml | ./xml-σελίδες-με-έκφραση.pl --not --noredirs '{{=grc=}}' > no-grc.xml
- αφαίρεση των λημμάτων με {{=διεθ=}} και κανένα άλλο πρότυπο γλώσσας
- εντολή: cat no-grc.xml | ./parsexml.pl --page > no-dieth.xml
- αφαίρεση των λημμάτων με {{ξεν|xx|{{PAGENAME}}}} σε κάθε μέρος του λόγου (αν λείπει ακόμα από ένα, το κρατάμε)
- εντολή: cat no-dieth.xml | ./parsexml.pl --page > λείπουν-ξεν-PAGENAME.xml
- κώδικας για τη συνάρτηση checkmatch.pl εδώ
- κρατάμε τώρα τις σελίδες με '''{{PAGENAME}}''' μετά από το μέρος του λόγου (με ίσως μερικές κενές γραμμές ενδιάμεσες)
- εντολή: cat λείπουν-ξεν-PAGENAME.xml | ./parsexml.pl --pages --noredirs > PAGENAME_και_έντονα_γράμματα.xml
- κώδικας για τη συνάρτηση checkmatch.pl εδώ
- τίτλοι για το replace.py
- grep '<title>' PAGENAME_και_έντονα_γράμματα.xml | sed -e 's/\s*<title>/[[/; s/<\/title>/]]/;' > PAGENAME_και_έντονα_γράμματα-titles.xml
- fixes.py για την μετατροπή '''{{PAGENAME}}''' σε {{ξεν|xx|{{PAGENAME}}}}
- εντολή: python ./replace.py -fix:ksena_lhmmata_4 -file:PAGENAME_και_έντονα_γράμματα-titles.xml
- κώδικας εδώ
- κατάλογος τίτλων: PAGENAME_και_έντονα_γράμματα-titles.xml