#!/usr/bin/perl
# αυτό το αρχείο πρέπει να μετονομαστεί σε checkmatch.pl πριν τρέξετε το parsexml.pl
binmode(STDOUT, ":utf8");
binmode(STDIN, ":utf8");
use encoding(UTF8);
@cm_partsofspeech = ('ακρ', 'αντων', 'αρθρ', 'αριθ', 'αρκτ', 'εκφ', 'επιθ-εκφρ', 'επιθ', 'επι', 'επιρ', 'επιφ', 'καταλ-α-επιθ', 'καταλ-αθ-ουσ', 'καταλ-α-ουσ', 'καταλ-επιρ', 'καταλ-θ-ουσ', 'καταλ-ο-ουσ', 'καταλ-ρημ', 'μορφ-αντων', 'μορφ-αρθρ', 'μορφ-επιθ', 'μορφ-κυρ', 'μορφ-μτχ', 'μορφ-ουσ', 'μορφ-ρημ', 'κυρ', 'μτχ', 'μορ', 'ουσ', 'πολυ-ουσ', 'προθ', 'προ', 'ρημ', 'συνδ', 'συντ', 'σμμ', 'χαρ');
#Get pages where at least one part of speech does not have {{ξεν|XX|{{PAGENAME}}}}
# αν όλα τα μέρη του λόγο περιέχουν {{ξεν|XX|{{PAGENAME}}}} στην αρχή μιας γραμμής,
# δεν κρατάμςε το λήμμα
sub checkmatch {
$title=$page{'title'};
foreach $lcode (keys %$contents) {
$toss=0;
foreach $pc (@cm_partsofspeech) {
if (defined $contents->{$lcode}->{'parts'}->{$pc}->{'text'}) {
if ($contents->{$lcode}->{'parts'}->{$pc}->{'text'} !~ /\n\{\{ξεν\|[a-z\-]+\|\{\{PAGENAME\}\}\}\}/) {
return(1);
}
}
}
}
return(0);
}