Παράρτημα:Λίστες Συχνοτήτων
Μετρώντας λέξεις και λήμματα: Οι παρακάτω λίστες συχνοτήτων μετρούν ξεχωριστές στην ορθογραφία τους λέξεις, περιλαμβάνοντας και τις κλιτικές τους μορφές. Για παράδειγμα, το ρήμα "be" παρουσιάζεται με την μορφή "is", "are", "were", κλπ.
Αγγλικά
επεξεργασίαΤηλεόραση και κείμενα από ταινίες
επεξεργασίαΟι πιο συνηθισμένες λέξεις στην τηλεόραση και στα κείμενα των ταινιών:
Εδώ υπάρχουν λίστες συχνοτήτων που συγκρίνονται με αυτές του Gutenberg, αλλά βασίζονται σε 29,213,800 λέξεις από την τηλεόραση και σενάρια από ταινίες καθώς και μεταγλωττίσεις.
Εδώ υπάρχει μια πιο πλήρης εξήγηση για το πως δημιουργήθηκε αυτή η λίστα και για τους περιορισμούς της: en:Wiktionary:Frequency lists/TV/2006/explanation.
Παρακάτω θα δείτε τις 100 πιο δημοφιλείς λέξεις (από σενάρια της τηλεόρασης) σε αλφαβητική σειρά:
- a · about · all · and · are · as · at · back · be · because · been · but · can · can't · come · could · did · didn't · do · don't · for · from · get · go · going · good · got · had · have · he · her · here · he's · hey · him · his · how · I · if · I'll · I'm · in · is · it · it's · just · know · like · look · me · mean · my · no · not · now · of · oh · OK · okay · on · one · or · out · really · right · say · see · she · so · some · something · tell · that · that's · the · then · there · they · think · this · time · to · up · want · was · we · well · were · what · when · who · why · will · with · would · yeah · yes · you · your · you're
Εδώ είναι κατά σειρά πλήθους συχνοτήτων:
- 1-1000 · 1001-2000 · 2001-3000 · 3001-4000 · 4001-5000 · 5001-6000 · 6001-7000 · 7001-8000 · 8001-9000 · 9001-10000
Από την 10000η έως την 40000η :
- 10001-12000 · 12001-14000 · 14001-16000 · 16001-18000 · 18001-20000 · 20001-22000 · 22001-24000 · 24001-26000 · 26001-28000 · 28001-30000 · 30001-32000 · 32001-34000 · 34001-36000 · 36001-38000 · 38001-40000
- 40001-41284 (κι εδώ τα απομεινάρια σε ένα τελικό αρχείο)
Προφανώς αυτές θα είναι όλες. Και αποτελούν το ένα τρίτο όλων των μοναδικών λέξεων. Η υπόλοιπες χρησιμοποιήθηκαν 5 ή και λιγότερες φορές η κάθε μια.
Το Εγχείρημα Gutenberg
επεξεργασίαΟι πιο συνήθεις λέξεις στο εγχείρημα Gutenberg:
Αυτές οι λίστες περιέχουν τις πιο συχνές λέξεις, όταν εκτελούμε μια απλή, άμεση (προφανώς) καταμέτρηση της συχνότητας όλων των βιβλίων που βρίσκονται στο Project Gutenberg. Αυτή η λίστα των βιβλίων μεταφορτώθηκε τον Ιούλιο του 2005, και "επανασυγχρονίστηκαν" κάθε μήνα από τότε. Αυτές είναι ως επί τω πλείστον Αγγλικές λέξεις, με την συμμετοχή κάποιων άλλων γλωσσών σε μικρότερο βαθμό. Πολλά βιβλία του Project Gutenberg σκανάρονται μόλις λήξει το copyright τους, τυπικά δηλαδή εκείνες οι εκδόσεις βιβλίων που δημοσιεύθηκαν πριν το 1923, κι επομένως η γλώσσα δεν αντικατοπτρίζει την σύγχρονη χρήση της. Για παράδειγμα, "thy" εμφανίζεται στην λίστα ως η 253η πιο συνηθισμένη λέξη. Επίσης, με σε περισσότερα από 24,000 βιβλία, το στερεότυπο κείμενο αποποίησης ευθυνών του Project Gutenberg εμφανίζεται στο καθένα απ΄αυτά.
Ακολουθούν οι 100 πρώτες λέξεις (από τα κείμενα του Project Gutenberg) σε αλφαβητική σειρά:
- a · about · after · all · and · any · an · are · as · at · been · before · be · but · by · can · could · did · down · do · first · for · from · good · great · had · has · have · her · he · him · his · if · into · in · is · its · it · I · know · like · little · made · man · may · men · me · more · Mr · much · must · my · not · now · no · of · on · one · only · or · other · our · out · over · said · see · she · should · some · so · such · than · that · the · their · them · then · there · these · they · this · time · to · two · upon · up · us · very · was · were · we · what · when · which · who · will · with · would · you · your
- Αυτοί οι όροι σε μορφή βίκι μπορούν να αντιγραφούν στα βικιλεξικά των άλλων γλωσσών, και αυτός είναι ακριβώς ο σκοπός για τον οποίο προορίζονται. Αν το κάνεις, πρόσθεσε ένα σύνδεσμο w:en:interwiki γι'αυτήν την σελίδα.
- Νέα λίστα ως είχε στις 16/4/2006:
- Wiktionary:Frequency lists/PG/2006/04/1-10000
- Wiktionary:Frequency lists/PG/2006/04/10001-20000
- Wiktionary:Frequency lists/PG/2006/04/20001-30000
- Wiktionary:Frequency lists/PG/2006/04/30001-40000
- Νέα λίστα όπως είχε στις 10/10/2005:
- Ο ίδιος κατάλογος χωρισμένος ανά χιλιάδα λέξεων:
- 1-1000 1001-2000 2001-3000 3001-4000 4001-5000 5001-6000 6001-7000 7001-8000 8001-9000 9001-10000
- περισσότερες αναμένονται...
- Παλαιότερες λίστες
- Οι πιο συνηθισμένες λέξεις, κατά σειρά κατάταξης:
- Wiktionary:Frequency lists/Project Gutenberg 1-10000
- Wiktionary:Frequency lists/Project Gutenberg 10001-20000
- Wiktionary:Frequency lists/Project Gutenberg 20001-30000
- Wiktionary:Frequency lists/Project Gutenberg 30001-40000
- Wiktionary:Frequency lists/Project Gutenberg 40001-50000
- Wiktionary:Frequency lists/Project Gutenberg 50001-60000
- Wiktionary:Frequency lists/Project Gutenberg 60001-70000
- Wiktionary:Frequency lists/Project Gutenberg 70001-80000
- Wiktionary:Frequency lists/Project Gutenberg 80001-90000
- Wiktionary:Frequency lists/Project Gutenberg 90001-100000
- Κατά προσέγγιση 24,197 αρχεία, 1,712,082,956 λέξεις, 70,756.0 λέξεις κατά μέσο όρο ανά αρχείο. από τις οποίες έχουν σταχυολογηθεί περίπου 9,053,310 μοναδικές "λέξεις."
- Από την οπτική της ευθείας καταμέτρηση της συχνότητας, το τρέχον αντίγραφο του Wiktionary απομακρύνθηκε τότε από τον κατάλογο. Ακόμα και εγγραφές που έχουν μόνον μια ανακατεύθυνση έχουν απομακρυνθεί.
- Με κάπως διαφορετικό φιλτράρισμα/επιλογή κριτηρίων:
- Η τελευταία έκδοση μπορεί πάντοτε να βρεθεί στο:
Σύχρονη επιστημονική φαντασία
επεξεργασίαΟι 2,000 πιο συνηθισμένες λέξεις στην σύχρονη λογοτεχνία επιστημονικής φαντασίας που μπορείτε να βρείτε εδώ:
The 2,000 most common words in contemporary fiction can be found here divided into 60 subject categories.
This lumps regular lemmas of the same word together, unlike most of these lists.
Σύγχρονη ποίηση
επεξεργασίαΟι 2,000 περισσότερο κοινές λέξεις στην σύγχρονη ποίηση που μπορούν να βρεθούν εδώ:
Άλλη μια λίστα ανά λήμμα.
Κορυφαίες λίστες λέξεων στα Αγγλικά
επεξεργασία- Category:100 English basic words
- Category:200 English basic words
- Category:1000 English basic words
- Complete Shakespeare wordlist | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9
Οικογένειες λέξεων
επεξεργασία- British National Corpus - οι πιο συχνές οικογένειες λέξεων: δες το simple:Wiktionary:BNC spoken freq στο Απλό Αγγλικό Λεξικό.
- Ακαδημαϊκή Λίστα Λέξεων ανά οικογένεια λέξης: δες το simple:Wiktionary:Academic word list στο Απλό Αγγλικό Λεξικό.
Τσέχικα
επεξεργασίαΟλλανδικά
επεξεργασίαΟι δεκατρείς πιο δημοφιλείς Ολλανδικές λέξεις
επεξεργασίαΑπό τον Max Havelaar (οι αριθμοί ανάμεσα στις παρενθέσεις υποδηλώνουν την συχνότητα):
- de (4770)
- en (2709)
- het, 't (2469)
- van (2259)
- ik (1999)
- te (1935)
- dat (1875)
- die (1807)
- in (1639)
- een (1637)
- hij (1328)
- niet (1162)
- zijn (1049)
Λίστες συχνοτήτων του Πανεπιστημίου της Λειψίας
επεξεργασία- Κύρια σελίδα
- Οι 100 πιο συχνές Ολλανδικές λέξεις
- Οι 1000 πιο συχνές Ολλανδικές λέξεις
- Οι 10000 πιο συχνές Ολλανδικές λέξεις
Συχνότητα των διακριτικών χαρακτήρων στα Ολλανδικά
επεξεργασίαΑπό διακριτικοί χαρακτήρες στην Ολλανδική γλώσσα:
Συχνότητα | Χαρακτήρων |
---|---|
ë | 1762 |
ï | 599 |
é | 468 |
è | 248 |
ö | 171 |
ê | 71 |
ü | 61 |
ó | 35 |
ç | 30 |
á | 24 |
à | 17 |
ä | 16 |
û | 8 |
î | 7 |
í | 5 |
ô | 4 |
ú | 4 |
ñ | 4 |
â | 3 |
Å | 1 |
Γαλλικά
επεξεργασίαΛίστες συχνοτήτων από το http://wortschatz.uni-leipzig.de/html/wliste.html με την επίσημη άδεια από το εργαστήριο.
Σημείωση: αυτές οι ενδεικτικές λίστες απαιτούν ακόμα κάποια εκκαθάριση, επειδή:
Γαλικιανή
επεξεργασίαΓερμανικά
επεξεργασίαΓερμανικές λέξεις στην Wikipedia:
Top 2000 German words from subtitles:
Ουγγρικά
επεξεργασίαΟι πιο συχνές 100.000 λέξεις στα Ουγγρικά κείμενα: http://mokk.bme.hu/resources/webcorpus
Ισλανδικά
επεξεργασίαΙσλανδικά ρήματα:
- Τα 100 περισσότερο συχνά Ισλανδικά ρήματα σύμφωνα με τη σχετική ιστοσελίδα.
- Ισλανδική Λίστα Συχνοτήτων ρημάτων 1-100
Ιταλικά
επεξεργασίαΟι 1000 συχνότερες Ιταλικές λέξεις από υπότιτλους:
Κορεατικά
επεξεργασίαΟι πιο συχνές 200 Κορεατικές λέξεις:
Πολωνικά
επεξεργασίαΟι συχνότερες 200 Πολωνικές λέξεις:
Ρωσικά
επεξεργασίαΣέρβικα
επεξεργασία- Οι πιο συχνά εμφανιζόμενες 200 λέξεις της Σερβικής γλώσσας
Σλοβενικές λίστες συχνοτήτων
επεξεργασίαΟι 50 περισσότερο πιο συχνές Σλοβενικές λέξεις, σύμφωνα με την έρευνα του Primož Jakopin:
je , in , se , v , da , na , so , ne , pa , ki , bi , za , z , ni , sem , ga , še , po , s , tako , ko , tudi , to , bil , ali , si , mu , od , bilo , kot , že , iz , kaj , bo , če , vse , bila , kakor , mi , pri , jo , kar , jih , sta , o , do , ti , kako , samo , me
Ισπανικά
επεξεργασίαΟι 10000 πιο συχνά εμφανιζόμενες Ισπανικές λέξεις από υποτίτλους:
Σουηδικά
επεξεργασία- Βικιλεξικό:Λίστες συχνοτήτων/οι πιο συχνές 2000 λέξεις της Σουηδικής Βικιπαίδειας
- /Σουηδικά (παρόμοια, αλλά όχι ίδια)
Ταϋλανδέζικα
επεξεργασία- If this is just "basic" words, not statistically the "most frequent" words, it shouldn't be here, it should be in the Appendix namespace only. --Connel MacKenzie 20:59, 26 December 2006 (UTC)
Τούρκικα
επεξεργασίαΓίντις
επεξεργασίαΤα Γίντις σε άλλα Βικιλεξικά:
Δείτε ακόμα
επεξεργασίαΕξωτερικοί σύνδεσμοι
επεξεργασία- Ρωσικές λέξεις με εικόνες και γραμματική - αλλά και μετάφραση στα Αγγλικά
- οι 1000 περισσότερο συνηθισμένες Ρωσικές λέξεις - με Αγγλική μετάφραση
- Λίστα Συχνοτήτων Λέξεων της Ισπανικής της Χιλής - (Lifcach), Scott Sadowsky & Ricardo Martínez Gamboa
H λίστα συχνοτήτων λέξεων της Ισπανικής της Χιλής (Lifcach) είναι ένα σύνολο από 102 λίστες συχνοτήτων που προήλθαν από τα sub-corpora του Corpus Dinámico del Castellano de Chile (Dynamic Corpus of Chilean Spanish, Codicach), ένα corpus των σύγχρονων γραπτών Ισπανικών της Χιλής που αναπτύχθηκε από τον Sadowsky ανάμεσα στο 1997 και το 2002. Αυτό το corpus περιείχε κατά προσέγγιση 450 εκατομμύρια λέξεις όταν δημιουργήθηκε το Lifcach (που σήμερα περιέχει περίπου 800 εκατομμύρια λέξεις). Το Lifcach περιέχει επίσης a non-weighted κατάλογο των συνολικών συχνοτήτων (τη στήλη του Συνόλου των Περιπτώσεων), που είναι απλά το σύνολο των συχνοτήτων από 102 ανεξάρτητες λίστες (με άλλα λόγια, η λίστα των συχνοτήτων του συνόλου του Codicach corpus).