diff --git a/Cargo.toml b/Cargo.toml
index c513e11..b0c6fa9 100644
--- a/Cargo.toml
+++ b/Cargo.toml
@@ -16,10 +16,15 @@ This crate provides Grapheme Cluster, Word and Sentence boundaries
 according to Unicode Standard Annex #29 rules.
 """
 
-exclude = [ "target/*", "Cargo.lock", "scripts/tmp", "*.txt" ]
+exclude = [ "target/*", "Cargo.lock", "scripts/tmp", "benches/texts/*", "*.txt", ]
 
 [features]
 no_std = [] # This is a no-op, preserved for backward compatibility only.
 
 [dev-dependencies]
 quickcheck = "0.7"
+bencher = "0.1"
+
+[[bench]]
+name = "graphemes"
+harness = false
\ No newline at end of file
diff --git a/benches/graphemes.rs b/benches/graphemes.rs
new file mode 100644
index 0000000..5f14352
--- /dev/null
+++ b/benches/graphemes.rs
@@ -0,0 +1,64 @@
+#[macro_use]
+extern crate bencher;
+extern crate unicode_segmentation;
+
+use bencher::Bencher;
+use unicode_segmentation::UnicodeSegmentation;
+use std::fs;
+
+fn graphemes(bench: &mut Bencher, path: &str) {
+    let text = fs::read_to_string(path).unwrap();
+    bench.iter(|| {
+        for g in UnicodeSegmentation::graphemes(&*text, true) {
+            bencher::black_box(g);
+        }
+    });
+
+    bench.bytes = text.len() as u64;
+}
+
+fn graphemes_arabic(bench: &mut Bencher) {
+    graphemes(bench, "benches/texts/arabic.txt");
+}
+
+fn graphemes_english(bench: &mut Bencher) {
+    graphemes(bench, "benches/texts/english.txt");
+}
+
+fn graphemes_hindi(bench: &mut Bencher) {
+    graphemes(bench, "benches/texts/hindi.txt");
+}
+
+fn graphemes_japanese(bench: &mut Bencher) {
+    graphemes(bench, "benches/texts/japanese.txt");
+}
+
+fn graphemes_korean(bench: &mut Bencher) {
+    graphemes(bench, "benches/texts/korean.txt");
+}
+
+fn graphemes_mandarin(bench: &mut Bencher) {
+    graphemes(bench, "benches/texts/mandarin.txt");
+}
+
+fn graphemes_russian(bench: &mut Bencher) {
+    graphemes(bench, "benches/texts/russian.txt");
+}
+
+fn graphemes_source_code(bench: &mut Bencher) {
+    graphemes(bench, "benches/texts/source_code.txt");
+}
+
+benchmark_group!(
+    benches,
+    graphemes_arabic,
+    graphemes_english,
+    graphemes_hindi,
+    graphemes_japanese,
+    graphemes_korean,
+    graphemes_mandarin,
+    graphemes_russian,
+    graphemes_source_code,
+);
+
+benchmark_main!(benches);
diff --git a/benches/texts/LICENSE b/benches/texts/LICENSE
new file mode 100644
index 0000000..604209a
--- /dev/null
+++ b/benches/texts/LICENSE
@@ -0,0 +1,359 @@
+Creative Commons Legal Code
+
+Attribution-ShareAlike 3.0 Unported
+
+    CREATIVE COMMONS CORPORATION IS NOT A LAW FIRM AND DOES NOT PROVIDE
+    LEGAL SERVICES. DISTRIBUTION OF THIS LICENSE DOES NOT CREATE AN
+    ATTORNEY-CLIENT RELATIONSHIP. CREATIVE COMMONS PROVIDES THIS
+    INFORMATION ON AN "AS-IS" BASIS. CREATIVE COMMONS MAKES NO WARRANTIES
+    REGARDING THE INFORMATION PROVIDED, AND DISCLAIMS LIABILITY FOR
+    DAMAGES RESULTING FROM ITS USE.
+
+License
+
+THE WORK (AS DEFINED BELOW) IS PROVIDED UNDER THE TERMS OF THIS CREATIVE
+COMMONS PUBLIC LICENSE ("CCPL" OR "LICENSE"). THE WORK IS PROTECTED BY
+COPYRIGHT AND/OR OTHER APPLICABLE LAW. ANY USE OF THE WORK OTHER THAN AS
+AUTHORIZED UNDER THIS LICENSE OR COPYRIGHT LAW IS PROHIBITED.
+
+BY EXERCISING ANY RIGHTS TO THE WORK PROVIDED HERE, YOU ACCEPT AND AGREE
+TO BE BOUND BY THE TERMS OF THIS LICENSE. TO THE EXTENT THIS LICENSE MAY
+BE CONSIDERED TO BE A CONTRACT, THE LICENSOR GRANTS YOU THE RIGHTS
+CONTAINED HERE IN CONSIDERATION OF YOUR ACCEPTANCE OF SUCH TERMS AND
+CONDITIONS.
+
+1. Definitions
+
+ a. "Adaptation" means a work based upon the Work, or upon the Work and
+    other pre-existing works, such as a translation, adaptation,
+    derivative work, arrangement of music or other alterations of a
+    literary or artistic work, or phonogram or performance and includes
+    cinematographic adaptations or any other form in which the Work may be
+    recast, transformed, or adapted including in any form recognizably
+    derived from the original, except that a work that constitutes a
+    Collection will not be considered an Adaptation for the purpose of
+    this License. For the avoidance of doubt, where the Work is a musical
+    work, performance or phonogram, the synchronization of the Work in
+    timed-relation with a moving image ("synching") will be considered an
+    Adaptation for the purpose of this License.
+ b. "Collection" means a collection of literary or artistic works, such as
+    encyclopedias and anthologies, or performances, phonograms or
+    broadcasts, or other works or subject matter other than works listed
+    in Section 1(f) below, which, by reason of the selection and
+    arrangement of their contents, constitute intellectual creations, in
+    which the Work is included in its entirety in unmodified form along
+    with one or more other contributions, each constituting separate and
+    independent works in themselves, which together are assembled into a
+    collective whole. A work that constitutes a Collection will not be
+    considered an Adaptation (as defined below) for the purposes of this
+    License.
+ c. "Creative Commons Compatible License" means a license that is listed
+    at https://creativecommons.org/compatiblelicenses that has been
+    approved by Creative Commons as being essentially equivalent to this
+    License, including, at a minimum, because that license: (i) contains
+    terms that have the same purpose, meaning and effect as the License
+    Elements of this License; and, (ii) explicitly permits the relicensing
+    of adaptations of works made available under that license under this
+    License or a Creative Commons jurisdiction license with the same
+    License Elements as this License.
+ d. "Distribute" means to make available to the public the original and
+    copies of the Work or Adaptation, as appropriate, through sale or
+    other transfer of ownership.
+ e. "License Elements" means the following high-level license attributes
+    as selected by Licensor and indicated in the title of this License:
+    Attribution, ShareAlike.
+ f. "Licensor" means the individual, individuals, entity or entities that
+    offer(s) the Work under the terms of this License.
+ g. "Original Author" means, in the case of a literary or artistic work,
+    the individual, individuals, entity or entities who created the Work
+    or if no individual or entity can be identified, the publisher; and in
+    addition (i) in the case of a performance the actors, singers,
+    musicians, dancers, and other persons who act, sing, deliver, declaim,
+    play in, interpret or otherwise perform literary or artistic works or
+    expressions of folklore; (ii) in the case of a phonogram the producer
+    being the person or legal entity who first fixes the sounds of a
+    performance or other sounds; and, (iii) in the case of broadcasts, the
+    organization that transmits the broadcast.
+ h. "Work" means the literary and/or artistic work offered under the terms
+    of this License including without limitation any production in the
+    literary, scientific and artistic domain, whatever may be the mode or
+    form of its expression including digital form, such as a book,
+    pamphlet and other writing; a lecture, address, sermon or other work
+    of the same nature; a dramatic or dramatico-musical work; a
+    choreographic work or entertainment in dumb show; a musical
+    composition with or without words; a cinematographic work to which are
+    assimilated works expressed by a process analogous to cinematography;
+    a work of drawing, painting, architecture, sculpture, engraving or
+    lithography; a photographic work to which are assimilated works
+    expressed by a process analogous to photography; a work of applied
+    art; an illustration, map, plan, sketch or three-dimensional work
+    relative to geography, topography, architecture or science; a
+    performance; a broadcast; a phonogram; a compilation of data to the
+    extent it is protected as a copyrightable work; or a work performed by
+    a variety or circus performer to the extent it is not otherwise
+    considered a literary or artistic work.
+ i. "You" means an individual or entity exercising rights under this
+    License who has not previously violated the terms of this License with
+    respect to the Work, or who has received express permission from the
+    Licensor to exercise rights under this License despite a previous
+    violation.
+ j. "Publicly Perform" means to perform public recitations of the Work and
+    to communicate to the public those public recitations, by any means or
+    process, including by wire or wireless means or public digital
+    performances; to make available to the public Works in such a way that
+    members of the public may access these Works from a place and at a
+    place individually chosen by them; to perform the Work to the public
+    by any means or process and the communication to the public of the
+    performances of the Work, including by public digital performance; to
+    broadcast and rebroadcast the Work by any means including signs,
+    sounds or images.
+ k. "Reproduce" means to make copies of the Work by any means including
+    without limitation by sound or visual recordings and the right of
+    fixation and reproducing fixations of the Work, including storage of a
+    protected performance or phonogram in digital form or other electronic
+    medium.
+
+2. Fair Dealing Rights. Nothing in this License is intended to reduce,
+limit, or restrict any uses free from copyright or rights arising from
+limitations or exceptions that are provided for in connection with the
+copyright protection under copyright law or other applicable laws.
+
+3. License Grant. Subject to the terms and conditions of this License,
+Licensor hereby grants You a worldwide, royalty-free, non-exclusive,
+perpetual (for the duration of the applicable copyright) license to
+exercise the rights in the Work as stated below:
+
+ a. to Reproduce the Work, to incorporate the Work into one or more
+    Collections, and to Reproduce the Work as incorporated in the
+    Collections;
+ b. to create and Reproduce Adaptations provided that any such Adaptation,
+    including any translation in any medium, takes reasonable steps to
+    clearly label, demarcate or otherwise identify that changes were made
+    to the original Work. For example, a translation could be marked "The
+    original work was translated from English to Spanish," or a
+    modification could indicate "The original work has been modified.";
+ c. to Distribute and Publicly Perform the Work including as incorporated
+    in Collections; and,
+ d. to Distribute and Publicly Perform Adaptations.
+ e. For the avoidance of doubt:
+
+     i. Non-waivable Compulsory License Schemes. In those jurisdictions in
+        which the right to collect royalties through any statutory or
+        compulsory licensing scheme cannot be waived, the Licensor
+        reserves the exclusive right to collect such royalties for any
+        exercise by You of the rights granted under this License;
+    ii. Waivable Compulsory License Schemes. In those jurisdictions in
+        which the right to collect royalties through any statutory or
+        compulsory licensing scheme can be waived, the Licensor waives the
+        exclusive right to collect such royalties for any exercise by You
+        of the rights granted under this License; and,
+   iii. Voluntary License Schemes. The Licensor waives the right to
+        collect royalties, whether individually or, in the event that the
+        Licensor is a member of a collecting society that administers
+        voluntary licensing schemes, via that society, from any exercise
+        by You of the rights granted under this License.
+
+The above rights may be exercised in all media and formats whether now
+known or hereafter devised. The above rights include the right to make
+such modifications as are technically necessary to exercise the rights in
+other media and formats. Subject to Section 8(f), all rights not expressly
+granted by Licensor are hereby reserved.
+
+4. Restrictions. The license granted in Section 3 above is expressly made
+subject to and limited by the following restrictions:
+
+ a. You may Distribute or Publicly Perform the Work only under the terms
+    of this License. You must include a copy of, or the Uniform Resource
+    Identifier (URI) for, this License with every copy of the Work You
+    Distribute or Publicly Perform. You may not offer or impose any terms
+    on the Work that restrict the terms of this License or the ability of
+    the recipient of the Work to exercise the rights granted to that
+    recipient under the terms of the License. You may not sublicense the
+    Work. You must keep intact all notices that refer to this License and
+    to the disclaimer of warranties with every copy of the Work You
+    Distribute or Publicly Perform. When You Distribute or Publicly
+    Perform the Work, You may not impose any effective technological
+    measures on the Work that restrict the ability of a recipient of the
+    Work from You to exercise the rights granted to that recipient under
+    the terms of the License. This Section 4(a) applies to the Work as
+    incorporated in a Collection, but this does not require the Collection
+    apart from the Work itself to be made subject to the terms of this
+    License. If You create a Collection, upon notice from any Licensor You
+    must, to the extent practicable, remove from the Collection any credit
+    as required by Section 4(c), as requested. If You create an
+    Adaptation, upon notice from any Licensor You must, to the extent
+    practicable, remove from the Adaptation any credit as required by
+    Section 4(c), as requested.
+ b. You may Distribute or Publicly Perform an Adaptation only under the
+    terms of: (i) this License; (ii) a later version of this License with
+    the same License Elements as this License; (iii) a Creative Commons
+    jurisdiction license (either this or a later license version) that
+    contains the same License Elements as this License (e.g.,
+    Attribution-ShareAlike 3.0 US)); (iv) a Creative Commons Compatible
+    License. If you license the Adaptation under one of the licenses
+    mentioned in (iv), you must comply with the terms of that license. If
+    you license the Adaptation under the terms of any of the licenses
+    mentioned in (i), (ii) or (iii) (the "Applicable License"), you must
+    comply with the terms of the Applicable License generally and the
+    following provisions: (I) You must include a copy of, or the URI for,
+    the Applicable License with every copy of each Adaptation You
+    Distribute or Publicly Perform; (II) You may not offer or impose any
+    terms on the Adaptation that restrict the terms of the Applicable
+    License or the ability of the recipient of the Adaptation to exercise
+    the rights granted to that recipient under the terms of the Applicable
+    License; (III) You must keep intact all notices that refer to the
+    Applicable License and to the disclaimer of warranties with every copy
+    of the Work as included in the Adaptation You Distribute or Publicly
+    Perform; (IV) when You Distribute or Publicly Perform the Adaptation,
+    You may not impose any effective technological measures on the
+    Adaptation that restrict the ability of a recipient of the Adaptation
+    from You to exercise the rights granted to that recipient under the
+    terms of the Applicable License. This Section 4(b) applies to the
+    Adaptation as incorporated in a Collection, but this does not require
+    the Collection apart from the Adaptation itself to be made subject to
+    the terms of the Applicable License.
+ c. If You Distribute, or Publicly Perform the Work or any Adaptations or
+    Collections, You must, unless a request has been made pursuant to
+    Section 4(a), keep intact all copyright notices for the Work and
+    provide, reasonable to the medium or means You are utilizing: (i) the
+    name of the Original Author (or pseudonym, if applicable) if supplied,
+    and/or if the Original Author and/or Licensor designate another party
+    or parties (e.g., a sponsor institute, publishing entity, journal) for
+    attribution ("Attribution Parties") in Licensor's copyright notice,
+    terms of service or by other reasonable means, the name of such party
+    or parties; (ii) the title of the Work if supplied; (iii) to the
+    extent reasonably practicable, the URI, if any, that Licensor
+    specifies to be associated with the Work, unless such URI does not
+    refer to the copyright notice or licensing information for the Work;
+    and (iv) , consistent with Ssection 3(b), in the case of an
+    Adaptation, a credit identifying the use of the Work in the Adaptation
+    (e.g., "French translation of the Work by Original Author," or
+    "Screenplay based on original Work by Original Author"). The credit
+    required by this Section 4(c) may be implemented in any reasonable
+    manner; provided, however, that in the case of a Adaptation or
+    Collection, at a minimum such credit will appear, if a credit for all
+    contributing authors of the Adaptation or Collection appears, then as
+    part of these credits and in a manner at least as prominent as the
+    credits for the other contributing authors. For the avoidance of
+    doubt, You may only use the credit required by this Section for the
+    purpose of attribution in the manner set out above and, by exercising
+    Your rights under this License, You may not implicitly or explicitly
+    assert or imply any connection with, sponsorship or endorsement by the
+    Original Author, Licensor and/or Attribution Parties, as appropriate,
+    of You or Your use of the Work, without the separate, express prior
+    written permission of the Original Author, Licensor and/or Attribution
+    Parties.
+ d. Except as otherwise agreed in writing by the Licensor or as may be
+    otherwise permitted by applicable law, if You Reproduce, Distribute or
+    Publicly Perform the Work either by itself or as part of any
+    Adaptations or Collections, You must not distort, mutilate, modify or
+    take other derogatory action in relation to the Work which would be
+    prejudicial to the Original Author's honor or reputation. Licensor
+    agrees that in those jurisdictions (e.g. Japan), in which any exercise
+    of the right granted in Section 3(b) of this License (the right to
+    make Adaptations) would be deemed to be a distortion, mutilation,
+    modification or other derogatory action prejudicial to the Original
+    Author's honor and reputation, the Licensor will waive or not assert,
+    as appropriate, this Section, to the fullest extent permitted by the
+    applicable national law, to enable You to reasonably exercise Your
+    right under Section 3(b) of this License (right to make Adaptations)
+    but not otherwise.
+
+5. Representations, Warranties and Disclaimer
+
+UNLESS OTHERWISE MUTUALLY AGREED TO BY THE PARTIES IN WRITING, LICENSOR
+OFFERS THE WORK AS-IS AND MAKES NO REPRESENTATIONS OR WARRANTIES OF ANY
+KIND CONCERNING THE WORK, EXPRESS, IMPLIED, STATUTORY OR OTHERWISE,
+INCLUDING, WITHOUT LIMITATION, WARRANTIES OF TITLE, MERCHANTIBILITY,
+FITNESS FOR A PARTICULAR PURPOSE, NONINFRINGEMENT, OR THE ABSENCE OF
+LATENT OR OTHER DEFECTS, ACCURACY, OR THE PRESENCE OF ABSENCE OF ERRORS,
+WHETHER OR NOT DISCOVERABLE. SOME JURISDICTIONS DO NOT ALLOW THE EXCLUSION
+OF IMPLIED WARRANTIES, SO SUCH EXCLUSION MAY NOT APPLY TO YOU.
+
+6. Limitation on Liability. EXCEPT TO THE EXTENT REQUIRED BY APPLICABLE
+LAW, IN NO EVENT WILL LICENSOR BE LIABLE TO YOU ON ANY LEGAL THEORY FOR
+ANY SPECIAL, INCIDENTAL, CONSEQUENTIAL, PUNITIVE OR EXEMPLARY DAMAGES
+ARISING OUT OF THIS LICENSE OR THE USE OF THE WORK, EVEN IF LICENSOR HAS
+BEEN ADVISED OF THE POSSIBILITY OF SUCH DAMAGES.
+
+7. Termination
+
+ a. This License and the rights granted hereunder will terminate
+    automatically upon any breach by You of the terms of this License.
+    Individuals or entities who have received Adaptations or Collections
+    from You under this License, however, will not have their licenses
+    terminated provided such individuals or entities remain in full
+    compliance with those licenses. Sections 1, 2, 5, 6, 7, and 8 will
+    survive any termination of this License.
+ b. Subject to the above terms and conditions, the license granted here is
+    perpetual (for the duration of the applicable copyright in the Work).
+    Notwithstanding the above, Licensor reserves the right to release the
+    Work under different license terms or to stop distributing the Work at
+    any time; provided, however that any such election will not serve to
+    withdraw this License (or any other license that has been, or is
+    required to be, granted under the terms of this License), and this
+    License will continue in full force and effect unless terminated as
+    stated above.
+
+8. Miscellaneous
+
+ a. Each time You Distribute or Publicly Perform the Work or a Collection,
+    the Licensor offers to the recipient a license to the Work on the same
+    terms and conditions as the license granted to You under this License.
+ b. Each time You Distribute or Publicly Perform an Adaptation, Licensor
+    offers to the recipient a license to the original Work on the same
+    terms and conditions as the license granted to You under this License.
+ c. If any provision of this License is invalid or unenforceable under
+    applicable law, it shall not affect the validity or enforceability of
+    the remainder of the terms of this License, and without further action
+    by the parties to this agreement, such provision shall be reformed to
+    the minimum extent necessary to make such provision valid and
+    enforceable.
+ d. No term or provision of this License shall be deemed waived and no
+    breach consented to unless such waiver or consent shall be in writing
+    and signed by the party to be charged with such waiver or consent.
+ e. This License constitutes the entire agreement between the parties with
+    respect to the Work licensed here. There are no understandings,
+    agreements or representations with respect to the Work not specified
+    here. Licensor shall not be bound by any additional provisions that
+    may appear in any communication from You. This License may not be
+    modified without the mutual written agreement of the Licensor and You.
+ f. The rights granted under, and the subject matter referenced, in this
+    License were drafted utilizing the terminology of the Berne Convention
+    for the Protection of Literary and Artistic Works (as amended on
+    September 28, 1979), the Rome Convention of 1961, the WIPO Copyright
+    Treaty of 1996, the WIPO Performances and Phonograms Treaty of 1996
+    and the Universal Copyright Convention (as revised on July 24, 1971).
+    These rights and subject matter take effect in the relevant
+    jurisdiction in which the License terms are sought to be enforced
+    according to the corresponding provisions of the implementation of
+    those treaty provisions in the applicable national law. If the
+    standard suite of rights granted under applicable copyright law
+    includes additional rights not granted under this License, such
+    additional rights are deemed to be included in the License; this
+    License is not intended to restrict the license of any rights under
+    applicable law.
+
+
+Creative Commons Notice
+
+    Creative Commons is not a party to this License, and makes no warranty
+    whatsoever in connection with the Work. Creative Commons will not be
+    liable to You or any party on any legal theory for any damages
+    whatsoever, including without limitation any general, special,
+    incidental or consequential damages arising in connection to this
+    license. Notwithstanding the foregoing two (2) sentences, if Creative
+    Commons has expressly identified itself as the Licensor hereunder, it
+    shall have all rights and obligations of Licensor.
+
+    Except for the limited purpose of indicating to the public that the
+    Work is licensed under the CCPL, Creative Commons does not authorize
+    the use by either party of the trademark "Creative Commons" or any
+    related trademark or logo of Creative Commons without the prior
+    written consent of Creative Commons. Any permitted use will be in
+    compliance with Creative Commons' then-current trademark usage
+    guidelines, as may be published on its website or otherwise made
+    available upon request from time to time. For the avoidance of doubt,
+    this trademark restriction does not form part of the License.
+
+    Creative Commons may be contacted at https://creativecommons.org/.
diff --git a/benches/texts/README b/benches/texts/README
new file mode 100644
index 0000000..8c2fa7d
--- /dev/null
+++ b/benches/texts/README
@@ -0,0 +1,12 @@
+All language text files in this folder are copied from Wikipedia, under the CC-BY-SA 3.0 license
+(included in LICENSE). source_code.txt is from the Neovim source code, covered under the Apache 2.0
+license. The original source for each file is listed below
+
+ - english.txt: https://en.wikipedia.org/wiki/English_language
+ - korean.txt: https://ko.wikipedia.org/wiki/%ED%95%9C%EA%B5%AD%EC%96%B4
+ - japanese.txt: https://ja.wikipedia.org/wiki/%E6%97%A5%E6%9C%AC%E8%AA%9E
+ - hindi.txt: https://hi.wikipedia.org/wiki/%E0%A4%B9%E0%A4%BF%E0%A4%A8%E0%A5%8D%E0%A4%A6%E0%A5%80
+ - mandarin.txt: https://zh.wikipedia.org/wiki/%E5%AE%98%E8%AF%9D
+ - arabic.txt: https://ar.wikipedia.org/wiki/%D8%A7%D9%84%D9%84%D8%BA%D8%A9_%D8%A7%D9%84%D8%B9%D8%B1%D8%A8%D9%8A%D8%A9
+ - russian.txt: https://ru.wikipedia.org/wiki/%D0%A0%D1%83%D1%81%D1%81%D0%BA%D0%B8%D0%B9_%D1%8F%D0%B7%D1%8B%D0%BA
+ - source_code.txt: https://github.com/veonim/neovim/blob/master/src/nvim/buffer.c
\ No newline at end of file
diff --git a/benches/texts/arabic.txt b/benches/texts/arabic.txt
new file mode 100644
index 0000000..5c0a6cf
--- /dev/null
+++ b/benches/texts/arabic.txt
@@ -0,0 +1,106 @@
+اللُّغَة العَرَبِيّة هي أكثرُ اللغاتِ السامية تحدثاً، وإحدى أكثر اللغات انتشاراً في العالم، يتحدثُها أكثرُ من 467 مليون نسمة،(1) ويتوزعُ متحدثوها في الوطن العربي، بالإضافة إلى العديد من المناطق الأخرى المجاورة كالأهواز وتركيا وتشاد ومالي والسنغال وإرتيريا وإثيوبيا وجنوب السودان وإيران. وبذلك فهي تحتل المركز الرابع أو الخامس من حيث اللغات الأكثر انتشاراً في العالم، واللغة الرابعة من حيث عدد المستخدمين على الإنترنت. اللغةُ العربيةُ ذات أهمية قصوى لدى المسلمين، فهي عندَهم لغةٌ مقدسة إذ أنها لغة القرآن، وهي لغةُ الصلاة وأساسيةٌ في القيام بالعديد من العبادات والشعائرِ الإسلامية.
+
+العربيةُ هي أيضاً لغة شعائرية رئيسية لدى عدد من الكنائس المسيحية في الوطن العربي، كما كُتبَت بها كثير من أهمِّ الأعمال الدينية والفكرية اليهودية في العصور الوسطى. ارتفعتْ مكانةُ اللغةِ العربية إثْرَ انتشارِ الإسلام بين الدول إذ أصبحت لغة السياسة والعلم والأدب لقرون طويلة في الأراضي التي حكمها المسلمون. وللغة العربية تأثير مباشر وغير مباشر على كثير من اللغات الأخرى في العالم الإسلامي، كالتركية والفارسية والأمازيغية والكردية والأردية والماليزية والإندونيسية والألبانية وبعض اللغات الإفريقية الأخرى مثل الهاوسا والسواحيلية والتجرية والأمهرية والصومالية، وبعض اللغات الأوروبية وخاصةً المتوسطية كالإسبانية والبرتغالية والمالطية والصقلية؛ ودخلت الكثير من مصطلحاتها في اللغة الإنجليزية واللغات الأخرى، مثل أدميرال والتعريفة والكحول والجبر وأسماء النجوم. كما أنها تُدرَّس بشكل رسمي أو غير رسمي في الدول الإسلامية والدول الإفريقية المحاذية للوطن العربي.
+
+العربية لغةٌ رسمية في كل دول الوطن العربي إضافة إلى كونها لغة رسمية في تشاد وإريتريا وإسرائيل. وهي إحدى اللغات الرسمية الست في منظمة الأمم المتحدة، ويُحتفل باليوم العالمي للغة العربية في 18 ديسمبر كذكرى اعتماد العربية بين لغات العمل في الأمم المتحدة.
+واللغة العربية من أغزر اللغات من حيث المادةِ اللغوية، فعلى سبيل المثال يحوي معجم لسان العرب لابن منظور من القرن الثالث عشر أكثر من 80 ألف مادة، بينما في اللغة الإنجليزية فإن قاموس صموئيل جونسون - وهو من أوائل من وضع قاموساً إنجليزياً من القرن الثامن عشر- يحتوي على 42 ألف كلمة.تحتوي اللغة العربية على 28 حرفاً مكتوباً. ويرى بعضُ اللغويين أنه يجب إضافة حرف الهمزة إلى حروف العربية، ليصبحَ عدد الحروف 29. تُكتب العربية من اليمين إلى اليسار - ومثلها اللغة الفارسية والعبرية على عكس كثير من اللغات العالمية - ومن أعلى الصفحة إلى أسفلها.
+
+الأسماء
+
+    "لغة القرآن" بما أن القرآن نزل باللغة العربية، فقد أُطلق اسم اللغة عليه.
+    "لغة الضاد" هو الاسم الذي يُطلقه العرب على لغتهم، فالضاد حرف يختص به العرب، ولا يوجد في كلام العجم إلا في القليل.
+
+    ولذلك قيل في قول أَبي الطيب المتنبي:
+
+وبِهِمْ فَخرُ كلِّ مَنْ نَطَقَ الضَّادَ		وعَوْذُ الجاني وغَوْثُ الطَّريدِ
+
+حيث ذهب به إلى أنها للعرب خاصة.
+غير أن الضاد المقصودة هنا ليست الضاد المعروفة والمستخدمة اليوم في دول مثل جمهورية مصر العربية، وهي دال مفخمة، وهي التي لا تُستحسن قراءة القرآن أو الشعر العربي بها، أما الضاد العربية القديمة فهي صوتٌ آخر مزيجٌ بين الظاء واللام، واندمج هذا الصوت مع الظاء في الجزيرة العربية. ولأن الظاء هي ذال مفخمة، أي أنها حرف ما - بين - أسناني، فقد تحولت بدورها في الحواضر إلى دال مفخمة كتحول الثاء إلى تاء والذال إلى دال، وصارت هذه الدال المفخمة هي الضاد الحديثة. فالدال المفخمة ليست خاصة بالعربية، بل هي في الواقع موجودة في لغات كثيرة. وهي ليست الضاد الأصلية التي كان يعنيها المتنبي وابن منظور صاحب لسان العرب وغيرهم.
+تصنيفها
+
+تنتمي اللغة العربية إلى أسرة اللغات السامية المتفرعة من مجموعة اللغات الإفريقية الآسيوية. وتضم مجموعة اللغات السامية لغات حضارة الهلال الخصيب القديمة، مثل الأكادية والكنعانية والآرامية واللغة الصيهدية (جنوب الجزيرة العربية) واللغات العربية الشمالية القديمة وبعض لغات القرن الإفريقي كالأمهرية. وعلى وجه التحديد، يضع اللغويون اللغة العربية في المجموعة السامية الوسطى من اللغات السامية الغربية.
+
+والعربية من أحدث هذه اللغات نشأة وتاريخاً، ولكن يعتقد البعض أنها الأقرب إلى اللغة السامية الأم التي انبثقت منها اللغات السامية الأخرى، وذلك لاحتباس العرب في جزيرة العرب فلم تتعرض لما تعرضت له باقي اللغات السامية من اختلاط.
+ولكن هناك من يخالف هذا الرأي بين علماء اللسانيات، حيث أن تغير اللغة هو عملية مستمرة عبر الزمن والانعزال الجغرافي قد يزيد من حدة هذا التغير حيث يبدأ نشوء أيّة لغة جديدة بنشوء لهجة جديدة في منطقة منعزلة جغرافياً. بالإضافة لافتراض وجود لغة سامية أم لا يعني وجودها بالمعنى المفهوم للغة الواحدة بل هي تعبير مجازي قصد به الإفصاح عن تقارب مجموعة من اللغات فقد كان علماء اللسانيات يعتمدون على قرب لغة وعقلية من يرونه مرشحاً لعضوية عائلة اللغات السامية وبُنيت دراساتهم على أسس جغرافية وسياسية وليس على أُسس عرقية ولا علاقة لها بنظرة التوراة لأبناء سام وكثرة قواعد اللغة العربية ترجح أنها طرأت عليها في فترات لاحقة وأنها مرت بأطوار عديدة مما يضعف فرضية أن هذه اللغة أقرب لما عُرف اصطلاحاً باللغة السامية الأم هذه، ولا توجد لغة في العالم تستطيع الادعاء أنها نقية وصافية من عوامل ومؤثرات خارجية 
+
+تاريخها
+نشأتها
+
+هنالك العديد من الآراء حول أصل العربية لدى قدامى اللغويين العرب، منها أن اللغة العربية أقدم من العرب أنفسهم فقالوا أنها لغة آدم في الجنة، ولعب التنافس القبلي في عصر الخلافة العباسية دوراً كبيراً في نُشوء هذه النظريات، فزعم بعضهم أن يعرب بن قحطان كان أول من تكلم هذه العربية، وفريق ذهب أن إسماعيل هو أول من تكلم بها، وأنه نسي لسان أبيه
+،(2)، إلا أنه لا وجود لبراهين علمية تُثبت أياً من هذه النظريات، فجنوب الجزيرة العربية، موطن يعرب المفترض كان يتحدث بعربية مختلفة لها قواعدها. وعثر في مواضع مُتعدّدة في شمال شبه الجزيرة العربية كذلك على كتابات قديمة بلغات متباينة ومختلفة عن عربية القرآن أو الشعر الجاهلي بل هي مختلفة عن بعضها البعض. ولم يهتم اللغويون العرب القدماء بهذه اللغات واعتبروها لغات "رديئة"، فقد اعتبروا اللغة العربية لغة قريش هي الأصل رغم أن تلك اللغات العربية الجنوبية والشمالية قد تكون أقدم من العربية التي تكلمت بها قريش. وبعضهم كان يرى أن دراسة وبحث تلك اللغات واللهجات مضيعة للوقت وإحياءً للجاهلية فقد كانوا مُدركين أن ألسنة العرب متباينة ومختلفة، فقد قال محمد بن جرير الطبري
+
+:
+« كانت العرب وإن جمع جميعها اسم أنهم عرب، فهم مختلفو الألسن بالبيان متباينو المنطق والكلام»
+
+ومنهم من يرى أنها لغة قريش خاصة ويؤيد هذا الرأي أن أقدم النصوص المتوفرة بهذه اللغة هو القرآن والنبي محمد قُرشي وأول دعوته كانت بينهم وهو الرأي الذي أجمع عليه غالب اللغويين العرب القدماء
+ومنهم من يرى أنها لهجة عربية تطورت في مملكة كندة في منتصف القرن السادس الميلادي بسبب إغداق ملوك تلك المملكة المال على الشعراء فأدى لتنافسهم وتوحد لهجة شعرية بينهم وهم أقدم من قريش وأيد ذلك العديد من المستشرقين فرجّحوا وجود ما أسموه بـ"اللغة العالية" وهي لغة شعرية خاصة بالإضافة للهجات محلية فاعتبروا تلك اللغة لغة رفيعة تظهر مدارك الشاعر وثقافته أمام الملك
+
+والرأي القائل أنها لغة قريش أقوى لأن أقدم النصوص بهذه اللغة هو القرآن فالشعر الجاهلي، إن كان جاهليًا حقًا، دُوّن بعد الإسلام ولا يملك الباحثون نسخة أصلية لمُعلّقة أو قصيدة جاهلية ليُحدّد تاريخها بشكل دقيق.
+
+توجه العلماء الأقدمون إلى القول بأن مكة كانت "مهوى أفئدة العرب" وأنهم كانوا يعرضون لغتهم على قريش وأن تلك القبيلة كانت تختار الأصلح فتأخذه وتترك الرديء حتى غلبت لغتهم شبه الجزيرة بكاملها قبل الإسلام
+. يٌفنّد هذا الرأي الكتابات التي لا تبعد عن الإسلام بكثير وهي مكتوبة بلهجة مختلفة عن عربية القرآن فلم يُعثر على دليل أو أثر أن أحدًا من العرب قٌبيل الإسلام دوّن بهذه اللغة وأقرب الكتابات لها هي خمسة نصوص كُتبت بعربية نبطية وهي لغة مُتحكمة في أسلوبها وقواعدها والكثرة الغالبة من كلماتها تمنعها أن تعد في عداد عربية القرآن . وسيادة اللغة ترتبط غالبًا بسيادة سياسية ولا يوجد دليل قطعي على هذه السيادة القُرشية على القبائل قبل الإسلام فقد كانت العرب قبل الإسلام تعدّ قريشًا تُجّارًا وليسوا مقاتلين ويُرجّح عدد من الباحثين أن كل الوارد أنها لهجة قريش كان من باب تفضيل النبي محمد أو هو نتاج التنافس بين الأنصار والمهاجرين، ولم يرد في القرآن أنها لغة قريش بل وردت آيات تحدي أن يأتوا بمثله فهذا التحدي أن يأتوا بمثله وبنفس لسانه "العربي المبين " دليل أنه أكمل الألسنة العربية وليس لسان بعض العرب على غيرهم بل إن المسلمين يعدّون القرآن معجزة بحد ذاتها. أما أصل هذه اللغة ففيه اختلاف بين العلماء فكل الوارد عن أنها لهجة قريش سببه عدم العثور على أثر يسبق الإسلام مُدوّن بهذه اللغة ومصدر الباحثين الوحيد هو المصادر الإسلامية لاستنباط رأي علمي مقبول. 
+
+قسّم علماء الآثار اللغات العربية إلى قسمين عربية جنوبية قديمة وتشمل لغة سبئية وقتبانية وحضرمية ومعينية والقسم الآخر هو عربية شمالية قديمة وتشمل الحسائية والصفائية ولغة لحيانية/ديدانية وثمودية (لا علاقة لها بثمود إنما هي تسمية اصطلاحية) والتيمائية كان العرب الجنوبيون يستعملون الحرف نون كأداة للتعريف ويضعونه آخر الكلمة بينما العرب الشماليون استعملوا الحرف هاء كأداة للتعريف وما يُميّز العربية "الفصحى" عن هذه اللغات هو استعمالها لأداة التعريف "ال" أقرب النصوص القديمة لهذه العربية هو نقش النمارة الذي اُكتُشِف بجبل الدروز وهو نص مؤرخ بتاريخ 328م ومكتوب بنوع من الخط النبطي القريب من الخط العربي الحالي، وهو رسم لضريح ملك مملكة الحيرة امرئ القيس بن عمرو وصف فيه بأنه "ملك العرب" فالسلطة السياسية متوفرة والنص مكتوب بعربية هي الأقرب لعربية القرآن وهناك نقوش أخرى في قرية الفاو عاصمة مملكة كندة وقد كتبت بالخط المسند وتعود إلى القرن الأول قبل الميلاد ووصف الباحثون لغة قرية الفاو بأنها "شبه سبئية" ومع ذلك فإنهم استخدموا الألف والميم كأداة للتعريف
+
+، ونقش عين عبدات في صحراء النقب، ويعود تاريخه إلى القرن الأول أو الثاني بعد الميلاد، وقد كتب بالحرف النبطي ونقش آخر لا يبتعد كثيرًا عن الإسلام إذ أنه دُوّن قبل مولد النبي محمد بسنتين وجاء فيه:
+« أنا شرحيل بر ظلمو بنيت ذا المرطول سنت 463 بعد مفسد خيبر بعام»
+
+فهو نص بعربية مفهومة ولكنها ليست عربية القرآن،
+وقد كان لممالك الحيرة وكندة والغساسنة سلطة سياسية مُثبَتة بدراسات أثرية وكتابات قديمة لليونانيين لم تكن موجودة لقريش، فلا يوجد دليل على أن هذه الممالك كانت تتبع قريشا سياسياً أو دينياً حتى بل العكس، تجار قريش من كان يتودد إليهم وكانت مضارب أولئك الملوك مقصد الشعراء لا مكة وعثر على كتابات قريبة من مكة تعود لفترة قريبة من الإسلام دُوّنت بلسان وخط مختلف عن الخط الذي دُوّن به القرآن ففرضية تغلب لسان قريش على العرب قبل الإسلام فندتها الاكتشافات الأثرية وأغلب الظن أنها ظهرت تعصبًا للنبي محمد ورغبة من اللغويين القدماء رفع شأن قبيلته والتي كانت صاحبة السلطة السياسية بعد الإسلام لأمد طويل فاللغة العربية مرت بعدة أطوار ويمكن اعتبار لهجة بادية الشام والعراق القديمة أقرب اللهجات العربية إلى عربية القرآن. لم يُعرَف على وجه الدقة متى ظهرت كلمة العرب؛ وكذلك جميع المفردات المشتقة من الأصل المشتمل على أحرف العين والراء والباء، مثل كلمات: عربية وأعراب وغيرها، وأقدم نص أثري ورد فيه اسم العرب هو اللوح المسماري المنسوب للملك الآشوري شلمنصر الثالث في القرن التاسع قبل الميلاد، ذكر فيه انتصاره على تحالف ملوك آرام ضده بزعامة ملك دمشق، وأنه غنم ألف جمل من جنديبو من بلاد العرب، ويذكر البعض - من علماء اللغات
+
+- أن كلمة عرب وجدت في بعض القصص والأوصاف اليونانية والفارسية وكان يقصد بها أعراب الجزيرة العربية، ولم يكن هناك لغة عربية معينة، لكن جميع اللغات التي تكلمت بها القبائل والأقوام التي كانت تسكن الجزيرة العربية سُمّيت لغات عربية نسبة إلى الجزيرة العربية.
+
+اللغة العربية من اللغات السامية التي شهدت تطورًا كبيرًا وتغيرًا في مراحلها الداخلية، وللقرآن فضل عظيم على اللغة العربية حيث بسببه أصبحت هذه اللغة الفرع الوحيد من اللغات السامية الذي حافظ على توهجه وعالميته، في حين اندثرت معظم اللغات السامية، وما بقي منها عدا لغات محلية ذات نطاق ضيق مثل: العبرية والأمهرية (لغة أهل الحبشة، أي ما يُعرف اليوم بإثيوبيا)،. يتحدث اللغة العربية حاليًا قُرابة 422 مليون نسمة كلغة أم، كما يتحدث بها من المسلمين غير العرب قرابة العدد نفسه كلغة ثانية. 
+
+فصّل اللغويون الغربيون اللغة العربية إلى ثلاثة أصناف رئيسية، وهي: التقليدية والعربية القياسية والعامية. بينما لا يستخدم اللغويون العرب هذا التصنيف ويكتفون بتقسيم اللغة العربية إلى صنفين هما: العربية الفصحى وهي اللغة المستخدمة في الاعلام والتعليم والمؤسسات الرسمية والكتب والأدب. والصنف الثاني هو اللهجات العاميّة وهي اللهجات التي يتكلّمها أغلبية الناس في حياتهم اليومية. العربية العامية مختلفة من منطقة إلى منطقة، تقريبا مثل أيّة لهجة مُماثلة لأيّة لغة أخرى.
+انحدارها من اللغات السامية
+
+يقول البعض إن اللغة العربية هي أقرب اللغات السامية إلى "اللغة السامية الأم"، وذلك لأنها احتفظت بعناصر قديمة تعود إلى اللغة السامية الأم أكثر من أي لغة سامية أخرى. ففيها أصوات ليست موجودة في أيّ من اللغات السامية الأخرى، بالإضافة إلى وجود نظام الإعراب والعديد من الصيغ لجموع التكسير والعديد من الظواهر اللغوية الأخرى التي كانت موجودة في اللغة السامية الأم.
+وتُعد اللغة العربية "الشمالية"، أقرب اللغات إلى الأصل الذي تفرّعت منه اللغات الساميّة، لأن عرب الشمال لم يمتزجوا كثيرًا بغيرهم من الأمم، ولم تخضعهم أمم أخرى لحكمهم كما كان الشأن في كثير من الأمم السابقة الأخرى كالعبرانيين والبابليين والآشوريين، فحفظتهم الصحراء من غزو الأعداء وحكم الأمم الأجنبية، كما حفظت لغتهم من أن تتأثر تأثرًا كبيرًا بغيرهم. كذلك فإن العربية هي أكثر اللغات السامية احتفاظًا بسمات السامية الأولى فقد احتفظت بمعظم أصوات اللغة السامية وخصائصها النحوية والصرفية، فقد احتفظت بأصوات فقدتها بعض اللغات مثل: غ، ح، خ، ض، ظ، ث، ذ. ولا ينافسها في هذه المحافظة إلا العربية الجنوبية، واحتفظت أيضًا بعلامات الإعراب بينما فقدتها اللغات السامية الأخرى، وبمعظم الصيغ الاشتقاقية للسامية الأم: اسم الفاعل، المفعول، وتصريف الضمائر مع الأسماء والأفعال: بيتي، بيتك، بيته، رأيته، رآني. واحتفظت العربية بمعظم الصيغ الأصلية للضمائر وأسماء الإشارة والأسماء الموصولة. وبما أن معجم العربية الفصحى يُعتبر ثروة لفظية ضخمة لا يعادلها أي معجم سامي آخر، فإنها أصبحت عونًا لعلماء الساميات في إجراء المقارنات اللغوية أو قراءة النصوص السامية القديمة كنصوص الآثار الأكادية والفينيقية والأوغاريتية وحتى نصوص التوراة العبرية.ينقض هذا الرأي فرضية أن هذه العربية هي العربية الصحيحة والسليمة وماسواها فاسد وردئ، فاللحيانيون والأنباط والسبئيين كانوا يكتبون ويدونون بعربية مختلفة وهي "فصحى" بالنسبة لهم فإن عرفوا هذه العربية أو اعتقدوا أنها أفصح وأفضل من لغاتهم لدونوا بها كما أن لغات الأنباط والسبئيين موجودة قبل أن يوجد أي تدخل أجنبي في بلدانهم وإن كانت التجارة "تفسد" اللغة وفق منطق لغويي العصور الوسطى، لأنطبق منطقهم على قريش كونهم تجار وأهل حاضرة ولم يكونوا أعراباًكما أن تسمية لغة المناذرة وكندة (الذين تركوا أقرب النصوص لهذه العربية) بالـ"عدنانية" خاطئ فهم لم يعرفوا التسمية قبل الإسلام ولم يدعوا النسبة بعده فكل هذه النظريات أنتجتها العصبيات التي ظهرت في عصر الخلافة العباسية ويناقض أهل الأخبار أنفسهم لأنهم يلجؤون للرواية الشفهية لا النقل عن مصدر وسند مكتوب إذ يناقض رواية عدم احتكاك "عرب الشمال" بأحد روايات الإخباريين عن استعانة قصي بن كلاب بالروم لطرد الأزد من مكة وإن شكك أحد في هذه الرواية فإن كتابات اليونانيين فصلت في أحوال شبه الجزيرة العربية منها سيطرة الإمبراطورية الرومانية وإخضاعها لشمال الجزيرة العربية مراراً وذكر اليونان أن ساحل كنانة (القبيلة التي تتفرع منها قريش حسب النسابة) كان خاضعا للأحباش في القرن الأول قبل الميلاد فهذه كتابات كلاسيكية واكتشافات أثرية تضعف الروايات التي ظهرت نتيجة العصبيات بين يثرب ومكة فحرصت قبيلة قريش أن تجعل من نفسها تاجرة جزيرة العرب، وزعيمتها في اللغة وأنها موطن الفصاحة والبيان التي يذهب إليها علماء اللغة ليقرروا عنهم الفصيح والرديء من الكلام فيصبح ملكهم بعد الإسلام أصيلاً مجيداً تليدا، ونتيجة طبيعية لما كانوا عليه قبله
+توحيد اللهجات العربية
+
+يرى أهل الأخبار أن هذه العربية هي عربية قريش وأنها لغة الأدب عند الجاهليين مستشهدين بالشعر الجاهلي لإثبات ذلك وزعموا أنه لم يكن من شاعر إلا وعرض قصيدته على قريش لتقرر سلامتها اللغوية عنه،
+وقد فندت الاكتشافات الأثرية وكتابات المؤرخين المعاصرة لتلك الفترات نظرية تغلب لسان قريش على العرب وأن كعبة مكة كانت محط رحال القبائل بل كتابات الإخباريين واللغويين القدماء تناقض نفسها لاعتمادهم على الروايات واللجوء للوضع والكذب لإثبات آرائهم فلغويو العرب القدماء أرادوا رفع شأن قبيلة النبي محمد ومع ذلك يناقضون أنفسهم حين يذكرون أن النبي محمد كان يخاطب وفود العرب على اختلاف شعوبهم وقبائلهم وعلى ما في لغاتهم من اختلاف منها ما ورد عن علي بن أبي طالب عند قدوم وفد من قبائل نهد وتعجب علي من قدرة النبي على مخاطبة العرب بكل لهجاتهم ففي هذا تناقض صريح عن ما أورده الأخباريين أنفسهم عن توحد لهجات العرب قبل الإسلام ودلالة أن اختلاف اللهجات لدرجة أنها قد لا تكون مفهومة كان امرا طبيعيا وشائعا بين العرب في تلك الأزمان أما الوارد بشأن دور سوق عكاظ في تهذيب اللغة فضعيف فعمر السوق لا يتجاوز الخمسة عشر سنة قبل الإسلام وحتى لو كان له الدور المزعوم في كتابات الإخباريين، فإنه لا يعدّ دلالة قطعية على دور قريش قبل الإسلام في توحيد لهجات العرب فهم كانوا مثل غيرهم من قصاد ذلك السوق كذلك استفسار صحابة قرشيين عن ألفاظ وكلمات واردة في القرآن يضعف أنها لغة قريش ودأب المفسرون على الاستشهاد بلغات العرب وسؤالهم لمعرفة ما أشكل عليهم فهمه من كلمات القرآن ونادراً ما استشهدوا بقريش فدور قريش المزعوم في تهذيب اللغة العربية وأن لغتهم كانت لغة القرآن فرضية تنخرها التناقضات من كل جانب في كتابات اللغويين العرب القدماء أنفسهم بالإضافة للشواهد الأثرية التي لا تبتعد عن الإسلام كثيراً وهي كتابات مدونة بعربية مختلفة عن عربية القرآن في جنوب وشمال الجزيرة. ولكن يبقى السؤال عن أصل هذه اللغة فإن لم تكن لغة قريش فهي ليست لغة اللحيانيين والأنباط وليست بلغة الحميريين بالتأكيد وهناك رأي آخر ظهر في كتابات الإخباريين وهي أن هذه العربية هي عربية مضر وخصصوا مضر دون ربيعة مع أن غالب من يسمون أنفسهم "علماء الأنساب" جعلوا ربيعة شخصاً وزعموا أنه أخ مضر ومع ذلك لم يتحدثوا عن لغة ربيعة ولم يترك أبناء ربيعة كتابة جاهلية بلغة كانوا يتحدثون ويكتبون بها تمكن الباحثين على الوقوف على لغتهم وما إذا كانت عربيتهم عربية القرآن ونظرية عدنان وأبنائه عصبية ظهرت بعد الإسلام ولا وجود لأثر لها قبله هذه اللغة العربية هي عربية كل القبائل التي كانت تستخدم أداة التعريف "ال" عوضا عن الحرف (ن) في آخر الكلمة كما كان يفعل المتحدثين بالعربية الجنوبية القديمة أو (ها) وفق منطق المتحدثين بالعربية الشمالية القديمة. مع العلم أن كندة والمناذرة كانوا الوحيدين الذين تركوا كتابات جاهلية بعربية "ال" هذه دون سائر القبائل وهي ليست قبائل "عدنانية" ولم تدعي ذلك بعد الإسلام في نفس الوقت، فإنه لا يجعلها عربية قحطانية وإن كانت قبائل كندة والمناذرة "قحطانية" في كتابات أهل الأخبار. وإن لم يعرف الباحثون أصل "عدنان" فإنهم يعرفون من أين أخذ النسابة والأخباريين قحطانهم فمصدرهم كان التوراة بشكل رئيسي وورد نص سبئي واحد عن أرض اسمها "قحطن" يملكها ملك مملكة كندة المدعو ربيعة آل ثور في أواخر القرن الثاني قبل الميلاد ومع ذلك فإن كتابات كندة ونجد في تلك الفترة لم تكن بعربية القرآن بل كانت لغتهم "شبه سبئية" وإن استعملوا "ال" للتعريف وكتابة ملك المناذرة في بادية الشام تحوي ألفاظاً ومصطلحات تمنعها أن تعد من عربية القرآن توحيد اللهجات حدث بعد تمكن الإسلام من العرب ودعوته إلى توحيد صفوفهم ونبذ الشرك، أصبح للعرب لغة واحدة تجمعهم وأصبح واجباً عليهم تعلم عربية القرآن والاهتمام بها فتغلبت لغة القرآن على ما سواها وهدم الإسلام ما كان قبله فتغيرت أسمائهم ولغاتهم بتغير دينهم.
+عصر الازدهار
+
+كان للفتوحات الإسلامية بعد وفاة النبي محمد كبير الأثر في نشر اللغة العربية في أصقاع مختلفة خارج شبه الجزيرة العربية، فبعد أن اعتنق كثير من السريان والأقباط والروم والأمازيغ والآشوريين الدين الإسلامي، أصبحوا عربًا باللغة كذلك الأمر، لسببين رئيسيين، منها أن اللغة الجديدة كانت لغة الدين حديث النشأة، وهي لغة مصدر التشريع الأساسي في الإسلام (القرآن، والأحاديث النبوية)، ولأن الصلاة وبعض العبادات أخرى، لا تتم إلا بإتقان بعض كلمات من هذه اللغة، وأيضًا لتعريب دواوين الأمصار حديثة الفتح، في عهد الخليفة الأموي عبد الملك بن مروان، وهكذا أصبحت العربية لغة السياسة والإدارة بعد أن نُقلت إليها المصطلحات الفنيّة في الإدارة والحساب. وعلى الرغم من أن كثير من الأمم الأعجمية بقيت على هويتها ولم تتقبل الهوية العربية، مثل قسم كبير من الأمازيغ والترك والكرد والفرس وبعض الآشوريين والسريان، فإنها تلقنت اللغة العربية وتكلمتها بطلاقة إلى جانب لغتها الأم، وذلك لأن بعضها اعتنق الإسلام مثل الأكراد والفرس والأتراك، وحتى الذين بقوا على الدين المسيحي أو اليهودي أو المندائي الصابئي، تكلموا العربية كلغة رئيسية إلى جانب لغتهم الأم، بعد أن أصبحت لغة العلم والأدب خلال العصر الذهبي للدولة الإسلامية، تحت ظل الخلافة العباسيّة، بل أن تلك الشعوب اقتبست الأبجدية العربية في كتابة لغتها.
+
+ومع مرور الوقت أصبحت اللغة العربية لغة الشعائر لعدد كبير من الكنائس المسيحية في الوطن العربي، مثل كنائس الروم الأرثوذكس، والروم الكاثوليك، والسريان، كما كتبت بها كثير من الأعمال الدينية والفكرية اليهودية في العصور الوسطى.
+
+ساهم عدد من الأعاجم في تطوير اللغة العربية ومصطلحاتها خلال العصرين الأموي والعباسي بفضل ما نقلوه إلى العربية من علوم مترجمة عن لغتهم الأم، فبرز في العربية كلمات ومصطلحات جديدة لم تكن معهودة من قبل، مثل "بيمارستان"، المأخوذة من الفارسية، وخلال العصر الذهبي بلغت اللغة العربية أقصى درجات الازدهار، حيث عبّر الأدباء والشعراء والعلماء العرب والعجم عن أفكارهم بهذه اللغة، فكُتبت آلاف المجلدات والمؤلفات والمخطوطات حول مختلف المواضيع بلسان العرب.
+
+وكان من أهمية اللغة العربية في المجال العلمي والثقافي، أن اقتبست بعض اللغات الأوروبيّة كلمات منها أثناء العهد الصليبي في المشرق، أو عن طريق التثاقف والاختلاط مع عرب الأندلس، ومن أبرز اللغات التي تأثرت بالعربية: الإنكليزية والفرنسية والإسبانية والإيطالية والألمانية.
+عهد الركود
+
+خلال القرن الثالث عشر اجتاح الشرق العربي المغول بقيادة هولاكو خان، فأمعنوا في معالم الثقافة والحضارة تدميرًا وتخريبًا، الأمر الذي ترك المسلمين في حال تصفها المستشرقة كارين آرمسترونغ باليتم، ففقهاء وعلماء العصر المملوكي لم يكونوا مهتمين بتطوير الفتاوي والاجتهادات الفقهية والعلوم المختلفة بقدر ما كانوا مهتمين بإعادة تجميع ما قد ضاع وفقد منها،
+
+لكن على الرغم من ذلك فإن اللغة العربية استمرت لغة مهمة في البلدان الإسلامية، إلا أنها أخذت بالانحسار في شبه الجزيرة الأيبيرية مع قيام القشتاليين بإسقاط المدن الأندلسية شيئاً فشيئًا وقتل أو نفي أهلها المسلمين، كذلك فقد أخذت أهميتها العلمية تتراجع بعد ركود الاكتشافات العلمية العربية، وبدء انتقال شعلة الحضارة إلى أوروبا.
+
+بالمقابل أخذت اللغة العربية تجد موطئ قدم لها، كلغة دين بشكل أساسي، في الأناضول وبلاد البلقان بفضل الفتوحات العثمانية في تلك النواحي، واعتناق عدد من السكان للإسلام، ومن أبرز الأدلّة على انتشار اللغة العربية في تلك الأصقاع الحجة المؤسسة لمدينة سراييفو في سنة 1462، والتي كُتبت باللغة العربية بعد أن خضعت للحكم العثماني.
+
+أصبحت اللغة العربية اللغة الرسمية الثانية في الدولة الإسلامية عند انتقال الخلافة إلى بني عثمان، وبحلول القرن السادس عشر كانت اللغة العربية قد استحالت لغة الدين الإسلامي فقط، وقلّت أهميتها بالنسبة للعلوم والآداب، إذ أن العهد العثماني لا يتسم بمنجزات علمية أو ثقافية ذات شأن، كما كان الحال في العهد العبّاسي، وخلال هذا العهد أخذت مسافة الخلاف تتسع بين اللهجات العربية حتى أصبح بعضها غريبًا عن بعض في النطق والتعبير.
+عهد الانتعاش والوضع الحالي
+
+بعد أن سيطر على اللغة العربية شيءٌ من الركود طيلة ما يقرب من 400 سنة، أخذت في أواخر القرن التاسع عشر تشهد بعض الانتعاش. تجلّى هذا الانتعاش بنهضة ثقافية في بلاد الشام ومصر بسبب ازدياد نسبة المتعلمين وافتتاح كثير من المطابع التي قامت بتجميع الحروف العربية، ونشرت الصحف الحديثة بهذه اللغة لأول مرة، كذلك ظهرت عدّة جمعيات أدبيّة وأدباء وشعراء كبار ساهموا في إحياء اللغة العربية الفصحى، ومن هؤلاء: أحمد شوقي الملقب بأمير الشعراء، الشيخ ناصيف اليازجي، المعلّم بطرس البستاني، أمين الريحاني، وجبران خليل جبران. وقد أسس هؤلاء الأدباء القواميس والمعاجم الحديثة مثل دائرة المعارف وقاموس محيط المحيط، ووفروا مؤلفات قيّمة في مختلف فنون المعرفة، بعد أن ترجموا واقتبسوا روائع الفكر الغربي، كذلك يسّر الأدباء العرب في تلك الفترة اللغة العربية وقواعدها، فوضعوا لها المعاجم الحديثة التي لا تزال متداولة حتى الآن، وتأسست الصحافة العربية لتعيد إحياء الفكر العربي وتوقظ القرّاء على أخبار بلادهم المحلية والأخبار العالميّة. ومن أبرز المدارس الفكرية العربية التي برزت في ذلك العهد مدرسة أدب المهجر، وهو الأدب الذي أنشأه العرب الذين هاجروا من بلاد الشام إلى أمريكا الشمالية والجنوبية، وكونوا جاليات عربية، وروابط أدبية أخرجت صحفًا ومجلات تهتم بشؤونهم وأدبهم، وأنشأ أتباعها عدّة نقابات أبرزها الرابطة القلمية.
+
+يُلاحظ أن هذا الانتعاش للغة العربية كان انتعاشًا في الحقل الأدبي فحسب، أما في الحقل العلمي فلم تلعب اللغة العربية دورًا كبيرًا كما في السابق، ولم تكن في أغلب الأحيان إلا لغة تلقين مواد علمية في بعض المدارس والجامعات، وقد تراجع دورها هذا بشكل كبير حتى، خصوصًا بعد نهاية الحرب الباردة بين المعسكرين الشيوعي والرأسمالي في أواخر القرن العشرين، واتجاه العالم نحو نظام الكون الواحد، حيث انتشرت اللغة الإنكليزية في أغلب الدول العربية، وغدا كثيرون يتكلمونها كلغة ثانية، خصوصًا بعد أن أصبحت هي لغة العلم والتجارة المتداولة.
+
+يتحدث العربية اليوم أكثر من 422 مليون نسمة،(1) ويتوزع متحدثوها بشكل رئيسي في المنطقة المعروفة باسم الوطن العربي، بالإضافة إلى العديد من المناطق الأخرى المجاورة له كالأحواز وتركيا وتشاد ومالي والسنغال وإرتيريا. كما أنها تُدرّس بشكل رسمي أو غير رسمي في الدول الإسلامية والدول الإفريقية المحاذية للوطن العربي، إلا عدد اللغات التي تستخدم الأبجدية العربية تراجع بعض الشيء، كون عدد من الدول مثل أذربيجان وتركيا عدل عن استخدام تلك الأبجدية واستعاض عنها بالحروف اللاتينية.
+اللهجات العامية والفصحى
+
+تعدد اللهجات كان موجودًا عند العرب من أيام الجاهلية، حيث كانت هناك لهجة لكل قبيلة من القبائل. وقد استمر الوضع هكذا بعد مجيء الإسلام. ومن أبرز الأسباب التي أدّت لولادة لهجات عربية مختلفة في القِدم هو أن العرب كانوا في بداية عهدهم أميين لا تربطهم تجارة ولا إمارة ولا دين، فكان من الطبيعي أن ينشأ من ذلك ومن اختلاف الوضع والارتجال، ومن كثرة الحل والترحال، وتأثير الخلطة والاعتزال، اضطراب في اللغة كالترادف، واختلاف اللهجات في الإبدال والإعلال والبناء والإعراب.
+ومن أبرز اللهجات والألفاظ: عجعجة قُضاعة أي قلب الياء جيمًا بعد العين وبعد الياء المشددة، مثل راعي يقولون فيها: راعج. وفي كرسي كرسج، وطمطمانية حِمْير وهي جعل "إم" بدل "أل" في التعريف، فيقولون في البر: أمبر، وفي الصيام أمصيام، وفحفحة هذيل أي جعل الحاء عينًا، مثل: أحل إليه فيقولون أعل إليه، وعنعنة تميم وهي إبدال العين في الهمزة إذا وقعت في أول الكلمة، فيقولون في أمان: عمان، وكشكشة أسد أي جعل الكاف شينًا مثل "عليك" فيقولونها: "عليش"، وقطْعةِ طيئ وهي حذف آخر الكلمة، مثل قولهم: يا أبا الحسن، تصبح: يا أبا الحسا، وغير ذلك مما باعد بين الألسنة وأوشك أن يقسم اللغة إلى لغات لا يتفاهم أهلها ولا يتقارب أصلها.
+
+وقد كان التواصل بين أفراد القبيلة الواحدة يَتم بواسطة لهجتها الخاصة، أما عندما يَخطب شخص ما أو يَتحدث إلى أشخاص من قبائل أخرى فيستعمل حينها اللغة الواحدة المشتركة. وقد استمر الوضع هكذا بعد مجيء الإسلام. ويُرجح أن العامية الحديثة بدأت حين الفتوحات الإسلامية، حيث أن المسلمين الجدد في بلاد الأعاجم (والتي أصبح العديد منها اليوم من البلدان العربية) بدؤوا بتعلم العربية لكنهم - وبشكل طبيعي - لم يَستطيعوا تحدثها كما يتحدثها العرب بالضبط، وبالتالي فقد حرّفت قليلاً. وفي ذلك الوقت لم يَكن الفرق واضحاً كثيراً، لكن بالتدريج حرفت العربية وتغيرت صفاتها الصوتية وتركيب الجمل فيها إلخ.. حتى تحوّلت إلى اللهجات العامية الحديثة.
+الثنائية اللغوية ونتائجها
+
+الثنائية اللغوية هو مصطلح يُطلق على تحدث أحد الشعوب لأكثر من لهجة (كالعامية والفصحى) في آن واحد. أما الازدواجية اللغوية فهي أن يتحدث شعب ما أكثر من لغة، وقد اختلف الباحثون بشأن تصنيف وضع العامية والفصحى في البلدان العربية كازدواجية لغوية أو ثنائية لغوية، فبعضهم يرى أنهما مختلفتان كثيراً وبعضهم يرى أن الفرق ليس جذرياً في النهاية وبالتالي يَجب ألا يُصنفا كلغتين منفصلتين (وبالتالي أن يُقال عن وضعهما "ازدواجية لغوية"). وبعض الباحثين يرون أن الثنائية اللغوية هي أمر جيد وبعضهم الآخر يرى أنها كارثة ويَجب أن تزول، حيث أنه من المُتعب للطفل أن يتعلم في المدرسة لغة غير التي يتحدثها في حياته اليومية، وأيضاً فإن وقت تعلمها سوف يؤخر تعلمه كله.يختلف الباحثون حول مستقبل الثنائية اللغوية في الوطن العربي، فيقول بعضهم أن اللغة العربية الفصحى سوف تغلب العامية وسوف تُصبح تُستخدم بشكل عام حتى خارج المعاملات الرسمية، وذلك بزيادة المادة الصوتية الفصيحة التي يتم الاستماع إليها يومياً. بالإضافة إلى الرسوم المتحركة التي سوف تساعد الأطفال على تعلم الفصحى قبل دخول المدرسة. وفي هذا الصدد، غيرت شركة والت ديزني، بداية من ملكة الثلج، دبلجة أفلامها إلى اللغة العربية الفصحى عوض اللهجة المصرية سابقاً
+
+.وهناك اقتراحات بتبسيط قواعد العربية الفصحى قليلاً لتسهيل تعلمها.
+
+بينما يرى باحثون آخرون أن اللهجات العامية سوف تتطور أو سوف تندمج في لهجة عربية واحدة، وبهذا تُشكل معاً لغة عربية واحدة كالفصحى. ويؤيد كثيرون دمج العامية والفصحى معاً بحيث تتكوّن لغة جديدة بين الاثنتين. لكن هذا الاقتراح لا يحظى بكثير من التأييد نظراً لأن الفصحى هي لغة القرآن والأدب.
+. وقد تطورت اللهجة الصقلية المحكية في مالطا، فقد استبدلت المفردات العربية بأخرى إنجليزية وإيطالية وتعدّ في وقتنا الحالي لغة منشقة عن اللغة العربية ولغة رسمية في مالطا والاتحاد الأوروبي، وتعرف باسم اللغة المالطية.
+الكتابة العربية
+
+اللغات العربية القديمة كانت تكتب بالخطين المسند والثمودي، ثم دخل الخط النبطي على اللغة العربية الحديثة - وقيل أنه نسبة لنابت بن إسماعيل - فأخذ ذلك الخط مكان الخط الثمودي في شمال الجزيرة، وأصبح الخط المعتمد في "لغة مضر العربية الحديثة" (نسبة إلى قبيلة مضر). أما لغة حمير "العربية الجنوبية" فحافظت على الخط المسند. هذا بينما أخذ الخط النبطي - الذي هو أبو الخط العربي الحديث - يتطور أيضًا، وكان أقدم نص عربي مكتشف مكتوبًا بالخط النبطي وهو نقش (النمارة) المكتشف في سوريا والذي يرجع لعام 328 م. وفي الفترة السابقة للإسلام كانت هناك خطوط أخرى حديثة للغة مضر مثل: الخط الحيري نسبة إلى الحيرة، والخط الأنباري نسبة إلى الأنبار. وعندما جاء الإسلام كان الخط المستعمل في قريش هو الخط النبطي المطور، وهو الخط الذي استخدمه كتّاب النبي محمد في كتابة رسائله للملوك والحكام آنذاك. ويلحظ في صور بعض تلك الخطابات الاختلاف عن الخط العربي الحديث الذي تطور من ذلك الخط. وبعض المختصين يعدّون ذلك الخط النبطي المطور عربيًا قديمًا، وأقدم المكتشفات المكتوبة به "نقش زبد" (568م) و"نقش أم الجمال" (513م)، وأما النقوش السبئية فهي أقدم النقوش العربية والتي يرجع بعضها إلى 1000 ق.م.
+الخط العربي الحديث
diff --git a/benches/texts/english.txt b/benches/texts/english.txt
new file mode 100644
index 0000000..d91389c
--- /dev/null
+++ b/benches/texts/english.txt
@@ -0,0 +1,222 @@
+English is a West Germanic language that was first spoken in early medieval England and eventually became a global lingua franca.[4][5] It is named after the Angles, one of the Germanic tribes that migrated to the area of Great Britain that later took their name, as England. Both names derive from Anglia, a peninsula in the Baltic Sea. The language is closely related to Frisian and Low Saxon, and its vocabulary has been significantly influenced by other Germanic languages, particularly Norse (a North Germanic language), and to a greater extent by Latin and French.[6]
+
+English has developed over the course of more than 1,400 years. The earliest forms of English, a group of West Germanic (Ingvaeonic) dialects brought to Great Britain by Anglo-Saxon settlers in the 5th century, are collectively called Old English. Middle English began in the late 11th century with the Norman conquest of England; this was a period in which the language was influenced by French.[7] Early Modern English began in the late 15th century with the introduction of the printing press to London, the printing of the King James Bible and the start of the Great Vowel Shift.[8]
+
+Modern English has been spreading around the world since the 17th century by the worldwide influence of the British Empire and the United States. Through all types of printed and electronic media of these countries, English has become the leading language of international discourse and the lingua franca in many regions and professional contexts such as science, navigation and law.[9]
+
+English is the largest language by number of speakers,[10] and the third most-spoken native language in the world, after Standard Chinese and Spanish.[11] It is the most widely learned second language and is either the official language or one of the official languages in almost 60 sovereign states. There are more people who have learned it as a second language than there are native speakers. It is estimated that there are over 2 billion speakers of English.[12] English is the majority native language in the United States, the United Kingdom, Canada, Australia, New Zealand and the Republic of Ireland, and it is widely spoken in some areas of the Caribbean, Africa and South Asia.[13] It is a co-official language of the United Nations, the European Union and many other world and regional international organisations. It is the most widely spoken Germanic language, accounting for at least 70% of speakers of this Indo-European branch. English has a vast vocabulary, though counting how many words any language has is impossible.[14][15] English speakers are called "Anglophones".
+
+Modern English grammar is the result of a gradual change from a typical Indo-European dependent marking pattern, with a rich inflectional morphology and relatively free word order, to a mostly analytic pattern with little inflection, a fairly fixed subject–verb–object word order and a complex syntax.[16] Modern English relies more on auxiliary verbs and word order for the expression of complex tenses, aspect and mood, as well as passive constructions, interrogatives and some negation. The variation among the accents and dialects of English used in different countries and regions—in terms of phonetics and phonology, and sometimes also vocabulary, grammar, and spelling—can often be understood by speakers of different dialects, but in extreme cases can lead to confusion or even mutual unintelligibility between English speakers. 
+
+English is an Indo-European language and belongs to the West Germanic group of the Germanic languages.[17] Old English originated from a Germanic tribal and linguistic continuum along the Frisian North Sea coast, whose languages gradually evolved into the Anglic languages in the British Isles, and into the Frisian languages and Low German/Low Saxon on the continent. The Frisian languages, which together with the Anglic languages form the Anglo-Frisian languages, are the closest living relatives of English. Low German/Low Saxon is also closely related, and sometimes English, the Frisian languages, and Low German are grouped together as the Ingvaeonic (North Sea Germanic) languages, though this grouping remains debated.[18] Old English evolved into Middle English, which in turn evolved into Modern English.[19] Particular dialects of Old and Middle English also developed into a number of other Anglic languages, including Scots[20] and the extinct Fingallian and Forth and Bargy (Yola) dialects of Ireland.[21]
+
+Like Icelandic and Faroese, the development of English in the British Isles isolated it from the continental Germanic languages and influences. It has since evolved considerably. English is not mutually intelligible with any continental Germanic language, differing in vocabulary, syntax, and phonology, although some of these, such as Dutch or Frisian, do show strong affinities with English, especially with its earlier stages.[22]
+
+Unlike Icelandic and Faroese, which were isolated, the development of English was influenced by a long series of invasions of the British Isles by other peoples and languages, particularly Old Norse and Norman French. These left a profound mark of their own on the language, so that English shows some similarities in vocabulary and grammar with many languages outside its linguistic clades—but it is not mutually intelligible with any of those languages either. Some scholars have argued that English can be considered a mixed language or a creole—a theory called the Middle English creole hypothesis. Although the great influence of these languages on the vocabulary and grammar of Modern English is widely acknowledged, most specialists in language contact do not consider English to be a true mixed language.[23][24]
+
+English is classified as a Germanic language because it shares innovations with other Germanic languages such as Dutch, German, and Swedish.[25] These shared innovations show that the languages have descended from a single common ancestor called Proto-Germanic. Some shared features of Germanic languages include the division of verbs into strong and weak classes, the use of modal verbs, and the sound changes affecting Proto-Indo-European consonants, known as Grimm's and Verner's laws. English is classified as an Anglo-Frisian language because Frisian and English share other features, such as the palatalisation of consonants that were velar consonants in Proto-Germanic (see Phonological history of Old English § Palatalization).[26]
+
+History
+
+Proto-Germanic to Old English
+
+The earliest form of English is called Old English or Anglo-Saxon (c. 550–1066 CE). Old English developed from a set of North Sea Germanic dialects originally spoken along the coasts of Frisia, Lower Saxony, Jutland, and Southern Sweden by Germanic tribes known as the Angles, Saxons, and Jutes. From the 5th century CE, the Anglo-Saxons settled Britain as the Roman economy and administration collapsed. By the 7th century, the Germanic language of the Anglo-Saxons became dominant in Britain, replacing the languages of Roman Britain (43–409 CE): Common Brittonic, a Celtic language, and Latin, brought to Britain by the Roman occupation.[27][28][29] England and English (originally Ænglaland and Ænglisc) are named after the Angles.[30]
+
+Old English was divided into four dialects: the Anglian dialects (Mercian and Northumbrian) and the Saxon dialects, Kentish and West Saxon.[31] Through the educational reforms of King Alfred in the 9th century and the influence of the kingdom of Wessex, the West Saxon dialect became the standard written variety.[32] The epic poem Beowulf is written in West Saxon, and the earliest English poem, Cædmon's Hymn, is written in Northumbrian.[33] Modern English developed mainly from Mercian, but the Scots language developed from Northumbrian. A few short inscriptions from the early period of Old English were written using a runic script.[34] By the 6th century, a Latin alphabet was adopted, written with half-uncial letterforms. It included the runic letters wynn ⟨ƿ⟩ and thorn ⟨þ⟩, and the modified Latin letters eth ⟨ð⟩, and ash ⟨æ⟩.[34][35]
+
+Old English is very different from Modern English, and is difficult for 21st-century English speakers to understand. Its grammar was similar to that of modern German, and its closest relative is Old Frisian. Nouns, adjectives, pronouns, and verbs had many more inflectional endings and forms, and word order was much freer than in Modern English. Modern English has case forms in pronouns (he, him, his) and has a few verb inflections (speak, speaks, speaking, spoke, spoken), but Old English had case endings in nouns as well, and verbs had more person and number endings.[36][37][38]
+
+The translation of Matthew 8:20 from 1000 CE shows examples of case endings (nominative plural, accusative plural, genitive singular) and a verb ending (present plural):
+
+    Foxas habbað holu and heofonan fuglas nest
+    Fox-as habb-að hol-u and heofon-an fugl-as nest-∅
+    fox-NOM.PL have-PRS.PL hole-ACC.PL and heaven-GEN.SG bird-NOM.PL nest-ACC.PL
+    "Foxes have holes and the birds of heaven nests"[39]
+
+Middle English
+
+From the 8th to the 12th century, Old English gradually transformed through language contact into Middle English. Middle English is often arbitrarily defined as beginning with the conquest of England by William the Conqueror in 1066, but it developed further in the period from 1200–1450.
+
+First, the waves of Norse colonisation of northern parts of the British Isles in the 8th and 9th centuries put Old English into intense contact with Old Norse, a North Germanic language. Norse influence was strongest in the north-eastern varieties of Old English spoken in the Danelaw area around York, which was the centre of Norse colonisation; today these features are still particularly present in Scots and Northern English. However the centre of norsified English seems to have been in the Midlands around Lindsey, and after 920 CE when Lindsey was reincorporated into the Anglo-Saxon polity, Norse features spread from there into English varieties that had not been in direct contact with Norse speakers. An element of Norse influence that persists in all English varieties today is the group of pronouns beginning with th- (they, them, their) which replaced the Anglo-Saxon pronouns with h- (hie, him, hera).[41]
+
+With the Norman conquest of England in 1066, the now norsified Old English language was subject to contact with the Old Norman language, a Romance language closely related to Modern French. The Norman language in England eventually developed into Anglo-Norman. Because Norman was spoken primarily by the elites and nobles, while the lower classes continued speaking Anglo-Saxon, the main influence of Norman was the introduction of a wide range of loanwords related to politics, legislation and prestigious social domains.[42] Middle English also greatly simplified the inflectional system, probably in order to reconcile Old Norse and Old English, which were inflectionally different but morphologically similar. The distinction between nominative and accusative cases was lost except in personal pronouns, the instrumental case was dropped, and the use of the genitive case was limited to indicating possession. The inflectional system regularised many irregular inflectional forms,[43] and gradually simplified the system of agreement, making word order less flexible.[44] In the Wycliffe Bible of the 1380s, the verse Matthew 8:20 was written:
+
+    Foxis han dennes, and briddis of heuene han nestis[45]
+
+Here the plural suffix -n on the verb have is still retained, but none of the case endings on the nouns are present. By the 12th century Middle English was fully developed, integrating both Norse and Norman features; it continued to be spoken until the transition to early Modern English around 1500. Middle English literature includes Geoffrey Chaucer's The Canterbury Tales, and Malory's Le Morte d'Arthur. In the Middle English period, the use of regional dialects in writing proliferated, and dialect traits were even used for effect by authors such as Chaucer.[46]
+
+Early Modern English
+
+The next period in the history of English was Early Modern English (1500–1700). Early Modern English was characterised by the Great Vowel Shift (1350–1700), inflectional simplification, and linguistic standardisation.
+
+The Great Vowel Shift affected the stressed long vowels of Middle English. It was a chain shift, meaning that each shift triggered a subsequent shift in the vowel system. Mid and open vowels were raised, and close vowels were broken into diphthongs. For example, the word bite was originally pronounced as the word beet is today, and the second vowel in the word about was pronounced as the word boot is today. The Great Vowel Shift explains many irregularities in spelling since English retains many spellings from Middle English, and it also explains why English vowel letters have very different pronunciations from the same letters in other languages.[47][48]
+
+English began to rise in prestige, relative to Norman French, during the reign of Henry V. Around 1430, the Court of Chancery in Westminster began using English in its official documents, and a new standard form of Middle English, known as Chancery Standard, developed from the dialects of London and the East Midlands. In 1476, William Caxton introduced the printing press to England and began publishing the first printed books in London, expanding the influence of this form of English.[49] Literature from the Early Modern period includes the works of William Shakespeare and the translation of the Bible commissioned by King James I. Even after the vowel shift the language still sounded different from Modern English: for example, the consonant clusters /kn ɡn sw/ in knight, gnat, and sword were still pronounced. Many of the grammatical features that a modern reader of Shakespeare might find quaint or archaic represent the distinct characteristics of Early Modern English.[50]
+
+In the 1611 King James Version of the Bible, written in Early Modern English, Matthew 8:20 says:
+
+    The Foxes haue holes and the birds of the ayre haue nests[39]
+
+This exemplifies the loss of case and its effects on sentence structure (replacement with Subject-Verb-Object word order, and the use of of instead of the non-possessive genitive), and the introduction of loanwords from French (ayre) and word replacements (bird originally meaning "nestling" had replaced OE fugol).[51]
+Spread of Modern English
+
+By the late 18th century, the British Empire had spread English through its colonies and geopolitical dominance. Commerce, science and technology, diplomacy, art, and formal education all contributed to English becoming the first truly global language. English also facilitated worldwide international communication.[52][9] England continued to form new colonies, and these later developed their own norms for speech and writing. English was adopted in parts of North America, parts of Africa, Australasia, and many other regions. When they obtained political independence, some of the newly independent nations that had multiple indigenous languages opted to continue using English as the official language to avoid the political and other difficulties inherent in promoting any one indigenous language above the others.[53][54][55] In the 20th century the growing economic and cultural influence of the United States and its status as a superpower following the Second World War has, along with worldwide broadcasting in English by the BBC[56] and other broadcasters, caused the language to spread across the planet much faster.[57][58] In the 21st century, English is more widely spoken and written than any language has ever been.[59]
+
+As Modern English developed, explicit norms for standard usage were published, and spread through official media such as public education and state-sponsored publications. In 1755 Samuel Johnson published his A Dictionary of the English Language which introduced standard spellings of words and usage norms. In 1828, Noah Webster published the American Dictionary of the English language to try to establish a norm for speaking and writing American English that was independent of the British standard. Within Britain, non-standard or lower class dialect features were increasingly stigmatised, leading to the quick spread of the prestige varieties among the middle classes.[60]
+
+In modern English, the loss of grammatical case is almost complete (it is now only found in pronouns, such as he and him, she and her, who and whom), and SVO word-order is mostly fixed.[60] Some changes, such as the use of do-support have become universalised. (Earlier English did not use the word "do" as a general auxiliary as Modern English does; at first it was only used in question constructions, and even then was not obligatory.[61] Now, do-support with the verb have is becoming increasingly standardised.) The use of progressive forms in -ing, appears to be spreading to new constructions, and forms such as had been being built are becoming more common. Regularisation of irregular forms also slowly continues (e.g. dreamed instead of dreamt), and analytical alternatives to inflectional forms are becoming more common (e.g. more polite instead of politer). British English is also undergoing change under the influence of American English, fuelled by the strong presence of American English in the media and the prestige associated with the US as a world power.[62][63][64]
+
+Geographical distribution
+
+As of 2016, 400 million people spoke English as their first language, and 1.1 billion spoke it as a secondary language.[65] English is the largest language by number of speakers.[66][circular reference] English is spoken by communities on every continent and on islands in all the major oceans.[67]
+
+The countries where English is spoken can be grouped into different categories according to how English is used in each country. The "inner circle"[68] countries with many native speakers of English share an international standard of written English and jointly influence speech norms for English around the world. English does not belong to just one country, and it does not belong solely to descendants of English settlers. English is an official language of countries populated by few descendants of native speakers of English. It has also become by far the most important language of international communication when people who share no native language meet anywhere in the world.
+Three circles of English-speaking countries
+
+Braj Kachru distinguishes countries where English is spoken with a three circles model.[68] In his model,
+
+    the "inner circle" countries have large communities of native speakers of English,
+    "outer circle" countries have small communities of native speakers of English but widespread use of English as a second language in education or broadcasting or for local official purposes, and
+    "expanding circle" countries are countries where many people learn English as a foreign language.
+
+Kachru bases his model on the history of how English spread in different countries, how users acquire English, and the range of uses English has in each country. The three circles change membership over time.[69] 
+
+Countries with large communities of native speakers of English (the inner circle) include Britain, the United States, Australia, Canada, Ireland, and New Zealand, where the majority speaks English, and South Africa, where a significant minority speaks English. The countries with the most native English speakers are, in descending order, the United States (at least 231 million),[70] the United Kingdom (60 million),[71][72][73] Canada (19 million),[74] Australia (at least 17 million),[75] South Africa (4.8 million),[76] Ireland (4.2 million), and New Zealand (3.7 million).[77] In these countries, children of native speakers learn English from their parents, and local people who speak other languages and new immigrants learn English to communicate in their neighbourhoods and workplaces.[78] The inner-circle countries provide the base from which English spreads to other countries in the world.[69]
+
+Estimates of the numbers of second language and foreign-language English speakers vary greatly from 470 million to more than 1 billion, depending on how proficiency is defined.[13] Linguist David Crystal estimates that non-native speakers now outnumber native speakers by a ratio of 3 to 1.[79] In Kachru's three-circles model, the "outer circle" countries are countries such as the Philippines,[80] Jamaica,[81] India, Pakistan, Singapore,[82] Malaysia and Nigeria[83][84] with a much smaller proportion of native speakers of English but much use of English as a second language for education, government, or domestic business, and its routine use for school instruction and official interactions with the government.[85]
+
+Those countries have millions of native speakers of dialect continua ranging from an English-based creole to a more standard version of English. They have many more speakers of English who acquire English as they grow up through day-to-day use and listening to broadcasting, especially if they attend schools where English is the medium of instruction. Varieties of English learned by non-native speakers born to English-speaking parents may be influenced, especially in their grammar, by the other languages spoken by those learners.[78] Most of those varieties of English include words little used by native speakers of English in the inner-circle countries,[78] and they may show grammatical and phonological differences from inner-circle varieties as well. The standard English of the inner-circle countries is often taken as a norm for use of English in the outer-circle countries.[78]
+
+In the three-circles model, countries such as Poland, China, Brazil, Germany, Japan, Indonesia, Egypt, and other countries where English is taught as a foreign language, make up the "expanding circle".[86] The distinctions between English as a first language, as a second language, and as a foreign language are often debatable and may change in particular countries over time.[85] For example, in the Netherlands and some other countries of Europe, knowledge of English as a second language is nearly universal, with over 80 percent of the population able to use it,[87] and thus English is routinely used to communicate with foreigners and often in higher education. In these countries, although English is not used for government business, its widespread use puts them at the boundary between the "outer circle" and "expanding circle". English is unusual among world languages in how many of its users are not native speakers but speakers of English as a second or foreign language.[88]
+
+Many users of English in the expanding circle use it to communicate with other people from the expanding circle, so that interaction with native speakers of English plays no part in their decision to use English.[89] Non-native varieties of English are widely used for international communication, and speakers of one such variety often encounter features of other varieties.[90] Very often today a conversation in English anywhere in the world may include no native speakers of English at all, even while including speakers from several different countries.[91] 
+
+Pluricentric English
+
+English is a pluricentric language, which means that no one national authority sets the standard for use of the language.[92][93][94][95] But English is not a divided language,[96] despite a long-standing joke originally attributed to George Bernard Shaw that the United Kingdom and the United States are "two countries separated by a common language".[97] Spoken English, for example English used in broadcasting, generally follows national pronunciation standards that are also established by custom rather than by regulation. International broadcasters are usually identifiable as coming from one country rather than another through their accents,[98] but newsreader scripts are also composed largely in international standard written English. The norms of standard written English are maintained purely by the consensus of educated English-speakers around the world, without any oversight by any government or international organisation.[99]
+
+American listeners generally readily understand most British broadcasting, and British listeners readily understand most American broadcasting. Most English speakers around the world can understand radio programmes, television programmes, and films from many parts of the English-speaking world.[100] Both standard and non-standard varieties of English can include both formal or informal styles, distinguished by word choice and syntax and use both technical and non-technical registers.[101]
+
+The settlement history of the English-speaking inner circle countries outside Britain helped level dialect distinctions and produce koineised forms of English in South Africa, Australia, and New Zealand.[102] The majority of immigrants to the United States without British ancestry rapidly adopted English after arrival. Now the majority of the United States population are monolingual English speakers,[103][70] although English has been given official status by only 30 of the 50 state governments of the US.[104][105]
+English as a global language
+
+English has ceased to be an "English language" in the sense of belonging only to people who are ethnically English.[106][107] Use of English is growing country-by-country internally and for international communication. Most people learn English for practical rather than ideological reasons.[108] Many speakers of English in Africa have become part of an "Afro-Saxon" language community that unites Africans from different countries.[109]
+
+As decolonisation proceeded throughout the British Empire in the 1950s and 1960s, former colonies often did not reject English but rather continued to use it as independent countries setting their own language policies.[54][55][110] For example, the view of the English language among many Indians has gone from associating it with colonialism to associating it with economic progress, and English continues to be an official language of India.[111] English is also widely used in media and literature, and the number of English language books published annually in India is the third largest in the world after the US and UK.[112] However English is rarely spoken as a first language, numbering only around a couple hundred-thousand people, and less than 5% of the population speak fluent English in India.[113][114] David Crystal claimed in 2004 that, combining native and non-native speakers, India now has more people who speak or understand English than any other country in the world,[115] but the number of English speakers in India is very uncertain, with most scholars concluding that the United States still has more speakers of English than India.[116]
+
+Modern English, sometimes described as the first global lingua franca,[57][117] is also regarded as the first world language.[118][119] English is the world's most widely used language in newspaper publishing, book publishing, international telecommunications, scientific publishing, international trade, mass entertainment, and diplomacy.[119] English is, by international treaty, the basis for the required controlled natural languages[120] Seaspeak and Airspeak, used as international languages of seafaring[121] and aviation.[122] English used to have parity with French and German in scientific research, but now it dominates that field.[123] It achieved parity with French as a language of diplomacy at the Treaty of Versailles negotiations in 1919.[124] By the time of the foundation of the United Nations at the end of World War II, English had become pre-eminent[125] and is now the main worldwide language of diplomacy and international relations.[126] It is one of six official languages of the United Nations.[127] Many other worldwide international organisations, including the International Olympic Committee, specify English as a working language or official language of the organisation.
+
+Many regional international organisations such as the European Free Trade Association, Association of Southeast Asian Nations (ASEAN),[58] and Asia-Pacific Economic Cooperation (APEC) set English as their organisation's sole working language even though most members are not countries with a majority of native English speakers. While the European Union (EU) allows member states to designate any of the national languages as an official language of the Union, in practice English is the main working language of EU organisations.[128]
+
+Although in most countries English is not an official language, it is currently the language most often taught as a foreign language.[57][58] In the countries of the EU, English is the most widely spoken foreign language in nineteen of the twenty-five member states where it is not an official language (that is, the countries other than the UK, Ireland and Malta). In a 2012 official Eurobarometer poll, 38 percent of the EU respondents outside the countries where English is an official language said they could speak English well enough to have a conversation in that language. The next most commonly mentioned foreign language, French (which is the most widely known foreign language in the UK and Ireland), could be used in conversation by 12 percent of respondents.[129]
+
+A working knowledge of English has become a requirement in a number of occupations and professions such as medicine[130] and computing. English has become so important in scientific publishing that more than 80 percent of all scientific journal articles indexed by Chemical Abstracts in 1998 were written in English, as were 90 percent of all articles in natural science publications by 1996 and 82 percent of articles in humanities publications by 1995.[131]
+
+International communities such as international business people may use English as an auxiliary language, with an emphasis on vocabulary suitable for their domain of interest. This has led some scholars to develop the study of English as an auxiliary language. The trademarked Globish uses a relatively small subset of English vocabulary (about 1500 words, designed to represent the highest use in international business English) in combination with the standard English grammar.[132] Other examples include Simple English.
+
+The increased use of the English language globally has had an effect on other languages, leading to some English words being assimilated into the vocabularies of other languages. This influence of English has led to concerns about language death,[133] and to claims of linguistic imperialism,[134] and has provoked resistance to the spread of English; however the number of speakers continues to increase because many people around the world think that English provides them with opportunities for better employment and improved lives.[135]
+
+Although some scholars[who?] mention a possibility of future divergence of English dialects into mutually unintelligible languages, most think a more likely outcome is that English will continue to function as a koineised language in which the standard form unifies speakers from around the world.[136] English is used as the language for wider communication in countries around the world.[137] Thus English has grown in worldwide use much more than any constructed language proposed as an international auxiliary language, including Esperanto.[138][139] 
+
+Phonology
+
+The phonetics and phonology of the English language differ from one dialect to another, usually without interfering with mutual communication. Phonological variation affects the inventory of phonemes (i.e. speech sounds that distinguish meaning), and phonetic variation consists in differences in pronunciation of the phonemes. [140] This overview mainly describes the standard pronunciations of the United Kingdom and the United States: Received Pronunciation (RP) and General American (GA). (See § Dialects, accents, and varieties, below.)
+
+The phonetic symbols used below are from the International Phonetic Alphabet (IPA).[141][142][143]
+
+Consonants
+
+Most English dialects share the same 24 consonant phonemes. The consonant inventory shown below is valid for California English,[144] and for RP.[145]
+
+In the table, when obstruents (stops, affricates, and fricatives) appear in pairs, such as /p b/, /tʃ dʒ/, and /s z/, the first is fortis (strong) and the second is lenis (weak). Fortis obstruents, such as /p tʃ s/ are pronounced with more muscular tension and breath force than lenis consonants, such as /b dʒ z/, and are always voiceless. Lenis consonants are partly voiced at the beginning and end of utterances, and fully voiced between vowels. Fortis stops such as /p/ have additional articulatory or acoustic features in most dialects: they are aspirated [pʰ] when they occur alone at the beginning of a stressed syllable, often unaspirated in other cases, and often unreleased [p̚] or pre-glottalised [ʔp] at the end of a syllable. In a single-syllable word, a vowel before a fortis stop is shortened: thus nip has a noticeably shorter vowel (phonetically, but not phonemically) than nib [nɪˑb̥] (see below).[146]
+
+    lenis stops: bin [b̥ɪˑn], about [əˈbaʊt], nib [nɪˑb̥]
+    fortis stops: pin [pʰɪn]; spin [spɪn]; happy [ˈhæpi]; nip [nɪp̚] or [nɪʔp]
+
+In RP, the lateral approximant /l/, has two main allophones (pronunciation variants): the clear or plain [l], as in light, and the dark or velarised [ɫ], as in full.[147] GA has dark l in most cases.[148]
+
+    clear l: RP light [laɪt]
+    dark l: RP and GA full [fʊɫ], GA light [ɫaɪt]
+
+All sonorants (liquids /l, r/ and nasals /m, n, ŋ/) devoice when following a voiceless obstruent, and they are syllabic when following a consonant at the end of a word.[149]
+
+    voiceless sonorants: clay [kl̥eɪ̯]; snow RP [sn̥əʊ̯], GA [sn̥oʊ̯]
+    syllabic sonorants: paddle [ˈpad.l̩], button [ˈbʌt.n̩]
+
+Vowels
+Main article: English phonology § Vowels
+
+The pronunciation of vowels varies a great deal between dialects and is one of the most detectable aspects of a speaker's accent. The table below lists the vowel phonemes in Received Pronunciation (RP) and General American (GA), with examples of words in which they occur from lexical sets compiled by linguists. The vowels are represented with symbols from the International Phonetic Alphabet; those given for RP are standard in British dictionaries and other publications.[150] 
+
+In RP, vowel length is phonemic; long vowels are marked with a triangular colon ⟨ː⟩ in the table above, such as the vowel of need [niːd] as opposed to bid [bɪd]. In GA, vowel length is non-distinctive.
+
+In both RP and GA, vowels are phonetically shortened before fortis consonants in the same syllable, like /t tʃ f/, but not before lenis consonants like /d dʒ v/ or in open syllables: thus, the vowels of rich [rɪtʃ], neat [nit], and safe [seɪ̯f] are noticeably shorter than the vowels of ridge [rɪˑdʒ], need [niˑd], and save [seˑɪ̯v], and the vowel of light [laɪ̯t] is shorter than that of lie [laˑɪ̯]. Because lenis consonants are frequently voiceless at the end of a syllable, vowel length is an important cue as to whether the following consonant is lenis or fortis.[151]
+
+The vowel /ə/ only occurs in unstressed syllables and is more open in quality in stem-final positions.[152][153] Some dialects do not contrast /ɪ/ and /ə/ in unstressed positions, so that rabbit and abbot rhyme and Lenin and Lennon are homophonous, a dialect feature called weak vowel merger.[154] GA /ɜr/ and /ər/ are realised as an r-coloured vowel [ɚ], as in further [ˈfɚðɚ] (phonemically /ˈfɜrðər/), which in RP is realised as [ˈfəːðə] (phonemically /ˈfɜːðə/).[155]
+Phonotactics
+
+An English syllable includes a syllable nucleus consisting of a vowel sound. Syllable onset and coda (start and end) are optional. A syllable can start with up to three consonant sounds, as in sprint /sprɪnt/, and end with up to four, as in texts /teksts/. This gives an English syllable the following structure, (CCC)V(CCCC) where C represents a consonant and V a vowel; the word strengths /strɛŋkθs/ is thus an example of the most complex syllable possible in English. The consonants that may appear together in onsets or codas are restricted, as is the order in which they may appear. Onsets can only have four types of consonant clusters: a stop and approximant, as in play; a voiceless fricative and approximant, as in fly or sly; s and a voiceless stop, as in stay; and s, a voiceless stop, and an approximant, as in string.[156] Clusters of nasal and stop are only allowed in codas. Clusters of obstruents always agree in voicing, and clusters of sibilants and of plosives with the same point of articulation are prohibited. Furthermore, several consonants have limited distributions: /h/ can only occur in syllable-initial position, and /ŋ/ only in syllable-final position.[157]
+
+Stress, rhythm and intonation
+
+Stress plays an important role in English. Certain syllables are stressed, while others are unstressed. Stress is a combination of duration, intensity, vowel quality, and sometimes changes in pitch. Stressed syllables are pronounced longer and louder than unstressed syllables, and vowels in unstressed syllables are frequently reduced while vowels in stressed syllables are not.[158] Some words, primarily short function words but also some modal verbs such as can, have weak and strong forms depending on whether they occur in stressed or non-stressed position within a sentence.
+
+Stress in English is phonemic, and some pairs of words are distinguished by stress. For instance, the word contract is stressed on the first syllable (/ˈkɒntrækt/ KON-trakt) when used as a noun, but on the last syllable (/kənˈtrækt/ kən-TRAKT) for most meanings (for example, "reduce in size") when used as a verb.[159][160][161] Here stress is connected to vowel reduction: in the noun "contract" the first syllable is stressed and has the unreduced vowel /ɒ/, but in the verb "contract" the first syllable is unstressed and its vowel is reduced to /ə/. Stress is also used to distinguish between words and phrases, so that a compound word receives a single stress unit, but the corresponding phrase has two: e.g. a burnout (/ˈbɜːrnaʊt/) versus to burn out (/ˈbɜːrn ˈaʊt/), and a hotdog (/ˈhɒtdɒɡ/) versus a hot dog (/ˈhɒt ˈdɒɡ/).[162]
+
+In terms of rhythm, English is generally described as a stress-timed language, meaning that the amount of time between stressed syllables tends to be equal.[163] Stressed syllables are pronounced longer, but unstressed syllables (syllables between stresses) are shortened. Vowels in unstressed syllables are shortened as well, and vowel shortening causes changes in vowel quality: vowel reduction.[164]
+Regional variation
+
+Varieties of English vary the most in pronunciation of vowels. The best known national varieties used as standards for education in non English-speaking countries are British (BrE) and American (AmE). Countries such as Canada, Australia, Ireland, New Zealand and South Africa have their own standard varieties which are less often used as standards for education internationally. Some differences between the various dialects are shown in the table "Varieties of Standard English and their features".[165]
+
+English has undergone many historical sound changes, some of them affecting all varieties, and others affecting only a few. Most standard varieties are affected by the Great Vowel Shift, which changed the pronunciation of long vowels, but a few dialects have slightly different results. In North America, a number of chain shifts such as the Northern Cities Vowel Shift and Canadian Shift have produced very different vowel landscapes in some regional accents.[166][167]
+
+Some dialects have fewer or more consonant phonemes and phones than the standard varieties. Some conservative varieties like Scottish English have a voiceless [ʍ] sound in whine that contrasts with the voiced [w] in wine, but most other dialects pronounce both words with voiced [w], a dialect feature called wine–whine merger. The unvoiced velar fricative sound /x/ is found in Scottish English, which distinguishes loch /lɔx/ from lock /lɔk/. Accents like Cockney with "h-dropping" lack the glottal fricative /h/, and dialects with th-stopping and th-fronting like African American Vernacular and Estuary English do not have the dental fricatives /θ, ð/, but replace them with dental or alveolar stops /t, d/ or labiodental fricatives /f, v/.[168][169] Other changes affecting the phonology of local varieties are processes such as yod-dropping, yod-coalescence, and reduction of consonant clusters.[170]
+
+General American and Received Pronunciation vary in their pronunciation of historical /r/ after a vowel at the end of a syllable (in the syllable coda). GA is a rhotic dialect, meaning that it pronounces /r/ at the end of a syllable, but RP is non-rhotic, meaning that it loses /r/ in that position. English dialects are classified as rhotic or non-rhotic depending on whether they elide /r/ like RP or keep it like GA.[171]
+
+There is complex dialectal variation in words with the open front and open back vowels /æ ɑː ɒ ɔː/. These four vowels are only distinguished in RP, Australia, New Zealand and South Africa. In GA, these vowels merge to three /æ ɑ ɔ/,[172] and in Canadian English, they merge to two /æ ɑ/.[173] In addition, the words that have each vowel vary by dialect. The table "Dialects and open vowels" shows this variation with lexical sets in which these sounds occur.
+Grammar
+
+As is typical of an Indo-European language, English follows accusative morphosyntactic alignment. Unlike other Indo-European languages though, English has largely abandoned the inflectional case system in favor of analytic constructions. Only the personal pronouns retain morphological case more strongly than any other word class. English distinguishes at least seven major word classes: verbs, nouns, adjectives, adverbs, determiners (including articles), prepositions, and conjunctions. Some analyses add pronouns as a class separate from nouns, and subdivide conjunctions into subordinators and coordinators, and add the class of interjections.[174] English also has a rich set of auxiliary verbs, such as have and do, expressing the categories of mood and aspect. Questions are marked by do-support, wh-movement (fronting of question words beginning with wh-) and word order inversion with some verbs.[175]
+
+Some traits typical of Germanic languages persist in English, such as the distinction between irregularly inflected strong stems inflected through ablaut (i.e. changing the vowel of the stem, as in the pairs speak/spoke and foot/feet) and weak stems inflected through affixation (such as love/loved, hand/hands).[176] Vestiges of the case and gender system are found in the pronoun system (he/him, who/whom) and in the inflection of the copula verb to be.[176]
+
+The seven word classes are exemplified in this sample sentence:[177]
+The 	chairman 	of 	the 	committee 	and 	the 	loquacious 	politician 	clashed 	violently 	when 	the 	meeting 	started.
+Det. 	Noun 	Prep. 	Det. 	Noun 	Conj. 	Det. 	Adj. 	Noun 	Verb 	Advb. 	Conj. 	Det. 	Noun 	Verb
+Nouns and noun phrases
+
+English nouns are only inflected for number and possession. New nouns can be formed through derivation or compounding. They are semantically divided into proper nouns (names) and common nouns. Common nouns are in turn divided into concrete and abstract nouns, and grammatically into count nouns and mass nouns.[178]
+
+Most count nouns are inflected for plural number through the use of the plural suffix -s, but a few nouns have irregular plural forms. Mass nouns can only be pluralised through the use of a count noun classifier, e.g. one loaf of bread, two loaves of bread.[179]
+
+Regular plural formation:
+
+    Singular: cat, dog
+    Plural: cats, dogs
+
+Irregular plural formation:
+
+    Singular: man, woman, foot, fish, ox, knife, mouse
+    Plural: men, women, feet, fish, oxen, knives, mice
+
+Possession can be expressed either by the possessive enclitic -s (also traditionally called a genitive suffix), or by the preposition of. Historically the -s possessive has been used for animate nouns, whereas the of possessive has been reserved for inanimate nouns. Today this distinction is less clear, and many speakers use -s also with inanimates. Orthographically the possessive -s is separated from the noun root with an apostrophe.[175]
+
+Possessive constructions:
+
+    With -s: The woman's husband's child
+    With of: The child of the husband of the woman
+
+Nouns can form noun phrases (NPs) where they are the syntactic head of the words that depend on them such as determiners, quantifiers, conjunctions or adjectives.[180] Noun phrases can be short, such as the man, composed only of a determiner and a noun. They can also include modifiers such as adjectives (e.g. red, tall, all) and specifiers such as determiners (e.g. the, that). But they can also tie together several nouns into a single long NP, using conjunctions such as and, or prepositions such as with, e.g. the tall man with the long red trousers and his skinny wife with the spectacles (this NP uses conjunctions, prepositions, specifiers, and modifiers). Regardless of length, an NP functions as a syntactic unit.[175] For example, the possessive enclitic can, in cases which do not lead to ambiguity, follow the entire noun phrase, as in The President of India's wife, where the enclitic follows India and not President.
+
+The class of determiners is used to specify the noun they precede in terms of definiteness, where the marks a definite noun and a or an an indefinite one. A definite noun is assumed by the speaker to be already known by the interlocutor, whereas an indefinite noun is not specified as being previously known. Quantifiers, which include one, many, some and all, are used to specify the noun in terms of quantity or number. The noun must agree with the number of the determiner, e.g. one man (sg.) but all men (pl.). Determiners are the first constituents in a noun phrase.[181]
+Adjectives
+
+Adjectives modify a noun by providing additional information about their referents. In English, adjectives come before the nouns they modify and after determiners.[182] In Modern English, adjectives are not inflected, and they do not agree in form with the noun they modify, as adjectives in most other Indo-European languages do. For example, in the phrases the slender boy, and many slender girls, the adjective slender does not change form to agree with either the number or gender of the noun.
+
+Some adjectives are inflected for degree of comparison, with the positive degree unmarked, the suffix -er marking the comparative, and -est marking the superlative: a small boy, the boy is smaller than the girl, that boy is the smallest. Some adjectives have irregular comparative and superlative forms, such as good, better, and best. Other adjectives have comparatives formed by periphrastic constructions, with the adverb more marking the comparative, and most marking the superlative: happier or more happy, the happiest or most happy.[183] There is some variation among speakers regarding which adjectives use inflected or periphrastic comparison, and some studies have shown a tendency for the periphrastic forms to become more common at the expense of the inflected form.[184]
+Pronouns, case, and person
+
+English pronouns conserve many traits of case and gender inflection. The personal pronouns retain a difference between subjective and objective case in most persons (I/me, he/him, she/her, we/us, they/them) as well as a gender and animateness distinction in the third person singular (distinguishing he/she/it). The subjective case corresponds to the Old English nominative case, and the objective case is used both in the sense of the previous accusative case (in the role of patient, or direct object of a transitive verb), and in the sense of the Old English dative case (in the role of a recipient or indirect object of a transitive verb).[185][186] Subjective case is used when the pronoun is the subject of a finite clause, and otherwise, the objective case is used.[187] While grammarians such as Henry Sweet[188] and Otto Jespersen[189] noted that the English cases did not correspond to the traditional Latin based system, some contemporary grammars, for example Huddleston & Pullum (2002), retain traditional labels for the cases, calling them nominative and accusative cases respectively.
+
+Possessive pronouns exist in dependent and independent forms; the dependent form functions as a determiner specifying a noun (as in my chair), while the independent form can stand alone as if it were a noun (e.g. the chair is mine).[190] The English system of grammatical person no longer has a distinction between formal and informal pronouns of address (the old 2nd person singular familiar pronoun thou acquired a pejorative or inferior tinge of meaning and was abandoned), and the forms for 2nd person plural and singular are identical except in the reflexive form. Some dialects have introduced innovative 2nd person plural pronouns such as y'all found in Southern American English and African American (Vernacular) English or youse found in Australian English and ye in Irish English. 
\ No newline at end of file
diff --git a/benches/texts/hindi.txt b/benches/texts/hindi.txt
new file mode 100644
index 0000000..322d558
--- /dev/null
+++ b/benches/texts/hindi.txt
@@ -0,0 +1,155 @@
+हिन्दी
+मुक्त ज्ञानकोश विकिपीडिया से
+
+हिन्दी विश्व की एक प्रमुख भाषा है एवं भारत की राजभाषा है। केन्द्रीय स्तर पर भारत में दूसरी आधिकारिक भाषा अंग्रेजी है। यह हिंदुस्तानी भाषा की एक मानकीकृत रूप है जिसमें संस्कृत के तत्सम तथा तद्भव शब्दों का प्रयोग अधिक है और अरबी-फ़ारसी शब्द कम हैं। हिंदी संवैधानिक रूप से भारत की राजभाषा और भारत की सबसे अधिक बोली और समझी जाने वाली भाषा है। हालांकि, हिन्दी भारत की राष्ट्रभाषा नहीं है,[3] क्योंकि भारत के संविधान में कोई भी भाषा को ऐसा दर्जा नहीं दिया गया था।[4][5] चीनी के बाद यह विश्व में सबसे अधिक बोली जाने वाली भाषा भी है। विश्व आर्थिक मंच की गणना के अनुसार यह विश्व की दस शक्तिशाली भाषाओं में से एक है।[6]
+
+हिन्दी और इसकी बोलियाँ सम्पूर्ण भारत के विविध राज्यों में बोली जाती हैं। भारत और अन्य देशों में भी लोग हिंदी बोलते, पढ़ते और लिखते हैं।[7] फ़िजी, मॉरिशस, गयाना, सूरीनाम, नेपाल और संयुक्त अरब अमीरात की जनता भी हिन्दी बोलती है।[1] फरवरी २०१९ में अबू धाबी में हिन्दी को न्यायालय की तीसरी भाषा के रूप में मान्यता मिली।[8][9][10]
+
+2001 की भारतीय जनगणना में भारत में ४२ करोड़ २० लाख लोगों ने हिन्दी को अपनी मूल भाषा बताया।[11] भारत के बाहर, हिंदी बोलने वाले संयुक्त राज्य अमेरिका में ८,६३,०७७[12][13]; मॉरीशस में ६,८५,१७०; दक्षिण अफ्रीका में ८,९०,२९२; यमन में २,३२,७६०; युगांडा में १,४७,०००; सिंगापुर में ५,०००; नेपाल में ८ लाख; जर्मनी में ३०,००० हैं। न्यूजीलैंड में हिंदी चौथी सर्वाधिक बोली जाने वाली भाषा है।[14]
+
+इसके अलावा भारत, पाकिस्तान और अन्य देशों में १४ करोड़ १० लाख लोगों द्वारा बोली जाने वाली उर्दू, मौखिक रूप से हिन्दी के काफी समान है। लोगों का एक विशाल बहुमत हिंदी और उर्दू दोनों को ही समझता है। भारत में हिन्दी, विभिन्न भारतीय राज्यों की १४ आधिकारिक भाषाओं और क्षेत्र की बोलियों का उपयोग करने वाले लगभग १ अरब लोगों में से अधिकांश की दूसरी भाषा है
+
+हिन्दी भारत में सम्पर्क भाषा का कार्य करती है [15][16] और कुछ हद तक पूरे भारत में आमतौर पर एक सरल रूप में समझी जानेवाली भाषा है। हिन्दी का कभी-कभी नौ भारतीय राज्यों के संदर्भ में भी उपयोग किया जाता है, जिनकी आधिकारिक भाषा हिंदी है और हिन्दी भाषी बहुमत है, अर्थात् बिहार, छत्तीसगढ़, हरियाणा, हिमाचल प्रदेश, झारखंड, मध्य प्रदेश, राजस्थान, उत्तराखंड, उत्तर प्रदेश और राष्ट्रीय राजधानी क्षेत्र दिल्ली का।[17]
+
+'देशी', 'भाखा' (भाषा), 'देशना वचन' (विद्यापति), 'हिंदवी', 'दक्खिनी', 'रेखता', 'आर्यभाषा' (दयानन्द सरस्वती), 'हिंदुस्तानी', 'खड़ी बोली', 'भारती' आदि हिंदी के अन्य नाम हैं जो विभिन्न ऐतिहासिक कालखण्डों में एवं विभिन्न संदर्भों में प्रयुक्त हुए हैं। 
+
+लिपि
+मुख्य लेख: देवनागरी
+
+हिन्दी को देवनागरी लिपि में लिखा जाता है। इसे नागरी नाम से भी पुकारा जाता है। देवनागरी में ११ स्वर और ३३ व्यंजन हैं और अनुस्वार, अनुनासिक एवं विसर्ग होता है तथा इसे बायें से दाईं ओर लिखा जाता है।
+'हिंदी' शब्द की व्युत्पत्ति
+
+हिन्दी शब्द का सम्बंध संस्कृत शब्द सिंधु से माना जाता है। 'सिंधु' सिंध नदी को कहते थे और उसी आधार पर उसके आस-पास की भूमि को सिन्धु कहने लगे। यह सिंधु शब्द ईरानी में जाकर ‘हिंदू’, हिंदी और फिर ‘हिंद’ हो गया। बाद में ईरानी धीरे-धीरे भारत के अधिक भागों से परिचित होते गए और इस शब्द के अर्थ में विस्तार होता गया तथा हिंद शब्द पूरे भारत का वाचक हो गया। इसी में ईरानी का ईक प्रत्यय लगने से (हिन्द+ईक) ‘हिंदीक’ बना जिसका अर्थ है ‘हिन्द का’। यूनानी शब्द ‘इन्दिका’ या अंग्रेजी शब्द ‘इंडिया’ आदि इस ‘हिंदीक’ के ही विकसित रूप हैं। हिंदी भाषा के लिए इस शब्द का प्राचीनतम प्रयोग शरफुद्दीन यज्दी’ के ‘जफरनामा’(1424) में मिलता है।
+
+प्रोफेसर महावीर सरन जैन ने अपने " हिंदी एवं उर्दू का अद्वैत " शीर्षक आलेख में हिंदी की व्युत्पत्ति पर विचार करते हुए कहा है कि ईरान की प्राचीन भाषा अवेस्ता में 'स्' ध्वनि नहीं बोली जाती थी। 'स्' को 'ह्' रूप में बोला जाता था। जैसे संस्कृत के 'असुर' शब्द को वहाँ 'अहुर' कहा जाता था। अफ़ग़ानिस्तान के बाद सिंधु नदी के इस पार हिंदुस्तान के पूरे इलाके को प्राचीन फ़ारसी साहित्य में भी 'हिंद', 'हिंदुश' के नामों से पुकारा गया है तथा यहाँ की किसी भी वस्तु, भाषा, विचार को 'एडजेक्टिव' के रूप में 'हिन्दीक' कहा गया है जिसका मतलब है 'हिन्द का'। यही 'हिन्दीक' शब्द अरबी से होता हुआ ग्रीक में 'इन्दिके', 'इन्दिका', लैटिन में 'इन्दिया' तथा अंग्रेज़ी में 'इण्डिया' बन गया। अरबी एवं फ़ारसी साहित्य में भारत (हिंद) में बोली जाने वाली भाषाओं के लिए 'ज़बान-ए-हिन्दी', पद का उपयोग हुआ है। भारत आने के बाद अरबी-फारसी बोलने वालों ने 'ज़बान-ए-हिंदी', 'हिंदी ज़बान' अथवा 'हिंदी' का प्रयोग दिल्ली-आगरा के चारों ओर बोली जाने वाली भाषा के अर्थ में किया। भारत के गैर-मुस्लिम लोग तो इस क्षेत्र में बोले जाने वाले भाषा-रूप को 'भाखा' नाम से पुकारते थे, 'हिंदी' नाम से नहीं।
+हिन्दी एवं उर्दू
+मुख्य लेख: हिन्दी एवं उर्दू
+
+भाषाविद हिन्दी ब्लॉग एवं उर्दू को एक ही भाषा समझते है। हिन्दी देवनागरी लिपि में लिखी जाती है और शब्दावली के स्तर पर अधिकांशत: संस्कृत के शब्दों का प्रयोग करती है। उर्दू, फ़ारसी लिपि में लिखी जाती है और शब्दावली के स्तर पर उस पर फ़ारसी और अरबी भाषाओं का प्रभाव अधिक है। व्याकरणिक रूप से उर्दू और हिन्दी में लगभग कुछ प्रतिशत समानता है। केवल कुछ विशेष क्षेत्रों में शब्दावली के स्रोत (जैसा कि ऊपर लिखा गया है) में अंतर होता है। कुछ विशेष ध्वनियाँ उर्दू में अरबी और फ़ारसी से ली गयी हैं और इसी प्रकार फ़ारसी और अरबी की कुछ विशेष व्याकरणिक संरचना भी प्रयोग की जाती है। उर्दू और हिन्दी को खड़ी बोली की दो शैलियाँ कहा जा सकता है। हम हिन्दी aऔर उर्दू को माँ और मौसी कहते हैं !
+
+परिवार
+
+यूरोपीय भाषा-परिवार परिवार के अन्दर आती है। ये हिन्द ईरानी शाखा की हिन्द आर्य उपशाखा के अन्तर्गत वर्गीकृत है। हिन्द-आर्य भाषाएँ वो भाषाएँ हैं जो संस्कृत से उत्पन्न हुई हैं। उर्दू, कश्मीरी, बंगाली, उड़िया, पंजाबी, रोमानी, मराठी नेपाली जैसी भाषाएँ भी हिन्द-आर्य भाषाएँ हैं।
+हिन्दी के विभिन्न नाम या रूप
+
+    देशी भाषा
+    आदी भाषा
+    हिन्दवी
+    खड़ी बोली[18]
+
+इतिहास क्रम
+मुख्य लेख: हिन्दी भाषा का इतिहास
+
+हिन्‍दी भाषा का इतिहास लगभग एक हजार वर्ष पुराना माना गया है। हिन्‍दी भाषा व साहित्‍य के जानकार अपभ्रंश की अंतिम अवस्‍था 'अवहट्ठ' से हिन्‍दी का उद्भव स्‍वीकार करते हैं। चंद्रधर शर्मा गुलेरी ने इसी अवहट्ठ को 'पुरानी हिन्दी' नाम दिया।
+
+अपभ्रंश की समाप्ति और आधुनिक भारतीय भाषाओं के जन्मकाल के समय को संक्रांतिकाल कहा जा सकता है। हिन्दी का स्वरूप शौरसेनी और अर्धमागधी अपभ्रंशों से विकसित हुआ है। १००० ई. के आसपास इसकी स्वतंत्र सत्ता का परिचय मिलने लगा था, जब अपभ्रंश भाषाएँ साहित्यिक संदर्भों में प्रयोग में आ रही थीं। यही भाषाएँ बाद में विकसित होकर आधुनिक भारतीय आर्य भाषाओं के रूप में अभिहित हुईं। अपभ्रंश का जो भी कथ्य रूप था - वही आधुनिक बोलियों में विकसित हुआ।
+
+अपभ्रंश के सम्बंध में ‘देशी’ शब्द की भी बहुधा चर्चा की जाती है। वास्तव में ‘देशी’ से देशी शब्द एवं देशी भाषा दोनों का बोध होता है। प्रश्न यह कि देशीय शब्द किस भाषा के थे ? भरत मुनि ने नाट्यशास्त्र में उन शब्दों को ‘देशी’ कहा है ‘जो संस्कृत के तत्सम एवं सद्भव रूपों से भिन्न है। ये ‘देशी’ शब्द जनभाषा के प्रचलित शब्द थे, जो स्वभावत: अप्रभंश में भी चले आए थे। जनभाषा व्याकरण के नियमों का अनुसरण नहीं करती, परंतु व्याकरण को जनभाषा की प्रवृत्तियों का विश्लेषण करना पड़ता है, प्राकृत-व्याकरणों ने संस्कृत के ढाँचे पर व्याकरण लिखे और संस्कृत को ही प्राकृत आदि की प्रकृति माना। अतः जो शब्द उनके नियमों की पकड़ में न आ सके, उनको देशी संज्ञा दी गई।
+हिन्दी का मानकीकरण
+मुख्य लेख: हिन्दी वर्तनी मानकीकरण
+
+स्वतंत्रता प्राप्ति के बाद से हिन्दी और देवनागरी के मानकीकरण की दिशा में निम्नलिखित क्षेत्रों में प्रयास हुये हैं :-
+
+    हिन्दी व्याकरण का मानकीकरण
+    वर्तनी का मानकीकरण
+    शिक्षा मंत्रालय के निर्देश पर केन्द्रीय हिन्दी निदेशालय द्वारा देवनागरी का मानकीकरण
+    वैज्ञानिक ढंग से देवनागरी लिखने के लिये एकरूपता के प्रयास
+    यूनिकोड का विकास
+
+हिन्दी की शैलियाँ
+
+भाषाविदों के अनुसार हिन्दी के चार प्रमुख रूप या शैलियाँ हैं :
+
+    (१) उच्च हिन्दी - हिन्दी का मानकीकृत रूप, जिसकी लिपि देवनागरी है। इसमें संस्कृत भाषा के कई शब्द है, जिन्होंने फ़ारसी और अरबी के कई शब्दों की जगह ले ली है। इसे शुद्ध हिन्दी भी कहते हैं। आजकल इसमें अंग्रेज़ी के भी कई शब्द आ गये हैं (ख़ास तौर पर बोलचाल की भाषा में)। यह खड़ीबोली पर आधारित है, जो दिल्ली और उसके आस-पास के क्षेत्रों में बोली जाती थी।
+    (२) दक्खिनी - उर्दू-हिन्दी का वह रूप जो हैदराबाद और उसके आसपास की जगहों में बोला जाता है। इसमें फ़ारसी-अरबी के शब्द उर्दू की अपेक्षा कम होते हैं।
+    (३) रेख़्ता - उर्दू का वह रूप जो शायरी में प्रयुक्त होता था।
+    (४) उर्दू - हिन्दवी का वह रूप जो देवनागरी लिपि के बजाय फ़ारसी-अरबी लिपि में लिखा जाता है। इसमें संस्कृत के शब्द कम होते हैं, और फ़ारसी-अरबी के शब्द अधिक। यह भी खड़ीबोली पर ही आधारित है।
+
+[19]
+
+हिन्दी और उर्दू दोनों को मिलाकर हिन्दुस्तानी भाषा कहा जाता है। हिन्दुस्तानी मानकीकृत हिन्दी और मानकीकृत उर्दू के बोलचाल की भाषा है। इसमें शुद्ध संस्कृत और शुद्ध फ़ारसी-अरबी दोनों के शब्द कम होते हैं और तद्भव शब्द अधिक। उच्च हिन्दी भारतीय संघ की राजभाषा है (अनुच्छेद ३४३, भारतीय संविधान)। यह इन भारतीय राज्यों की भी राजभाषा है : उत्तर प्रदेश, बिहार, झारखंड, मध्य प्रदेश, उत्तरांचल, हिमाचल प्रदेश, छत्तीसगढ़, राजस्थान, हरियाणा और दिल्ली। इन राज्यों के अतिरिक्त महाराष्ट्र, गुजरात, पश्चिम बंगाल, पंजाब और हिन्दी भाषी राज्यों से लगते अन्य राज्यों में भी हिन्दी बोलने वालों की अच्छी संख्या है। उर्दू पाकिस्तान की और भारतीय राज्य जम्मू और कश्मीर की राजभाषा है, इसके अतिरिक्त उत्तर प्रदेश, बिहार,तेलंगाना और दिल्ली में द्वितीय राजभाषा है। यह लगभग सभी ऐसे राज्यों की सह-राजभाषा है; जिनकी मुख्य राजभाषा हिन्दी है।
+हिन्दी की बोलियाँ
+मुख्य लेख: हिन्दी की विभिन्न बोलियाँ और उनका साहित्य
+
+हिन्दी का क्षेत्र विशाल है तथा हिन्दी की अनेक बोलियाँ (उपभाषाएँ) हैं। इनमें से कुछ में अत्यंत उच्च श्रेणी के साहित्य की रचना भी हुई है। ऐसी बोलियों में ब्रजभाषा और अवधी प्रमुख हैं। ये बोलियाँ हिन्दी की विविधता हैं और उसकी शक्ति भी। वे हिन्दी की जड़ों को गहरा बनाती हैं। हिन्दी की बोलियाँ और उन बोलियों की उपबोलियाँ हैं जो न केवल अपने में एक बड़ी परंपरा, इतिहास, सभ्यता को समेटे हुए हैं वरन स्वतंत्रता संग्राम, जनसंघर्ष, वर्तमान के बाजारवाद के खिलाफ भी उसका रचना संसार सचेत है।[20]
+
+हिन्दी की बोलियों में प्रमुख हैं- अवधी, ब्रजभाषा, कन्नौजी, बुंदेली, बघेली, भोजपुरी, हरयाणवी, राजस्थानी, छत्तीसगढ़ी, मालवी, नागपुरी, खोरठा, पंचपरगनिया, कुमाउँनी, मगही आदि। किन्तु हिन्दी के मुख्य दो भेद हैं - पश्चिमी हिन्दी तथा पूर्वी हिन्दी।
+शब्दावली
+
+हिन्दी शब्दावली में मुख्यतः दो वर्ग हैं-
+प्रथम वर्ग
+
+    तत्सम शब्द- ये वे शब्द हैं जिनको संस्कृत से बिना कोई रूप बदले ले लिया गया है। जैसे अग्नि, दुग्ध दन्त, मुख। (परन्तु हिन्दी में आने पर ऐसे शब्दों से विसर्ग का लोप हो जाता है जैसे संस्कृत 'नामः' हिन्दी में केवल 'नाम' हो जाता है।[21])।
+    तद्भव शब्द- ये वे शब्द हैं जिनका जन्म संस्कृत या प्राकृत में हुआ था, लेकिन उनमें काफ़ी ऐतिहासिक बदलाव आया है। जैसे— आग, दूध, दाँत, मुँह।
+
+द्वितीय वर्ग
+
+    देशज शब्द- देशज का अर्थ है - 'जो देश में ही उपजा या बना हो'। तो देशज शब्द का अर्थ हुआ जो न तो विदेशी भाषा का हो और न किसी दूसरी भाषा के शब्द से बना हो। ऐसा शब्द जो न संस्कृत का हो, न संस्कृत-शब्द का अपभ्रंश हो। ऐसा शब्द किसी प्रदेश (क्षेत्र) के लोगों द्वारा बोल-चाल में य़ों ही बना लिया जाता है। जैसे- खटिया, लुटिया
+    विदेशी शब्द- इसके अलावा हिन्दी में कई शब्द अरबी, फ़ारसी, तुर्की, अंग्रेज़ी आदि से भी आये हैं। इन्हें विदेशी शब्द कहते हैं।
+
+जिस हिन्दी में अरबी, फ़ारसी और अंग्रेज़ी के शब्द लगभग पूरी तरह से हटा कर तत्सम शब्दों को ही प्रयोग में लाया जाता है, उसे "शुद्ध हिन्दी" या "मानकीकृत हिन्दी" कहते हैं।
+हिन्दी स्वनविज्ञान
+मुख्य लेख: स्वनविज्ञान
+
+देवनागरी लिपि में हिन्दी की ध्वनियाँ इस प्रकार हैं :
+स्वर
+
+ये स्वर आधुनिक हिन्दी (खड़ीबोली) के लिये दिये गये हैं। 
+
+इसके अलावा हिन्दी और संस्कृत में ये वर्णाक्षर भी स्वर माने जाते हैं :
+
+    ऋ — इसका उच्चारण रि और रु के बीच का होगा, परंतु आधुनिक हिंदी में इसका उच्चारण "रि" की तरह किया जाता है ।
+    अं — पंचम वर्ण - ङ्, ञ्, ण्, न्, म् का नासिकीकरण करने के लिए (अनुस्वार)
+    अँ — स्वर का अनुनासिकीकरण करने के लिए (चन्द्रबिन्दु)
+    अः — अघोष "ह्" (निःश्वास) के लिए (विसर्ग)
+
+व्यंजन
+
+जब किसी स्वर प्रयोग नहीं हो, तो वहाँ पर 'अ' माना जाता है। स्वर के न होने को हलन्त्‌ अथवा विराम से दर्शाया जाता है। जैसे क्‌ ख्‌ ग्‌ घ्‌। 
+
+ध्यातव्य
+
+    इनमें से ळ (मूर्धन्य पार्विक अन्तस्थ) एक अतिरिक्त व्यंजन है जिसका प्रयोग हिन्दी में नहीं होता है। मराठी और वैदिक संस्कृत में सभी का प्रयोग किया जाता है।
+    संस्कृत में ष का उच्चारण ऐसे होता था : जीभ की नोक को मूर्धा (मुँह की छत) की ओर उठाकर श जैसी आवाज़ करना। शुक्ल यजुर्वेद की माध्यंदिनि शाखा में कुछ वाक़्यात में ष का उच्चारण ख की तरह करना मान्य था। आधुनिक हिन्दी में ष का उच्चारण पूरी तरह श की तरह होता है।
+    हिन्दी में ण का उच्चारण कभी-कभी ड़ँ की तरह होता है, यानी कि जीभ मुँह की छत को एक ज़ोरदार ठोकर मारती है। परन्तु इसका शुद्ध उच्चारण जिह्वा को मूर्धा (मुँह की छत. जहाँ से 'ट' का उच्चार करते हैं) पर लगा कर न की तरह का अनुनासिक स्वर निकालकर होता है।
+
+विदेशी ध्वनियाँ
+
+ये ध्वनियाँ मुख्यत: अरबी और फारसी भाषाओं से लिये गये शब्दों के मूल उच्चारण में होतीं हैं। इनका स्रोत संस्कृत नहीं है। देवनागरी लिपि में ये सबसे करीबी देवनागरी वर्ण के नीचे बिन्दु (नुक़्ता) लगाकर लिखे जाते हैं किन्तु हिन्दी की मानक वर्तनी में विदेशी शब्दों को बिना नुक्ते के ही उनके देसीकृत रूप में लिखने की अनुशंशा की गयी है। इसलिये आजकल हिन्दी में नुक्ता लगाने की प्रथा को लोग अनावश्यक मानने लगे हैं और ऐसा माना जाने लगा है कि नुक्ते का प्रयोग केवल तब किया जाय जब अरबी/उर्दू/फारसी वाले अपनी भाषा को देवनागरी में लिखना चाहते हों। 
+
+हिन्दी में ड़ और ढ़ व्यंजन फ़ारसी या अरबी से नहीं लिये गये हैं, न ही ये संस्कृत में पाये जाये हैं। वास्तव में ये संस्कृत के साधारण ड, "ळ" और ढ के बदले हुए रूप हैं।
+व्याकरण
+मुख्य लेख: हिन्दी व्याकरण
+
+अन्य सभी भारतीय भाषाओं की तरह हिन्दी में भी कर्ता-कर्म-क्रिया वाला वाक्यविन्यास है। हिन्दी मे दो लिंग होते हैं - पुल्लिंग और स्त्रीलिंग। नपुंसक वस्तुओं का लिंग भाषा-परम्परा के अनुसार पुलिंग या स्त्रीलिंग होता है। क्रिया का रूप, कर्ता के लिंग पर भी निर्भर करता है। हिन्दी में दो वचन होते हैं— एकवचन और बहुवचन। क्रिया, वचन से भी प्रभावित होती है। विशेषण, विशेष्य के पहले लगता है। ने, को, से, के लिए, का, की, के, में, पर, आदि कारक चिह्न प्रयोग किए जाते हैं।
+हिन्दी भाषा के विविध रूप
+बोलचाल की भाषा
+मानक भाषा
+सम्पर्क भाषा
+
+भिन्न-भिन्न भाषा-भाषियों के मध्य परस्पर विचार-विनिमय का माध्यम बनने वाली भाषा को सम्पर्क भाषा कहा जाता है। अपने राष्ट्रीय स्वरूप में ही हिन्दी पूरे भारत की सम्पर्क भाषा बनी हुर्इ है। अपने सीमित रूप में, प्रशासनिक भाषा के रूप में, हिन्दी के व्यवहार में भिन्न भाषाभाषियों के बीच परस्पर सम्प्रेषण का माध्यम बनी हुर्इ है। सम्पूर्ण भारतवर्ष में बोली और समझी जाने वाली राष्ट्रभाषा हिन्दी है, वह सरकार की राजभाषा भी है तथा सारे देश को एक सूत्र में पिरोने वाली सम्पर्क भाषा भी है। इस तरह अपने तीनों रूपों-राष्ट्रभाषा, राजभाषा और सम्पर्क भाषा - में हिन्दी भाषा अपना दायित्व सहजता से निभा रही है क्याेंकि इन तीनों में अन्तःसम्बन्ध हैं।
+
+'राष्ट्रभाषा सम्पूर्ण राष्ट्र में स्वीकृत भाषा होती है जबकि प्रशासनिक कार्यों के व्यवहारों में प्रयुक्त होने वाली 'राजभाषा' घोषित की जाती है तथा सम्पर्क भाषा का विकास प्राकृतिक और स्वैचिछक आधार पर होता है जो सामाजिक आवश्यकताओं की पूर्ति करता है। सम्पर्क भाषा ही सर्व-स्वीकृत होकर राष्ट्रभाषा बनती है। समृद्ध देशों में राष्ट्रभाषा, राजभाषा और सम्पर्क भाषा के रूप में एक ही भाषा का प्रयोग होता है, जैसे जापान, अमेरिका, इंग्लैण्ड, फ्रांस, जर्मनी, रूस आदि देश। इस दृष्टि से भारत भी समृद्ध देश है जहाँ हिन्दी ही अपने तीनों रूपों में प्रयुक्त होती है। विश्व के अनेक देशों में हिन्दी का प्रचार-प्रसार हो रहा है।
+राजभाषा
+मुख्य लेख: भारत की राजभाषा के रूप में हिन्दी
+राष्ट्रभाषा
+हिन्दी और कम्प्यूटर
+
+    मुख्य लेख : हिन्दी कम्प्यूटरी, हिन्दी टाइपिंग, कम्प्यूटर और हिन्दी, हिन्दी कम्प्यूटिंग का इतिहास, मोबाइल फोन में हिन्दी समर्थन और अन्तरजाल पर हिन्दी के उपकरण (सॉफ्टवेयर)
+
+कम्प्यूटर और इन्टरनेट ने पिछले वर्षों मे विश्व मे सूचना क्रांति ला दी है। आज कोई भी भाषा कम्प्यूटर (तथा कम्प्यूटर सदृश अन्य उपकरणों) से दूर रहकर लोगों से जुड़ी नही रह सकती। कम्प्यूटर के विकास के आरम्भिक काल में अंग्रेजी को छोड़कर विश्व की अन्य भाषाओं के कम्प्यूटर पर प्रयोग की दिशा में बहुत कम ध्यान दिया गया जिससे कारण सामान्य लोगों में यह गलत धारणा फैल गयी कि कम्प्यूटर अंग्रेजी के सिवा किसी दूसरी भाषा (लिपि) में काम ही नही कर सकता। किन्तु यूनिकोड (Unicode) के पदार्पण के बाद स्थिति बहुत तेजी से बदल गयी।[22] 19 अगस्त 2009 में गूगल ने कहा की हर 5 वर्षों में हिन्दी की सामग्री में 94% बढ़ोतरी हो रही है।[23]
+
+हिन्दी की इंटरनेट पर अच्छी उपस्थिति है। गूगल जैसे सर्च इंजन हिन्दी को प्राथमिक भारतीय भाषा के रूप में पहचानते हैं। इसके साथ ही अब अन्य भाषा के चित्र में लिखे शब्दों का भी अनुवाद हिन्दी में किया जा सकता है।[24] फरवरी २०१८ में एक सर्वेक्षण के हवाले से खबर आयी कि इंटरनेट की दुनिया में हिंदी ने भारतीय उपभोक्ताओं के बीच अंग्रेजी को पछाड़ दिया है। यूथ4वर्क की इस सर्वेक्षण रिपोर्ट ने इस आशा को सही साबित किया है कि जैसे-जैसे इंटरनेट का प्रसार छोटे शहरों की ओर बढ़ेगा, हिंदी और भारतीय भाषाओं की दुनिया का विस्तार होता जाएगा। [25]
+
+इस समय हिन्दी में सजाल (websites), चिट्ठे (Blogs), विपत्र (email), गपशप (chat), खोज (web-search), सरल मोबाइल सन्देश (SMS) तथा अन्य हिन्दी सामग्री उपलब्ध हैं। इस समय अन्तरजाल पर हिन्दी में संगणन के संसाधनों की भी भरमार है और नित नये कम्प्यूटिंग उपकरण आते जा रहे हैं।[26][27] लोगों मे इनके बारे में जानकारी देकर जागरूकता पैदा करने की जरूरत है ताकि अधिकाधिक लोग कम्प्यूटर पर हिन्दी का प्रयोग करते हुए अपना, हिन्दी का और पूरे हिन्दी समाज का विकास करें। शब्दनगरी जैसी नयी सेवाओं का प्रयोग करके लोग अच्छे हिन्दी साहित्य का लाभ अब इंटरनेट पर भी उठा सकते हैं।[28] [29]
+हिन्दी और जनसंचार
+मुख्य लेख: हिन्दी के संचार माध्यम और हिन्दी सिनेमा
+
+हिन्दी सिनेमा का उल्लेख किये बिना हिन्दी का कोई भी लेख अधूरा होगा। मुम्बई मे स्थित "बॉलीवुड" हिन्दी फ़िल्म उद्योग पर भारत के करोड़ो लोगों की धड़कनें टिकी रहती हैं। हर चलचित्र में कई गाने होते हैं। हिन्दी और उर्दू (खड़ीबोली) के साथ साथ अवधी, बम्बइया हिन्दी, भोजपुरी, राजस्थानी जैसी बोलियाँ भी संवाद और गानों मे उपयुक्त होती हैं। प्यार, देशभक्ति, परिवार, अपराध, भय, इत्यादि मुख्य विषय होते हैं। अधिकतर गाने उर्दू शायरी पर आधारित होते हैं। कुछ लोकप्रिय चलचित्र हैं: महल (1949), श्री ४२० (1955), मदर इंडिया (1957), मुग़ल-ए-आज़म (1960), गाइड (1965), पाकीज़ा (1972), बॉबी (1973), ज़ंजीर (1973), यादों की बारात (1973), दीवार (1975), शोले (1975), मिस्टर इंडिया (1987), क़यामत से क़यामत तक (1988), मैंने प्यार किया (1989), जो जीता वही सिकन्दर (1991), हम आपके हैं कौन (1994), दिलवाले दुल्हनिया ले जायेंगे (1995), दिल तो पागल है (1997), कुछ कुछ होता है (1998), ताल (1999), कहो ना प्यार है (2000), लगान (2001), दिल चाहता है (2001), कभी ख़ुशी कभी ग़म (2001), देवदास (2002), साथिया (2002), मुन्ना भाई एमबीबीएस (2003), कल हो ना हो (2003), धूम (2004), वीर-ज़ारा (2004), स्वदेस (2004), सलाम नमस्ते (2005), रंग दे बसंती (2006) इत्यादि।
+
+अब मोबाइल कंपनियां ऐसे हैंडसेट बना रही हैं जो हिंदी और भारतीय भाषाओं को सपोर्ट करते हैं। बहुराष्ट्रीय कंपनियां हिंदी जानने वाले कर्मचारियों को वरीयता दे रही हैं। हॉलीवुड की फिल्में हिंदी में डब हो रही हैं और हिंदी फिल्में देश के बाहर देश से अधिक कमाई कर रही हैं। हिंदी, विज्ञापन उद्योग की पसंदीदा भाषा बनती जा रही है। गूगल, ट्रांसलेशन, ट्रांस्लिटरेशन, फोनेटिक टूल्स, गूगल असिस्टैन्ट आदि के क्षेत्र में नई नई रिसर्च कर अपनी सेवाओं को बेहतर कर रहा है। हिंदी और भारतीय भाषाओं की पुस्तकों का डिजिटलीकरण जारी है।
+
+फेसबुक और व्हाट्सएप हिंदी और भारतीय भाषाओं के साथ तालमेल बिठा रहे हैं। सोशल मीडिया ने हिंदी में लेखन और पत्रकारिता के नए युग का सूत्रपात किया है और कई जनान्दोलनों को जन्म देने और चुनाव जिताने-हराने में उल्लेखनीय और हैरान करने वाली भूमिका निभाई है। सितम्बर २०१८ में प्रकाशित हुई एक अमेरिकी रपट के अनुसार हिन्दी में ट्वीट करना अत्यन्त लोकप्रिय हो रहा है। रपट में कहा गया है कि पिछले वर्ष सबसे अधिक पुनः ट्वीट किए गये १५ सन्देशों में से ११ हिन्दी के थे।[30] हिन्दी और अन्य भारतीय भाषाओं का बाजार इतना बड़ा है कि अनेक कम्पनियाँ अपने उत्पाद और वेबसाइटें हिन्दी और स्थानीय भाषाओं में ला रहीं हैं।[31]
+हिन्दी का वैश्विक प्रसार
+
+सन् 1998 के पूर्व, मातृभाषियों की संख्या की दृष्टि से विश्व में सर्वाधिक बोली जाने वाली भाषाओं के जो आँकड़े मिलते थे, उनमें हिन्दी को तीसरा स्थान दिया जाता था। सन् 1997 में 'सैन्सस ऑफ़ इंडिया' का भारतीय भाषाओं के विश्लेषण का ग्रन्थ प्रकाशित होने तथा संसार की भाषाओं की रिपोर्ट तैयार करने के लिए यूनेस्को द्वारा सन् 1998 में भेजी गई यूनेस्को प्रश्नावली के आधार पर उन्हें भारत सरकार के केन्द्रीय हिन्दी संस्थान के तत्कालीन निदेशक प्रोफेसर महावीर सरन जैन द्वारा भेजी गई विस्तृत रिपोर्ट के बाद अब विश्व स्तर पर यह स्वीकृत है कि मातृभाषियों की संख्या की दृष्टि से संसार की भाषाओं में चीनी भाषा के बाद हिन्दी का दूसरा स्थान है। चीनी भाषा के बोलने वालों की संख्या हिन्दी भाषा से अधिक है किन्तु चीनी भाषा का प्रयोग क्षेत्र हिन्दी की अपेक्षा सीमित है। अंग्रेज़ी भाषा का प्रयोग क्षेत्र हिन्दी की अपेक्षा अधिक है किन्तु मातृभाषियों की संख्या अंग्रेजी भाषियों से अधिक है।
diff --git a/benches/texts/japanese.txt b/benches/texts/japanese.txt
new file mode 100644
index 0000000..a5596fb
--- /dev/null
+++ b/benches/texts/japanese.txt
@@ -0,0 +1,269 @@
+日本語
+出典: フリー百科事典『ウィキペディア（Wikipedia）』
+
+日本語（にほんご、にっぽんご[注 1]）は、主に日本国内や日本人同士の間で使用されている言語である。
+
+日本は法令によって公用語を規定していないが、法令その他の公用文は全て日本語で記述され、各種法令[6]において日本語を用いることが規定され、学校教育においては「国語」として学習を課されるなど、事実上、唯一の公用語となっている。
+
+使用人口について正確な統計はないが、日本国内の人口、および日本国外に住む日本人や日系人、日本がかつて統治した地域の一部住民など、約1億3千万人以上と考えられている[7]。統計によって前後する場合もあるが、この数は世界の母語話者数で上位10位以内に入る人数である。
+
+日本で生まれ育ったほとんどの人は、日本語を母語とする[注 2]。日本語の文法体系や音韻体系を反映する手話として日本語対応手話がある。
+
+2019年4月現在、インターネット上の言語使用者数は、英語、中国語、スペイン語、アラビア語、ポルトガル語、マレー語、フランス語に次いで8番目に多い[8]。 
+
+特徴
+
+日本語の音韻は、「っ」「ん」を除いて母音で終わる開音節言語の性格が強く、また標準語（共通語）を含め多くの方言がモーラを持つ。アクセントは高低アクセントである。
+
+なお元来の古い大和言葉では、原則として
+
+    「ら行」音が語頭に立たない（しりとり遊びで『ら行』で始まる言葉が見つけにくいのはこのため。『らく（楽）』『らっぱ』『りんご』『れい（礼）』などは大和言葉でない）
+    濁音が語頭に立たない（『だ（抱）く』『どれ』『ば（場）』『ばら（薔薇）』などは後世の変化）
+    同一語根内に母音が連続しない（『あ　お（青）』『かい（貝）』は古くは『あを /awo/』, 『かひ /kapi/』）
+
+などの特徴があった（「系統」および「音韻」の節参照）。
+
+文は、「主語・修飾語・述語」の語順で構成される。修飾語は被修飾語の前に位置する。また、名詞の格を示すためには、語順や語尾を変化させるのでなく、文法的な機能を示す機能語（助詞）を後ろに付け加える（膠着させる）。これらのことから、言語類型論上は、語順の点ではSOV型の言語に、形態の点では膠着語に分類される（「文法」の節参照）。
+
+語彙は、古来の大和言葉（和語）のほか、漢語（字音語）、外来語、および、それらの混ざった混種語に分けられる。字音語（漢字の音読みに由来する語の意、一般に「漢語」と称する）は、漢文を通して古代・中世の中国から渡来した語またはそれらから派生した語彙であり、現代の語彙の過半数を占めている。また、「紙（かみ）」「絵/画（ゑ）」など、もともと音であるが和語と認識されているものもある。さらに近代以降には西洋由来の語を中心とする外来語が増大している（「語種」の節参照）。
+
+待遇表現の面では、文法的・語彙的に発達した敬語体系があり、叙述される人物どうしの微妙な関係を表現する（「待遇表現」の節参照）。
+
+日本語は地方ごとに多様な方言があり、とりわけ琉球諸島で方言差が著しい（「方言」の節参照）。近世中期までは京都方言が中央語の地位にあったが、近世後期には江戸方言が地位を高め、明治以降の現代日本語では東京山の手の中流階級以上の方言（山の手言葉）を基盤に標準語（共通語）が形成された（「標準語」参照）。
+
+表記体系はほかの諸言語と比べて複雑である。漢字（国字を含む。音読みおよび訓読みで用いられる）と平仮名、片仮名が日本語の主要な文字であり、常にこの3種類の文字を組み合わせて表記する（「字種」の節参照）[注 3]。ほかに、ラテン文字（ローマ字）やギリシャ文字（医学・科学用語に多用）などもしばしば用いられる。また、縦書きと横書きがいずれも用いられる（表記体系の詳細については「日本語の表記体系」参照）。
+
+音韻は「子音＋母音」音節を基本とし、母音は5種類しかないなど、分かりやすい構造を持つ一方、直音と拗音の対立、「1音節2モーラ」の存在、無声化母音、語の組み立てに伴って移動する高さアクセントなどの特徴がある（「音韻」の節参照）。
+分布
+
+日本語は、主に日本国内で使用される。話者人口についての調査は国内・国外を問わず未だないが、日本の人口に基づいて考えられることが一般的である[10]。
+
+日本国内に、法令上、日本語を公用語ないし国語と定める直接の規定はない。しかし、法令は日本語で記されており、裁判所法においては「裁判所では、日本語を用いる」（同法74条）とされ、文字・活字文化振興法においては「国語」と「日本語」が同一視されており（同法3条、9条）、その他多くの法令において、日本語が唯一の公用語ないし国語であることが当然の前提とされている。また、法文だけでなく公用文はすべて日本語のみが用いられ、学校教育では日本語が「国語」として教えられている。
+
+日本では、テレビやラジオ、映画などの放送、小説や漫画、新聞などの出版の分野でも、日本語が使われることがほとんどである。国外のドラマや映画が放送される場合でも、基本的には日本語に訳し、字幕を付けたり声を当てたりしてから放送されるなど、受け手が日本語のみを理解することを当然の前提として作成される。原語のまま放送・出版されるものも存在するが、それらは外国向けに発表される前提の論文、もしくは日本在住の外国人、あるいは原語の学習者など限られた人を対象としており、大多数の日本人に向けたものではない。
+
+日本国外では、主として、中南米（ペルー・ブラジル・ボリビア・ドミニカ共和国・パラグアイなど）やハワイなどの日本人移民の間に日本語の使用がみられる[11]が、3世・4世と世代が下るにしたがって非日本語話者が多くなっているのが実情である[12]。また、太平洋戦争の終結以前に日本領ないし日本の勢力下にあった朝鮮総督府の朝鮮半島・台湾総督府の台湾・旧満州国で現在中華人民共和国の一部・樺太庁の樺太（サハリン）・旧南洋庁の南洋諸島（現在の北マリアナ諸島・パラオ・マーシャル諸島・ミクロネシア連邦）などの地域では、日本語教育を受けた人々の中に、現在でも日本語を記憶して話す人がいる[注 4]。台湾では先住民の異なる部族同士の会話に日本語が用いられることがある[14]だけでなく、宜蘭クレオールなど日本語とタイヤル語のクレオール言語も存在している[15]。また、パラオのアンガウル州では歴史的経緯から日本語を公用語の一つとして採用している[16]が、現在州内には日本語を日常会話に用いる住民は存在せず、象徴的なものに留まっている[17]。
+
+日本国外の日本語学習者は2015年調査で365万人にのぼり、中華人民共和国の約95万人、インドネシアの約75万人、大韓民国の約56万人、オーストラリアの約36万人、台湾の約22万人が上位となっている。地域別では、東アジア・東南アジアで全体の学習者の約8割を占めている。日本語教育が行われている地域は、137か国・地域に及んでいる[18]。また、日本国内の日本語学習者は、アジア地域の約16万人を中心として約19万人に上っている[19]。
+詳細は「日本語教育」を参照
+系統
+
+「日本語」の範囲を本土方言のみとした場合、琉球語が日本語と同系統の言語になり両者は日本語族を形成する。いっぽう琉球語（琉球方言）も含めて日本語とする場合は、日本語は孤立した言語となる。
+
+日本語(族)の系統は明らかでなく、解明される目途も立っていない。言語学・音韻論などの総合的な結論は『孤立した言語』である。しかし、いくつかの理論仮説があり、いまだ総意を得るに至っていない[20][21]。
+
+アルタイ諸語に属するとする説は、明治時代末から特に注目されてきた[22]。その根拠として、古代の日本語（大和言葉）において語頭にr音（流音）が立たないこと、一種の母音調和[23]が見られることなどが挙げられる。ただし、アルタイ諸語に属するとされるそれぞれの言語自体、互いの親族関係が証明されているわけではなく[24]、したがって、古代日本語に上記の特徴が見られることは、日本語が類型として「アルタイ型」の言語である[25]という以上の意味をもたない。
+
+南方系のオーストロネシア語族とは、音韻体系や語彙に関する類似も指摘されている[26]が、語例は十分ではなく、推定・不確定の例を多く含む。
+
+ドラヴィダ語族との関係を主張する説もあるが、これを認める研究者は少ない。大野晋は日本語が語彙・文法などの点でタミル語と共通点を持つとの説を唱える[27]が、比較言語学の方法上の問題から批判が多い[28]（「大野晋#クレオールタミル語説」も参照）。
+
+アイヌ語は、語順（SOV語順）において日本語と似るものの、文法・形態は類型論的に異なる抱合語に属し、音韻構造も有声・無声の区別がなく閉音節が多いなどの相違がある。基礎語彙の類似に関する指摘[29]もあるが、例は不充分である[29]。一般に似ているとされる語の中には、日本語からアイヌ語への借用語が多く含まれるとみられる[30]。目下のところは系統的関連性を示す材料は乏しい。
+
+朝鮮語は、文法構造に類似点が多いものの、基礎語彙が大きく相違する。音韻の面では、固有語において語頭に流音が立たないこと、一種の母音調和が見られることなど、上述のアルタイ諸語と共通の類似点がある一方で、閉音節や子音連結が存在する、有声・無声の区別が無いなど、大きな相違もある。朝鮮半島の死語である高句麗語とは、数詞など似る語彙もあるといわれる[31]が、高句麗語の実態はほとんど分かっておらず、現時点では系統論上の判断材料にはなりがたい。
+
+また、レプチャ語・ヘブライ語などとの同系論も過去に存在したが、ほとんど偽言語比較論の範疇に収まる[29]。
+
+琉球列島（旧琉球王国領域）の言葉は、日本語の一方言（琉球方言）とする場合と、日本語と系統を同じくする別言語（琉球語ないしは琉球諸語）とし、日本語とまとめて日本語族とする意見があるが、研究者や機関によって見解が分かれる（各項目参照）。
+音韻
+詳細は「日本語の音韻」を参照
+音韻体系
+
+日本語話者は普通、「いっぽん（一本）」という語を、「い・っ・ぽ・ん」の4単位と捉えている。音節ごとにまとめるならば [ip̚.poɴ] のように2単位となるところであるが、音韻的な捉え方はこれと異なる。音声学上の単位である音節とは区別して、音韻論では「い・っ・ぽ・ん」のような単位のことをモーラ[32]（拍[33]）と称している。
+
+日本語のモーラは、大体は仮名に即して体系化することができる。「いっぽん」と「まったく」は、音声学上は [ip̚poɴ] [mat̚takɯ] であって共通する単音がないが、日本語話者は「っ」という共通のモーラを見出す。また、「ん」は、音声学上は後続の音によって [ɴ] [m] [n] [ŋ] などと変化するが、日本語の話者自らは同一音と認識しているので、音韻論上は1種類のモーラとなる。
+
+日本語では、ほとんどのモーラが母音で終わっている。それゆえに日本語は開音節言語の性格が強いということができる。もっとも、特殊モーラの「っ」「ん」には母音が含まれない。
+
+モーラの種類は、以下に示すように111程度存在する。ただし、研究者により数え方が少しずつ異なる。「が行」の音は、語中語尾では鼻音（いわゆる鼻濁音）の「か゚行」音となる場合があるが、「が行」と「か゚行」との違いは何ら弁別の機能を提供せず、単なる異音どうしに過ぎない。そこで、「か゚行」を除外して数える場合、モーラの数は103程度となる。これ以外に、「外来語の表記」第1表にもある「シェ」「チェ」「ツァ・ツェ・ツォ」「ティ」「ファ・フィ・フェ・フォ」その他の外来音を含める場合は、さらにまた数が変わってくる[34]。このほか、外来語の表記において用いられる「ヴァ・ヴィ・ヴ・ヴェ・ヴォ」については、バ行として発音されることが多いものの、独立した音韻として発音されることもあり、これらを含めるとさらに増えることとなる。 
+
+なお、五十音図は、音韻体系の説明に使われることがしばしばあるが、上記の日本語モーラ表と比べてみると、少なからず異なる部分がある。五十音図の成立は平安時代にさかのぼるものであり、現代語の音韻体系を反映するものではないことに注意が必要である（「日本語研究史」の節の「江戸時代以前」を参照）。
+母音体系
+
+母音は、「あ・い・う・え・お」の文字で表される。音韻論上は、日本語の母音はこの文字で表される5個であり、音素記号では以下のように記される。
+
+    /a/, /i/, /u/, /e/, /o/
+
+一方、音声学上は、基本の5母音は、それぞれ
+
+    [ä]、[i̠]、 [u̜]または[ɯ̹]、[e̞]または[ɛ̝] 、[o̜]または[ɔ̜̝]
+
+に近い発音と捉えられる。 ̈ は中舌寄り、 ̠ は後寄り、 ̜ は弱めの円唇、 ̹ は強めの円唇、˕ は下寄り、 ˔ は上寄りを示す補助記号である。
+
+日本語の「あ」は、国際音声記号 (IPA) では前舌母音 [a] と後舌母音 [ɑ] の中間音 [ä] に当たる。「い」は少し後寄りであり [i̠] が近い。「え」は半狭母音 [e] と半広母音 [ɛ] の中間音であり、「お」は半狭母音 [o] と半広母音 [ɔ] の中間音である。
+
+日本語の「う」は、東京方言では、英語などの [u] のような円唇後舌母音より、少し中舌よりで、それに伴い円唇性が弱まり、中舌母音のような張唇でも円唇でもないニュートラルな唇か、それよりほんの僅かに前に突き出した唇で発音される、半後舌微円唇狭母音である[35]。これは舌と唇の動きの連関で、前舌母音は張唇、中舌母音は平唇・ニュートラル（ただしニュートラルは、現行のIPA表記では非円唇として、張唇と同じカテゴリーに入れられている）、後舌母音は円唇となるのが自然であるという法則に適っている[36]。しかし「う」は母音融合などで見られるように、音韻上は未だに円唇後舌狭母音として機能する[37]。また、[ɯᵝ] という表記も行われる[要出典]。
+
+円唇性の弱さを強調するために、[ɯ] を使うこともあるが[38]、これは本来朝鮮語に見られる、iのような完全な張唇でありながら、u のように後舌の狭母音を表す記号であり、円唇性が減衰しつつも残存し、かつ後舌よりやや前よりである日本語の母音「う」の音声とは違いを有する。またこの種の母音は、唇と舌の連関から外れるため、母音数5以上の言語でない限り、発生するのは稀である。「う」は唇音の後ではより完全な円唇母音に近づく（発音の詳細はそれぞれの文字の項目を参照）。一方、西日本方言では「う」は東京方言よりも奥舌で、唇も丸めて発音し、 [u] に近い。
+
+音韻論上、「コーヒー」「ひいひい」など、「ー」や「あ行」の仮名で表す長音という単位が存在する（音素記号では /R/）。これは、「直前の母音を1モーラ分引く」という方法で発音される独立した特殊モーラである[39]。「鳥」（トリ）と「通り」（トーリ）のように、長音の有無により意味を弁別することも多い。ただし、音声としては「長音」という特定の音があるわけではなく、長母音 [äː] [i̠ː] [u̜̟ː] [e̞ː] [o̜̞ː] の後半部分に相当するものである。
+
+「えい」「おう」と書かれる文字は、発音上は「ええ」「おお」と同じく長母音 [e̞ː] [o̜̞ː] として発音されることが一般的である（「けい」「こう」など、頭子音が付いた場合も同様）。すなわち、「衛星」「応答」「政党」は「エーセー」「オートー」「セートー」のように発音される。ただし、九州や四国南部・西部、紀伊半島南部などでは「えい」を [e̞i] と発音する[40]。「思う」[omoɯᵝ]、「問う」[toɯᵝ]などの単語は必ず二重母音となり、また軟骨魚のエイなど、語彙によって二重母音になる場合もあるが、これには個人差がある。1文字1文字丁寧に発話する場合には「えい」を [e̞i] と発音する話者も多い。
+
+単語末や無声子音の間に挟まれた位置において、「イ」や「ウ」などの狭母音はしばしば無声化する。たとえば、「です」「ます」は [de̞su̜̟̥] [mäsu̜̟̥] のように発音されるし、「菊」「力」「深い」「放つ」「秋」などはそれぞれ [kʲi̠̥ku̜̟] [ʨi̠̥käɾä] [ɸu̜̟̥käi̠] [hänäʦu̜̟̥] [äkʲi̠̥] と発音されることがある。ただしアクセント核がある拍は無声化しにくい。個人差もあり、発話の環境や速さ、丁寧さによっても異なる。また方言差も大きく、たとえば近畿方言ではほとんど母音の無声化が起こらない。
+
+「ん」の前の母音は鼻音化する傾向がある。また、母音の前の「ん」は前後の母音に近似の鼻母音になる。
+子音体系
+
+子音は、音韻論上区別されているものとしては、現在の主流学説によれば「か・さ・た・な・は・ま・や・ら・わ行」の子音、濁音「が・ざ・だ・ば行」の子音、半濁音「ぱ行」の子音である。音素記号では以下のように記される。ワ行とヤ行の語頭子音は、音素 u と音素 i の音節内の位置に応じた変音であるとする解釈もある。特殊モーラの「ん」と「っ」は、音韻上独立の音素であるという説と、「ん」はナ行語頭子音 n の音節内の位置に応じた変音、「っ」は単なる二重子音化であるとして音韻上独立の音素ではないという説の両方がある。
+
+    /k/, /s/, /t/, /h/（清音）
+    /ɡ/, /z/, /d/, /b/（濁音）
+    /p/（半濁音）
+    /n/, /m/, /r/
+    /j/, /w/（半母音とも呼ばれる）
+
+一方、音声学上は、子音体系はいっそう複雑な様相を呈する。主に用いられる子音を以下に示す（後述する口蓋化音は省略）。 
+
+基本的に「か行」は [k]、「さ行」は [s]（[θ] を用いる地方・話者もある[40]）、「た行」は [t]、「な行」は [n]、「は行」は [h]、「ま行」は [m]、「や行」は [j]、「だ行」は [d]、「ば行」は [b]、「ぱ行」は [p] を用いる。
+
+「ら行」の子音は、語頭では [ɺ] 、「ん」の後のら行は英語の [l] に近い音を用いる話者もある。一方、「あらっ？」というときのように、語中語尾に現れる場合は、舌をはじく [ɾ] もしくは [ɽ] となる。
+
+標準日本語およびそれの母体である首都圏方言（共通語）において、「わ行」の子音は、上で挙げた同言語の「う」と基本的な性質を共有し、もう少し空気の通り道の狭い接近音である。このため、/u/ に対応する接近音/w/ と、/ɯ/ に対応する接近音/ɰ/ の中間、もしくは微円唇という点で僅かに /w/ に近いと言え、軟口蓋（後舌母音の舌の位置）の少し前よりの部分を主な調音点とし、両唇も僅かに使って調音する二重調音の接近音といえる[41]。このため、五十音図の配列では、ワ行は唇音に入れられている（「日本語」の項目では、特別の必要のない場合は /w/ で表現する）。外来音「ウィ」「ウェ」「ウォ」にも同じ音が用いられるが、「ウイ」「ウエ」「ウオ」と2モーラで発音する話者も多い。
+
+「が行」の子音は、語頭では破裂音の [g] を用いるが、語中では鼻音の [ŋ]（「が行」鼻音、いわゆる鼻濁音）を用いることが一般的だった。現在では、この [ŋ] を用いる話者は減少しつつあり、代わりに語頭と同じく破裂音を用いるか、摩擦音の [ɣ] を用いる話者が増えている。
+
+「ざ行」の子音は、語頭や「ん」の後では破擦音（破裂音と摩擦音を合わせた [d͡z] などの音）を用いるが、語中では摩擦音（[z] など）を用いる場合が多い。いつでも破擦音を用いる話者もあるが、「手術（しゅじゅつ）」などの語では発音が難しいため摩擦音にするケースが多い。なお、「だ行」の「ぢ」「づ」は、一部方言を除いて「ざ行」の「じ」「ず」と同音に帰しており、発音方法は同じである。
+
+母音「い」が後続する子音は、独特の音色を呈する。いくつかの子音では、前舌面を硬口蓋に近づける口蓋化が起こる。たとえば、「か行」の子音は一般に [k] を用いるが、「き」だけは [kʲ] を用いるといった具合である。口蓋化した子音の後ろに母音「あ」「う」「お」が来るときは、表記上は「い段」の仮名の後ろに「ゃ」「ゅ」「ょ」の仮名を用いて「きゃ」「きゅ」「きょ」、「みゃ」「みゅ」「みょ」のように記す。後ろに母音「え」が来るときは「ぇ」の仮名を用いて「きぇ」のように記すが、外来語などにしか使われない。
+
+「さ行」「ざ行」「た行」「は行」の「い段」音の子音も独特の音色であるが、これは単なる口蓋化でなく、調音点が硬口蓋に移動した音である。「し」「ち」の子音は [ɕ] [ʨ] を用いる。外来音「スィ」「ティ」の子音は口蓋化した [sʲ] [tʲ] を用いる。「じ」「ぢ」の子音は、語頭および「ん」の後ろでは [d͡ʑ]、語中では [ʑ] を用いる。外来音「ディ」「ズィ」の子音は口蓋化した [dʲ] [d͡ʑʲ] および [zʲ] を用いる。「ひ」の子音は [h] ではなく硬口蓋音 [ç] である。
+
+また、「に」の子音は多くは口蓋化した [nʲ] で発音されるが、硬口蓋鼻音 [ɲ] を用いる話者もある。同様に、「り」に硬口蓋はじき音を用いる話者や、「ち」に無声硬口蓋破裂音 [c] を用いる話者もある。
+
+そのほか、「は行」では「ふ」の子音のみ無声両唇摩擦音 [ɸ] を用いるが、これは「は行」子音が [p] → [ɸ] → [h] と変化してきた名残りである。五十音図では、奈良時代に音韻・音声でp、平安時代に[ɸ]であった名残で、両唇音のカテゴリーに入っている。外来語には [f] を用いる話者もある。これに関して、現代日本語で「っ」の後ろや、漢語で「ん」の後ろにハ行が来たとき、パ行(p)の音が現れ、連濁でもバ行(b)に変わり、有音声門摩擦音[ɦ]ではないことから、現代日本語でも語種を和語や前近代の漢語等の借用語に限れば（ハ行に由来しないパ行は近代以降のもの）、ハ行の音素はhでなくpであり、摩擦音化規則で上に挙げた場合以外はhに変わるのだという解釈もある。現代日本語母語話者の直感には反するが、ハ行の連濁や「っ」「ん」の後ろでのハ行の音の変化をより体系的・合理的に表しうる[42][43]。
+
+また、「た行」では「つ」の子音のみ [t͡s] を用いる。これらの子音に母音「あ」「い」「え」「お」が続くのは主として外来語の場合であり、仮名では「ァ」「ィ」「ェ」「ォ」を添えて「ファ」「ツァ」のように記す（「ツァ」は「おとっつぁん」「ごっつぁん」などでも用いる）。「フィ」「ツィ」は子音に口蓋化が起こる。また「ツィ」は多く「チ」などに言い換えられる。「トゥ」「ドゥ」（/tɯ/ /dɯ/）は、外国語の /t/ /tu/ /du/ などの音に近く発音しようとするときに用いることがある。
+
+促音「っ」（音素記号では /Q/）および撥音「ん」（/N/）と呼ばれる音は、音韻論上の概念であって、前節で述べた長音と併せて特殊モーラと扱う。実際の音声としては、「っ」は [-k̚k-] [-s̚s-] [-ɕ̚ɕ-] [-t̚t-] [-t̚ʦ-] [-t̚ʨ-] [-p̚p-] などの子音連続となる。ただし「あっ」のように、単独で出現することもあり、そのときは声門閉鎖音となる。また、「ん」は、後続の音によって [ɴ] [m] [n] [ŋ] などの子音となる（ただし、母音の前では鼻母音となる）。文末などでは [ɴ] を用いる話者が多い。
+アクセント
+「アクセント#日本語のアクセント」も参照
+
+日本語は、一部の方言を除いて、音（ピッチ）の上下による高低アクセントを持っている。アクセントは語ごとに決まっており、モーラ（拍）単位で高低が定まる。同音語をアクセントによって区別できる場合も少なくない。たとえば東京方言の場合、「雨」「飴」はそれぞれ「ア＼メ」（頭高型）、「ア／メ」（平板型）と異なったアクセントで発音される（／を音の上昇、＼を音の下降とする）。「が」「に」「を」などの助詞は固有のアクセントがなく、直前に来る名詞によって助詞の高低が決まる。たとえば「箸」「橋」「端」は、単独ではそれぞれ「ハ＼シ」「ハ／シ」「ハ／シ」となるが、後ろに「が」「に」「を」などの助詞が付く場合、それぞれ「ハ＼シガ」「ハ／シ＼ガ」「ハ／シガ」となる。
+
+共通語のアクセントでは、単語の中で音の下がる場所があるか、あるならば何モーラ目の直後に下がるかを弁別する。音が下がるところを下がり目またはアクセントの滝といい、音が下がる直前のモーラをアクセント核[注 5]または下げ核という。たとえば「箸」は第1拍、「橋」は第2拍にアクセント核があり、「端」にはアクセント核がない。アクセント核は1つの単語には1箇所もないか1箇所だけあるかのいずれかであり、一度下がった場合は単語内で再び上がることはない。アクセント核を ○ で表すと、2拍語には ○○（核なし）、○○、○○ の3種類、3拍語には ○○○、○○○、○○○、○○○ の4種類のアクセントがあり、拍数が増えるにつれてアクセントの型の種類も増える。アクセント核が存在しないものを平板型といい、第1拍にアクセント核があるものを頭高型、最後の拍にあるものを尾高型、第1拍と最後の拍の間にあるものを中高型という。頭高型・中高型・尾高型をまとめて起伏式または有核型と呼び、平板型を平板式または無核型と呼んで区別することもある。
+
+また共通語のアクセントでは、単語や文節のみの形で発音した場合、「し／るしが」「た／ま＼ごが」のように1拍目から2拍目にかけて音の上昇がある（頭高型を除く）。しかしこの上昇は単語に固有のものではなく、文中では「あ／かいしるしが」「こ／のたま＼ごが」のように、区切らずに発音したひとまとまり（「句」と呼ぶ）の始めに上昇が現れる。この上昇を句音調と言い、句と句の切れ目を分かりやすくする機能を担っている。一方、アクセント核は単語に固定されており、「たまご」の「ま」の後の下がり目はなくなることがない。共通語の音調は、句の2拍目から上昇し（句の最初の単語が頭高型の場合は1拍目から上昇する）、アクセント核まで平らに進み、核の後で下がる。従って、句頭で「低低高高…」や「高高高高…」のような音調は現れない。アクセント辞典などでは、アクセントを「しるしが」「たまごが」のように表記する場合があるが、これは1文節を1つの句として発音するときのもので、句音調とアクセント核の両方を同時に表記したものである[44]。
+
+文法
+
+文の構造
+
+日本語では「私は本を読む。」という語順で文を作る。英語で「I read a book.」という語順をSVO型（主語・動詞・目的語）と称する説明にならっていえば、日本語の文はSOV型ということになる。もっとも、厳密にいえば、英語の文に動詞が必須であるのに対して、日本語文は動詞で終わることもあれば、形容詞や名詞+助動詞で終わることもある。そこで、日本語文の基本的な構造は、「S（主語）‐V（動詞）」というよりは、「S（主語）‐P（述語）」という「主述構造」と考えるほうが、より適当である。
+
+    私は（が） 社長だ
+    私は（が） 行く。
+    私は（が） 嬉しい。
+
+上記の文は、いずれも「S‐P」構造、すなわち主述構造をなす同一の文型である。英語などでは、それぞれ「SVC」「SV」「SVC」の文型になるところであるから、それにならって、1を名詞文、2を動詞文、3を形容詞文と分けることもある。しかし、日本語ではこれらの文型に本質的な違いはない。そのため、英語の初学者などは、「I am a president」「I am happy.」と同じ調子で「I am go.」と誤った作文をすることがある[45]。
+題述構造
+
+また、日本語文では、主述構造とは別に、「題目‐述部」からなる「題述構造」を採ることがきわめて多い。題目とは、話のテーマ（主題）を明示するものである（三上章は「what we are talking about」と説明する[46]）。よく主語と混同されるが、別概念である。主語は多く「が」によって表され、動作や作用の主体を表すものであるが、題目は多く「は」によって表され、その文が「これから何について述べるのか」を明らかにするものである。主語に「は」が付いているように見える文も多いが、それはその文が動作や作用の主体について述べる文、すなわち題目が同時に主語でもある文だからである。そのような文では、題目に「は」が付くことにより結果的に主語に「は」が付く。一方、動作や作用の客体について述べる文、すなわち題目が同時に目的語でもある文では、題目に「は」が付くことにより結果的に目的語に「は」が付く。たとえば、
+
+    4. 象は 大きい。
+    5. 象は おりに入れた。
+    6. 象は えさをやった。
+    7. 象は 鼻が長い。
+
+などの文では、「象は」はいずれも題目を示している。4の「象は」は「象が」に言い換えられるもので、事実上は文の主語を兼ねる。しかし、5以下は「象が」には言い換えられない。5は「象を」のことであり、6は「象に」のことである。さらに、7の「象は」は何とも言い換えられないものである（「象の」に言い換えられるともいう[47]）。これらの「象は」という題目は、「が」「に」「を」などの特定の格を表すものではなく、「私は象について述べる」ということだけをまず明示する役目を持つものである。
+
+これらの文では、題目「象は」に続く部分全体が「述部」である[48]。
+
+大野晋は、「が」と「は」はそれぞれ未知と既知を表すと主張した。たとえば
+
+    私が佐藤です
+    私は佐藤です
+
+においては、前者は「佐藤はどの人物かと言えば（それまで未知であった）私が佐藤です」を意味し、後者は「（すでに既知である）私は誰かと言えば（田中ではなく）佐藤です」となる。したがって「何」「どこ」「いつ」などの疑問詞は常に未知を意味するから「何が」「どこが」「いつが」となり、「何は」「どこは」「いつは」とは言えない。
+
+日本語と同様に題述構造の文を持つ言語（主題優勢言語）は、東アジアなどに分布する。たとえば、中国語・朝鮮語・ベトナム語・マレー語・タガログ語にもこの構造の文が見られる。
+
+主語廃止論
+
+上述の「象は鼻が長い。」のように、「主語‐述語」の代わりに「題目‐述部」と捉えるべき文が非常に多いことを考えると、日本語の文にはそもそも主語は必須でないという見方も成り立つ。三上章は、ここから「主語廃止論」（主語という文法用語をやめる提案）を唱えた。三上によれば、
+
+    甲ガ乙ニ丙ヲ紹介シタ。
+
+という文において、「甲ガ」「乙ニ」「丙ヲ」はいずれも「紹介シ」という行為を説明するために必要な要素であり、優劣はない。重要なのは、それらをまとめる述語「紹介シタ」の部分である。「甲ガ」「乙ニ」「丙ヲ」はすべて述語を補足する語（補語）となる。いっぽう、英語などでの文で主語は、述語と人称などの点で呼応しており、特別の存在である[46]。
+
+この考え方に従えば、英語式の観点からは「主語が省略されている」としかいいようがない文をうまく説明することができる。たとえば、
+
+    ハマチの成長したものをブリという。
+    ここでニュースをお伝えします。
+    日一日と暖かくなってきました。
+
+などは、いわゆる主語のない文である。しかし、日本語の文では述語に中心があり、補語を必要に応じて付け足すと考えれば、上記のいずれも、省略のない完全な文と見なして差し支えない。
+
+今日の文法学説では、主語という用語・概念は、作業仮説として有用な面もあるため、なお一般に用いられている。一般的には格助詞「ガ」を伴う文法項を主語と見なす。ただし、三上の説に対する形で日本語の文に主語が必須であると主張する学説は、生成文法や鈴木重幸らの言語学研究会グループなど、主語に統語上の重要な役割を認める学派を除いて、少数派である。森重敏は、日本語の文においても主述関係が骨子であるとの立場を採るが、この場合の主語・述語も、一般に言われるものとはかなり様相を異にしている[49]。現在一般的に行われている学校教育における文法（学校文法）では、主語・述語を基本とした伝統的な文法用語を用いるのが普通だが、教科書によっては主語を特別扱いしないものもある[注 6]。
+文の成分
+
+文を主語・述語から成り立つと捉える立場でも、この2要素だけでは文の構造を十分に説明できない。主語・述語には、さらに修飾語などの要素が付け加わって、より複雑な文が形成される。文を成り立たせるこれらの要素を「文の成分」と称する。
+
+学校文法（中学校の国語教科書）では、文の成分として「主語」「述語」「修飾語」（連用修飾語・連体修飾語）「接続語」「独立語」の5つを挙げている。「並立語（並立の関係にある文節/連文節どうし）」や「補助語・被補助語（補助の関係にある文節/連文節どうし）は文の成分（あるいはそれを示す用語）ではなく、文節/連文節どうしの関係を表した概念であって、常に連文節となって上記五つの成分になるという立場に学校文法は立っている。したがって、「並立の関係」「補助の関係」という用語（概念）を教科書では採用しており、「並立語」「補助語」という用語（概念）については載せていない教科書が主流である。なお「連体修飾語」も厳密にいえばそれだけでは成分にはなり得ず、常に被修飾語と連文節を構成して文の成分になる。
+
+学校図書を除く四社の教科書では、単文節でできているものを「主語」のように「－語」と呼び、連文節でできているものを「主部」のように「－部」と呼んでいる。それに対し学校図書だけは、文節/連文節どうしの関係概念を「－語」と呼び、いわゆる成分（文を構成する個々の最大要素）を「－部」と呼んでいる。
+種類とその役割
+
+以下、学校文法の区分に従いつつ、それぞれの文の成分の種類と役割とについて述べる。
+主語・述語
+
+文を成り立たせる基本的な成分である。ことに述語は、文をまとめる重要な役割を果たす。「雨が降る。」「本が多い。」「私は学生だ。」などは、いずれも主語・述語から成り立っている。教科書によっては、述語を文のまとめ役として最も重視する一方、主語については修飾語と併せて説明するものもある（前節「主語廃止論」参照）。
+連用修飾語
+
+用言に係る修飾語である（用言については「自立語」の節を参照）。「兄が弟に算数を教える。」という文で「弟に」「算数を」など格を表す部分は、述語の動詞「教える」にかかる連用修飾語ということになる。また、「算数をみっちり教える。」「算数を熱心に教える。」という文の「みっちり」「熱心に」なども、「教える」にかかる連用修飾語である。ただし、「弟に」「算数を」などの成分を欠くと、基本的な事実関係が伝わらないのに対し、「みっちり」「熱心に」などの成分は、欠いてもそれほど事実の伝達に支障がない。ここから、前者は文の根幹をなすとして補充成分と称し、後者に限って修飾成分と称する説もある[50]。国語教科書でもこの2者を区別して説明するものがある。
+連体修飾語
+
+体言に係る修飾語である（体言については「自立語」の節を参照）。「私の本」「動く歩道」「赤い髪飾り」「大きな瞳」の「私の」「動く」「赤い」「大きな」は連体修飾語である。鈴木重幸・鈴木康之・高橋太郎・鈴木泰らは、ものを表す文の成分に特徴を付与し、そのものがどんなものであるかを規定（限定）する文の成分であるとして、連体修飾語を「規定語」（または「連体規定語」）と呼んでいる。
+接続語
+
+「疲れたので、動けない。」「買いたいが、金がない。」の「疲れたので」「買いたいが」のように、あとの部分との論理関係を示すものである。また、「今日は晴れた。だから、ピクニックに行こう。」「君は若い。なのに、なぜ絶望するのか。」における「だから」「なのに」のように、前の文とその文とをつなぐ成分も接続語である。品詞分類では、常に接続語となる品詞を接続詞とする。
+独立語
+
+「はい、分かりました。」「姉さん、どこへ行くの。」「新鮮、それが命です。」の「はい」「姉さん」「新鮮」のように、他の部分に係ったり、他の部分を受けたりすることがないものである。係り受けの観点から定義すると、結果的に、独立語には感動・呼びかけ・応答・提示などを表す語が該当することになる。品詞分類では、独立語としてのみ用いられる品詞は感動詞とされる。名詞や形容動詞語幹なども独立語として用いられる。
+並立語
+
+「ミカンとリンゴを買う。」「琵琶湖の冬は冷たく厳しい。」の「ミカンとリンゴを」や、「冷たく厳しい。」のように並立関係でまとまっている成分である。全体としての働きは、「ミカンとリンゴを」の場合は連用修飾部に相当し、「冷たく厳しい。」は述部に相当する。
+目的語と補語
+
+現行の学校文法では、英語にあるような「目的語」「補語」などの成分はないとする。英語文法では「I read a book.」の「a book」はSVO文型の一部をなす目的語であり、また「I go to the library.」の「the library」は前置詞とともに付け加えられた修飾語と考えられる。一方、日本語では、
+
+    私は本を読む。
+    私は図書館へ行く。
+
+のように、「本を」「図書館へ」はどちらも「名詞+格助詞」で表現されるのであって、その限りでは区別がない。これらは、文の成分としてはいずれも「連用修飾語」とされる。ここから、学校文法に従えば、「私は本を読む。」は、「主語‐目的語‐動詞」(SOV) 文型というよりは、「主語‐修飾語‐述語」文型であると解釈される。
+対象語（補語）
+
+鈴木重幸・鈴木康之らは、「連用修飾語」のうち、「目的語」に当たる語は、述語の表す動きや状態の成立に加わる対象を表す「対象語」であるとし、文の基本成分として認めている。（高橋太郎・鈴木泰・工藤真由美らは「対象語」と同じ文の成分を、主語・述語が表す事柄の組み立てを明示するために、その成り立ちに参加する物を補うという文中における機能の観点から、「補語」と呼んでいる。）
+状況語
+
+「明日、学校で運動会がある。」の「明日」「学校で」など、出来事や有様の成り立つ状況を述べるために時や場所、原因や目的（「雨だから」（「体力向上のために」など）を示す文の成分のことを「状況語」とも言う（鈴木重幸『日本語文法・形態論』、高橋太郎他『日本語の文法』他）。学校文法では「連用修飾語」に含んでいるが、（連用）修飾語が、述語の表す内的な属性を表すのに対して、状況語は外的状況を表す「とりまき」ないしは「額縁」の役目を果たしている。状況語は、出来事や有様を表す部分の前に置かれるのが普通であり、主語の前に置かれることもある。なお、「状況語」という用語はロシア語・スペイン語・中国語（中国語では「状語」と言う）などにもあるが、日本語の「状況語」と必ずしも概念が一致しているわけではなく、修飾語を含んだ概念である。
+修飾語の特徴
+
+日本語では、修飾語はつねに被修飾語の前に位置する。「ぐんぐん進む」「白い雲」の「ぐんぐん」「白い」はそれぞれ「進む」「雲」の修飾語である。修飾語が長大になっても位置関係は同じで、たとえば、
+
+    ゆく秋の大和の国の薬師寺の塔の上なるひとひらの雲
+    —佐佐木信綱
+
+という短歌は、冒頭から「ひとひらの」までが「雲」に係る長い修飾語である。
+
+法律文や翻訳文などでも、長い修飾語を主語・述語の間に挟み、文意を取りにくくしていることがしばしばある。たとえば、憲法前文の一節に、
+
+    われらは、いづれの国家も、自国のことのみに専念して他国を無視してはならないのであつて、政治道徳の法則は、普遍的なものであり、この法則に従ふことは、自国の主権を維持し、他国と対等関係に立たうとする各国の責務であると信ずる。
+
+とあるが、主語（題目）の「われら」、述語の「信ずる」の間に「いづれの国家も……であると」という長い修飾語が介在している。この種の文を読み慣れた人でなければ分かりにくい。英訳で "We hold…"（われらは信ずる）と主語・述語が隣り合うのとは対照的である。
+
+もっとも、修飾語が後置される英語でも、修飾関係の分かりにくい文が現れることがある。次のような文は「袋小路文」(en:garden path sentence) と呼ばれる。
+
+    The horse raced past the barn fell.（納屋のそばを走らされた馬が倒れた。）
+
+この場合、日本語の文では「馬」に係る連体修飾語「納屋のそばを走らされた」が前に来ているために文構造がわかりやすいが、英語では「The horse」を修飾する「raced past the barn」があとに来ているために、構造が把握しづらくなっている。具体的には、この英文の途中「The horse raced past the barn」までしか読んでいない状況では、文の成分としての動詞（主語は「The horse」）は「raced」であるように感じられるが、「fell」まで行き着くと、文の成分としての動詞は、文法上、これまで唯一の候補だった(1)「raced」に加え、(2)「fell」が出てくることになり、それぞれの候補ごとに(1)「【（習慣的に、または一般法則に従って[注 7]）崩れる納屋】のそばを馬が素早く走り抜けた」なのか(2)「納屋のそばを走らされた馬が倒れた」なのかを検討しなければならなくなる。 
+
+品詞体系
+
+名詞や動詞、形容詞といった「品詞」の概念は、上述した「文の成分」の概念とは分けて考える必要がある。名詞「犬」は、文の成分としては主語にもなれば修飾語にもなり、「犬だ」のように助動詞「だ」を付けて述語にもなる。動詞・形容詞・形容動詞も、修飾語にもなれば述語にもなる。もっとも、副詞は多く連用修飾語として用いられ、また、連体詞は連体修飾語に、接続詞は接続語に、感動詞は独立語にもっぱら用いられるが、必ずしも、特定の品詞が特定の文の成分に1対1で対応しているわけではない。
+
+では、それぞれの品詞の特徴を形作るものは何かということが問題になるが、これについては、さまざまな説明があり、一定しない。俗に、事物を表す単語が名詞、動きを表す単語が動詞、様子を表す単語が形容詞などといわれることがあるが、例外がいくらでも挙がり、定義としては成立しない。
+
+橋本進吉は、品詞を分類するにあたり、単語の表す意味（動きを表すか様子を表すかなど）には踏み込まず、主として形式的特徴によって品詞分類を行っている[51]。橋本の考え方は初学者にも分かりやすいため、学校文法もその考え方に基づいている。
+
+学校文法では、語のうち、「太陽」「輝く」「赤い」「ぎらぎら」など、それだけで文節を作り得るものを自立語（詞）とし、「ようだ」「です」「が」「を」など、単独で文節を作り得ず、自立語に付属して用いられるものを付属語（辞）とする。なお、日本語では、自立語の後に接辞や付属語を次々につけ足して文法的な役割などを示すため、言語類型論上は膠着語に分類される。 
diff --git a/benches/texts/korean.txt b/benches/texts/korean.txt
new file mode 100644
index 0000000..f0c2e29
--- /dev/null
+++ b/benches/texts/korean.txt
@@ -0,0 +1,243 @@
+한국어
+위키백과, 우리 모두의 백과사전.
+
+한국어(韓國語)(Korean)는 대한민국과 조선민주주의인민공화국의 공용어로, 대한민국에서는 한국어 또는 한국말이라고 부르고, 조선민주주의인민공화국에서는 조선어 또는 조선말이라고 부른다. 한국과 북한에 비해서 인구는 적지만 중국 옌볜 조선족 자치주도 사용한다.
+
+해외 이주에 의해 일본, 미국, 중화인민공화국, 러시아, 우즈베키스탄, 캐나다, 오스트레일리아, 필리핀, 베트남 등 세계 여러 지역에 한민족 인구가 거주하게 되면서 전세계 각지에서 한국어가 사용 되고 있다. 2016년 1월 초 기준으로 한국어 사용 인구는 대부분이 대한민국과 조선민주주의인민공화국에 거주중이며 약 8000만 명으로 추산된다.[1]
+
+한국어의 계통에 관해서는 옛부터 알타이어족으로 분류하는 학설이 힘을 얻었다. 현재 언어학계에서는 주변 언어와 관계가 확인되지 않는 고립어[10][6][4], 또는 제주어를 포함하는 독자적인 한국어족에 속한다고 보는 학자들도 존재한다. 반면에 한국의 주류 학계는 몽골어, 터키어, 카자흐어와 같은 알타이어족에 속한다는 가설을 주로 받아들인다. 그러나 고립어 역시 다른 고립어와는 궤가 조금 다르고 한국어족도 제주어를 방언으로 포함시킬지 언어로 포함시킬지에 대한 의견이 갈라져 논거가 부족하며 한국어의 계통은 여전히 논란이 분분한 주제로, 역사언어학계에서 지속적인 연구가 이루어지고 있다. 
+
+한국어의 여러 명칭
+
+'한국어'는 대한민국에서 쓰는 명칭이고 조선민주주의인민공화국에서는 조선말이라고 한다. 대한민국과 조선민주주의인민공화국이 공동으로 만드는 사전의 이름은 《겨레말 큰사전》이다. 1994년부터 열리는 남북한 간의 한글과 한국어 컴퓨터 처리를 표준화하려는 학회명은 '코리안 컴퓨터처리 국제학술대회'이다. 
+
+일본에서는 한국어를 '쵸센고(조선어)'라고 불렀으나, 근래에는 '칸코쿠고(한국어)'라고 부르는 경향이 강하다. 일본 내의 교포 사회는 재일본대한민국민단과 재일본조선인총련합회로 갈라져 각각 표준어와 문화어를 지지하는 경향이 있으므로 NHK는 중립성을 담보하기 위해 한국어 회화 명칭을 '칸코쿠고(한국어)', '쵸센고(조선어)' 대신 '한구루 고자'(일본어: ハングル講座, 한글 강좌)[11]라고 하였다. 그 밖에도 중립성을 고려하여 칸코쿠ㆍ조센고(韓国・朝鮮語, 한국ㆍ조선어)'고리아고'(일본어: コリア語, 코리아어)나 '가라노쿠니노코토바'(일본어: 韓の国のことば, からのくにのことば, 한나라말) 등의 명칭을 쓰기도 한다. '코리아고(코리아어)'는 1977년 조치 대학이 처음으로 전공 학과를 개설한 이후 일부 대학교에서 쓴다. 또한 학계에서는 조선민주주의인민공화국에서 쓰이는 것을 조선어, 대한민국에서 쓰이는 것을 한국어로 구별하여 둘 다 포함하는 말로 (광의의) 조선어라고 한다.
+
+일본과 중화인민공화국은 한국어를 가리키는 명칭으로 조선어(朝鮮語)가 주로 사용되어 왔으나, 최근에는 한국어(韓國語)로 부르는 경우가 훨씬 많아졌다. 중화인민공화국은 조선민주주의인민공화국과의 밀접한 관계에 따라 한국어를 주로 '챠오셴위(중국어: 朝鲜语, 병음: Cháoxiǎnyǔ, 조선어)'라고 불렀으나, 1992년 대한민국과의 수교 이후에 양국이 활발한 교류를 하게 되면서 한중교류 상황이나 사회 각층 민간 생활중에서 '한궈위(중국어: 韩国语, 병음: Hánguóyǔ, 한국어)' 또는 '한위(중국어: 韩语, 병음: Hányǔ, 한어)' 등의 명칭이 자주 쓰인다. 학술상으로는 문화어 계열 어휘를 많이 사용하지만, 북경대, 북경외대, 상해외대를 비롯한 중국 대부분의 한국어(조선어)학과에서는 학과 명칭은 조선어로 하고 강의 내용은 99% 이상 대한민국 서울 표준어를 가르치고 있다. 중화민국(타이완)은 한국어를 '한궈위(중국어: 韓國語, 병음: Hánguóyǔ, 한국어)'나 '한위(중국어: 韓語, 병음: Hányǔ, 한어)'로 부른다.
+
+베트남에서의 용법은 중화인민공화국과 거의 비슷하다. 현재는 한자를 사용하지 않지만, 과거에 한자도 어느 정도 사용하던 베트남은 한국을 '쩨우띠엔'(베트남어: Triều Tiên, 朝鮮)이라고 불렀고, 대한민국은 '남쩨우띠엔'(베트남어: Nam Triều Tiên, 南朝鮮), 한국어는 '띠엥쩨우띠엔'(베트남어: Tiếng Triều Tiên, 朝鮮語)으로 불렀다. 한국에 관련된 일반 어휘는 문화어 계열의 어휘가 더 많이 쓰였다. 대한민국의 표준어는 '띠엥한'(베트남어: Tiếng Hàn, 韓語)이라고 부른다. 베트남어 위키백과에는 한국어 문서의 제목이 '한국어'를 뜻하는 '띠엥한꾸억'(=(베트남어: Tiếng Hàn Quốc, 韓國語)으로 표기되어 있다.
+
+한편, 한국어는 영어로 'Korean', 프랑스어로 'Coréen', 스페인어로는 'Coreano'로 불린다.
+계통
+
+한국어의 계통에 대해서는 여전히 정설이 성립하여 있지 않다. 근대에 핀란드의 언어학자 구스타프 욘 람스테트(Gustaf John Ramstedt)가 대어족 가설인 알타이어족설을 제시할 때 한국어를 포함한 것을 시작으로 예프게니 폴리바노프, 로이 앤드류 밀러 등 20세기 중반 많은 언어학자들에게서 해당 가설이 지지받았다. 또한 다양한 언어학자들에 의해 부여어족 가설로서 한국어와 일본어의 동계설도 주장되었다. 한국어는 언어유형학적으로 어형변화가 많은 교착어이며 어형변화가 없고 문법적 관계가 어순에 의해 표시되는 고립어와 다르다.
+
+한국어의 유래와 함께 그 발달 과정도 베일에 싸여 있는데, 중세 한국어 이전의 기록이 극도로 부족하다는 점, 그리고 고대 한국어의 기록이 한자로 되어 있어 그 해석에 따라 음이 크게 달라질 수 있다는 점 등이 연구를 더욱 어렵게 만들고 있다. 때문에 고대 한반도 언어를 연구하는 데에 있어서 지명학적 흔적은 크게 유의미하다.[12] 한국어가 만주 등 북방 지역에서 유래하였다는 학설은 퉁구스어족에서 고대 한국어의 흔적이 나타나고 역으로 한국어 음운에서도 고시베리아제어와의 접촉 흔적이 개연적으로 나타난다는 점에서 유력하다.[12][13]
+
+한편 하위 계통으로서는 이기문 등이 정립한 한-부여 분류가 국내외 학계에서 일반적으로 받아들여진다. 한-부여 분류는 고대 한반도 지역에서 사용된 언어의 분류로, 고구려어, 백제어를 포함하는 부여계 제어와 신라어를 포함하는 한계 제어로 이루어진다.[14] 다만 학자에 따라 그 차이가 방언 수준에 지나지 않았을 것으로 추측하기도 하며, 이런 경우 이 분류는 편의상의 구분에 지나지 않게 된다. 한편 크리스토퍼 벡위스는 부여계 언어가 신라어와 완전히 달랐으며 일본어와 연관되어 있다는 부여어족 가설을 주장하였으나 여러 오류가 지적되어 보통 받아들여지지 않는다.
+알타이어족설
+
+한국어가 몽골어, 퉁구스어, 터키어 등과 함께 알타이어족에 속한다고 보는 견해이다. 역사적으로 유력설로 지지 받는다. 현대에는 형태, 음운의 유사성 때문에 편의상 '알타이 제어'로 분류되기도 한다. 한국어가 알타이어족에 속한다는 근거는 음운론에서 모음조화라는 공통점이 있으며 형태론에서 교착어이며 수와 격이 일치하는 통사론에서 공통점이 있기 때문이다.
+
+한국어를 알타이어족으로 분류한 것은 구스타프 욘 람스테트[2]가 최초이자 대표적으로, 이후 여러 학자들에 의해 수용되면서 널리 알려지게 되었고 한국 학계에서도 한동안 정설로 받아들이게 되었다. 한국어를 알타이어족의 하나로 보는 입장에서는 한국어의 다음과 같은 속성을 근거로 든다.
+
+    모음조화가 존재한다.
+    용언에 굴절이 있는 교착어이다.
+    주어, 목적어, 동사의 어순을 가지는 S-O-V 어순의 언어이다.
+    그 외 속격 등 문법적 어순이 같다.
+    어두에 특정 자음이 쓰이지 않는 법칙이 존재한다.
+    모음교체, 자음교체, 문법적 성(性), 어두자음군이 없다.
+    관계대명사와 접속사가 없고 접속사의 결여를 보충하기 위해 부동사를 사용한다.[15]
+
+그러나 한국어는 알타이어족이 가지는 전형적인 특성 외에 다른 특성을 공유하지 못하기도 한다. 이는 한국어가 조기에 알타이조어에서 분리되었다는 가설을 성립하게 하였다. 한국어가 알타이어족에 속하는 언어임을 부정하는 주장은 다음과 같다.
+
+    기초 어휘가 거의 일치하지 않는다.
+    음운대응의 규칙성이 정확하지 않다.
+
+대한민국의 중등교육에서는 알타이어족과 가까운 관계에 있다고 가르치고 있다.[16][17] 이 때문에 많은 한국인은 한국어를 알타이어족으로 보는 견해가 있다.
+
+마르티너 로베이츠 등 일부 학자들은 한국어와 일본어를 우선적으로 묶고, 몽골어족, 퉁구스어족, 튀르크어족의 조사나 기초 어휘에서 서로 간의 상당한 유사점이 발견된다며 대어족의 '극동아시아어족'이 성립한다는 가설을 새로이 주창하고 있다. 또한 마셜 엉거(J. Marshall Unger)는 한국어-일본어-퉁구스어의 공통 조어를 예측하면서 주목받기도 했다. 이러한 연구는 알타이어족 가설의 재주장과 무관하지 않다.
+고립어설
+
+몇몇 학자들은 한국어족을 고립어(language isolate)로 분류한다. 대표적으로 영국 맨체스터 대학교의 알렉스 버라타 교수[8], 케임브리지 대학교의 스테판 게오르크[10], 유타 대학교의 마우리시오 믹스코 교수[4]가 고립어설을 지지한다. 한국어를 고립어로 분류하는 언어학자들은 알타이어족과 한국어의 공통 어휘가 적거나 재구하기 어렵다는 점을 든다. 그러나 대부분의 고립어는 외부 접촉이 적은 고립된 곳에서 매우 적은 화자들이 사용하는데, 한국어는 8천만 명 가까이 모국어로 사용하기에 고립어로 분류하기에는 어렵다는 지적이 제기된다. 또한 한국어가 알타이어족과 공통 어휘가 적다는 것은 현재 한국어의 한 부분을 담당했던 부여어족의 기록이 적기 때문이므로, 기록이 더 발견되면 주장이 달라질 수 있기에 이들의 의견에 대해서는 논쟁이 존재한다.
+
+한편, 유네스코 등 일부 단체나 학회에서는 표준어와 차이가 큰 제주 방언을 제주어로 분리하여 한국어족이라고 주장하기도 한다.
+한국어와 일본어의 관계
+
+일본어와 한국어의 연관은 과거부터 여러 학자에 의해 지적된 것으로, 특히 문법이나 어휘의 유사성에서 창안된 설이다. 다만 고대 한국어 자료가 부족하여 둘 간의 실제 연관은 가설 단계에 머물러 있다. 이노우에 키요시(井上 淸)는 언어에서 중요한 1인칭에 주목했다. 일본 고어에서 1인칭은 나(汝)라는 한자를 사용하며 나(な)라고 읽었는데 일본의 1인칭 고어가 한국어의 1인칭인 "나"와 동일하다. 일본어의 1인칭이 동일한 곳은 중국 남부나 북부가 아닌 한국이라고 주장하였다.[18] 또한 예를 들면 나라 시대의 하타노히로타리(波多広足)에서 다리를 뜻하는 타리(足)가 한국어의 "다리"와 동일하다는 식의 대응이 어휘 일치의 근거로 거론된다. 이노우에 키요시는 일본어가 친족관계를 가질 가능성이 있는 것은 오직 한국어뿐이며, 만일 그렇다면 공통의 조어에서 갈라진 시기를 언어연대학으로 조몬시대 중기 이전으로 추정했다.[19] 하지만 한국어와 일본어에 유사성이 있는 이유는 한국인 도래인이 일본에 건너가서 정착하였기 때문이라는 주장도 있다.
+
+크리스토퍼 벡위스(Christopher I. Beckwith)는 고구려어의 어휘에서 일본어와 비슷한 점이 보인다며 신라어를 포함하지 않는 부여어족의 성립을 주장하였으나[20] 주류 학계에서는 받아들여지지 않고 현재 소수설로 머물러 있다. 알렉산더 보빈은 부여어족의 근거로 들리는 지명 어휘의 일치는 한국어족 어휘가 아니며 고구려어가 들어오기 전 한반도 남부에 잔존한 일본어족 언어의 흔적일 뿐이라고 반박하였다.
+비알타이어 기층설
+
+소수 가설 중 하나로 대한민국의 언어학자 김방한은 비알타이어 기층설을 주장한다. 김방한은 한국어 기층에 원시 한반도어라고 부르는 정체불명의 비알타이어 기층이 있고, 그 위에 알타이어계 요소가 덮인 것이거나, 그 반대로 비알타이어가 알타이 기층에 덮여서 한국어의 뼈대가 형성되었다고 보았다. 그는 원시 한반도어와 계통적 친연성이 있는 언어로 편의상 고시베리아어족으로 분류되어 있는 니브히어(길랴크어)를 지목하였다. 이후 유하 얀후넨은 한국어와 니브흐어 간의 파열음 일치를 들어 고대에 접촉이 있었을 가능성이 있다고 보았다.
+기타
+
+한국어가 인도유럽어족에 속한다는 가설은 19세기에서 20세기 후반까지 일부 언어학자들이 주장한 것으로[21], 주된 논거는 인도유럽어족에 속하는 산스크리트어와 한국어가 유사하다는 것이었다. 그러나 연구가 진행됨에 따라 어순과 어휘가 일치하지 않는다는 논거로 대부분 부정되었다.
+
+이외에 일부 어휘의 일치나 문법의 유사성을 근거로 인도 남부의 드라비다어족과의 연관성을 제시하는 학설도 존재하나 일반적으로 받아들여지지 않는다. 
+
+형태 음소론
+
+조사의 형태는 앞의 소리의 영향을 받을 수 있다. 은/는, 이/가, 을/를과 같이 음절이 바뀌는 경우도 있고, 에서/서, 으로/로와 같이 음절이 끼어드는 경우도 있다. 은/는, 이/가, 을/를의 경우, 모음이 연쇄되는 것을 피하고자 자음이 삽입되는 규칙적인 경우이나, 와/과, 으로/로의 경우는 예외적이다. 으로/로는 ㄹ 뒤에서 독특한 분포를 보인다. 와/과 역시 중세 한국어에서는 으로/로와 마찬가지로 ㄹ뒤에서 '와'가 쓰이는 독특한 분포를 보였으나 현대한국어에서는 그렇지 않다. 와/과의 경우 이중모음/ㅘ/가 모음이 아니라는 점에서 모음 연쇄 환경이 아니고 사용빈도에 따라 분포가 설명된다.[22]
+
+형태 음소론적 차이는 일부 동사에서도 관찰된다. 
+
+문법
+
+한국어는 어근과 접사 등 특정 표지가 붙음에 따라 단어의 기능이 결정되는 교착어로 분류된다. 특히 조사에 따라 문법적 격이 정해지며 이 때문에 고립어에 비해 어순이 비교적 유동적이기는 하나, 일반적으로 SOV형 어순, 곧 주어-목적어-동사의 구조를 가지고 있다. 또한 일반적인 경우 서술어는 반드시 문장의 끝에 위치하여야 한다.
+
+조사는 문법적 격을 나타내는 격조사, 단어끼리 이어주는 접속조사, 특별한 의미를 가하는 보조사로 나뉘며, 조사가 붙는 체언이 개음절인지 폐음절인지에 따라 다른 조사가 붙기도 한다. 일례로, '사람'의 뒤에 붙는 주격 조사는 '이'이나, '머리' 뒤에 붙는 주격 조사는 '가'이다.
+
+어미가 다양한 것이 특징적으로, 문장 내에서 기능이나 수식은 물론 미묘한 분위기에까지 영향을 끼치기도 한다. 특히 주로 종결 어미나 선어말 어미에 따라 드러나는 낮춤말과 평어, 높임말의 복잡한 존비어 체계가 특징적으로, 화자 간에 존댓말(높임말)과 반말(낮춤말, 평어)에 대한 합의가 명확하게 이루어지지 않은 상태에서는 의사소통에 있어서 어색한 상황이 발생한다.[23] 이러한 언어와 호칭선택 문제 때문에 갈등과 권위적 상황이 유발되기도 한다는 분석도 있다.[24]
+
+용언은 동사와 형용사를 포함하는데, 둘의 어미 변화가 거의 동일하다는 특징이 있다. 용언의 기본형은 모두 종결어미의 일종인 '-다'로 끝나는 것으로 취급되며, 그 기능에 따라 조금씩 변하나 대부분의 경우 여전히 '다'로 끝나 문장의 끝을 암시하게 된다. 그 시제는 현재, 과거, 미래형으로 나뉘며, 이 또한 동사의 종류나 기능에 따라 다양한 어미로 나타난다. 
+
+어휘
+
+한국어의 어휘는 크게 고유어 ("순우리말"), 한자어, 외래어로 분류된다. 고유어는 한국어의 기층을 형성하는 고유의 어휘로, 사용 빈도가 높은 일상어는 대부분 고유어에 속한다. 음운적으로 ㄹ 소리로 시작되는 토착 어휘는 거의 없으며, 이는 알타이 제어의 음운론적 특징의 하나이기도 하다.
+
+한국어에 한자의 비율은 일반적으로 한자의 비율이 50%라고 하는 잘못된 설이 세간에 퍼져 있으나 이는 일제강점기에 가능한 한 많은 영어와 독일어인 현대어 낱말들을 한자로 표기하면서 (예를 들어 Society=사회) 과장된 것이라는 주장이 있다.[25] 또한, 국어사전이 수록하는 한자어의 상당수는 한문 문장에만 용례가 있고, 한국어에서는 용례가 발견되지 않는 단어들이다. 국립국어연구원이 2002년 발표한 '현대 국어 사용 빈도 조사'를 보면 우리말의 낱말 사용 비율은 토박이말이 54%, 한자어 35%, 외래어가 2%였다.
+
+외래어라 하면 일반적으로 한자외의 외국어에서 유래한 어휘를 가리킨다. 근대 이전에는 불경을 통하여 간접 차용된 산스크리트어(한자어 형태)를 비롯하여 몽골어에서 두 개의 단어가 차용어로 쓰였으며 (예를 들어 송골매), 일제강점기에는 영어와 독일어의 현대어를 한자로 차용하여 사용한 것들이 있다. 독일어, 프랑스어, 스페인어, 포르투갈어, 네덜란드어 등 소수의 인도유럽어족의 어휘가 일본을 통하여 들어왔으나 현재 사용 빈도는 매우 적다. 예를 들어 "Part time job"이라는 말을 일본에서 쓰던 독일어인 "아르바이트(Arbeit)"라고 부르며 원래의 아르바이트의 의미와 다르게 쓰인 말들이 있다. 현대에는 영어가 영향력을 발휘하게 되면서 영어로부터의 많은 차용어들이 쓰이고 있다. 
+
+문자
+
+한반도에서 처음 사용된 문자체계는 한자이다. 한문 유입 이후, 고유명사 표기 등 한국어 표기의 필요성이 대두하였으며, 1934년 경주에서 발견된 임신서기석(壬申誓記石)은 어순이 한문 어순이 아닌 한국어 어순에 따라 배열되어 한자를 이용하여 한국어를 표기하기 위한 여러 고안이 행해졌음을 알 수 있다. 이 임신서기석에 사용된 변칙한문체를 서기체(誓記體) 또는 의국체(擬國體)라고 한다.
+
+단음절어이며 고립어인 한자는 다음절어이면서 교착어인 한국어의 표기에 적합하지 않아 한자를 이용하여 한국어를 표기하는 방법 중에서 이두, 구결이 있었으며 향찰은 소멸하였다. 한글이 만들어지기 전에는 한국어를 표기하기보다는 문어체의 한문을 고수하려는 경향이 있었기 때문에, 구어(한국어)와 문어(한문)의 이중체계가 오랫동안 지속하였다. 현재 한국어 표기에 쓰이는 문자인 한글은 세종대왕이 창제하여 훈민정음이라는 이름으로 1446년에 반포한 것이다.
+
+훈민정음 창제 원리에 대한 설이 여러 가지 있었으나, 1940년에 《세종어제훈민정음》이 발견되면서 발성 기관을 본떠 만들어졌다는 것이 밝혀졌다. 정인지는 훈민정음 반포 서문에서 "계해년 겨울에 우리 전하께서 비로소 정음 28자를 창제하시다"(癸亥冬, 我殿下創制正音二十八字.)라고 적고 있다.
+
+한글을 이후 조선에서 소설이나 편지등에서도 많이 사용되었다. (국한문혼용) 현재 대한민국에서는 한글이 공식문자이고, 일부 한자어는 한자를 괄호에 넣어 병기(竝記)하기도 하지만 한자의 사용은 갈수록 줄어드는 추세이다. 조선민주주의인민공화국과 중국 연변 조선족 자치주, 구 소련 지역에서는 한자를 거의 쓰지 않고 가급적 순한글로 한국어를 표기한다.
+
+1930년대 초반 소련에서는 여러 소수 민족 언어를 대상으로 한 로마자 표기 정책의 일환으로 한국어를 로마자로 표기하는 방안을 승인했지만, 실제 로마자 표기안이 마련되어 생활에 적용되지는 않는 것으로 보인다. 이는 한국어 문자생활에서 로마자로 한글·한자를 대체하려던 방안으로 외국인들을 위한 한국어 고유명사의 표기에 쓰는 현재의 로마자 표기 규범과는 큰 차이가 있다. 다만, 현대 한국어에서는 로마자 두문자어 표기와 일부 고유 명사 표기에 로마자를 제한적으로 사용하고 있기도 하다.
+
+방언
+
+한국어의 방언은 경기 방언, 영동 방언, 서북 방언, 충청 방언, 서남 방언, 동남 방언, 동북 방언, 재미 한국어, 재중 한국어, 재일 한국어 등으로 나눈다. 경기 방언과 충청 방언을 중부 말로 합쳐 일컫기도 한다. 모든 방언이 서로 의사소통이 가능한 정도의 차이를 보인다. 대한민국의 표준어는 경기 방언을 바탕으로 하고 있고 조선민주주의인민공화국의 표준어인 문화어는 서북 방언을 바탕으로 하고 있다. 최근에는 미국 등 영어 사용 국가로의 이민이 늘어나면서 이민 2세와 같이 영어를 모국어로 하는 한국계 외국인들이 영어를 번역한 듯한 한국어(번역체)를 사용하기도 한다.[26]
+
+한국어의 남북 간 차이
+
+대한민국과 조선민주주의인민공화국은 약 80년 가까이 분단된 만큼 언어상의 특징도 소수의 다른 점이 있다. 하지만 서로 의사소통에는 전혀 문제는 없으며 소수의 단어를 빼고서는 모든 언어와 문법이 일치한다. 가령 조선민주주의인민공화국에서는 건데기나 지팽이와 같이 'ㅣ'의 모음 역행 동화를 인정하는 경향이 크며, 대한민국에서 인정하는 두음 법칙이 관찰되지 않기 때문에 여자, 염원, 노동 대신 녀자, 념원, 로동과 같은 낱말을 사용한다.
+
+대한민국에서는 상황에 따라 다양한 성격의 문체나 구어체를 활용하고, 조선민주주의인민공화국에서는 어감이 강한 표현을 많이 쓴다. 또, 조선민주주의인민공화국에서는 '찔리우다'와 같이 대한민국보다 보조용언을 겹쳐 쓰는 경우가 많으며, 접미사 '들'을 많이 쓰는 경향도 있다.
+
+어휘 면에서는 특히 많은 차이를 보이며, 외래어 수용에 큰 거리낌이 없는 대한민국에 반해, 조선민주주의인민공화국에서는 말다듬기로 순수 한글을 많이 사용하지만 과거 아이스크림을 순수 한글로 변형시킨 '얼음보숭이'를 쓰던 것에 비하면 오늘날 대부분 '아이스크림'이라고 쓰는 것을 볼 때, 외래어도 어느 정도 받아들이는 추세다.
+외국어로서
+
+미국, 일본, 중국, 프랑스, 폴란드, 카자흐스탄, 러시아 등지에서는 한국어를 배우려는 사람들이 많이 있다. 이는 대한민국의 경제 성장에 따른 국제적 위상의 확대와 한류 등의 문화적 영향력의 전파에 힘입은 바가 크다. 과거에는 영어, 일본어 등 유럽, 미주 및 일본을 중심으로만 한국어 학습용 교재가 발간되었으나, 근래에는 한국어 학습 동기의 다변화와 국내 외국인 수의 증가로 중국어, 타이어, 인도네시아어, 베트남어 등 다양한 언어로 한국어 교재가 발간되고 있다.
+
+미국 정부회계감사원이 발표한 '미국 국무부 외국어 직무수행 평가서'에 따르면 일본어, 중국어, 아랍어와 더불어 한국어를 미국인이 가장 배우기 힘든 언어(superhard language)로 분류하고 있는데, 이는 인도유럽어족인 영어와 한국어의 여러 상이점에 따른 것이다.[27] 한국어를 배우는 대부분의 외국인은 한국어를 학문으로서 배운다는 의견도 존재한다.[28]
+한국어 검정시험
+대한민국
+
+대한민국에는 현재 한국어 능력을 검정하기 위한 시험이 몇 가지 있다. 한국어능력시험(Test Of Proficiency in Korean ; TOPIK), 국어능력인증시험(Test of Korean Language;TOKL), KBS 한국어능력시험(Korean Language Test) 등이 있다.
+
+    한국어능력시험(TOPIK)
+
+        국립국제교육원이 주최하고 교육과학기술부가 인정하는 자격시험으로 매년 4월과 9월에 시행된다. (대한민국에서는 2007년부터, 일본에서는 2008년부터 연 2회 볼 수 있게 되었다) 한글능력검정시험과 달리 1, 2급이 초급이고 3, 4급이 중급, 5, 6급이 고급단계이다. 대한민국, 일본 외에 세계 28개국에서 실시되는 국제적 시험이다. 외국인이 유학으로 대한민국의 대학교, 대학원에 입학할 때 이 시험의 성적증명서 제출이 요구되는 경우가 많다. 또한, 대한민국의 많은 외국인 대상 어학당(어학원)에서 이 시험의 결과로 반을 편성하며 TOPIK의 시험을 위해 공부를 가르친다. TOPIK 시험은 듣기, 읽기, 쓰기로 되어 있다. TOPIK에 말하기 평가가 신설될 수 있다는 뉴스가 계속 나왔었고 현재는 말하기 평가가 아직 신설되지 않았으나 2019년에 해외에서 "말하기 평가"의 모의시행이 열리고 2023년부터 TOPIK에 말하기 평가가 신설되어 2023년부터는 말하기 평가, 듣기, 읽기, 쓰기로 시험이 진행된다.[29]
+
+    세계한국말인증시험[30](KLPT)
+
+        한글학회가 주최하는 자격시험으로 4월 10월에 시행된다. 2006년까지는 1,4,7,10월의 연 4회 시행되었으나, 2007년부터 연 2회로 단축되었다. (수험자 수가 적은 것이 원인으로 추측된다) 평가는 500점 만점의 점수제로 토익과 같은 형태이다.
+
+    한국어 레벨테스트(KLT)
+
+        점수제이고 1000점 만점이다. 시험시간은 90분이고 비교적 단시간에 시험을 볼 수 있다. 한국,일본외에 중국과 미국에서도 수험이 가능하다. 2004년부터 개시되었지만 2009년 1월 시험 시행이 정지되었다.
+
+일본에서의 한국어 시험
+
+일본의 네 가지 한국어 시험 가운데 일본에서 비교적 널리 알려진 시험은 한글능력검정시험과 한국어능력시험이다. 한글능력검정시험을 뺀 나머지 모든 시험은 대한민국 표준어 시험이기 때문에 표준어가 기준이며, 이와 다른 문화어의 맞춤법이나 어법은 오답으로 처리된다. 이외 일본의 대학 입시 센터 시험에는 2002년부터 한국어가 포함되었다.
+
+    한글능력검정시험
+
+        일본의 특정 비영리법인 한글능력검정협회가 주최하는 자격시험으로 6월경(연 2회)에 실시한다. 일본의 한국어 학습자에게 가장 잘 알려진 시험이다. 5급이 가장 낮은 급수이고 4급<3급<준2급<2급<1급순으로 급수가 올라간다. 일본국내에서만 통용되며 등급이 영어검정(일본)시험과 거의 같으므로 영어검정시험과 비교 대조되는 경우가 있다. 2006년부터 "준 1급"이 없어졌다. 1, 2급은 문제의 지문을 포함하여 모든 글이 한국어로 표기되어 있다. 또한, 이 시험은 답을 적을 때 대한민국이든 조선민주주의인민공화국이든 어느 한쪽으로 일관성 있게 통일되어 있으면 정답으로 간주한다. 근래 한류 붐의 영향으로 초급 수험자는 상당히 증가했으나 반대로 1, 2급 등 고급 레벨에서는 수험자 수가 매우 적다. 2004년 전후에 상급의 시험 문제는 난도가 계속 상승하는 반면, 3급 이하의 급수는 합격률이 90%를 넘나들게 쉬워지는 현상이 일어났다. 그러나 2006년 다시 출제 기준과 난이도 조정이 이루어진 결과, 낮은 급수도 난도가 대폭 상승하여 현재에 이른다. 이러한 난이도의 유동에 따라 자격시험으로서 신뢰도가 떨어진다는 지적도 있다.[출처 필요]
+
+인터넷에서의 한국어
+한국어 문서가 전 세계 웹에서 차지하는 비중은 2004년에 4.1%로, 이는 영어(35.8%), 중국어(14.1%), 일본어(9.6%), 스페인어(9%), 독일어(7%)에 이어 전 세계 6위이다.[31] 웹상에서의 한국어 사용 인구는 전 세계 75억여 명의 인구[32] 중 약 1%[33] 에 해당한다. 
+
+사용빈도가 높은 한국어 낱말
+
+국립국어원은 지속적으로 사용빈도가 높은 한국어 기초 어휘 관련 자료들을 연구 및 제공해 오고 있는데 그 중에서 한국어 낱말 단어를 수록한 "한국어 학습용 어휘" 6,000 낱말을 2004년 12월에 발표한바 있으며 이후 이러한 자료를 세계인들이 사용할 수 있도록 한국어기초사전을 통해 어휘 데이타베이스를 제공하고 있다. 이러한 한국어의 어휘에 대한 사용 빈도 자료는 한국어능력시험(TOPIK), 외국인을 위한 한국어 학습 및 교육 등에 있어 매우 중요한 근거 자료로서 활용도가 높다.[34][35][36] 
+
+한국어
+위키백과, 우리 모두의 백과사전.
+
+한국어(韓國語)(Korean)는 대한민국과 조선민주주의인민공화국의 공용어로, 대한민국에서는 한국어 또는 한국말이라고 부르고, 조선민주주의인민공화국에서는 조선어 또는 조선말이라고 부른다. 한국과 북한에 비해서 인구는 적지만 중국 옌볜 조선족 자치주도 사용한다.
+
+해외 이주에 의해 일본, 미국, 중화인민공화국, 러시아, 우즈베키스탄, 캐나다, 오스트레일리아, 필리핀, 베트남 등 세계 여러 지역에 한민족 인구가 거주하게 되면서 전세계 각지에서 한국어가 사용 되고 있다. 2016년 1월 초 기준으로 한국어 사용 인구는 대부분이 대한민국과 조선민주주의인민공화국에 거주중이며 약 8000만 명으로 추산된다.[1]
+
+한국어의 계통에 관해서는 옛부터 알타이어족으로 분류하는 학설이 힘을 얻었다. 현재 언어학계에서는 주변 언어와 관계가 확인되지 않는 고립어[10][6][4], 또는 제주어를 포함하는 독자적인 한국어족에 속한다고 보는 학자들도 존재한다. 반면에 한국의 주류 학계는 몽골어, 터키어, 카자흐어와 같은 알타이어족에 속한다는 가설을 주로 받아들인다. 그러나 고립어 역시 다른 고립어와는 궤가 조금 다르고 한국어족도 제주어를 방언으로 포함시킬지 언어로 포함시킬지에 대한 의견이 갈라져 논거가 부족하며 한국어의 계통은 여전히 논란이 분분한 주제로, 역사언어학계에서 지속적인 연구가 이루어지고 있다. 
+
+한국어의 여러 명칭
+
+'한국어'는 대한민국에서 쓰는 명칭이고 조선민주주의인민공화국에서는 조선말이라고 한다. 대한민국과 조선민주주의인민공화국이 공동으로 만드는 사전의 이름은 《겨레말 큰사전》이다. 1994년부터 열리는 남북한 간의 한글과 한국어 컴퓨터 처리를 표준화하려는 학회명은 '코리안 컴퓨터처리 국제학술대회'이다. 
+
+일본에서는 한국어를 '쵸센고(조선어)'라고 불렀으나, 근래에는 '칸코쿠고(한국어)'라고 부르는 경향이 강하다. 일본 내의 교포 사회는 재일본대한민국민단과 재일본조선인총련합회로 갈라져 각각 표준어와 문화어를 지지하는 경향이 있으므로 NHK는 중립성을 담보하기 위해 한국어 회화 명칭을 '칸코쿠고(한국어)', '쵸센고(조선어)' 대신 '한구루 고자'(일본어: ハングル講座, 한글 강좌)[11]라고 하였다. 그 밖에도 중립성을 고려하여 칸코쿠ㆍ조센고(韓国・朝鮮語, 한국ㆍ조선어)'고리아고'(일본어: コリア語, 코리아어)나 '가라노쿠니노코토바'(일본어: 韓の国のことば, からのくにのことば, 한나라말) 등의 명칭을 쓰기도 한다. '코리아고(코리아어)'는 1977년 조치 대학이 처음으로 전공 학과를 개설한 이후 일부 대학교에서 쓴다. 또한 학계에서는 조선민주주의인민공화국에서 쓰이는 것을 조선어, 대한민국에서 쓰이는 것을 한국어로 구별하여 둘 다 포함하는 말로 (광의의) 조선어라고 한다.
+
+일본과 중화인민공화국은 한국어를 가리키는 명칭으로 조선어(朝鮮語)가 주로 사용되어 왔으나, 최근에는 한국어(韓國語)로 부르는 경우가 훨씬 많아졌다. 중화인민공화국은 조선민주주의인민공화국과의 밀접한 관계에 따라 한국어를 주로 '챠오셴위(중국어: 朝鲜语, 병음: Cháoxiǎnyǔ, 조선어)'라고 불렀으나, 1992년 대한민국과의 수교 이후에 양국이 활발한 교류를 하게 되면서 한중교류 상황이나 사회 각층 민간 생활중에서 '한궈위(중국어: 韩国语, 병음: Hánguóyǔ, 한국어)' 또는 '한위(중국어: 韩语, 병음: Hányǔ, 한어)' 등의 명칭이 자주 쓰인다. 학술상으로는 문화어 계열 어휘를 많이 사용하지만, 북경대, 북경외대, 상해외대를 비롯한 중국 대부분의 한국어(조선어)학과에서는 학과 명칭은 조선어로 하고 강의 내용은 99% 이상 대한민국 서울 표준어를 가르치고 있다. 중화민국(타이완)은 한국어를 '한궈위(중국어: 韓國語, 병음: Hánguóyǔ, 한국어)'나 '한위(중국어: 韓語, 병음: Hányǔ, 한어)'로 부른다.
+
+베트남에서의 용법은 중화인민공화국과 거의 비슷하다. 현재는 한자를 사용하지 않지만, 과거에 한자도 어느 정도 사용하던 베트남은 한국을 '쩨우띠엔'(베트남어: Triều Tiên, 朝鮮)이라고 불렀고, 대한민국은 '남쩨우띠엔'(베트남어: Nam Triều Tiên, 南朝鮮), 한국어는 '띠엥쩨우띠엔'(베트남어: Tiếng Triều Tiên, 朝鮮語)으로 불렀다. 한국에 관련된 일반 어휘는 문화어 계열의 어휘가 더 많이 쓰였다. 대한민국의 표준어는 '띠엥한'(베트남어: Tiếng Hàn, 韓語)이라고 부른다. 베트남어 위키백과에는 한국어 문서의 제목이 '한국어'를 뜻하는 '띠엥한꾸억'(=(베트남어: Tiếng Hàn Quốc, 韓國語)으로 표기되어 있다.
+
+한편, 한국어는 영어로 'Korean', 프랑스어로 'Coréen', 스페인어로는 'Coreano'로 불린다.
+계통
+
+한국어의 계통에 대해서는 여전히 정설이 성립하여 있지 않다. 근대에 핀란드의 언어학자 구스타프 욘 람스테트(Gustaf John Ramstedt)가 대어족 가설인 알타이어족설을 제시할 때 한국어를 포함한 것을 시작으로 예프게니 폴리바노프, 로이 앤드류 밀러 등 20세기 중반 많은 언어학자들에게서 해당 가설이 지지받았다. 또한 다양한 언어학자들에 의해 부여어족 가설로서 한국어와 일본어의 동계설도 주장되었다. 한국어는 언어유형학적으로 어형변화가 많은 교착어이며 어형변화가 없고 문법적 관계가 어순에 의해 표시되는 고립어와 다르다.
+
+한국어의 유래와 함께 그 발달 과정도 베일에 싸여 있는데, 중세 한국어 이전의 기록이 극도로 부족하다는 점, 그리고 고대 한국어의 기록이 한자로 되어 있어 그 해석에 따라 음이 크게 달라질 수 있다는 점 등이 연구를 더욱 어렵게 만들고 있다. 때문에 고대 한반도 언어를 연구하는 데에 있어서 지명학적 흔적은 크게 유의미하다.[12] 한국어가 만주 등 북방 지역에서 유래하였다는 학설은 퉁구스어족에서 고대 한국어의 흔적이 나타나고 역으로 한국어 음운에서도 고시베리아제어와의 접촉 흔적이 개연적으로 나타난다는 점에서 유력하다.[12][13]
+
+한편 하위 계통으로서는 이기문 등이 정립한 한-부여 분류가 국내외 학계에서 일반적으로 받아들여진다. 한-부여 분류는 고대 한반도 지역에서 사용된 언어의 분류로, 고구려어, 백제어를 포함하는 부여계 제어와 신라어를 포함하는 한계 제어로 이루어진다.[14] 다만 학자에 따라 그 차이가 방언 수준에 지나지 않았을 것으로 추측하기도 하며, 이런 경우 이 분류는 편의상의 구분에 지나지 않게 된다. 한편 크리스토퍼 벡위스는 부여계 언어가 신라어와 완전히 달랐으며 일본어와 연관되어 있다는 부여어족 가설을 주장하였으나 여러 오류가 지적되어 보통 받아들여지지 않는다.
+알타이어족설
+
+한국어가 몽골어, 퉁구스어, 터키어 등과 함께 알타이어족에 속한다고 보는 견해이다. 역사적으로 유력설로 지지 받는다. 현대에는 형태, 음운의 유사성 때문에 편의상 '알타이 제어'로 분류되기도 한다. 한국어가 알타이어족에 속한다는 근거는 음운론에서 모음조화라는 공통점이 있으며 형태론에서 교착어이며 수와 격이 일치하는 통사론에서 공통점이 있기 때문이다.
+
+한국어를 알타이어족으로 분류한 것은 구스타프 욘 람스테트[2]가 최초이자 대표적으로, 이후 여러 학자들에 의해 수용되면서 널리 알려지게 되었고 한국 학계에서도 한동안 정설로 받아들이게 되었다. 한국어를 알타이어족의 하나로 보는 입장에서는 한국어의 다음과 같은 속성을 근거로 든다.
+
+    모음조화가 존재한다.
+    용언에 굴절이 있는 교착어이다.
+    주어, 목적어, 동사의 어순을 가지는 S-O-V 어순의 언어이다.
+    그 외 속격 등 문법적 어순이 같다.
+    어두에 특정 자음이 쓰이지 않는 법칙이 존재한다.
+    모음교체, 자음교체, 문법적 성(性), 어두자음군이 없다.
+    관계대명사와 접속사가 없고 접속사의 결여를 보충하기 위해 부동사를 사용한다.[15]
+
+그러나 한국어는 알타이어족이 가지는 전형적인 특성 외에 다른 특성을 공유하지 못하기도 한다. 이는 한국어가 조기에 알타이조어에서 분리되었다는 가설을 성립하게 하였다. 한국어가 알타이어족에 속하는 언어임을 부정하는 주장은 다음과 같다.
+
+    기초 어휘가 거의 일치하지 않는다.
+    음운대응의 규칙성이 정확하지 않다.
+
+대한민국의 중등교육에서는 알타이어족과 가까운 관계에 있다고 가르치고 있다.[16][17] 이 때문에 많은 한국인은 한국어를 알타이어족으로 보는 견해가 있다.
+
+마르티너 로베이츠 등 일부 학자들은 한국어와 일본어를 우선적으로 묶고, 몽골어족, 퉁구스어족, 튀르크어족의 조사나 기초 어휘에서 서로 간의 상당한 유사점이 발견된다며 대어족의 '극동아시아어족'이 성립한다는 가설을 새로이 주창하고 있다. 또한 마셜 엉거(J. Marshall Unger)는 한국어-일본어-퉁구스어의 공통 조어를 예측하면서 주목받기도 했다. 이러한 연구는 알타이어족 가설의 재주장과 무관하지 않다.
+고립어설
+
+몇몇 학자들은 한국어족을 고립어(language isolate)로 분류한다. 대표적으로 영국 맨체스터 대학교의 알렉스 버라타 교수[8], 케임브리지 대학교의 스테판 게오르크[10], 유타 대학교의 마우리시오 믹스코 교수[4]가 고립어설을 지지한다. 한국어를 고립어로 분류하는 언어학자들은 알타이어족과 한국어의 공통 어휘가 적거나 재구하기 어렵다는 점을 든다. 그러나 대부분의 고립어는 외부 접촉이 적은 고립된 곳에서 매우 적은 화자들이 사용하는데, 한국어는 8천만 명 가까이 모국어로 사용하기에 고립어로 분류하기에는 어렵다는 지적이 제기된다. 또한 한국어가 알타이어족과 공통 어휘가 적다는 것은 현재 한국어의 한 부분을 담당했던 부여어족의 기록이 적기 때문이므로, 기록이 더 발견되면 주장이 달라질 수 있기에 이들의 의견에 대해서는 논쟁이 존재한다.
+
+한편, 유네스코 등 일부 단체나 학회에서는 표준어와 차이가 큰 제주 방언을 제주어로 분리하여 한국어족이라고 주장하기도 한다.
+한국어와 일본어의 관계
+
+일본어와 한국어의 연관은 과거부터 여러 학자에 의해 지적된 것으로, 특히 문법이나 어휘의 유사성에서 창안된 설이다. 다만 고대 한국어 자료가 부족하여 둘 간의 실제 연관은 가설 단계에 머물러 있다. 이노우에 키요시(井上 淸)는 언어에서 중요한 1인칭에 주목했다. 일본 고어에서 1인칭은 나(汝)라는 한자를 사용하며 나(な)라고 읽었는데 일본의 1인칭 고어가 한국어의 1인칭인 "나"와 동일하다. 일본어의 1인칭이 동일한 곳은 중국 남부나 북부가 아닌 한국이라고 주장하였다.[18] 또한 예를 들면 나라 시대의 하타노히로타리(波多広足)에서 다리를 뜻하는 타리(足)가 한국어의 "다리"와 동일하다는 식의 대응이 어휘 일치의 근거로 거론된다. 이노우에 키요시는 일본어가 친족관계를 가질 가능성이 있는 것은 오직 한국어뿐이며, 만일 그렇다면 공통의 조어에서 갈라진 시기를 언어연대학으로 조몬시대 중기 이전으로 추정했다.[19] 하지만 한국어와 일본어에 유사성이 있는 이유는 한국인 도래인이 일본에 건너가서 정착하였기 때문이라는 주장도 있다.
+
+크리스토퍼 벡위스(Christopher I. Beckwith)는 고구려어의 어휘에서 일본어와 비슷한 점이 보인다며 신라어를 포함하지 않는 부여어족의 성립을 주장하였으나[20] 주류 학계에서는 받아들여지지 않고 현재 소수설로 머물러 있다. 알렉산더 보빈은 부여어족의 근거로 들리는 지명 어휘의 일치는 한국어족 어휘가 아니며 고구려어가 들어오기 전 한반도 남부에 잔존한 일본어족 언어의 흔적일 뿐이라고 반박하였다.
+비알타이어 기층설
+
+소수 가설 중 하나로 대한민국의 언어학자 김방한은 비알타이어 기층설을 주장한다. 김방한은 한국어 기층에 원시 한반도어라고 부르는 정체불명의 비알타이어 기층이 있고, 그 위에 알타이어계 요소가 덮인 것이거나, 그 반대로 비알타이어가 알타이 기층에 덮여서 한국어의 뼈대가 형성되었다고 보았다. 그는 원시 한반도어와 계통적 친연성이 있는 언어로 편의상 고시베리아어족으로 분류되어 있는 니브히어(길랴크어)를 지목하였다. 이후 유하 얀후넨은 한국어와 니브흐어 간의 파열음 일치를 들어 고대에 접촉이 있었을 가능성이 있다고 보았다.
+기타
+
+한국어가 인도유럽어족에 속한다는 가설은 19세기에서 20세기 후반까지 일부 언어학자들이 주장한 것으로[21], 주된 논거는 인도유럽어족에 속하는 산스크리트어와 한국어가 유사하다는 것이었다. 그러나 연구가 진행됨에 따라 어순과 어휘가 일치하지 않는다는 논거로 대부분 부정되었다.
+
+이외에 일부 어휘의 일치나 문법의 유사성을 근거로 인도 남부의 드라비다어족과의 연관성을 제시하는 학설도 존재하나 일반적으로 받아들여지지 않는다. 
+
+형태 음소론
+
+조사의 형태는 앞의 소리의 영향을 받을 수 있다. 은/는, 이/가, 을/를과 같이 음절이 바뀌는 경우도 있고, 에서/서, 으로/로와 같이 음절이 끼어드는 경우도 있다. 은/는, 이/가, 을/를의 경우, 모음이 연쇄되는 것을 피하고자 자음이 삽입되는 규칙적인 경우이나, 와/과, 으로/로의 경우는 예외적이다. 으로/로는 ㄹ 뒤에서 독특한 분포를 보인다. 와/과 역시 중세 한국어에서는 으로/로와 마찬가지로 ㄹ뒤에서 '와'가 쓰이는 독특한 분포를 보였으나 현대한국어에서는 그렇지 않다. 와/과의 경우 이중모음/ㅘ/가 모음이 아니라는 점에서 모음 연쇄 환경이 아니고 사용빈도에 따라 분포가 설명된다.[22]
+
+형태 음소론적 차이는 일부 동사에서도 관찰된다. 
+
+문법
+
+한국어는 어근과 접사 등 특정 표지가 붙음에 따라 단어의 기능이 결정되는 교착어로 분류된다. 특히 조사에 따라 문법적 격이 정해지며 이 때문에 고립어에 비해 어순이 비교적 유동적이기는 하나, 일반적으로 SOV형 어순, 곧 주어-목적어-동사의 구조를 가지고 있다. 또한 일반적인 경우 서술어는 반드시 문장의 끝에 위치하여야 한다.
+
+조사는 문법적 격을 나타내는 격조사, 단어끼리 이어주는 접속조사, 특별한 의미를 가하는 보조사로 나뉘며, 조사가 붙는 체언이 개음절인지 폐음절인지에 따라 다른 조사가 붙기도 한다. 일례로, '사람'의 뒤에 붙는 주격 조사는 '이'이나, '머리' 뒤에 붙는 주격 조사는 '가'이다.
+
+어미가 다양한 것이 특징적으로, 문장 내에서 기능이나 수식은 물론 미묘한 분위기에까지 영향을 끼치기도 한다. 특히 주로 종결 어미나 선어말 어미에 따라 드러나는 낮춤말과 평어, 높임말의 복잡한 존비어 체계가 특징적으로, 화자 간에 존댓말(높임말)과 반말(낮춤말, 평어)에 대한 합의가 명확하게 이루어지지 않은 상태에서는 의사소통에 있어서 어색한 상황이 발생한다.[23] 이러한 언어와 호칭선택 문제 때문에 갈등과 권위적 상황이 유발되기도 한다는 분석도 있다.[24]
+
+용언은 동사와 형용사를 포함하는데, 둘의 어미 변화가 거의 동일하다는 특징이 있다. 용언의 기본형은 모두 종결어미의 일종인 '-다'로 끝나는 것으로 취급되며, 그 기능에 따라 조금씩 변하나 대부분의 경우 여전히 '다'로 끝나 문장의 끝을 암시하게 된다. 그 시제는 현재, 과거, 미래형으로 나뉘며, 이 또한 동사의 종류나 기능에 따라 다양한 어미로 나타난다. 
+
+어휘
+
+한국어의 어휘는 크게 고유어 ("순우리말"), 한자어, 외래어로 분류된다. 고유어는 한국어의 기층을 형성하는 고유의 어휘로, 사용 빈도가 높은 일상어는 대부분 고유어에 속한다. 음운적으로 ㄹ 소리로 시작되는 토착 어휘는 거의 없으며, 이는 알타이 제어의 음운론적 특징의 하나이기도 하다.
+
+한국어에 한자의 비율은 일반적으로 한자의 비율이 50%라고 하는 잘못된 설이 세간에 퍼져 있으나 이는 일제강점기에 가능한 한 많은 영어와 독일어인 현대어 낱말들을 한자로 표기하면서 (예를 들어 Society=사회) 과장된 것이라는 주장이 있다.[25] 또한, 국어사전이 수록하는 한자어의 상당수는 한문 문장에만 용례가 있고, 한국어에서는 용례가 발견되지 않는 단어들이다. 국립국어연구원이 2002년 발표한 '현대 국어 사용 빈도 조사'를 보면 우리말의 낱말 사용 비율은 토박이말이 54%, 한자어 35%, 외래어가 2%였다.
+
+외래어라 하면 일반적으로 한자외의 외국어에서 유래한 어휘를 가리킨다. 근대 이전에는 불경을 통하여 간접 차용된 산스크리트어(한자어 형태)를 비롯하여 몽골어에서 두 개의 단어가 차용어로 쓰였으며 (예를 들어 송골매), 일제강점기에는 영어와 독일어의 현대어를 한자로 차용하여 사용한 것들이 있다. 독일어, 프랑스어, 스페인어, 포르투갈어, 네덜란드어 등 소수의 인도유럽어족의 어휘가 일본을 통하여 들어왔으나 현재 사용 빈도는 매우 적다. 예를 들어 "Part time job"이라는 말을 일본에서 쓰던 독일어인 "아르바이트(Arbeit)"라고 부르며 원래의 아르바이트의 의미와 다르게 쓰인 말들이 있다. 현대에는 영어가 영향력을 발휘하게 되면서 영어로부터의 많은 차용어들이 쓰이고 있다. 
diff --git a/benches/texts/mandarin.txt b/benches/texts/mandarin.txt
new file mode 100644
index 0000000..b2c9ed4
--- /dev/null
+++ b/benches/texts/mandarin.txt
@@ -0,0 +1,356 @@
+官话
+维基百科，自由的百科全书
+
+官話（又称北语、北方话、官話方言。此外有時也稱北方方言）為汉语的一支，主體為北方漢語。若視漢語為一種語言，則官话是漢語的一级方言，下分北方官话、中原官话和南方官话。若視漢語為“漢語族”，視官話為獨立語言的話，則官話下有數支官話的方言。無論如何劃分，官話的地位都跟吴语、粤语、闽语、湘语、客语、贛语等相同，要麼同為獨立語言，要麼同為漢語下的一級方言。
+
+官话是漢語诸方言中分布最广的一种，除了中國北方以外，官話也同時分佈在中国南方绝大多数地区，如南方的江蘇大部、安徽中北部、四川大部、重庆、云南、贵州、湖北大部、广西北部、湖南西部和北部和江西沿江地区作为母语使用。此外，官話在江蘇省蘇州市吴江区的菀坪镇、福建省南平市的延平區以及福州長樂航城街道的琴江满族村等地也以方言島的形式出現。[2]
+
+現今中國目前的官话大致分为华北官话、西北官话、西南官话和江淮官话，分别以北京话、西安話、成都话和南京话为代表，前兩者為北方官話，後兩者為南方官話，由於官話分佈地區廣，官話內部仍有較大的差異，仍存在各官話之間不能交流的情況。兩種南方官話都有應否獨立出官話方言的地位爭議。
+
+官話也是中國現在的主要通用語。其中，现代标准汉语（中華人民共和國的普通话、中華民國（臺灣）的國語、新加坡和馬來西亞的華語）均是以北方官话为基础音调而形成的规范语言。與認知的不同，地區之間的使用者不一定能夠有效溝通，因為地方官話的口音乃至於句法和用詞差異可能很大，特別是山東與江蘇一帶的地方所講的方言。所以今天所推行的普通話，是以官話為主要語言、加之北京音為標準的語言。
+
+官話也是一種聲調語言，這點跟漢語下的一眾語言相同。 
+
+名称
+
+官话，有时亦称为北語、北方话、官话方言、北方方言，有些場合也稱作蓝青官话。這是因為現代官话是基於北京語言。
+
+雖然北官话已經蔓延到了中国南方創造了江淮官话和西南官话 ，“北方方言”亦可指流行于中国北方的方言或北方官话，由於北方官話是南方官話聲調長經北方聲調形成是否歸於一類仍有意見，至今不同学者对于北方官话的定义并不相同。从1980年代后期起，中国大陆的汉语方言学界的期刊和专著已统一使用“官話”这一称呼。
+
+但另一邊廂，其他漢語方言的名稱，都只代表了相對來說的通行區域，不等於該區域只通行那一種漢語方言，亦不等於該漢語方言只通用於那一片地區。例如兩粵地區不獨通行粵語，同時粵語也不單單普及於兩粵地區。特別是持認為各漢語方言地位應平等的，认为官话属于方言而非独立语言的，或者認為各漢語方言都應是語言而非方言的論者，較多採用「北語」、「北方話」、「北方方言」這些名稱。
+
+官話的「官」字來自官僚、朝臣，西方語言稱官話為 mandarin，為葡萄牙人對明朝官員的稱呼，最早見於16世紀初期的文獻。葡萄牙人借用了馬來語menteri一詞，意為官員，而馬來語menteri一詞則源自梵文的mantrin。英語Mandarin Chinese指的也是Mandarin（朝廷官僚）使用的漢語。[3]
+
+在閩南語中，除了「北方話」（Pak-hng-oē）外，亦會稱作「北仔話」（Pak-á-ōe）、「外省仔話」。
+历史
+参见：明清官話演變史、南京話歷史、北京話歷史和現代漢語的來源
+
+“官话”最早是對官方標準話的稱呼，官話是汉语的一种汉语語言。官方標準語不為某一地的語言，是中國過去做官的人所使用的共同語，以便能互相溝通，上朝奏疏。后来逐漸流行于民间，演變一種各地共同用語。漢語官方標準語早期稱為雅言、周官話為雅言、秦漢時期沿用雅言，漢晉時期多稱「通語」，如西漢楊雄就以共同语“通语”来解释各地的方言，元代稱“天下通语”，為域內各民族共同语。然而上述時代的這些官方共同語，跟明清二朝及以後的官話音韻已有差異。直到明代中期，官話依然保留中古漢語的清濁音、入声、尖團音等。[4][5]
+官話前身
+
+在晋代五胡亂華、衣冠南渡以後，中原雅音南移。東晋、南北朝以來中國的官方共同語，分為南北兩支。最早以晉代中原雅音為基礎的金陵雅音，則作為中國長期的雅言。
+
+隋、唐時代，以中原雅言音為正，人們做詩詞、寫文章非常注意“正音”，因此很多韻書應運而生，為的是統合共同語的音調[6]。漢唐時期的古中原漢語隨著南遷移民進入吳閩粵諸地，在古中原華夏雅言的基礎上，融入周邊少數民族語言的元素，今日南方語言仍然保留著古代唐代語言的元。不僅唐代佛教經典的變文俗講開始以當時的官話來書寫，宋也以官話書寫的對金人的文書，這些都與後來的話本、戲曲與小說所用。
+明清時期南京與北京官话
+
+在元朝時，以北方官話及大都話為基礎，制定了天下通語，推行到全國。元朝官話在周德清的《中原音韻》中被記錄下來，在其中保存了大量唐宋以来占据主导地位的中原音(汴洛音)[6][7]，
+
+明清時期起，官方共同語稱為官话。在明滅元朝、定都南京後，以《中原音韻》的北方官話為基礎音系，參照以南方下江官話，制定了《洪武正韻》，形成南京官話，成为国家标准漢語语音。在遷都北京後仍以南京官話為標準，因此明清時期來華的西方傳教士所流行的中國話，基本上是以南京官话為標準。民國初年西方傳教士主持的“華語正音会”，也以南京音為標準。南京官話與現在南京話是否相同，學界仍有爭議[8]，王力等學者主張南京官話主要仍是受北方漢語影響。
+
+在明成祖遷都至北京後，北方官話的重要性上升。至清朝時，逐漸形成北京官话，成为中國官方的標準語，並為推行共同語而在各級書院推廣正音教學。清末編審國語以後，北京官話正式成爲中國官方的標準語。
+國語、普通話、華語
+
+1909年開始，官方共同語稱為「國語」，1913年中華民國讀音統一會以逐字一省一票投票出老國音，以兼顧南北語音，1923年改用基於北京音之新國音，1956年在大陸改稱「普通話」，新加坡獨立以來即稱之為「标准華語」；而官話一詞則演變為“官話方言”的含義。
+
+由於非官话方言汉族人口主要分布在南方或者说东南一带等，有人称整个官话方言为「北方方言」。但實際上西南官話、江淮官話兩大官話方言人口都分布在南方，主要是音調有不同。且江淮官话和部分西南官话更是保留了其他官话皆已消失的入声。而西南官話、江淮官話是否跟北方官話合併爲一個大方言區，不同學者有不同看法，詳見下方分區的說明。
+
+分区
+
+分区史
+
+官话的分類方法多种多样： 
+
+目前中国大陆出版的方言学的专业书籍、期刊，大都采取语言学家李荣在中国语言地图集中的分区法（下称“八区法”）歸類官话，八区法成为中国方言学界最流行的分類方式。然而對於八區法，一些學者也有一定異議，異議所涉及範圍小至某鄉某縣語言的分類，大至晉語、江淮官話、天津話和岷江话等的歸屬。
+调类分区
+語言學家李榮、羅傑瑞與劉勳寧等人提出的官話分區標準基本相同，都是古入聲字調類在各地之演化情況：入聲字分派是根據該字之聲母派至平上去三調，同時韻母隨之變化，同區演變規律大致相同，而此法可分出一個個大區[10]。李榮據此將官話分為八區，是最流行的官話分區方式。而羅傑瑞、劉勳寧的分區法則更為概括，羅傑瑞依據入聲分化類型的多寡將官話分為2區：入聲未發生分化的南方官話、入聲發生分化的北方官話[11]。劉勳寧則將官話分為三區：入聲未發生分化的南方官話、入聲一分為二的中原官話以及入聲一分為三的北方官話[12]。中央研究院史語所提出的官話分區法也採用羅之標準。民族語言網則劃官話為四大分區（北方官話、西北官話、西南官話、江淮官話） [13]。以下為基於各種分區方式的各區特徵和分布區域： 
+
+其它分区方式
+
+有學者依據方言特徵詞的研究將官話分為官話核心區（東北官話、北京官話、冀魯官話、中原官話）、官話過渡區（膠遼官話、晉語）、官話邊緣區（西南官話、江淮官話、蘭銀官話）。其中官話核心區詞彙很一致，而官話邊緣區與核心區共有的特徵詞很少、詞彙差異很大，官話過渡區則是核心區與邊緣區的過渡，但是也有部分明顯的差異之處[14]。此等學者認為劉勳寧的分區法亦有一定可取之處[14]。
+争议
+
+对官话分区的常见争论如下：
+
+    关于官话是方言还是语言的问题存在争议，其中认为它是一种方言的人常称其为“官话方言”。這種爭議實際上是“漢語方言究竟該不該集體升格成語言”的爭議的一部份。
+    晋语、江淮官话、西南官話具有的独立出官话方言的地位问题。
+    天津話、岷江话在官话方言的地位问题。
+    北京官话、东北官话和冀鲁官话保唐片合併还是分开的问题。在2000年后的研究一般主张合併。
+
+特征
+音韵
+
+官话内部一致性相對各方言比较大，除用词语调有些许差异的地區，在百里內的城市居民大部分可以基本沟通，相近地区完全互通。 官话的主要特徵包括：
+
+    中古的知、章、庄三组声母合并为卷舌塞擦音，并与平舌音的精组字相对立。但大部分西南官话中这种对立现象已经消失[15]。
+    中古全濁声母，在平声字中变为送气清声母，在仄聲字中變為不送氣清聲母。但西南官话成渝片和赤灌片（即四川话）较为特殊，部分中古全浊仄声字读送气清声母；西南官话黔北片部分点（如吉首）更为特殊，遇平声保留了全浊。
+    大部分的中古辅音韵尾消失，中古汉语中的“-p，-t，-k，-m，-n，-ng”现在已经只剩下“-n，-ng”。声调类型少，一般来讲有3至5个声调，大部分地區只有平声区分阴阳，且中古汉语的入声在官话大部分地區内消失。但中国南方的江淮官話全部地区和西南官話部分地区（岷江小片、丽川小片、武天片部分、黔南片部分、湘南片部分和岑江片部分等）[15]入声仍然得到保留。（同時，晉語被劃出官話，原則和依據也是因其保留入聲。）
+
+    古微母字今不读双唇音声母 m-
+
+语法
+主条目：漢語語法
+
+官話的基本语序为主谓宾结构。官话的词汇主要来源于文言文中的固有词汇，以及在清朝时期从日本引入的词汇，外来语较少。近年由于与外国交流日益增多，外来语逐渐增多，以及网络语言使日常口语多元化。
+方言字
+北方官话中的方言字保留于普通话中，如「甭」（不用）、嫑（不要）、「孬」（不好）、「俺」（我）、「咋」（怎么）、「咱」（含对方在内的我们）、「啥」（什么）。北方官话的大部分口语可以容易书写为书面语，但南方官话（如四川话所使用的四川方言字）因拥有大量不见于现代标准汉语的特有词汇，仍拥有较多独特的方言字。
+
+官话
+维基百科，自由的百科全书
+
+官話（又称北语、北方话、官話方言。此外有時也稱北方方言）為汉语的一支，主體為北方漢語。若視漢語為一種語言，則官话是漢語的一级方言，下分北方官话、中原官话和南方官话。若視漢語為“漢語族”，視官話為獨立語言的話，則官話下有數支官話的方言。無論如何劃分，官話的地位都跟吴语、粤语、闽语、湘语、客语、贛语等相同，要麼同為獨立語言，要麼同為漢語下的一級方言。
+
+官话是漢語诸方言中分布最广的一种，除了中國北方以外，官話也同時分佈在中国南方绝大多数地区，如南方的江蘇大部、安徽中北部、四川大部、重庆、云南、贵州、湖北大部、广西北部、湖南西部和北部和江西沿江地区作为母语使用。此外，官話在江蘇省蘇州市吴江区的菀坪镇、福建省南平市的延平區以及福州長樂航城街道的琴江满族村等地也以方言島的形式出現。[2]
+
+現今中國目前的官话大致分为华北官话、西北官话、西南官话和江淮官话，分别以北京话、西安話、成都话和南京话为代表，前兩者為北方官話，後兩者為南方官話，由於官話分佈地區廣，官話內部仍有較大的差異，仍存在各官話之間不能交流的情況。兩種南方官話都有應否獨立出官話方言的地位爭議。
+
+官話也是中國現在的主要通用語。其中，现代标准汉语（中華人民共和國的普通话、中華民國（臺灣）的國語、新加坡和馬來西亞的華語）均是以北方官话为基础音调而形成的规范语言。與認知的不同，地區之間的使用者不一定能夠有效溝通，因為地方官話的口音乃至於句法和用詞差異可能很大，特別是山東與江蘇一帶的地方所講的方言。所以今天所推行的普通話，是以官話為主要語言、加之北京音為標準的語言。
+
+官話也是一種聲調語言，這點跟漢語下的一眾語言相同。 
+
+名称
+
+官话，有时亦称为北語、北方话、官话方言、北方方言，有些場合也稱作蓝青官话。這是因為現代官话是基於北京語言。
+
+雖然北官话已經蔓延到了中国南方創造了江淮官话和西南官话 ，“北方方言”亦可指流行于中国北方的方言或北方官话，由於北方官話是南方官話聲調長經北方聲調形成是否歸於一類仍有意見，至今不同学者对于北方官话的定义并不相同。从1980年代后期起，中国大陆的汉语方言学界的期刊和专著已统一使用“官話”这一称呼。
+
+但另一邊廂，其他漢語方言的名稱，都只代表了相對來說的通行區域，不等於該區域只通行那一種漢語方言，亦不等於該漢語方言只通用於那一片地區。例如兩粵地區不獨通行粵語，同時粵語也不單單普及於兩粵地區。特別是持認為各漢語方言地位應平等的，认为官话属于方言而非独立语言的，或者認為各漢語方言都應是語言而非方言的論者，較多採用「北語」、「北方話」、「北方方言」這些名稱。
+
+官話的「官」字來自官僚、朝臣，西方語言稱官話為 mandarin，為葡萄牙人對明朝官員的稱呼，最早見於16世紀初期的文獻。葡萄牙人借用了馬來語menteri一詞，意為官員，而馬來語menteri一詞則源自梵文的mantrin。英語Mandarin Chinese指的也是Mandarin（朝廷官僚）使用的漢語。[3]
+
+在閩南語中，除了「北方話」（Pak-hng-oē）外，亦會稱作「北仔話」（Pak-á-ōe）、「外省仔話」。
+历史
+参见：明清官話演變史、南京話歷史、北京話歷史和現代漢語的來源
+
+“官话”最早是對官方標準話的稱呼，官話是汉语的一种汉语語言。官方標準語不為某一地的語言，是中國過去做官的人所使用的共同語，以便能互相溝通，上朝奏疏。后来逐漸流行于民间，演變一種各地共同用語。漢語官方標準語早期稱為雅言、周官話為雅言、秦漢時期沿用雅言，漢晉時期多稱「通語」，如西漢楊雄就以共同语“通语”来解释各地的方言，元代稱“天下通语”，為域內各民族共同语。然而上述時代的這些官方共同語，跟明清二朝及以後的官話音韻已有差異。直到明代中期，官話依然保留中古漢語的清濁音、入声、尖團音等。[4][5]
+官話前身
+
+在晋代五胡亂華、衣冠南渡以後，中原雅音南移。東晋、南北朝以來中國的官方共同語，分為南北兩支。最早以晉代中原雅音為基礎的金陵雅音，則作為中國長期的雅言。
+
+隋、唐時代，以中原雅言音為正，人們做詩詞、寫文章非常注意“正音”，因此很多韻書應運而生，為的是統合共同語的音調[6]。漢唐時期的古中原漢語隨著南遷移民進入吳閩粵諸地，在古中原華夏雅言的基礎上，融入周邊少數民族語言的元素，今日南方語言仍然保留著古代唐代語言的元。不僅唐代佛教經典的變文俗講開始以當時的官話來書寫，宋也以官話書寫的對金人的文書，這些都與後來的話本、戲曲與小說所用。
+明清時期南京與北京官话
+
+在元朝時，以北方官話及大都話為基礎，制定了天下通語，推行到全國。元朝官話在周德清的《中原音韻》中被記錄下來，在其中保存了大量唐宋以来占据主导地位的中原音(汴洛音)[6][7]，
+
+明清時期起，官方共同語稱為官话。在明滅元朝、定都南京後，以《中原音韻》的北方官話為基礎音系，參照以南方下江官話，制定了《洪武正韻》，形成南京官話，成为国家标准漢語语音。在遷都北京後仍以南京官話為標準，因此明清時期來華的西方傳教士所流行的中國話，基本上是以南京官话為標準。民國初年西方傳教士主持的“華語正音会”，也以南京音為標準。南京官話與現在南京話是否相同，學界仍有爭議[8]，王力等學者主張南京官話主要仍是受北方漢語影響。
+
+在明成祖遷都至北京後，北方官話的重要性上升。至清朝時，逐漸形成北京官话，成为中國官方的標準語，並為推行共同語而在各級書院推廣正音教學。清末編審國語以後，北京官話正式成爲中國官方的標準語。
+國語、普通話、華語
+
+1909年開始，官方共同語稱為「國語」，1913年中華民國讀音統一會以逐字一省一票投票出老國音，以兼顧南北語音，1923年改用基於北京音之新國音，1956年在大陸改稱「普通話」，新加坡獨立以來即稱之為「标准華語」；而官話一詞則演變為“官話方言”的含義。
+
+由於非官话方言汉族人口主要分布在南方或者说东南一带等，有人称整个官话方言为「北方方言」。但實際上西南官話、江淮官話兩大官話方言人口都分布在南方，主要是音調有不同。且江淮官话和部分西南官话更是保留了其他官话皆已消失的入声。而西南官話、江淮官話是否跟北方官話合併爲一個大方言區，不同學者有不同看法，詳見下方分區的說明。
+
+分区
+
+分区史
+
+官话的分類方法多种多样： 
+
+目前中国大陆出版的方言学的专业书籍、期刊，大都采取语言学家李荣在中国语言地图集中的分区法（下称“八区法”）歸類官话，八区法成为中国方言学界最流行的分類方式。然而對於八區法，一些學者也有一定異議，異議所涉及範圍小至某鄉某縣語言的分類，大至晉語、江淮官話、天津話和岷江话等的歸屬。
+调类分区
+語言學家李榮、羅傑瑞與劉勳寧等人提出的官話分區標準基本相同，都是古入聲字調類在各地之演化情況：入聲字分派是根據該字之聲母派至平上去三調，同時韻母隨之變化，同區演變規律大致相同，而此法可分出一個個大區[10]。李榮據此將官話分為八區，是最流行的官話分區方式。而羅傑瑞、劉勳寧的分區法則更為概括，羅傑瑞依據入聲分化類型的多寡將官話分為2區：入聲未發生分化的南方官話、入聲發生分化的北方官話[11]。劉勳寧則將官話分為三區：入聲未發生分化的南方官話、入聲一分為二的中原官話以及入聲一分為三的北方官話[12]。中央研究院史語所提出的官話分區法也採用羅之標準。民族語言網則劃官話為四大分區（北方官話、西北官話、西南官話、江淮官話） [13]。以下為基於各種分區方式的各區特徵和分布區域： 
+
+其它分区方式
+
+有學者依據方言特徵詞的研究將官話分為官話核心區（東北官話、北京官話、冀魯官話、中原官話）、官話過渡區（膠遼官話、晉語）、官話邊緣區（西南官話、江淮官話、蘭銀官話）。其中官話核心區詞彙很一致，而官話邊緣區與核心區共有的特徵詞很少、詞彙差異很大，官話過渡區則是核心區與邊緣區的過渡，但是也有部分明顯的差異之處[14]。此等學者認為劉勳寧的分區法亦有一定可取之處[14]。
+争议
+
+对官话分区的常见争论如下：
+
+    关于官话是方言还是语言的问题存在争议，其中认为它是一种方言的人常称其为“官话方言”。這種爭議實際上是“漢語方言究竟該不該集體升格成語言”的爭議的一部份。
+    晋语、江淮官话、西南官話具有的独立出官话方言的地位问题。
+    天津話、岷江话在官话方言的地位问题。
+    北京官话、东北官话和冀鲁官话保唐片合併还是分开的问题。在2000年后的研究一般主张合併。
+
+特征
+音韵
+
+官话内部一致性相對各方言比较大，除用词语调有些许差异的地區，在百里內的城市居民大部分可以基本沟通，相近地区完全互通。 官话的主要特徵包括：
+
+    中古的知、章、庄三组声母合并为卷舌塞擦音，并与平舌音的精组字相对立。但大部分西南官话中这种对立现象已经消失[15]。
+    中古全濁声母，在平声字中变为送气清声母，在仄聲字中變為不送氣清聲母。但西南官话成渝片和赤灌片（即四川话）较为特殊，部分中古全浊仄声字读送气清声母；西南官话黔北片部分点（如吉首）更为特殊，遇平声保留了全浊。
+    大部分的中古辅音韵尾消失，中古汉语中的“-p，-t，-k，-m，-n，-ng”现在已经只剩下“-n，-ng”。声调类型少，一般来讲有3至5个声调，大部分地區只有平声区分阴阳，且中古汉语的入声在官话大部分地區内消失。但中国南方的江淮官話全部地区和西南官話部分地区（岷江小片、丽川小片、武天片部分、黔南片部分、湘南片部分和岑江片部分等）[15]入声仍然得到保留。（同時，晉語被劃出官話，原則和依據也是因其保留入聲。）
+
+    古微母字今不读双唇音声母 m-
+
+语法
+主条目：漢語語法
+
+官話的基本语序为主谓宾结构。官话的词汇主要来源于文言文中的固有词汇，以及在清朝时期从日本引入的词汇，外来语较少。近年由于与外国交流日益增多，外来语逐渐增多，以及网络语言使日常口语多元化。
+方言字
+北方官话中的方言字保留于普通话中，如「甭」（不用）、嫑（不要）、「孬」（不好）、「俺」（我）、「咋」（怎么）、「咱」（含对方在内的我们）、「啥」（什么）。北方官话的大部分口语可以容易书写为书面语，但南方官话（如四川话所使用的四川方言字）因拥有大量不见于现代标准汉语的特有词汇，仍拥有较多独特的方言字。
+
+官话
+维基百科，自由的百科全书
+
+官話（又称北语、北方话、官話方言。此外有時也稱北方方言）為汉语的一支，主體為北方漢語。若視漢語為一種語言，則官话是漢語的一级方言，下分北方官话、中原官话和南方官话。若視漢語為“漢語族”，視官話為獨立語言的話，則官話下有數支官話的方言。無論如何劃分，官話的地位都跟吴语、粤语、闽语、湘语、客语、贛语等相同，要麼同為獨立語言，要麼同為漢語下的一級方言。
+
+官话是漢語诸方言中分布最广的一种，除了中國北方以外，官話也同時分佈在中国南方绝大多数地区，如南方的江蘇大部、安徽中北部、四川大部、重庆、云南、贵州、湖北大部、广西北部、湖南西部和北部和江西沿江地区作为母语使用。此外，官話在江蘇省蘇州市吴江区的菀坪镇、福建省南平市的延平區以及福州長樂航城街道的琴江满族村等地也以方言島的形式出現。[2]
+
+現今中國目前的官话大致分为华北官话、西北官话、西南官话和江淮官话，分别以北京话、西安話、成都话和南京话为代表，前兩者為北方官話，後兩者為南方官話，由於官話分佈地區廣，官話內部仍有較大的差異，仍存在各官話之間不能交流的情況。兩種南方官話都有應否獨立出官話方言的地位爭議。
+
+官話也是中國現在的主要通用語。其中，现代标准汉语（中華人民共和國的普通话、中華民國（臺灣）的國語、新加坡和馬來西亞的華語）均是以北方官话为基础音调而形成的规范语言。與認知的不同，地區之間的使用者不一定能夠有效溝通，因為地方官話的口音乃至於句法和用詞差異可能很大，特別是山東與江蘇一帶的地方所講的方言。所以今天所推行的普通話，是以官話為主要語言、加之北京音為標準的語言。
+
+官話也是一種聲調語言，這點跟漢語下的一眾語言相同。 
+
+名称
+
+官话，有时亦称为北語、北方话、官话方言、北方方言，有些場合也稱作蓝青官话。這是因為現代官话是基於北京語言。
+
+雖然北官话已經蔓延到了中国南方創造了江淮官话和西南官话 ，“北方方言”亦可指流行于中国北方的方言或北方官话，由於北方官話是南方官話聲調長經北方聲調形成是否歸於一類仍有意見，至今不同学者对于北方官话的定义并不相同。从1980年代后期起，中国大陆的汉语方言学界的期刊和专著已统一使用“官話”这一称呼。
+
+但另一邊廂，其他漢語方言的名稱，都只代表了相對來說的通行區域，不等於該區域只通行那一種漢語方言，亦不等於該漢語方言只通用於那一片地區。例如兩粵地區不獨通行粵語，同時粵語也不單單普及於兩粵地區。特別是持認為各漢語方言地位應平等的，认为官话属于方言而非独立语言的，或者認為各漢語方言都應是語言而非方言的論者，較多採用「北語」、「北方話」、「北方方言」這些名稱。
+
+官話的「官」字來自官僚、朝臣，西方語言稱官話為 mandarin，為葡萄牙人對明朝官員的稱呼，最早見於16世紀初期的文獻。葡萄牙人借用了馬來語menteri一詞，意為官員，而馬來語menteri一詞則源自梵文的mantrin。英語Mandarin Chinese指的也是Mandarin（朝廷官僚）使用的漢語。[3]
+
+在閩南語中，除了「北方話」（Pak-hng-oē）外，亦會稱作「北仔話」（Pak-á-ōe）、「外省仔話」。
+历史
+参见：明清官話演變史、南京話歷史、北京話歷史和現代漢語的來源
+
+“官话”最早是對官方標準話的稱呼，官話是汉语的一种汉语語言。官方標準語不為某一地的語言，是中國過去做官的人所使用的共同語，以便能互相溝通，上朝奏疏。后来逐漸流行于民间，演變一種各地共同用語。漢語官方標準語早期稱為雅言、周官話為雅言、秦漢時期沿用雅言，漢晉時期多稱「通語」，如西漢楊雄就以共同语“通语”来解释各地的方言，元代稱“天下通语”，為域內各民族共同语。然而上述時代的這些官方共同語，跟明清二朝及以後的官話音韻已有差異。直到明代中期，官話依然保留中古漢語的清濁音、入声、尖團音等。[4][5]
+官話前身
+
+在晋代五胡亂華、衣冠南渡以後，中原雅音南移。東晋、南北朝以來中國的官方共同語，分為南北兩支。最早以晉代中原雅音為基礎的金陵雅音，則作為中國長期的雅言。
+
+隋、唐時代，以中原雅言音為正，人們做詩詞、寫文章非常注意“正音”，因此很多韻書應運而生，為的是統合共同語的音調[6]。漢唐時期的古中原漢語隨著南遷移民進入吳閩粵諸地，在古中原華夏雅言的基礎上，融入周邊少數民族語言的元素，今日南方語言仍然保留著古代唐代語言的元。不僅唐代佛教經典的變文俗講開始以當時的官話來書寫，宋也以官話書寫的對金人的文書，這些都與後來的話本、戲曲與小說所用。
+明清時期南京與北京官话
+
+在元朝時，以北方官話及大都話為基礎，制定了天下通語，推行到全國。元朝官話在周德清的《中原音韻》中被記錄下來，在其中保存了大量唐宋以来占据主导地位的中原音(汴洛音)[6][7]，
+
+明清時期起，官方共同語稱為官话。在明滅元朝、定都南京後，以《中原音韻》的北方官話為基礎音系，參照以南方下江官話，制定了《洪武正韻》，形成南京官話，成为国家标准漢語语音。在遷都北京後仍以南京官話為標準，因此明清時期來華的西方傳教士所流行的中國話，基本上是以南京官话為標準。民國初年西方傳教士主持的“華語正音会”，也以南京音為標準。南京官話與現在南京話是否相同，學界仍有爭議[8]，王力等學者主張南京官話主要仍是受北方漢語影響。
+
+在明成祖遷都至北京後，北方官話的重要性上升。至清朝時，逐漸形成北京官话，成为中國官方的標準語，並為推行共同語而在各級書院推廣正音教學。清末編審國語以後，北京官話正式成爲中國官方的標準語。
+國語、普通話、華語
+
+1909年開始，官方共同語稱為「國語」，1913年中華民國讀音統一會以逐字一省一票投票出老國音，以兼顧南北語音，1923年改用基於北京音之新國音，1956年在大陸改稱「普通話」，新加坡獨立以來即稱之為「标准華語」；而官話一詞則演變為“官話方言”的含義。
+
+由於非官话方言汉族人口主要分布在南方或者说东南一带等，有人称整个官话方言为「北方方言」。但實際上西南官話、江淮官話兩大官話方言人口都分布在南方，主要是音調有不同。且江淮官话和部分西南官话更是保留了其他官话皆已消失的入声。而西南官話、江淮官話是否跟北方官話合併爲一個大方言區，不同學者有不同看法，詳見下方分區的說明。
+
+分区
+
+分区史
+
+官话的分類方法多种多样： 
+
+目前中国大陆出版的方言学的专业书籍、期刊，大都采取语言学家李荣在中国语言地图集中的分区法（下称“八区法”）歸類官话，八区法成为中国方言学界最流行的分類方式。然而對於八區法，一些學者也有一定異議，異議所涉及範圍小至某鄉某縣語言的分類，大至晉語、江淮官話、天津話和岷江话等的歸屬。
+调类分区
+語言學家李榮、羅傑瑞與劉勳寧等人提出的官話分區標準基本相同，都是古入聲字調類在各地之演化情況：入聲字分派是根據該字之聲母派至平上去三調，同時韻母隨之變化，同區演變規律大致相同，而此法可分出一個個大區[10]。李榮據此將官話分為八區，是最流行的官話分區方式。而羅傑瑞、劉勳寧的分區法則更為概括，羅傑瑞依據入聲分化類型的多寡將官話分為2區：入聲未發生分化的南方官話、入聲發生分化的北方官話[11]。劉勳寧則將官話分為三區：入聲未發生分化的南方官話、入聲一分為二的中原官話以及入聲一分為三的北方官話[12]。中央研究院史語所提出的官話分區法也採用羅之標準。民族語言網則劃官話為四大分區（北方官話、西北官話、西南官話、江淮官話） [13]。以下為基於各種分區方式的各區特徵和分布區域： 
+
+其它分区方式
+
+有學者依據方言特徵詞的研究將官話分為官話核心區（東北官話、北京官話、冀魯官話、中原官話）、官話過渡區（膠遼官話、晉語）、官話邊緣區（西南官話、江淮官話、蘭銀官話）。其中官話核心區詞彙很一致，而官話邊緣區與核心區共有的特徵詞很少、詞彙差異很大，官話過渡區則是核心區與邊緣區的過渡，但是也有部分明顯的差異之處[14]。此等學者認為劉勳寧的分區法亦有一定可取之處[14]。
+争议
+
+对官话分区的常见争论如下：
+
+    关于官话是方言还是语言的问题存在争议，其中认为它是一种方言的人常称其为“官话方言”。這種爭議實際上是“漢語方言究竟該不該集體升格成語言”的爭議的一部份。
+    晋语、江淮官话、西南官話具有的独立出官话方言的地位问题。
+    天津話、岷江话在官话方言的地位问题。
+    北京官话、东北官话和冀鲁官话保唐片合併还是分开的问题。在2000年后的研究一般主张合併。
+
+特征
+音韵
+
+官话内部一致性相對各方言比较大，除用词语调有些许差异的地區，在百里內的城市居民大部分可以基本沟通，相近地区完全互通。 官话的主要特徵包括：
+
+    中古的知、章、庄三组声母合并为卷舌塞擦音，并与平舌音的精组字相对立。但大部分西南官话中这种对立现象已经消失[15]。
+    中古全濁声母，在平声字中变为送气清声母，在仄聲字中變為不送氣清聲母。但西南官话成渝片和赤灌片（即四川话）较为特殊，部分中古全浊仄声字读送气清声母；西南官话黔北片部分点（如吉首）更为特殊，遇平声保留了全浊。
+    大部分的中古辅音韵尾消失，中古汉语中的“-p，-t，-k，-m，-n，-ng”现在已经只剩下“-n，-ng”。声调类型少，一般来讲有3至5个声调，大部分地區只有平声区分阴阳，且中古汉语的入声在官话大部分地區内消失。但中国南方的江淮官話全部地区和西南官話部分地区（岷江小片、丽川小片、武天片部分、黔南片部分、湘南片部分和岑江片部分等）[15]入声仍然得到保留。（同時，晉語被劃出官話，原則和依據也是因其保留入聲。）
+
+    古微母字今不读双唇音声母 m-
+
+语法
+主条目：漢語語法
+
+官話的基本语序为主谓宾结构。官话的词汇主要来源于文言文中的固有词汇，以及在清朝时期从日本引入的词汇，外来语较少。近年由于与外国交流日益增多，外来语逐渐增多，以及网络语言使日常口语多元化。
+方言字
+北方官话中的方言字保留于普通话中，如「甭」（不用）、嫑（不要）、「孬」（不好）、「俺」（我）、「咋」（怎么）、「咱」（含对方在内的我们）、「啥」（什么）。北方官话的大部分口语可以容易书写为书面语，但南方官话（如四川话所使用的四川方言字）因拥有大量不见于现代标准汉语的特有词汇，仍拥有较多独特的方言字。
+
+官话
+维基百科，自由的百科全书
+
+官話（又称北语、北方话、官話方言。此外有時也稱北方方言）為汉语的一支，主體為北方漢語。若視漢語為一種語言，則官话是漢語的一级方言，下分北方官话、中原官话和南方官话。若視漢語為“漢語族”，視官話為獨立語言的話，則官話下有數支官話的方言。無論如何劃分，官話的地位都跟吴语、粤语、闽语、湘语、客语、贛语等相同，要麼同為獨立語言，要麼同為漢語下的一級方言。
+
+官话是漢語诸方言中分布最广的一种，除了中國北方以外，官話也同時分佈在中国南方绝大多数地区，如南方的江蘇大部、安徽中北部、四川大部、重庆、云南、贵州、湖北大部、广西北部、湖南西部和北部和江西沿江地区作为母语使用。此外，官話在江蘇省蘇州市吴江区的菀坪镇、福建省南平市的延平區以及福州長樂航城街道的琴江满族村等地也以方言島的形式出現。[2]
+
+現今中國目前的官话大致分为华北官话、西北官话、西南官话和江淮官话，分别以北京话、西安話、成都话和南京话为代表，前兩者為北方官話，後兩者為南方官話，由於官話分佈地區廣，官話內部仍有較大的差異，仍存在各官話之間不能交流的情況。兩種南方官話都有應否獨立出官話方言的地位爭議。
+
+官話也是中國現在的主要通用語。其中，现代标准汉语（中華人民共和國的普通话、中華民國（臺灣）的國語、新加坡和馬來西亞的華語）均是以北方官话为基础音调而形成的规范语言。與認知的不同，地區之間的使用者不一定能夠有效溝通，因為地方官話的口音乃至於句法和用詞差異可能很大，特別是山東與江蘇一帶的地方所講的方言。所以今天所推行的普通話，是以官話為主要語言、加之北京音為標準的語言。
+
+官話也是一種聲調語言，這點跟漢語下的一眾語言相同。 
+
+名称
+
+官话，有时亦称为北語、北方话、官话方言、北方方言，有些場合也稱作蓝青官话。這是因為現代官话是基於北京語言。
+
+雖然北官话已經蔓延到了中国南方創造了江淮官话和西南官话 ，“北方方言”亦可指流行于中国北方的方言或北方官话，由於北方官話是南方官話聲調長經北方聲調形成是否歸於一類仍有意見，至今不同学者对于北方官话的定义并不相同。从1980年代后期起，中国大陆的汉语方言学界的期刊和专著已统一使用“官話”这一称呼。
+
+但另一邊廂，其他漢語方言的名稱，都只代表了相對來說的通行區域，不等於該區域只通行那一種漢語方言，亦不等於該漢語方言只通用於那一片地區。例如兩粵地區不獨通行粵語，同時粵語也不單單普及於兩粵地區。特別是持認為各漢語方言地位應平等的，认为官话属于方言而非独立语言的，或者認為各漢語方言都應是語言而非方言的論者，較多採用「北語」、「北方話」、「北方方言」這些名稱。
+
+官話的「官」字來自官僚、朝臣，西方語言稱官話為 mandarin，為葡萄牙人對明朝官員的稱呼，最早見於16世紀初期的文獻。葡萄牙人借用了馬來語menteri一詞，意為官員，而馬來語menteri一詞則源自梵文的mantrin。英語Mandarin Chinese指的也是Mandarin（朝廷官僚）使用的漢語。[3]
+
+在閩南語中，除了「北方話」（Pak-hng-oē）外，亦會稱作「北仔話」（Pak-á-ōe）、「外省仔話」。
+历史
+参见：明清官話演變史、南京話歷史、北京話歷史和現代漢語的來源
+
+“官话”最早是對官方標準話的稱呼，官話是汉语的一种汉语語言。官方標準語不為某一地的語言，是中國過去做官的人所使用的共同語，以便能互相溝通，上朝奏疏。后来逐漸流行于民间，演變一種各地共同用語。漢語官方標準語早期稱為雅言、周官話為雅言、秦漢時期沿用雅言，漢晉時期多稱「通語」，如西漢楊雄就以共同语“通语”来解释各地的方言，元代稱“天下通语”，為域內各民族共同语。然而上述時代的這些官方共同語，跟明清二朝及以後的官話音韻已有差異。直到明代中期，官話依然保留中古漢語的清濁音、入声、尖團音等。[4][5]
+官話前身
+
+在晋代五胡亂華、衣冠南渡以後，中原雅音南移。東晋、南北朝以來中國的官方共同語，分為南北兩支。最早以晉代中原雅音為基礎的金陵雅音，則作為中國長期的雅言。
+
+隋、唐時代，以中原雅言音為正，人們做詩詞、寫文章非常注意“正音”，因此很多韻書應運而生，為的是統合共同語的音調[6]。漢唐時期的古中原漢語隨著南遷移民進入吳閩粵諸地，在古中原華夏雅言的基礎上，融入周邊少數民族語言的元素，今日南方語言仍然保留著古代唐代語言的元。不僅唐代佛教經典的變文俗講開始以當時的官話來書寫，宋也以官話書寫的對金人的文書，這些都與後來的話本、戲曲與小說所用。
+明清時期南京與北京官话
+
+在元朝時，以北方官話及大都話為基礎，制定了天下通語，推行到全國。元朝官話在周德清的《中原音韻》中被記錄下來，在其中保存了大量唐宋以来占据主导地位的中原音(汴洛音)[6][7]，
+
+明清時期起，官方共同語稱為官话。在明滅元朝、定都南京後，以《中原音韻》的北方官話為基礎音系，參照以南方下江官話，制定了《洪武正韻》，形成南京官話，成为国家标准漢語语音。在遷都北京後仍以南京官話為標準，因此明清時期來華的西方傳教士所流行的中國話，基本上是以南京官话為標準。民國初年西方傳教士主持的“華語正音会”，也以南京音為標準。南京官話與現在南京話是否相同，學界仍有爭議[8]，王力等學者主張南京官話主要仍是受北方漢語影響。
+
+在明成祖遷都至北京後，北方官話的重要性上升。至清朝時，逐漸形成北京官话，成为中國官方的標準語，並為推行共同語而在各級書院推廣正音教學。清末編審國語以後，北京官話正式成爲中國官方的標準語。
+國語、普通話、華語
+
+1909年開始，官方共同語稱為「國語」，1913年中華民國讀音統一會以逐字一省一票投票出老國音，以兼顧南北語音，1923年改用基於北京音之新國音，1956年在大陸改稱「普通話」，新加坡獨立以來即稱之為「标准華語」；而官話一詞則演變為“官話方言”的含義。
+
+由於非官话方言汉族人口主要分布在南方或者说东南一带等，有人称整个官话方言为「北方方言」。但實際上西南官話、江淮官話兩大官話方言人口都分布在南方，主要是音調有不同。且江淮官话和部分西南官话更是保留了其他官话皆已消失的入声。而西南官話、江淮官話是否跟北方官話合併爲一個大方言區，不同學者有不同看法，詳見下方分區的說明。
+
+分区
+
+分区史
+
+官话的分類方法多种多样： 
+
+目前中国大陆出版的方言学的专业书籍、期刊，大都采取语言学家李荣在中国语言地图集中的分区法（下称“八区法”）歸類官话，八区法成为中国方言学界最流行的分類方式。然而對於八區法，一些學者也有一定異議，異議所涉及範圍小至某鄉某縣語言的分類，大至晉語、江淮官話、天津話和岷江话等的歸屬。
+调类分区
+語言學家李榮、羅傑瑞與劉勳寧等人提出的官話分區標準基本相同，都是古入聲字調類在各地之演化情況：入聲字分派是根據該字之聲母派至平上去三調，同時韻母隨之變化，同區演變規律大致相同，而此法可分出一個個大區[10]。李榮據此將官話分為八區，是最流行的官話分區方式。而羅傑瑞、劉勳寧的分區法則更為概括，羅傑瑞依據入聲分化類型的多寡將官話分為2區：入聲未發生分化的南方官話、入聲發生分化的北方官話[11]。劉勳寧則將官話分為三區：入聲未發生分化的南方官話、入聲一分為二的中原官話以及入聲一分為三的北方官話[12]。中央研究院史語所提出的官話分區法也採用羅之標準。民族語言網則劃官話為四大分區（北方官話、西北官話、西南官話、江淮官話） [13]。以下為基於各種分區方式的各區特徵和分布區域： 
+
+其它分区方式
+
+有學者依據方言特徵詞的研究將官話分為官話核心區（東北官話、北京官話、冀魯官話、中原官話）、官話過渡區（膠遼官話、晉語）、官話邊緣區（西南官話、江淮官話、蘭銀官話）。其中官話核心區詞彙很一致，而官話邊緣區與核心區共有的特徵詞很少、詞彙差異很大，官話過渡區則是核心區與邊緣區的過渡，但是也有部分明顯的差異之處[14]。此等學者認為劉勳寧的分區法亦有一定可取之處[14]。
+争议
+
+对官话分区的常见争论如下：
+
+    关于官话是方言还是语言的问题存在争议，其中认为它是一种方言的人常称其为“官话方言”。這種爭議實際上是“漢語方言究竟該不該集體升格成語言”的爭議的一部份。
+    晋语、江淮官话、西南官話具有的独立出官话方言的地位问题。
+    天津話、岷江话在官话方言的地位问题。
+    北京官话、东北官话和冀鲁官话保唐片合併还是分开的问题。在2000年后的研究一般主张合併。
+
+特征
+音韵
+
+官话内部一致性相對各方言比较大，除用词语调有些许差异的地區，在百里內的城市居民大部分可以基本沟通，相近地区完全互通。 官话的主要特徵包括：
+
+    中古的知、章、庄三组声母合并为卷舌塞擦音，并与平舌音的精组字相对立。但大部分西南官话中这种对立现象已经消失[15]。
+    中古全濁声母，在平声字中变为送气清声母，在仄聲字中變為不送氣清聲母。但西南官话成渝片和赤灌片（即四川话）较为特殊，部分中古全浊仄声字读送气清声母；西南官话黔北片部分点（如吉首）更为特殊，遇平声保留了全浊。
+    大部分的中古辅音韵尾消失，中古汉语中的“-p，-t，-k，-m，-n，-ng”现在已经只剩下“-n，-ng”。声调类型少，一般来讲有3至5个声调，大部分地區只有平声区分阴阳，且中古汉语的入声在官话大部分地區内消失。但中国南方的江淮官話全部地区和西南官話部分地区（岷江小片、丽川小片、武天片部分、黔南片部分、湘南片部分和岑江片部分等）[15]入声仍然得到保留。（同時，晉語被劃出官話，原則和依據也是因其保留入聲。）
+
+    古微母字今不读双唇音声母 m-
+
+语法
+主条目：漢語語法
+
+官話的基本语序为主谓宾结构。官话的词汇主要来源于文言文中的固有词汇，以及在清朝时期从日本引入的词汇，外来语较少。近年由于与外国交流日益增多，外来语逐渐增多，以及网络语言使日常口语多元化。
+方言字
+北方官话中的方言字保留于普通话中，如「甭」（不用）、嫑（不要）、「孬」（不好）、「俺」（我）、「咋」（怎么）、「咱」（含对方在内的我们）、「啥」（什么）。北方官话的大部分口语可以容易书写为书面语，但南方官话（如四川话所使用的四川方言字）因拥有大量不见于现代标准汉语的特有词汇，仍拥有较多独特的方言字。
+
+官话
+维基百科，自由的百科全书
+
+官話（又称北语、北方话、官話方言。此外有時也稱北方方言）為汉语的一支，主體為北方漢語。若視漢語為一種語言，則官话是漢語的一级方言，下分北方官话、中原官话和南方官话。若視漢語為“漢語族”，視官話為獨立語言的話，則官話下有數支官話的方言。無論如何劃分，官話的地位都跟吴语、粤语、闽语、湘语、客语、贛语等相同，要麼同為獨立語言，要麼同為漢語下的一級方言。
+
+官话是漢語诸方言中分布最广的一种，除了中國北方以外，官話也同時分佈在中国南方绝大多数地区，如南方的江蘇大部、安徽中北部、四川大部、重庆、云南、贵州、湖北大部、广西北部、湖南西部和北部和江西沿江地区作为母语使用。此外，官話在江蘇省蘇州市吴江区的菀坪镇、福建省南平市的延平區以及福州長樂航城街道的琴江满族村等地也以方言島的形式出現。[2]
+
+現今中國目前的官话大致分为华北官话、西北官话、西南官话和江淮官话，分别以北京话、西安話、成都话和南京话为代表，前兩者為北方官話，後兩者為南方官話，由於官話分佈地區廣，官話內部仍有較大的差異，仍存在各官話之間不能交流的情況。兩種南方官話都有應否獨立出官話方言的地位爭議。
+
+官話也是中國現在的主要通用語。其中，现代标准汉语（中華人民共和國的普通话、中華民國（臺灣）的國語、新加坡和馬來西亞的華語）均是以北方官话为基础音调而形成的规范语言。與認知的不同，地區之間的使用者不一定能夠有效溝通，因為地方官話的口音乃至於句法和用詞差異可能很大，特別是山東與江蘇一帶的地方所講的方言。所以今天所推行的普通話，是以官話為主要語言、加之北京音為標準的語言。
+
+官話也是一種聲調語言，這點跟漢語下的一眾語言相同。 
diff --git a/benches/texts/russian.txt b/benches/texts/russian.txt
new file mode 100644
index 0000000..86ef46c
--- /dev/null
+++ b/benches/texts/russian.txt
@@ -0,0 +1,155 @@
+Русский язык
+
+Ру́сский язы́к ([ˈruskʲɪi̯ jɪˈzɨk] Информация о файле слушать)[~ 3][⇨] — один из восточнославянских языков, национальный язык русского народа. Является одним из наиболее распространённых языков мира — шестым среди всех языков мира по общей численности говорящих и восьмым по численности владеющих им как родным[9]. Русский является также самым распространённым славянским языком[10] и самым распространённым языком в Европе — географически и по числу носителей языка как родного[7].
+
+Русский язык — государственный язык Российской Федерации, один из двух государственных языков Белоруссии, один из официальных языков Казахстана, Киргизии и некоторых других стран, основной язык международного общения в Центральной Евразии, в Восточной Европе, в странах бывшего Советского Союза, один из шести рабочих языков ООН, ЮНЕСКО и других международных организаций[11][12][13][⇨].
+
+Число владеющих русским языком в России составляет 137,5 млн человек (2010)[5]. Всего в мире на русском говорят около 260 млн человек (2014)[6][⇨].
+
+Фонологический строй русского языка характеризуется исторически усложнившейся системой консонантизма, включающей 37 согласных фонем, и менее сложной системой вокализма, в которую входят 5 или 6[~ 4] гласных фонем. При этом как в системе гласных, так и в системе согласных отмечается большое разнообразие позиционных видоизменений. В частности, гласные в безударной позиции ослабляются и в ряде случаев не различаются. Ударение в русском языке — динамическое, разноместное и подвижное[14][15][⇨].
+
+По морфологическому строю русский язык преимущественно флективный, синтетический. Грамматическое значение лексем передаётся, как правило, с помощью флексий. Каждая флексия обычно выражает одновременно несколько значений. Наряду с синтетическими формами, в русском языке наблюдается также развитие элементов аналитизма[14][⇨].
+
+Синтаксис русского языка характеризуется относительно свободным порядком слов, противопоставлением однокомпонентных и двухкомпонентных структур простых предложений, наличием трёх видов сложных предложений, активной ролью интонационных средств[16][⇨].
+
+Лексический состав русского языка в своей основе — исконно русский. Средства пополнения словарного фонда — образование слов по собственным моделям и заимствования. К ранним заимствованиям относят славянизмы, грецизмы и тюркизмы. C XVIII века преобладают голландские, немецкие и французские заимствования, с XX века — англицизмы[16][⇨].
+
+Диалекты русского языка группируются в два наречия: северное и южное. Между наречиями локализуются переходные среднерусские говоры, ставшие основой современного литературного языка[11][⇨].
+
+В истории русского языка выделяют три основных периода: древнерусский, общий для русского, белорусского и украинского языков (VI—XIV веков), старорусский или великорусский (XIV—XVII веков) и период национального русского языка (с середины XVII века)[17][⇨]. В основе письменности лежит кириллица (старославянская азбука)[⇨].
+
+Комплекс наук о русском языке называется лингвистической русистикой[11][16][⇨]. 
+
+О названии
+Основная статья: Названия русского языка
+
+Лингвоним «русский язык» соотносится с древним этнонимом и топонимом «Русь». В силу ряда исторических изменений (c появлением форм на -о- и удвоением -сс-) сложились современные названия языка, народа и государства: «русский язык», «русские», «Россия»[18][19].
+
+В разное время наряду с названием «русский» были употребительны такие лингвонимы, как «российский» и «великорусский». Первый был образован от греческого названия Руси — «Россия», второй возник от хоронима «Великороссия». Название «российский язык» появилось в XVII веке и получило широкое распространение в XVIII веке, его использовал, в частности, М. В. Ломоносов («Российская грамматика»). В первой половине XIX века этот лингвоним архаизировался и перешёл в разряд лексических историзмов[20]. Название «великорусский» (или «великоросский») появилось в связи со сложившимся противопоставлением Малой, Белой и Великой Руси и чаще всего использовалось для того, чтобы обозначить не национальный или литературный язык, а диалектную речь великорусов. В начале XX века термин «великорусский» вышел из активного употребления[21].
+Лингвогеография
+Ареал и численность
+
+Основной территорией распространения русского языка является Российская Федерация. По данным всероссийской переписи 2010 года, численность говорящих на русском языке составила 137 495 тыс. человек (99,4 % из числа ответивших на вопрос о владении русским языком)[5], из них русских — 110 804 тыс. человек[22]. В городах русским языком владел 101 млн человек (99,8 %), в сельской местности — 37 млн человек (98,7 %). В качестве родного русский язык указали 118 582 тыс. чел., из них русских — 110 706 тыс. человек, украинцев — 1456 тыс. человек, татар — 1086 тыс. человек[23]. Согласно переписи 2002 года, владение русским языком указали 142,6 млн человек (99,2 %)[24].
+
+Помимо Российской Федерации, русский язык (отличающийся от используемого в России региональными особенностями) широко распространён также в ряде других государств, входивших в состав СССР. По разным данным, носителей русского языка в этих странах насчитывается от 52 млн (2005) до 94 млн человек (2010)[25][26]. Согласно всеукраинской переписи 2001 года, 7994 тыс. русских на Украине родным назвали язык своей национальности — русский[27], также родным русский язык назвали 6280 тыс. представителей других этносов (из них 5545 тыс. — украинцы)[28]; помимо указавших русский родным языком, ещё 17 177 тыс. человек заявили, что свободно им владеют[29]. В Казахстане, согласно переписи 2009 года, русский язык назвали родным 3747 тыс. русских (98,8 %), кроме того, жители Казахстана всех национальностей в возрастной категории от 15 лет заявили, что понимают устную русскую речь — 11 471 тыс. человек (94,4 %), свободно читают — 10 725 тыс. человек (88,2 %) и свободно пишут — 10 309 тыс. человек (84,8 %)[30]. В Узбекистане численность владеющих русским языком оценивается в пределах от 3,6 млн (2005) до 11,8 млн (2009—2012) при наличии около 1,1 млн русского населения[25][26]. По данным белорусской переписи 2009 года, родным языком назвали русский 3948 тыс. жителей Белоруссии (из них 2944 тыс. этнических белорусов и 756 тыс. русских); языком, на котором разговаривают дома, русский назвали 6673 тыс. человек (из них 5552 тыс. белорусов и 758 тыс. русских); другим языком, которым свободно владеют, русский назвали 1305 тыс. человек[31]. В Киргизии, по данным переписи 2009 года, русским языком как родным владели 482 тыс. человек, в качестве второго языка общения русский использовали 2109 тыс. человек, всего — 2592 тыс. человек или 48 % населения страны[32]. В ходе переписи населения 2004 года в Молдавии русский язык назвали родным 97,2 % из 201 тыс. этнических русских, 31,8 % из 282 тыс. украинцев, 5,8 % из 147 тыс. гагаузов, 2,5 % из 2565 тыс. молдаван. Языком повседневного общения назвали русский 16,0 % из 3383 тыс. всего населения Молдавии[33]. В Латвии по итогам переписи 2011 года языком повседневного общения русский назвали 699 тыс. человек, в том числе 460 тыс. русских, 90 тыс. латышей и 54 тыс. белорусов[34].
+
+По итогам переписи и оценочным данным, численность владеющих русским языком на постсоветском пространстве за пределами России в 2009—2012 годах составила[26]: 
+
+Большое число владеющих русским языком живёт в странах дальнего зарубежья — в европейских государствах, в США, Канаде, Израиле и многих других странах[25]. Наибольшая численность носителей русского языка как родного отмечается в США (730 тыс. человек, 2000) и в Германии (свыше 350 тыс. человек, 2011)[26]. Численность владеющих русским языком как родным во всём мире оценивается в 166,2 млн человек (2015)[3], численность владеющих русским как вторым языком оценивается в 110 млн человек (2009)[4], по разным оценкам, общая численность говорящих на русском составляет около 260 млн человек (2014)[6]. Помимо России и других бывших республик СССР, русским языком к 2010 году владели в Восточной Европе и на Балканах — 12,9 млн человек, в Западной Европе — 7,3 млн, в Азии — 2,7 млн, на Ближнем Востоке и в Северной Африке — 1,3 млн, в Африке к югу от Сахары — 0,1 млн, в Латинской Америке — 0,2 млн, в США, Канаде, Австралии и Новой Зеландии — 4,1 млн[26].
+
+Страны дальнего зарубежья с наибольшей численностью населения, владеющего русским языком как родным, вторым или иностранным (2010)[26]: 
+
+По степени распространённости (общему количеству владеющих языком людей) русский к 2013 году занимал 6-е место в мире после английского (1500 млн носителей), китайского (1400 млн), хинди/урду (более 600 млн), испанского (500 млн) и арабского (350 млн) языков. Среди языков, являющихся для их носителей родными, русский в 2018 году занимал 8-е место в мире после китайского, испанского, английского, арабского, хинди, бенгали и португальского языков[7][26].
+Социолингвистические сведения
+
+До 1991 года русский язык был языком межнационального общения СССР, де-факто исполняя функции государственного языка. Он продолжает использоваться в странах, ранее входивших в состав СССР, и теперь: как родной язык — для части населения, и как язык межнационального общения — для всего населения этих стран[35][36].
+
+В настоящее время русский язык имеет официальный статус в России и в целом ряде стран и регионов, находящихся по большей части на постсоветском пространстве. Во многих государствах, где статус русского языка закреплён законодательно, его функции по отношению к языкам титульных наций являются ограниченными[37]. 
+
+В соответствии с Конституцией Российской Федерации (1993) и законом «О государственном языке Российской Федерации» (2005), на всей территории страны государственным является русский язык. Он используется во всех сферах политической, экономической, социальной и культурной жизни России, на нём проводится обучение в российских школах и вузах. В республиках — субъектах Российской Федерации русский также имеет статус государственного наряду с титульными языками этих республик[37][38].
+
+Русский язык является государственным в Белоруссии (наряду с белорусским)[39], в частично признанной Южной Осетии (наряду с осетинским)[40] и в непризнанных Приднестровской Молдавской Республике (наряду с молдавским и украинским)[41], Донецкой Народной Республике (наряду с украинским)[42] и Луганской Народной Республике (наряду с украинским)[43]. Русский язык считается официальным языком государственных учреждений (но ниже государственного по статусу) в Казахстане[44], Киргизии[45] и в частично признанной Республике Абхазия[46]. В Армении, Польше, некоторых административных единицах Молдавии (Гагаузия)[47], Норвегии (Шпицберген)[48], Румынии и Украины русский признан одним из региональных официальных языков или одним из языков национальных меньшинств[49].
+
+В ряде стран и территорий русский язык, не являясь официальным, выполняет некоторые общественные функции. Так, в Таджикистане, согласно Конституции, русский признан «языком межнационального общения» и официально используется в законотворчестве[50]. В Узбекистане русский язык используется в органах ЗАГСа и нотариальных органах[51][52]. В некоторых округах штата Нью-Йорк в США на русский язык должны переводиться документы, связанные с выборами[53]. В Израиле в упаковках лекарств обязательно должна присутствовать развернутая информация о препарате не только на иврите, но и на русском и арабском[54]. 
+
+Русский язык является официальным или рабочим языком в ряде международных объединений и организаций, в их числе: ООН и некоторые её специализированные учреждения[55], а также СНГ, ОДКБ, ЕАЭС, ШОС, ОБСЕ, МФОКК и КП, ГУАМ и т. д.
+
+Русский язык используется не только в тех государствах, в которых имеет официальный статус. Он сравнительно широко распространён и во многих других странах мира. Как один из развитых мировых языков русский применяется в различных сферах международного общения, в частности, выступает в качестве «языка науки» как средство коммуникации учёных из разных стран и как средство кодирования и хранения общечеловеческих знаний[56]. На нём создана богатая оригинальная художественная, научная и техническая литература, на русский язык переведено многое из созданного мировой культурой и наукой[36]. По данным электронной базы данных реестра переводов «Index Translationum», русский является одним из самых активно используемых при переводе языков в мире. Среди языков, на которые переводятся книги, русский — на 7-м месте. Среди языков, с которых чаще всего переводят, русский — на 4-м месте[57]. В 2013 году русский язык вышел на 2-е место среди самых популярных языков Интернета[58].
+
+Распространению русского языка в мире способствует как политическая роль русскоязычных стран, так и значимость культуры, связанной с русским языком, в первую очередь русской классической литературы XIX века. Во многих странах мира русский язык включается в программу среднего и высшего образования как иностранный язык. С 1967 года работу по преподаванию русского языка координирует Международная ассоциация преподавателей русского языка и литературы, объединяющая около 200 коллективных членов (национальные союзы русистов, крупнейшие университеты и т. д.). В 1973 году создан Государственный институт русского языка имени А. С. Пушкина — важнейший учебный и научно-исследовательский центр, ставящий одной из своих целей распространение русского языка и культуры за рубежом. В 1980-е годы русский язык изучался за пределами СССР в более чем 90 странах мира 22—24 миллионами школьников, студентов и других лиц (прежде всего в странах Восточной Европы). Около 500 млн человек владели русским как родным, неродным или иностранным с различным уровнем знания. В конце XX — начале XXI века в результате геополитических изменений в мире наблюдается значительное уменьшение количества изучающих русский как неродной или иностранный язык. В 1990-е годы число изучающих русский язык за пределами России и постсоветского пространства оценивалось в 10—12 млн человек[25][56][59].
+
+В XXI веке русский язык продолжает терять свои позиции как в мире в целом, так и в России в частности[60][61]. В странах бывшего СССР русский язык вытесняется языками титульных наций (свою роль в этом процессе играет и уменьшение численности русских с 25—30 млн человек до 17 млн человек с 1991 по 2006 год из-за эмиграции, депопуляции и смены национальной идентификации)[60][62], а в России употребление русского языка сокращается в связи с уменьшением численности русских и общей убылью населения России[63]. По прогнозам, численность владеющих русским языком к 2025 году в России уменьшится до 110 млн человек, в мире — до 215 млн человек, к 2050 году в мире — до 130 млн человек[61][64].
+
+Изменение удельного веса владеющих русским языком в общей численности населения Земли в 1900—2010 годах (оценка)[65]: 
+
+Использование русского языка во многих странах мира поддерживается, помимо прочего, русской диаспорой. В местах компактного проживания эмигрантов из стран бывшего СССР (Канада, США, Германия, Израиль и другие страны) выпускаются русскоязычные периодические издания, работают радиостанции и телевизионные каналы[66], открыты русскоязычные частные детские сады и школы, филиалы российских вузов и другие общеобразовательные структуры[67]. Среди большей части носителей русского языка в диаспорах распространено двуязычие. 
+
+Для современного национального русского языка характерно существование в нескольких формах. Наиболее значимой формой является литературный язык. Меньшее значение имеют территориальные и социальные диалекты, а также просторечие. Для любых групп носителей русского языка сложности во взаимопонимании отсутствуют, поскольку все формы языка характеризуются достаточно близкими системами фонетики и грамматики, а также объединяются общим основным словарным фондом. Литературный русский язык сформировался на основе среднерусских говоров Москвы и её окрестностей. В нём выделяются две разновидности, письменная и разговорная. Современный литературный русский язык обрёл свои основные очертания в первой половине XIX века, наиболее ярко и полно нормы литературного языка были отражены в литературной деятельности А. С. Пушкина. В дальнейшем стандартный русский язык развивался благодаря творчеству крупнейших русских писателей XIX—XX веков, а также благодаря становлению языка русской науки и публицистики. В XX веке литературный русский язык обретает черты высокоразвитого и высоконормированного языка. С распространением всеобщего образования и расширением роли средств массовой информации литературный язык вытеснил все прочие формы русского языка и стал ведущим средством общения русской нации[68].
+
+Центром научного исследования русского языка является Институт русского языка имени В. В. Виноградова РАН, основанный в 1944 году. В сферу научной деятельности Института включены все направления русистики, в том числе создание грамматик и словарей русского языка. Как предмет научных исследований русский язык включён в программу многих российских и зарубежных научных и образовательных учреждений[59]. За пределами России наиболее длительную традицию университетская русистика имеет во Франции (с конца XIX века) и в Великобритании (с начала XX века). Национальные школы русистики сложились в Польше, Чехии, Болгарии, Германии, Норвегии, Франции, США, Канаде, Японии и других странах[69].
+Региональные варианты
+Основная статья: Региональные варианты русского языка
+
+В том или ином регионе распространения русского языка отмечается формирование местных разговорных разновидностей, отличающихся в силу разных причин от нормативного разговорного варианта русского литературного языка.
+
+В качестве таких локальных разновидностей выделяются прежде всего особенности русской речи, характерные для носителей русского языка, живущих за пределами России[36]. Ряд исследователей определяет эти разновидности как региональные варианты русского языка (иначе — территориальные койне). В последнее время они активно формируются на постсоветском пространстве — белорусский, украинский, казахстанский и другие — в условиях влияния на русскую речь в том или ином государстве фонетических, грамматических, лексических и других особенностей языков титульных этносов. В виде подобных койне функционирует русская речь также и в диаспорах дальнего зарубежья среди эмигрантов[70].
+
+Межъязыковые контакты, влияние местных русских диалектов, региональные особенности исторического, экономического и социального характера, а также другие факторы способствуют образованию «регионально окрашенной речи» в разных областях на территории России (пермской, дальневосточной, дагестанской и т. д.). К ним также предлагается применять термин «региональный вариант» или «региолект»[71][72].
+
+У литературного русского языка в письменной форме региональных вариантов не существует. В то же время в качестве особой сферы существования литературного языка в XX—XXI веках рассматривается так называемый язык русского зарубежья, представленный богатой художественной литературой[68][73].
+Смешанные и производные идиомы
+
+Русский язык послужил основой для формирования ряда пиджинов и разного рода смешанных форм речи.
+
+Наиболее известными изученными пиджинами на русской основе являются руссенорск, таймырская говорка и кяхтинский пиджин. Первый из них был распространён на Кольском полуострове и сложился в результате торговых контактов носителей русского и норвежского языков, второй сложился на Таймыре как средство общения затундренных русских крестьян, нганасанов и долганов, третий сформировался в Забайкалье на основе элементов русского и китайского языков[74][75][76]. Наиболее известным смешанным языком является алеутско-медновский язык, распространённый среди алеутов острова Медный[77].
+
+Особые формы смешанной устной речи представляют собой так называемый «суржик», сложившийся в восточных, юго-восточных и центральных областях Украины, в основном в городах (Запорожье, Донбасс, Кривой Рог, Одесса), а также в Крыму, и так называемая «трасянка» в Белоруссии. Данные формы появились в результате смешения преимущественно русской лексики с преимущественно украинской или белорусской фонетикой и грамматикой[78][79].
+
+Характерные особенности присущи также русскому языку Одессы, возникшему под влиянием еврейского языка идиш. Одесский русский получил широкую известность благодаря использованию его черт в литературных произведениях и кинематографе. Он рассматривается исследователями и как региональный вариант русского языка, и как смешанный язык[80][81].
+Диалекты
+Основная статья: Диалекты русского языка
+
+В современном диалектном членении русского языка территорию распространения русских диалектов разделяют на две области: первая включает центральные районы Европейской части России — территорию исконного расселения русских, на которой первоначально — в основном до XV века — сформировались русские диалекты и русский национальный язык; вторая охватывает Среднее и Нижнее Поволжье, Кавказ, Урал, Сибирь, Дальний Восток и другие территории позднего расселения, которые осваивались русскими уже после формирования русской нации, русского языка и его диалектов, начиная с XVI и вплоть до XX века[82][83].
+
+В пределах территории раннего формирования сложились две большие группировки русских диалектов — северное наречие и южное наречие, характеризуемые рядом противопоставленных друг другу диалектных явлений. Так, например, для севернорусских говоров характерны оканье, взрывное образование фонемы /г/ — [г], твёрдое -т в окончаниях глаголов 3-го лица (нóсит, нóсят); форма существительных родительного падежа у жон[ы́]; такие слова, как зы́бка, óзимь, ла́ет и т. д. Этим диалектным явлениям противостоят черты южнорусских говоров: аканье, фрикативное образование /г/ — [ɣ], мягкое -т’ в окончаниях глаголов 3-го лица (нóсит’, нóсят’); форма у жен[é]; слова с теми же значениями лю́лька, зеленя́, брéшет и т. д[84][85][86]. Ещё один крупный ареал, сопоставимый по охвату с наречиями, занимают переходные среднерусские говоры. Они не имеют общих для них собственных диалектных черт и характеризуются сочетанием тех или иных особенностей двух наречий: весь ареал среднерусских говоров охватывает, с одной стороны, севернорусское взрывное произношение /г/, с другой стороны — южнорусское аканье[83][87]. Для говоров позднего формирования характерны отсутствие чёткого диалектного деления, пестрота небольших ареалов, наличие смешанных говоров переселенцев из разных регионов, преимущественно повторение черт, известных в ареалах территории раннего формирования[88].
+
+Согласно диалектному членению русского языка, предложенному в 1965 году К. Ф. Захаровой и В. Г. Орловой, в составе наречий и среднерусских говоров выделяются следующие группы говоров и говоры, не образующие самостоятельных групп[89][90]: 
+
+    Северное наречие:
+        Ладого-Тихвинская группа говоров;
+        межзональные говоры северного наречия (Онежская группа говоров, лачские говоры, белозерско-бежецкие говоры);
+        Вологодская группа говоров, Костромская группа говоров;
+        Архангельская (Поморская) группа говоров[~ 5][93][94].
+    Южное наречие:
+        Западная группа говоров, Верхне-Днепровская группа говоров, Верхне-Деснинская группа говоров;
+        межзональные говоры А южного наречия;
+        Курско-Орловская группа говоров;
+        межзональные говоры Б южного наречия (Тульская группа говоров, елецкие говоры, оскольские говоры);
+        Восточная (Рязанская) группа говоров;
+        Донская группа говоров[~ 5][95].
+    Среднерусские говоры:
+        западные среднерусские говоры:
+            западные среднерусские окающие говоры:
+                новгородские говоры;
+                Гдовская группа говоров;
+            западные среднерусские акающие говоры:
+                Псковская группа говоров;
+                селигеро-торжковские говоры;
+        восточные среднерусские говоры:
+            восточные среднерусские окающие говоры:
+                Владимирско-Поволжская группа говоров (с Тверской и Нижегородской подгруппами);
+            восточные среднерусские акающие говоры:
+                отдел А восточных среднерусских акающих говоров;
+                отдел Б восточных среднерусских акающих говоров;
+                отдел В восточных среднерусских акающих говоров;
+                говоры чухломского острова.
+
+Кроме наречий и групп говоров, выделяются также особые ареальные единицы — диалектные зоны, выполняющие вспомогательную роль: западная, северная, северо-западная, северо-восточная, южная, юго-западная, юго-восточная и центральная[96][97][98].
+
+Формирование современных русских диалектных групп происходило в результате различного рода взаимодействий, преобразований и перегруппировок диалектов древнерусского языка[99]. На основе новгородского и ростово-суздальского диалектов сложились северное наречие и при взаимодействии с южнорусской диалектной областью среднерусские говоры[100][101]. Южное наречие сформировалось на основе южнорусского акающего диалекта и испытавшего влияние акающих говоров смоленско-полоцкого диалекта[102].
+
+Диалектные различия в русском языке, как правило, выражены не настолько сильно, чтобы препятствовать взаимопониманию между носителями говоров из разных регионов, а также между носителями говоров и литературного языка. Широкое распространение СМИ, введение всеобщего образования, масштабные миграции населения в XX веке способствовали стиранию диалектных различий и сужению круга лиц, использующих говоры в чистом виде. Традиционные говоры сохраняются только сельским населением (в основном старшим поколением), городское население владеет говорами только в размытом виде, через посредство просторечия[103].
+Письменность
+Основные статьи: Русская письменность, История русской письменности и Русский алфавит
+
+Для письма в русском языке используется алфавит, основанный на кириллице; современный русский алфавит — это кириллица в гражданской модификации. Кириллический алфавит был создан на основе византийского греческого алфавита с добавлением букв для обозначения специфических славянских фонем. На Руси кириллица появилась не позднее начала X века и широко распространилась в процессе христианизации. C X по XVIII век тип шрифта кириллицы претерпевал изменения — в разное время распространялись устав, полуустав, скоропись и т. д. С XVIII века кириллический алфавит применяется только для религиозной литературы, во всех прочих сферах используется гражданский шрифт, введённый Петром I в 1708 году. В дальнейшем графика и орфография пережили ряд преобразований (наиболее значительные изменения были приняты во время реформы 1918 года), в результате которых были исключены буквы і, ѣ, ѳ и ѵ, введены буква й и факультативно буква ё. В настоящее время повсеместно распространены графика и орфография, принятые в 1918 году; лишь в небольшой части изданий русского зарубежья сохраняется орфография старого стиля[59][104].
+
+Алфавит русского языка, включающий 33 буквы[~ 6][105]: 
+
+Орфография русского языка относится к морфологическому типу с элементами фонетического и традиционного типов. Разновидности морфемы с отличием в позициях фонем пишутся одинаково: водá [вʌдá] — вóды [вóды], дуб [дуп] — дубы [дубы]. Фонетический принцип используется в небольшом числе случаев: в написании приставок с конечной фонемой /з/: разбить, безоружный (перед буквой, передающей гласную и звонкую согласную), но воспалённый, исписать (перед буквой, передающей глухую согласную); в написании ы вместо и в начале корня после приставок с твёрдой согласной на конце: предыстория, разыграть и т. д. Немногочисленны случаи и традиционного типа написания: собака, генеалогия, колибри, расти, доброго, ночь (но луч) и т. д[106].
+
+Ударение в русском языке на письме обычно не выделяется, одним из возможных случаев проставления знака ударения ´ над гласной буквой является необходимость различения омографов: зáмок и замóк[107].
+История
+Основная статья: История русского языка
+
+В истории русского языка выделяются три основных периода[17]:
+
+    древнерусский,
+    старорусский,
+    период национального языка.
+
+Древнерусский период, традиционно рассматриваемый в русистике как начальный этап исторического развития русского языка, фактически является историей древнерусского языка — предка всех современных языков восточнославянской группы[108][109].
+Древнерусский период
+Основная статья: Древнерусский язык
+
+Началом древнерусского периода принято считать процесс обособления восточных славян из общеславянского единства и появление первых восточнославянских языковых черт (VI—VII века). Основная часть этого периода (IX—XIV века) приходится на эпоху формирования, развития и распада древнерусского языка, сложившегося на базе восточных праславянских диалектов[110][111].
diff --git a/benches/texts/source_code.txt b/benches/texts/source_code.txt
new file mode 100644
index 0000000..bd3dfec
--- /dev/null
+++ b/benches/texts/source_code.txt
@@ -0,0 +1,1672 @@
+// This sample is from Neovim's source code.
+
+//
+// buffer.c: functions for dealing with the buffer structure
+//
+
+//
+// The buffer list is a double linked list of all buffers.
+// Each buffer can be in one of these states:
+// never loaded: BF_NEVERLOADED is set, only the file name is valid
+//   not loaded: b_ml.ml_mfp == NULL, no memfile allocated
+//       hidden: b_nwindows == 0, loaded but not displayed in a window
+//       normal: loaded and displayed in a window
+//
+// Instead of storing file names all over the place, each file name is
+// stored in the buffer list. It can be referenced by a number.
+//
+// The current implementation remembers all file names ever used.
+//
+
+#include <stdbool.h>
+#include <string.h>
+#include <inttypes.h>
+#include <assert.h>
+
+#include "nvim/api/private/handle.h"
+#include "nvim/api/private/helpers.h"
+#include "nvim/api/vim.h"
+#include "nvim/ascii.h"
+#include "nvim/assert.h"
+#include "nvim/channel.h"
+#include "nvim/vim.h"
+#include "nvim/buffer.h"
+#include "nvim/change.h"
+#include "nvim/charset.h"
+#include "nvim/cursor.h"
+#include "nvim/diff.h"
+#include "nvim/digraph.h"
+#include "nvim/eval.h"
+#include "nvim/ex_cmds2.h"
+#include "nvim/ex_cmds.h"
+#include "nvim/ex_docmd.h"
+#include "nvim/ex_eval.h"
+#include "nvim/ex_getln.h"
+#include "nvim/fileio.h"
+#include "nvim/file_search.h"
+#include "nvim/fold.h"
+#include "nvim/getchar.h"
+#include "nvim/hashtab.h"
+#include "nvim/highlight.h"
+#include "nvim/indent.h"
+#include "nvim/indent_c.h"
+#include "nvim/main.h"
+#include "nvim/mark.h"
+#include "nvim/extmark.h"
+#include "nvim/mbyte.h"
+#include "nvim/memline.h"
+#include "nvim/memory.h"
+#include "nvim/message.h"
+#include "nvim/misc1.h"
+#include "nvim/garray.h"
+#include "nvim/move.h"
+#include "nvim/option.h"
+#include "nvim/os_unix.h"
+#include "nvim/path.h"
+#include "nvim/quickfix.h"
+#include "nvim/regexp.h"
+#include "nvim/screen.h"
+#include "nvim/sign.h"
+#include "nvim/spell.h"
+#include "nvim/strings.h"
+#include "nvim/syntax.h"
+#include "nvim/ui.h"
+#include "nvim/undo.h"
+#include "nvim/version.h"
+#include "nvim/window.h"
+#include "nvim/shada.h"
+#include "nvim/os/os.h"
+#include "nvim/os/time.h"
+#include "nvim/os/input.h"
+#include "nvim/buffer_updates.h"
+
+#ifdef INCLUDE_GENERATED_DECLARATIONS
+# include "buffer.c.generated.h"
+#endif
+
+static char *msg_loclist = N_("[Location List]");
+static char *msg_qflist = N_("[Quickfix List]");
+static char *e_auabort = N_("E855: Autocommands caused command to abort");
+
+// Number of times free_buffer() was called.
+static int buf_free_count = 0;
+
+typedef enum {
+  kBffClearWinInfo = 1,
+  kBffInitChangedtick = 2,
+} BufFreeFlags;
+
+// Read data from buffer for retrying.
+static int
+read_buffer(
+    int     read_stdin,     // read file from stdin, otherwise fifo
+    exarg_T *eap,           // for forced 'ff' and 'fenc' or NULL
+    int     flags)          // extra flags for readfile()
+{
+  int       retval = OK;
+  linenr_T  line_count;
+
+  //
+  // Read from the buffer which the text is already filled in and append at
+  // the end.  This makes it possible to retry when 'fileformat' or
+  // 'fileencoding' was guessed wrong.
+  //
+  line_count = curbuf->b_ml.ml_line_count;
+  retval = readfile(
+      read_stdin ? NULL : curbuf->b_ffname,
+      read_stdin ? NULL : curbuf->b_fname,
+      (linenr_T)line_count, (linenr_T)0, (linenr_T)MAXLNUM, eap,
+      flags | READ_BUFFER);
+  if (retval == OK) {
+    // Delete the binary lines.
+    while (--line_count >= 0) {
+      ml_delete((linenr_T)1, false);
+    }
+  } else {
+    // Delete the converted lines.
+    while (curbuf->b_ml.ml_line_count > line_count) {
+      ml_delete(line_count, false);
+    }
+  }
+  // Put the cursor on the first line.
+  curwin->w_cursor.lnum = 1;
+  curwin->w_cursor.col = 0;
+
+  if (read_stdin) {
+    // Set or reset 'modified' before executing autocommands, so that
+    // it can be changed there.
+    if (!readonlymode && !BUFEMPTY()) {
+      changed();
+    } else if (retval != FAIL) {
+      unchanged(curbuf, false, true);
+    }
+
+    apply_autocmds_retval(EVENT_STDINREADPOST, NULL, NULL, false,
+                          curbuf, &retval);
+  }
+  return retval;
+}
+
+// Open current buffer, that is: open the memfile and read the file into
+// memory.
+// Return FAIL for failure, OK otherwise.
+int open_buffer(
+    int read_stdin,   // read file from stdin
+    exarg_T *eap,     // for forced 'ff' and 'fenc' or NULL
+    int flags         // extra flags for readfile()
+)
+{
+  int retval = OK;
+  bufref_T       old_curbuf;
+  long old_tw = curbuf->b_p_tw;
+  int read_fifo = false;
+
+  /*
+   * The 'readonly' flag is only set when BF_NEVERLOADED is being reset.
+   * When re-entering the same buffer, it should not change, because the
+   * user may have reset the flag by hand.
+   */
+  if (readonlymode && curbuf->b_ffname != NULL
+      && (curbuf->b_flags & BF_NEVERLOADED))
+    curbuf->b_p_ro = true;
+
+  if (ml_open(curbuf) == FAIL) {
+    /*
+     * There MUST be a memfile, otherwise we can't do anything
+     * If we can't create one for the current buffer, take another buffer
+     */
+    close_buffer(NULL, curbuf, 0, false);
+
+    curbuf = NULL;
+    FOR_ALL_BUFFERS(buf) {
+      if (buf->b_ml.ml_mfp != NULL) {
+        curbuf = buf;
+        break;
+      }
+    }
+
+    /*
+     * if there is no memfile at all, exit
+     * This is OK, since there are no changes to lose.
+     */
+    if (curbuf == NULL) {
+      EMSG(_("E82: Cannot allocate any buffer, exiting..."));
+      getout(2);
+    }
+    EMSG(_("E83: Cannot allocate buffer, using other one..."));
+    enter_buffer(curbuf);
+    if (old_tw != curbuf->b_p_tw) {
+      check_colorcolumn(curwin);
+    }
+    return FAIL;
+  }
+
+  // The autocommands in readfile() may change the buffer, but only AFTER
+  // reading the file.
+  set_bufref(&old_curbuf, curbuf);
+  modified_was_set = false;
+
+  // mark cursor position as being invalid
+  curwin->w_valid = 0;
+
+  if (curbuf->b_ffname != NULL) {
+    int old_msg_silent = msg_silent;
+#ifdef UNIX
+    int save_bin = curbuf->b_p_bin;
+    int perm;
+
+    perm = os_getperm((const char *)curbuf->b_ffname);
+    if (perm >= 0 && (0
+# ifdef S_ISFIFO
+                      || S_ISFIFO(perm)
+# endif
+# ifdef S_ISSOCK
+                      || S_ISSOCK(perm)
+# endif
+# ifdef OPEN_CHR_FILES
+                      || (S_ISCHR(perm)
+                          && is_dev_fd_file(curbuf->b_ffname))
+# endif
+                      )
+        ) {
+      read_fifo = true;
+    }
+    if (read_fifo) {
+      curbuf->b_p_bin = true;
+    }
+#endif
+    if (shortmess(SHM_FILEINFO)) {
+      msg_silent = 1;
+    }
+
+    retval = readfile(curbuf->b_ffname, curbuf->b_fname,
+                      (linenr_T)0, (linenr_T)0, (linenr_T)MAXLNUM, eap,
+                      flags | READ_NEW | (read_fifo ? READ_FIFO : 0));
+#ifdef UNIX
+    if (read_fifo) {
+      curbuf->b_p_bin = save_bin;
+      if (retval == OK) {
+        retval = read_buffer(false, eap, flags);
+      }
+    }
+#endif
+    msg_silent = old_msg_silent;
+
+    // Help buffer is filtered.
+    if (bt_help(curbuf)) {
+      fix_help_buffer();
+    }
+  } else if (read_stdin) {
+    int save_bin = curbuf->b_p_bin;
+
+    /*
+     * First read the text in binary mode into the buffer.
+     * Then read from that same buffer and append at the end.  This makes
+     * it possible to retry when 'fileformat' or 'fileencoding' was
+     * guessed wrong.
+     */
+    curbuf->b_p_bin = true;
+    retval = readfile(NULL, NULL, (linenr_T)0,
+        (linenr_T)0, (linenr_T)MAXLNUM, NULL,
+        flags | (READ_NEW + READ_STDIN));
+    curbuf->b_p_bin = save_bin;
+    if (retval == OK) {
+      retval = read_buffer(true, eap, flags);
+    }
+  }
+
+  // if first time loading this buffer, init b_chartab[]
+  if (curbuf->b_flags & BF_NEVERLOADED) {
+    (void)buf_init_chartab(curbuf, false);
+    parse_cino(curbuf);
+  }
+
+  // Set/reset the Changed flag first, autocmds may change the buffer.
+  // Apply the automatic commands, before processing the modelines.
+  // So the modelines have priority over auto commands.
+
+  // When reading stdin, the buffer contents always needs writing, so set
+  // the changed flag.  Unless in readonly mode: "ls | nvim -R -".
+  // When interrupted and 'cpoptions' contains 'i' set changed flag.
+  if ((got_int && vim_strchr(p_cpo, CPO_INTMOD) != NULL)
+      || modified_was_set               // ":set modified" used in autocmd
+      || (aborting() && vim_strchr(p_cpo, CPO_INTMOD) != NULL)) {
+    changed();
+  } else if (retval != FAIL && !read_stdin && !read_fifo) {
+    unchanged(curbuf, false, true);
+  }
+  save_file_ff(curbuf);                 // keep this fileformat
+
+  // Set last_changedtick to avoid triggering a TextChanged autocommand right
+  // after it was added.
+  curbuf->b_last_changedtick = buf_get_changedtick(curbuf);
+  curbuf->b_last_changedtick_pum = buf_get_changedtick(curbuf);
+
+  // require "!" to overwrite the file, because it wasn't read completely
+  if (aborting()) {
+    curbuf->b_flags |= BF_READERR;
+  }
+
+  /* Need to update automatic folding.  Do this before the autocommands,
+   * they may use the fold info. */
+  foldUpdateAll(curwin);
+
+  // need to set w_topline, unless some autocommand already did that.
+  if (!(curwin->w_valid & VALID_TOPLINE)) {
+    curwin->w_topline = 1;
+    curwin->w_topfill = 0;
+  }
+  apply_autocmds_retval(EVENT_BUFENTER, NULL, NULL, false, curbuf, &retval);
+
+  if (retval == FAIL) {
+    return FAIL;
+  }
+
+  /*
+   * The autocommands may have changed the current buffer.  Apply the
+   * modelines to the correct buffer, if it still exists and is loaded.
+   */
+  if (bufref_valid(&old_curbuf) && old_curbuf.br_buf->b_ml.ml_mfp != NULL) {
+    aco_save_T aco;
+
+    // Go to the buffer that was opened.
+    aucmd_prepbuf(&aco, old_curbuf.br_buf);
+    do_modelines(0);
+    curbuf->b_flags &= ~(BF_CHECK_RO | BF_NEVERLOADED);
+
+    apply_autocmds_retval(EVENT_BUFWINENTER, NULL, NULL, false, curbuf,
+                          &retval);
+
+    // restore curwin/curbuf and a few other things
+    aucmd_restbuf(&aco);
+  }
+
+  return retval;
+}
+
+/// Store "buf" in "bufref" and set the free count.
+///
+/// @param bufref Reference to be used for the buffer.
+/// @param buf    The buffer to reference.
+void set_bufref(bufref_T *bufref, buf_T *buf)
+{
+  bufref->br_buf = buf;
+  bufref->br_fnum = buf == NULL ? 0 : buf->b_fnum;
+  bufref->br_buf_free_count = buf_free_count;
+}
+
+/// Return true if "bufref->br_buf" points to the same buffer as when
+/// set_bufref() was called and it is a valid buffer.
+/// Only goes through the buffer list if buf_free_count changed.
+/// Also checks if b_fnum is still the same, a :bwipe followed by :new might get
+/// the same allocated memory, but it's a different buffer.
+///
+/// @param bufref Buffer reference to check for.
+bool bufref_valid(bufref_T *bufref)
+{
+  return bufref->br_buf_free_count == buf_free_count
+    ? true
+    : buf_valid(bufref->br_buf) && bufref->br_fnum == bufref->br_buf->b_fnum;
+}
+
+/// Check that "buf" points to a valid buffer in the buffer list.
+///
+/// Can be slow if there are many buffers, prefer using bufref_valid().
+///
+/// @param buf The buffer to check for.
+bool buf_valid(buf_T *buf)
+  FUNC_ATTR_PURE FUNC_ATTR_WARN_UNUSED_RESULT
+{
+  if (buf == NULL) {
+    return false;
+  }
+  // Assume that we more often have a recent buffer,
+  // start with the last one.
+  for (buf_T *bp = lastbuf; bp != NULL; bp = bp->b_prev) {
+    if (bp == buf) {
+      return true;
+    }
+  }
+  return false;
+}
+
+/// Close the link to a buffer.
+///
+/// @param win    If not NULL, set b_last_cursor.
+/// @param buf
+/// @param action Used when there is no longer a window for the buffer.
+///               Possible values:
+///                 0            buffer becomes hidden
+///                 DOBUF_UNLOAD buffer is unloaded
+///                 DOBUF_DELETE buffer is unloaded and removed from buffer list
+///                 DOBUF_WIPE   buffer is unloaded and really deleted
+///               When doing all but the first one on the current buffer, the
+///               caller should get a new buffer very soon!
+///               The 'bufhidden' option can force freeing and deleting.
+/// @param abort_if_last
+///               If true, do not close the buffer if autocommands cause
+///               there to be only one window with this buffer. e.g. when
+///               ":quit" is supposed to close the window but autocommands
+///               close all other windows.
+void close_buffer(win_T *win, buf_T *buf, int action, bool abort_if_last)
+{
+  bool unload_buf = (action != 0);
+  bool del_buf = (action == DOBUF_DEL || action == DOBUF_WIPE);
+  bool wipe_buf = (action == DOBUF_WIPE);
+
+  bool is_curwin = (curwin != NULL && curwin->w_buffer == buf);
+  win_T *the_curwin = curwin;
+  tabpage_T *the_curtab = curtab;
+
+  // Force unloading or deleting when 'bufhidden' says so, but not for terminal
+  // buffers.
+  // The caller must take care of NOT deleting/freeing when 'bufhidden' is
+  // "hide" (otherwise we could never free or delete a buffer).
+  if (!buf->terminal) {
+    if (buf->b_p_bh[0] == 'd') {         // 'bufhidden' == "delete"
+      del_buf = true;
+      unload_buf = true;
+    } else if (buf->b_p_bh[0] == 'w') {  // 'bufhidden' == "wipe"
+      del_buf = true;
+      unload_buf = true;
+      wipe_buf = true;
+    } else if (buf->b_p_bh[0] == 'u')    // 'bufhidden' == "unload"
+      unload_buf = true;
+  }
+
+  if (buf->terminal && (unload_buf || del_buf || wipe_buf)) {
+    // terminal buffers can only be wiped
+    unload_buf = true;
+    del_buf = true;
+    wipe_buf = true;
+  }
+
+  // Disallow deleting the buffer when it is locked (already being closed or
+  // halfway a command that relies on it). Unloading is allowed.
+  if (buf->b_locked > 0 && (del_buf || wipe_buf)) {
+    EMSG(_("E937: Attempt to delete a buffer that is in use"));
+    return;
+  }
+
+  if (win != NULL  // Avoid bogus clang warning.
+      && win_valid_any_tab(win)) {
+    // Set b_last_cursor when closing the last window for the buffer.
+    // Remember the last cursor position and window options of the buffer.
+    // This used to be only for the current window, but then options like
+    // 'foldmethod' may be lost with a ":only" command.
+    if (buf->b_nwindows == 1) {
+      set_last_cursor(win);
+    }
+    buflist_setfpos(buf, win,
+                    win->w_cursor.lnum == 1 ? 0 : win->w_cursor.lnum,
+                    win->w_cursor.col, true);
+  }
+
+  bufref_T bufref;
+  set_bufref(&bufref, buf);
+
+  // When the buffer is no longer in a window, trigger BufWinLeave
+  if (buf->b_nwindows == 1) {
+    buf->b_locked++;
+    if (apply_autocmds(EVENT_BUFWINLEAVE, buf->b_fname, buf->b_fname, false,
+                       buf) && !bufref_valid(&bufref)) {
+      // Autocommands deleted the buffer.
+      EMSG(_(e_auabort));
+      return;
+    }
+    buf->b_locked--;
+    if (abort_if_last && last_nonfloat(win)) {
+      // Autocommands made this the only window.
+      EMSG(_(e_auabort));
+      return;
+    }
+
+    // When the buffer becomes hidden, but is not unloaded, trigger
+    // BufHidden
+    if (!unload_buf) {
+      buf->b_locked++;
+      if (apply_autocmds(EVENT_BUFHIDDEN, buf->b_fname, buf->b_fname, false,
+                         buf) && !bufref_valid(&bufref)) {
+        // Autocommands deleted the buffer.
+        EMSG(_(e_auabort));
+        return;
+      }
+      buf->b_locked--;
+      if (abort_if_last && last_nonfloat(win)) {
+        // Autocommands made this the only window.
+        EMSG(_(e_auabort));
+        return;
+      }
+    }
+    if (aborting()) {       // autocmds may abort script processing
+      return;
+    }
+  }
+
+  // If the buffer was in curwin and the window has changed, go back to that
+  // window, if it still exists.  This avoids that ":edit x" triggering a
+  // "tabnext" BufUnload autocmd leaves a window behind without a buffer.
+  if (is_curwin && curwin != the_curwin &&  win_valid_any_tab(the_curwin)) {
+    block_autocmds();
+    goto_tabpage_win(the_curtab, the_curwin);
+    unblock_autocmds();
+  }
+
+  int nwindows = buf->b_nwindows;
+
+  // decrease the link count from windows (unless not in any window)
+  if (buf->b_nwindows > 0) {
+    buf->b_nwindows--;
+  }
+
+  if (diffopt_hiddenoff() && !unload_buf && buf->b_nwindows == 0) {
+    diff_buf_delete(buf);   // Clear 'diff' for hidden buffer.
+  }
+
+  /* Return when a window is displaying the buffer or when it's not
+   * unloaded. */
+  if (buf->b_nwindows > 0 || !unload_buf) {
+    return;
+  }
+
+  if (buf->terminal) {
+    terminal_close(buf->terminal, NULL);
+  }
+
+  // Always remove the buffer when there is no file name.
+  if (buf->b_ffname == NULL) {
+    del_buf = true;
+  }
+
+  /*
+   * Free all things allocated for this buffer.
+   * Also calls the "BufDelete" autocommands when del_buf is TRUE.
+   */
+  /* Remember if we are closing the current buffer.  Restore the number of
+   * windows, so that autocommands in buf_freeall() don't get confused. */
+  bool is_curbuf = (buf == curbuf);
+
+  // When closing the current buffer stop Visual mode before freeing
+  // anything.
+  if (is_curbuf && VIsual_active
+#if defined(EXITFREE)
+      && !entered_free_all_mem
+#endif
+      ) {
+    end_visual_mode();
+  }
+
+  buf->b_nwindows = nwindows;
+
+  buf_freeall(buf, (del_buf ? BFA_DEL : 0) + (wipe_buf ? BFA_WIPE : 0));
+
+  if (!bufref_valid(&bufref)) {
+    // Autocommands may have deleted the buffer.
+    return;
+  }
+  if (aborting()) {
+    // Autocmds may abort script processing.
+    return;
+  }
+
+  /*
+   * It's possible that autocommands change curbuf to the one being deleted.
+   * This might cause the previous curbuf to be deleted unexpectedly.  But
+   * in some cases it's OK to delete the curbuf, because a new one is
+   * obtained anyway.  Therefore only return if curbuf changed to the
+   * deleted buffer.
+   */
+  if (buf == curbuf && !is_curbuf) {
+    return;
+  }
+
+  if (win != NULL  // Avoid bogus clang warning.
+      && win_valid_any_tab(win)
+      && win->w_buffer == buf) {
+    win->w_buffer = NULL;  // make sure we don't use the buffer now
+  }
+
+  // Autocommands may have opened or closed windows for this buffer.
+  // Decrement the count for the close we do here.
+  if (buf->b_nwindows > 0) {
+    buf->b_nwindows--;
+  }
+
+  // Change directories when the 'acd' option is set.
+  do_autochdir();
+
+  // Disable buffer-updates for the current buffer.
+  // No need to check `unload_buf`: in that case the function returned above.
+  buf_updates_unregister_all(buf);
+
+  /*
+   * Remove the buffer from the list.
+   */
+  if (wipe_buf) {
+    xfree(buf->b_ffname);
+    xfree(buf->b_sfname);
+    if (buf->b_prev == NULL) {
+      firstbuf = buf->b_next;
+    } else {
+      buf->b_prev->b_next = buf->b_next;
+    }
+    if (buf->b_next == NULL) {
+      lastbuf = buf->b_prev;
+    } else {
+      buf->b_next->b_prev = buf->b_prev;
+    }
+    free_buffer(buf);
+  } else {
+    if (del_buf) {
+      // Free all internal variables and reset option values, to make
+      // ":bdel" compatible with Vim 5.7.
+      free_buffer_stuff(buf, kBffClearWinInfo | kBffInitChangedtick);
+
+      // Make it look like a new buffer.
+      buf->b_flags = BF_CHECK_RO | BF_NEVERLOADED;
+
+      // Init the options when loaded again.
+      buf->b_p_initialized = false;
+    }
+    buf_clear_file(buf);
+    if (del_buf) {
+      buf->b_p_bl = false;
+    }
+  }
+}
+
+/// Make buffer not contain a file.
+void buf_clear_file(buf_T *buf)
+{
+  buf->b_ml.ml_line_count = 1;
+  unchanged(buf, true, true);
+  buf->b_p_eol = true;
+  buf->b_start_eol = true;
+  buf->b_p_bomb = false;
+  buf->b_start_bomb = false;
+  buf->b_ml.ml_mfp = NULL;
+  buf->b_ml.ml_flags = ML_EMPTY;                // empty buffer
+}
+
+/// Clears the current buffer contents.
+void buf_clear(void)
+{
+  linenr_T line_count = curbuf->b_ml.ml_line_count;
+  while (!(curbuf->b_ml.ml_flags & ML_EMPTY)) {
+    ml_delete((linenr_T)1, false);
+  }
+  deleted_lines_mark(1, line_count);  // prepare for display
+  ml_close(curbuf, true);             // free memline_T
+  buf_clear_file(curbuf);
+}
+
+/// buf_freeall() - free all things allocated for a buffer that are related to
+/// the file.  Careful: get here with "curwin" NULL when exiting.
+///
+/// @param flags BFA_DEL buffer is going to be deleted
+///              BFA_WIPE buffer is going to be wiped out
+///              BFA_KEEP_UNDO  do not free undo information
+void buf_freeall(buf_T *buf, int flags)
+{
+  bool is_curbuf = (buf == curbuf);
+  int is_curwin = (curwin != NULL && curwin->w_buffer == buf);
+  win_T *the_curwin = curwin;
+  tabpage_T *the_curtab = curtab;
+
+  // Make sure the buffer isn't closed by autocommands.
+  buf->b_locked++;
+
+  bufref_T bufref;
+  set_bufref(&bufref, buf);
+
+  if ((buf->b_ml.ml_mfp != NULL)
+      && apply_autocmds(EVENT_BUFUNLOAD, buf->b_fname, buf->b_fname, false, buf)
+      && !bufref_valid(&bufref)) {
+    // Autocommands deleted the buffer.
+    return;
+  }
+  if ((flags & BFA_DEL)
+      && buf->b_p_bl
+      && apply_autocmds(EVENT_BUFDELETE, buf->b_fname, buf->b_fname, false, buf)
+      && !bufref_valid(&bufref)) {
+    // Autocommands may delete the buffer.
+    return;
+  }
+  if ((flags & BFA_WIPE)
+      && apply_autocmds(EVENT_BUFWIPEOUT, buf->b_fname, buf->b_fname, false,
+                        buf)
+      && !bufref_valid(&bufref)) {
+    // Autocommands may delete the buffer.
+    return;
+  }
+  buf->b_locked--;
+
+  // If the buffer was in curwin and the window has changed, go back to that
+  // window, if it still exists.  This avoids that ":edit x" triggering a
+  // "tabnext" BufUnload autocmd leaves a window behind without a buffer.
+  if (is_curwin && curwin != the_curwin &&  win_valid_any_tab(the_curwin)) {
+    block_autocmds();
+    goto_tabpage_win(the_curtab, the_curwin);
+    unblock_autocmds();
+  }
+  if (aborting()) {  // autocmds may abort script processing
+    return;
+  }
+
+  /*
+   * It's possible that autocommands change curbuf to the one being deleted.
+   * This might cause curbuf to be deleted unexpectedly.  But in some cases
+   * it's OK to delete the curbuf, because a new one is obtained anyway.
+   * Therefore only return if curbuf changed to the deleted buffer.
+   */
+  if (buf == curbuf && !is_curbuf) {
+    return;
+  }
+  diff_buf_delete(buf);             // Can't use 'diff' for unloaded buffer.
+  // Remove any ownsyntax, unless exiting.
+  if (curwin != NULL && curwin->w_buffer == buf) {
+    reset_synblock(curwin);
+  }
+
+  // No folds in an empty buffer.
+  FOR_ALL_TAB_WINDOWS(tp, win) {
+    if (win->w_buffer == buf) {
+      clearFolding(win);
+    }
+  }
+
+  ml_close(buf, true);              // close and delete the memline/memfile
+  buf->b_ml.ml_line_count = 0;      // no lines in buffer
+  if ((flags & BFA_KEEP_UNDO) == 0) {
+    u_blockfree(buf);               // free the memory allocated for undo
+    u_clearall(buf);                // reset all undo information
+  }
+  syntax_clear(&buf->b_s);          // reset syntax info
+  buf->b_flags &= ~BF_READERR;      // a read error is no longer relevant
+}
+
+/*
+ * Free a buffer structure and the things it contains related to the buffer
+ * itself (not the file, that must have been done already).
+ */
+static void free_buffer(buf_T *buf)
+{
+  handle_unregister_buffer(buf);
+  buf_free_count++;
+  // b:changedtick uses an item in buf_T.
+  free_buffer_stuff(buf, kBffClearWinInfo);
+  if (buf->b_vars->dv_refcount > DO_NOT_FREE_CNT) {
+    tv_dict_add(buf->b_vars,
+                tv_dict_item_copy((dictitem_T *)(&buf->changedtick_di)));
+  }
+  unref_var_dict(buf->b_vars);
+  aubuflocal_remove(buf);
+  tv_dict_unref(buf->additional_data);
+  xfree(buf->b_prompt_text);
+  callback_free(&buf->b_prompt_callback);
+  callback_free(&buf->b_prompt_interrupt);
+  clear_fmark(&buf->b_last_cursor);
+  clear_fmark(&buf->b_last_insert);
+  clear_fmark(&buf->b_last_change);
+  for (size_t i = 0; i < NMARKS; i++) {
+    free_fmark(buf->b_namedm[i]);
+  }
+  for (int i = 0; i < buf->b_changelistlen; i++) {
+    free_fmark(buf->b_changelist[i]);
+  }
+  if (autocmd_busy) {
+    // Do not free the buffer structure while autocommands are executing,
+    // it's still needed. Free it when autocmd_busy is reset.
+    memset(&buf->b_namedm[0], 0, sizeof(buf->b_namedm));
+    memset(&buf->b_changelist[0], 0, sizeof(buf->b_changelist));
+    buf->b_next = au_pending_free_buf;
+    au_pending_free_buf = buf;
+  } else {
+    xfree(buf);
+  }
+}
+
+/// Free stuff in the buffer for ":bdel" and when wiping out the buffer.
+///
+/// @param buf  Buffer pointer
+/// @param free_flags  BufFreeFlags
+static void free_buffer_stuff(buf_T *buf, int free_flags)
+{
+  if (free_flags & kBffClearWinInfo) {
+    clear_wininfo(buf);                 // including window-local options
+    free_buf_options(buf, true);
+    ga_clear(&buf->b_s.b_langp);
+  }
+  {
+    // Avoid losing b:changedtick when deleting buffer: clearing variables
+    // implies using clear_tv() on b:changedtick and that sets changedtick to
+    // zero.
+    hashitem_T *const changedtick_hi = hash_find(
+        &buf->b_vars->dv_hashtab, (const char_u *)"changedtick");
+    assert(changedtick_hi != NULL);
+    hash_remove(&buf->b_vars->dv_hashtab, changedtick_hi);
+  }
+  vars_clear(&buf->b_vars->dv_hashtab);   // free all internal variables
+  hash_init(&buf->b_vars->dv_hashtab);
+  if (free_flags & kBffInitChangedtick) {
+    buf_init_changedtick(buf);
+  }
+  uc_clear(&buf->b_ucmds);               // clear local user commands
+  buf_delete_signs(buf, (char_u *)"*");  // delete any signs
+  extmark_free_all(buf);                 // delete any extmarks
+  map_clear_int(buf, MAP_ALL_MODES, true, false);    // clear local mappings
+  map_clear_int(buf, MAP_ALL_MODES, true, true);     // clear local abbrevs
+  XFREE_CLEAR(buf->b_start_fenc);
+
+  buf_updates_unregister_all(buf);
+}
+
+/*
+ * Free the b_wininfo list for buffer "buf".
+ */
+static void clear_wininfo(buf_T *buf)
+{
+  wininfo_T   *wip;
+
+  while (buf->b_wininfo != NULL) {
+    wip = buf->b_wininfo;
+    buf->b_wininfo = wip->wi_next;
+    if (wip->wi_optset) {
+      clear_winopt(&wip->wi_opt);
+      deleteFoldRecurse(&wip->wi_folds);
+    }
+    xfree(wip);
+  }
+}
+
+/*
+ * Go to another buffer.  Handles the result of the ATTENTION dialog.
+ */
+void goto_buffer(exarg_T *eap, int start, int dir, int count)
+{
+  bufref_T old_curbuf;
+  set_bufref(&old_curbuf, curbuf);
+  swap_exists_action = SEA_DIALOG;
+
+  (void)do_buffer(*eap->cmd == 's' ? DOBUF_SPLIT : DOBUF_GOTO,
+                  start, dir, count, eap->forceit);
+
+  if (swap_exists_action == SEA_QUIT && *eap->cmd == 's') {
+    cleanup_T cs;
+
+    // Reset the error/interrupt/exception state here so that
+    // aborting() returns false when closing a window.
+    enter_cleanup(&cs);
+
+    // Quitting means closing the split window, nothing else.
+    win_close(curwin, true);
+    swap_exists_action = SEA_NONE;
+    swap_exists_did_quit = true;
+
+    /* Restore the error/interrupt/exception state if not discarded by a
+     * new aborting error, interrupt, or uncaught exception. */
+    leave_cleanup(&cs);
+  } else {
+    handle_swap_exists(&old_curbuf);
+  }
+}
+
+/// Handle the situation of swap_exists_action being set.
+///
+/// It is allowed for "old_curbuf" to be NULL or invalid.
+///
+/// @param old_curbuf The buffer to check for.
+void handle_swap_exists(bufref_T *old_curbuf)
+{
+  cleanup_T cs;
+  long old_tw = curbuf->b_p_tw;
+  buf_T *buf;
+
+  if (swap_exists_action == SEA_QUIT) {
+    // Reset the error/interrupt/exception state here so that
+    // aborting() returns false when closing a buffer.
+    enter_cleanup(&cs);
+
+    // User selected Quit at ATTENTION prompt.  Go back to previous
+    // buffer.  If that buffer is gone or the same as the current one,
+    // open a new, empty buffer.
+    swap_exists_action = SEA_NONE;      // don't want it again
+    swap_exists_did_quit = true;
+    close_buffer(curwin, curbuf, DOBUF_UNLOAD, false);
+    if (old_curbuf == NULL
+        || !bufref_valid(old_curbuf)
+        || old_curbuf->br_buf == curbuf) {
+      buf = buflist_new(NULL, NULL, 1L, BLN_CURBUF | BLN_LISTED);
+    } else {
+      buf = old_curbuf->br_buf;
+    }
+    if (buf != NULL) {
+      int old_msg_silent = msg_silent;
+
+      if (shortmess(SHM_FILEINFO)) {
+        msg_silent = 1;  // prevent fileinfo message
+      }
+      enter_buffer(buf);
+      // restore msg_silent, so that the command line will be shown
+      msg_silent = old_msg_silent;
+
+      if (old_tw != curbuf->b_p_tw) {
+        check_colorcolumn(curwin);
+      }
+    }
+    // If "old_curbuf" is NULL we are in big trouble here...
+
+    /* Restore the error/interrupt/exception state if not discarded by a
+     * new aborting error, interrupt, or uncaught exception. */
+    leave_cleanup(&cs);
+  } else if (swap_exists_action == SEA_RECOVER) {
+    // Reset the error/interrupt/exception state here so that
+    // aborting() returns false when closing a buffer.
+    enter_cleanup(&cs);
+
+    // User selected Recover at ATTENTION prompt.
+    msg_scroll = true;
+    ml_recover(false);
+    MSG_PUTS("\n");     // don't overwrite the last message
+    cmdline_row = msg_row;
+    do_modelines(0);
+
+    /* Restore the error/interrupt/exception state if not discarded by a
+     * new aborting error, interrupt, or uncaught exception. */
+    leave_cleanup(&cs);
+  }
+  swap_exists_action = SEA_NONE;  // -V519
+}
+
+/*
+ * do_bufdel() - delete or unload buffer(s)
+ *
+ * addr_count == 0: ":bdel" - delete current buffer
+ * addr_count == 1: ":N bdel" or ":bdel N [N ..]" - first delete
+ *		    buffer "end_bnr", then any other arguments.
+ * addr_count == 2: ":N,N bdel" - delete buffers in range
+ *
+ * command can be DOBUF_UNLOAD (":bunload"), DOBUF_WIPE (":bwipeout") or
+ * DOBUF_DEL (":bdel")
+ *
+ * Returns error message or NULL
+ */
+char_u *
+do_bufdel(
+    int command,
+    char_u *arg,               // pointer to extra arguments
+    int addr_count,
+    int start_bnr,             // first buffer number in a range
+    int end_bnr,               // buffer nr or last buffer nr in a range
+    int forceit
+)
+{
+  int do_current = 0;             // delete current buffer?
+  int deleted = 0;                // number of buffers deleted
+  char_u      *errormsg = NULL;   // return value
+  int bnr;                        // buffer number
+  char_u      *p;
+
+  if (addr_count == 0) {
+    (void)do_buffer(command, DOBUF_CURRENT, FORWARD, 0, forceit);
+  } else {
+    if (addr_count == 2) {
+      if (*arg) {               // both range and argument is not allowed
+        return (char_u *)_(e_trailing);
+      }
+      bnr = start_bnr;
+    } else {    // addr_count == 1
+      bnr = end_bnr;
+    }
+
+    for (; !got_int; os_breakcheck()) {
+      /*
+       * delete the current buffer last, otherwise when the
+       * current buffer is deleted, the next buffer becomes
+       * the current one and will be loaded, which may then
+       * also be deleted, etc.
+       */
+      if (bnr == curbuf->b_fnum) {
+        do_current = bnr;
+      } else if (do_buffer(command, DOBUF_FIRST, FORWARD, bnr,
+                           forceit) == OK) {
+        deleted++;
+      }
+
+      /*
+       * find next buffer number to delete/unload
+       */
+      if (addr_count == 2) {
+        if (++bnr > end_bnr) {
+          break;
+        }
+      } else {    // addr_count == 1
+        arg = skipwhite(arg);
+        if (*arg == NUL) {
+          break;
+        }
+        if (!ascii_isdigit(*arg)) {
+          p = skiptowhite_esc(arg);
+          bnr = buflist_findpat(arg, p, command == DOBUF_WIPE,
+                                false, false);
+          if (bnr < 0) {                    // failed
+            break;
+          }
+          arg = p;
+        } else {
+          bnr = getdigits_int(&arg, false, 0);
+        }
+      }
+    }
+    if (!got_int && do_current
+        && do_buffer(command, DOBUF_FIRST,
+                     FORWARD, do_current, forceit) == OK) {
+      deleted++;
+    }
+
+    if (deleted == 0) {
+      if (command == DOBUF_UNLOAD) {
+        STRCPY(IObuff, _("E515: No buffers were unloaded"));
+      } else if (command == DOBUF_DEL) {
+        STRCPY(IObuff, _("E516: No buffers were deleted"));
+      } else {
+        STRCPY(IObuff, _("E517: No buffers were wiped out"));
+      }
+      errormsg = IObuff;
+    } else if (deleted >= p_report) {
+      if (command == DOBUF_UNLOAD) {
+        if (deleted == 1) {
+          MSG(_("1 buffer unloaded"));
+        } else {
+          smsg(_("%d buffers unloaded"), deleted);
+        }
+      } else if (command == DOBUF_DEL) {
+        if (deleted == 1) {
+          MSG(_("1 buffer deleted"));
+        } else {
+          smsg(_("%d buffers deleted"), deleted);
+        }
+      } else {
+        if (deleted == 1) {
+          MSG(_("1 buffer wiped out"));
+        } else {
+          smsg(_("%d buffers wiped out"), deleted);
+        }
+      }
+    }
+  }
+
+
+  return errormsg;
+}
+
+
+
+/*
+ * Make the current buffer empty.
+ * Used when it is wiped out and it's the last buffer.
+ */
+static int empty_curbuf(int close_others, int forceit, int action)
+{
+  int retval;
+  buf_T   *buf = curbuf;
+
+  if (action == DOBUF_UNLOAD) {
+    EMSG(_("E90: Cannot unload last buffer"));
+    return FAIL;
+  }
+
+  bufref_T bufref;
+  set_bufref(&bufref, buf);
+
+  if (close_others) {
+    // Close any other windows on this buffer, then make it empty.
+    close_windows(buf, true);
+  }
+
+  setpcmark();
+  retval = do_ecmd(0, NULL, NULL, NULL, ECMD_ONE,
+      forceit ? ECMD_FORCEIT : 0, curwin);
+
+  // do_ecmd() may create a new buffer, then we have to delete
+  // the old one.  But do_ecmd() may have done that already, check
+  // if the buffer still exists.
+  if (buf != curbuf && bufref_valid(&bufref) && buf->b_nwindows == 0) {
+    close_buffer(NULL, buf, action, false);
+  }
+
+  if (!close_others) {
+    need_fileinfo = false;
+  }
+
+  return retval;
+}
+/*
+ * Implementation of the commands for the buffer list.
+ *
+ * action == DOBUF_GOTO	    go to specified buffer
+ * action == DOBUF_SPLIT    split window and go to specified buffer
+ * action == DOBUF_UNLOAD   unload specified buffer(s)
+ * action == DOBUF_DEL	    delete specified buffer(s) from buffer list
+ * action == DOBUF_WIPE	    delete specified buffer(s) really
+ *
+ * start == DOBUF_CURRENT   go to "count" buffer from current buffer
+ * start == DOBUF_FIRST	    go to "count" buffer from first buffer
+ * start == DOBUF_LAST	    go to "count" buffer from last buffer
+ * start == DOBUF_MOD	    go to "count" modified buffer from current buffer
+ *
+ * Return FAIL or OK.
+ */
+int
+do_buffer(
+    int action,
+    int start,
+    int dir,                        // FORWARD or BACKWARD
+    int count,                      // buffer number or number of buffers
+    int forceit                     // true for :...!
+)
+{
+  buf_T       *buf;
+  buf_T       *bp;
+  int unload = (action == DOBUF_UNLOAD || action == DOBUF_DEL
+                || action == DOBUF_WIPE);
+
+  switch (start) {
+  case DOBUF_FIRST:   buf = firstbuf; break;
+  case DOBUF_LAST:    buf = lastbuf;  break;
+  default:            buf = curbuf;   break;
+  }
+  if (start == DOBUF_MOD) {         // find next modified buffer
+    while (count-- > 0) {
+      do {
+        buf = buf->b_next;
+        if (buf == NULL) {
+          buf = firstbuf;
+        }
+      } while (buf != curbuf && !bufIsChanged(buf));
+    }
+    if (!bufIsChanged(buf)) {
+      EMSG(_("E84: No modified buffer found"));
+      return FAIL;
+    }
+  } else if (start == DOBUF_FIRST && count) {  // find specified buffer number
+    while (buf != NULL && buf->b_fnum != count) {
+      buf = buf->b_next;
+    }
+  } else {
+    bp = NULL;
+    while (count > 0 || (!unload && !buf->b_p_bl && bp != buf)) {
+      /* remember the buffer where we start, we come back there when all
+       * buffers are unlisted. */
+      if (bp == NULL) {
+        bp = buf;
+      }
+      if (dir == FORWARD) {
+        buf = buf->b_next;
+        if (buf == NULL) {
+          buf = firstbuf;
+        }
+      } else {
+        buf = buf->b_prev;
+        if (buf == NULL) {
+          buf = lastbuf;
+        }
+      }
+      // don't count unlisted buffers
+      if (unload || buf->b_p_bl) {
+        count--;
+        bp = NULL;              // use this buffer as new starting point
+      }
+      if (bp == buf) {
+        // back where we started, didn't find anything.
+        EMSG(_("E85: There is no listed buffer"));
+        return FAIL;
+      }
+    }
+  }
+
+  if (buf == NULL) {        // could not find it
+    if (start == DOBUF_FIRST) {
+      // don't warn when deleting
+      if (!unload) {
+        EMSGN(_(e_nobufnr), count);
+      }
+    } else if (dir == FORWARD) {
+      EMSG(_("E87: Cannot go beyond last buffer"));
+    } else {
+      EMSG(_("E88: Cannot go before first buffer"));
+    }
+    return FAIL;
+  }
+
+
+  /*
+   * delete buffer buf from memory and/or the list
+   */
+  if (unload) {
+    int forward;
+    bufref_T bufref;
+    set_bufref(&bufref, buf);
+
+    /* When unloading or deleting a buffer that's already unloaded and
+     * unlisted: fail silently. */
+    if (action != DOBUF_WIPE && buf->b_ml.ml_mfp == NULL && !buf->b_p_bl) {
+      return FAIL;
+    }
+
+    if (!forceit && (buf->terminal || bufIsChanged(buf))) {
+      if ((p_confirm || cmdmod.confirm) && p_write && !buf->terminal) {
+        dialog_changed(buf, false);
+        if (!bufref_valid(&bufref)) {
+          // Autocommand deleted buffer, oops! It's not changed now.
+          return FAIL;
+        }
+        // If it's still changed fail silently, the dialog already
+        // mentioned why it fails.
+        if (bufIsChanged(buf)) {
+          return FAIL;
+        }
+      } else {
+        if (buf->terminal) {
+          if (p_confirm || cmdmod.confirm) {
+            if (!dialog_close_terminal(buf)) {
+              return FAIL;
+            }
+          } else {
+            EMSG2(_("E89: %s will be killed (add ! to override)"),
+                  (char *)buf->b_fname);
+            return FAIL;
+          }
+        } else {
+          EMSGN(_("E89: No write since last change for buffer %" PRId64
+                  " (add ! to override)"),
+                buf->b_fnum);
+          return FAIL;
+        }
+      }
+    }
+
+    // When closing the current buffer stop Visual mode.
+    if (buf == curbuf && VIsual_active) {
+      end_visual_mode();
+    }
+
+    /*
+     * If deleting the last (listed) buffer, make it empty.
+     * The last (listed) buffer cannot be unloaded.
+     */
+    bp = NULL;
+    FOR_ALL_BUFFERS(bp2) {
+      if (bp2->b_p_bl && bp2 != buf) {
+        bp = bp2;
+        break;
+      }
+    }
+    if (bp == NULL && buf == curbuf) {
+      return empty_curbuf(true, forceit, action);
+    }
+
+    /*
+     * If the deleted buffer is the current one, close the current window
+     * (unless it's the only window).  Repeat this so long as we end up in
+     * a window with this buffer.
+     */
+    while (buf == curbuf
+           && !(curwin->w_closing || curwin->w_buffer->b_locked > 0)
+           && (!ONE_WINDOW || first_tabpage->tp_next != NULL)) {
+      if (win_close(curwin, false) == FAIL) {
+        break;
+      }
+    }
+
+    /*
+     * If the buffer to be deleted is not the current one, delete it here.
+     */
+    if (buf != curbuf) {
+      close_windows(buf, false);
+      if (buf != curbuf && bufref_valid(&bufref) && buf->b_nwindows <= 0) {
+        close_buffer(NULL, buf, action, false);
+      }
+      return OK;
+    }
+
+    // Deleting the current buffer: Need to find another buffer to go to.
+    // There should be another, otherwise it would have been handled
+    // above.  However, autocommands may have deleted all buffers.
+    // First use au_new_curbuf.br_buf, if it is valid.
+    // Then prefer the buffer we most recently visited.
+    // Else try to find one that is loaded, after the current buffer,
+    // then before the current buffer.
+    // Finally use any buffer.
+    buf = NULL;  // Selected buffer.
+    bp = NULL;   // Used when no loaded buffer found.
+    if (au_new_curbuf.br_buf != NULL && bufref_valid(&au_new_curbuf)) {
+      buf = au_new_curbuf.br_buf;
+    } else if (curwin->w_jumplistlen > 0) {
+      int jumpidx;
+
+      jumpidx = curwin->w_jumplistidx - 1;
+      if (jumpidx < 0) {
+        jumpidx = curwin->w_jumplistlen - 1;
+      }
+
+      forward = jumpidx;
+      while (jumpidx != curwin->w_jumplistidx) {
+        buf = buflist_findnr(curwin->w_jumplist[jumpidx].fmark.fnum);
+        if (buf != NULL) {
+          if (buf == curbuf || !buf->b_p_bl) {
+            buf = NULL;                 // skip current and unlisted bufs
+          } else if (buf->b_ml.ml_mfp == NULL) {
+            // skip unloaded buf, but may keep it for later
+            if (bp == NULL) {
+              bp = buf;
+            }
+            buf = NULL;
+          }
+        }
+        if (buf != NULL) {         // found a valid buffer: stop searching
+          break;
+        }
+        // advance to older entry in jump list
+        if (!jumpidx && curwin->w_jumplistidx == curwin->w_jumplistlen) {
+          break;
+        }
+        if (--jumpidx < 0) {
+          jumpidx = curwin->w_jumplistlen - 1;
+        }
+        if (jumpidx == forward) {               // List exhausted for sure
+          break;
+        }
+      }
+    }
+
+    if (buf == NULL) {          // No previous buffer, Try 2'nd approach
+      forward = true;
+      buf = curbuf->b_next;
+      for (;; ) {
+        if (buf == NULL) {
+          if (!forward) {               // tried both directions
+            break;
+          }
+          buf = curbuf->b_prev;
+          forward = false;
+          continue;
+        }
+        // in non-help buffer, try to skip help buffers, and vv
+        if (buf->b_help == curbuf->b_help && buf->b_p_bl) {
+          if (buf->b_ml.ml_mfp != NULL) {           // found loaded buffer
+            break;
+          }
+          if (bp == NULL) {             // remember unloaded buf for later
+            bp = buf;
+          }
+        }
+        if (forward) {
+          buf = buf->b_next;
+        } else {
+          buf = buf->b_prev;
+        }
+      }
+    }
+    if (buf == NULL) {          // No loaded buffer, use unloaded one
+      buf = bp;
+    }
+    if (buf == NULL) {          // No loaded buffer, find listed one
+      FOR_ALL_BUFFERS(buf2) {
+        if (buf2->b_p_bl && buf2 != curbuf) {
+          buf = buf2;
+          break;
+        }
+      }
+    }
+    if (buf == NULL) {          // Still no buffer, just take one
+      if (curbuf->b_next != NULL) {
+        buf = curbuf->b_next;
+      } else {
+        buf = curbuf->b_prev;
+      }
+    }
+  }
+
+  if (buf == NULL) {
+    /* Autocommands must have wiped out all other buffers.  Only option
+     * now is to make the current buffer empty. */
+    return empty_curbuf(false, forceit, action);
+  }
+
+  /*
+   * make buf current buffer
+   */
+  if (action == DOBUF_SPLIT) {      // split window first
+    // If 'switchbuf' contains "useopen": jump to first window containing
+    // "buf" if one exists
+    if ((swb_flags & SWB_USEOPEN) && buf_jump_open_win(buf)) {
+      return OK;
+    }
+    // If 'switchbuf' contains "usetab": jump to first window in any tab
+    // page containing "buf" if one exists
+    if ((swb_flags & SWB_USETAB) && buf_jump_open_tab(buf)) {
+      return OK;
+    }
+    if (win_split(0, 0) == FAIL) {
+      return FAIL;
+    }
+  }
+
+  // go to current buffer - nothing to do
+  if (buf == curbuf) {
+    return OK;
+  }
+
+  /*
+   * Check if the current buffer may be abandoned.
+   */
+  if (action == DOBUF_GOTO && !can_abandon(curbuf, forceit)) {
+    if ((p_confirm || cmdmod.confirm) && p_write) {
+      bufref_T bufref;
+      set_bufref(&bufref, buf);
+      dialog_changed(curbuf, false);
+      if (!bufref_valid(&bufref)) {
+        // Autocommand deleted buffer, oops!
+        return FAIL;
+      }
+    }
+    if (bufIsChanged(curbuf)) {
+      no_write_message();
+      return FAIL;
+    }
+  }
+
+  // Go to the other buffer.
+  set_curbuf(buf, action);
+
+  if (action == DOBUF_SPLIT) {
+    RESET_BINDING(curwin);      // reset 'scrollbind' and 'cursorbind'
+  }
+
+  if (aborting()) {         // autocmds may abort script processing
+    return FAIL;
+  }
+
+  return OK;
+}
+
+
+/*
+ * Set current buffer to "buf".  Executes autocommands and closes current
+ * buffer.  "action" tells how to close the current buffer:
+ * DOBUF_GOTO	    free or hide it
+ * DOBUF_SPLIT	    nothing
+ * DOBUF_UNLOAD	    unload it
+ * DOBUF_DEL	    delete it
+ * DOBUF_WIPE	    wipe it out
+ */
+void set_curbuf(buf_T *buf, int action)
+{
+  buf_T       *prevbuf;
+  int unload = (action == DOBUF_UNLOAD || action == DOBUF_DEL
+                || action == DOBUF_WIPE);
+  long old_tw = curbuf->b_p_tw;
+
+  setpcmark();
+  if (!cmdmod.keepalt) {
+    curwin->w_alt_fnum = curbuf->b_fnum;     // remember alternate file
+  }
+  buflist_altfpos(curwin);                       // remember curpos
+
+  // Don't restart Select mode after switching to another buffer.
+  VIsual_reselect = false;
+
+  // close_windows() or apply_autocmds() may change curbuf and wipe out "buf"
+  prevbuf = curbuf;
+  bufref_T newbufref;
+  bufref_T prevbufref;
+  set_bufref(&prevbufref, prevbuf);
+  set_bufref(&newbufref, buf);
+
+  // Autocommands may delete the curren buffer and/or the buffer we wan to go
+  // to.  In those cases don't close the buffer.
+  if (!apply_autocmds(EVENT_BUFLEAVE, NULL, NULL, false, curbuf)
+      || (bufref_valid(&prevbufref) && bufref_valid(&newbufref)
+          && !aborting())) {
+    if (prevbuf == curwin->w_buffer) {
+      reset_synblock(curwin);
+    }
+    if (unload) {
+      close_windows(prevbuf, false);
+    }
+    if (bufref_valid(&prevbufref) && !aborting()) {
+      win_T  *previouswin = curwin;
+      if (prevbuf == curbuf) {
+        u_sync(false);
+      }
+      close_buffer(prevbuf == curwin->w_buffer ? curwin : NULL,
+                   prevbuf,
+                   unload
+                   ? action
+                   : (action == DOBUF_GOTO && !buf_hide(prevbuf)
+                      && !bufIsChanged(prevbuf)) ? DOBUF_UNLOAD : 0,
+                   false);
+      if (curwin != previouswin && win_valid(previouswin)) {
+        // autocommands changed curwin, Grr!
+        curwin = previouswin;
+      }
+    }
+  }
+  /* An autocommand may have deleted "buf", already entered it (e.g., when
+   * it did ":bunload") or aborted the script processing!
+   * If curwin->w_buffer is null, enter_buffer() will make it valid again */
+  if ((buf_valid(buf) && buf != curbuf
+       && !aborting()
+       ) || curwin->w_buffer == NULL
+      ) {
+    enter_buffer(buf);
+    if (old_tw != curbuf->b_p_tw) {
+      check_colorcolumn(curwin);
+    }
+  }
+
+  if (bufref_valid(&prevbufref) && prevbuf->terminal != NULL) {
+    terminal_check_size(prevbuf->terminal);
+  }
+}
+
+/*
+ * Enter a new current buffer.
+ * Old curbuf must have been abandoned already!  This also means "curbuf" may
+ * be pointing to freed memory.
+ */
+void enter_buffer(buf_T *buf)
+{
+  // Copy buffer and window local option values.  Not for a help buffer.
+  buf_copy_options(buf, BCO_ENTER | BCO_NOHELP);
+  if (!buf->b_help) {
+    get_winopts(buf);
+  } else {
+    // Remove all folds in the window.
+    clearFolding(curwin);
+  }
+  foldUpdateAll(curwin);        // update folds (later).
+
+  // Get the buffer in the current window.
+  curwin->w_buffer = buf;
+  curbuf = buf;
+  curbuf->b_nwindows++;
+
+  if (curwin->w_p_diff) {
+    diff_buf_add(curbuf);
+  }
+
+  curwin->w_s = &(curbuf->b_s);
+
+  // Cursor on first line by default.
+  curwin->w_cursor.lnum = 1;
+  curwin->w_cursor.col = 0;
+  curwin->w_cursor.coladd = 0;
+  curwin->w_set_curswant = true;
+  curwin->w_topline_was_set = false;
+
+  // mark cursor position as being invalid
+  curwin->w_valid = 0;
+
+  // Make sure the buffer is loaded.
+  if (curbuf->b_ml.ml_mfp == NULL) {    // need to load the file
+    // If there is no filetype, allow for detecting one.  Esp. useful for
+    // ":ball" used in an autocommand.  If there already is a filetype we
+    // might prefer to keep it.
+    if (*curbuf->b_p_ft == NUL) {
+      did_filetype = false;
+    }
+
+    open_buffer(false, NULL, 0);
+  } else {
+    if (!msg_silent && !shortmess(SHM_FILEINFO)) {
+      need_fileinfo = true;             // display file info after redraw
+    }
+    // check if file changed
+    (void)buf_check_timestamp(curbuf, false);
+
+    curwin->w_topline = 1;
+    curwin->w_topfill = 0;
+    apply_autocmds(EVENT_BUFENTER, NULL, NULL, false, curbuf);
+    apply_autocmds(EVENT_BUFWINENTER, NULL, NULL, false, curbuf);
+  }
+
+  /* If autocommands did not change the cursor position, restore cursor lnum
+   * and possibly cursor col. */
+  if (curwin->w_cursor.lnum == 1 && inindent(0)) {
+    buflist_getfpos();
+  }
+
+  check_arg_idx(curwin);                // check for valid arg_idx
+  maketitle();
+  // when autocmds didn't change it
+  if (curwin->w_topline == 1 && !curwin->w_topline_was_set) {
+    scroll_cursor_halfway(false);       // redisplay at correct position
+  }
+
+
+  // Change directories when the 'acd' option is set.
+  do_autochdir();
+
+  if (curbuf->b_kmap_state & KEYMAP_INIT) {
+    (void)keymap_init();
+  }
+  // May need to set the spell language.  Can only do this after the buffer
+  // has been properly setup.
+  if (!curbuf->b_help && curwin->w_p_spell && *curwin->w_s->b_p_spl != NUL) {
+    (void)did_set_spelllang(curwin);
+  }
+
+  redraw_later(NOT_VALID);
+}
+
+// Change to the directory of the current buffer.
+// Don't do this while still starting up.
+void do_autochdir(void)
+{
+  if (p_acd) {
+    if (starting == 0
+        && curbuf->b_ffname != NULL
+        && vim_chdirfile(curbuf->b_ffname) == OK) {
+      post_chdir(kCdScopeGlobal, false);
+      shorten_fnames(true);
+    }
+  }
+}
+
+void no_write_message(void)
+{
+  EMSG(_("E37: No write since last change (add ! to override)"));
+}
+
+void no_write_message_nobang(void)
+{
+  EMSG(_("E37: No write since last change"));
+}
+
+//
+// functions for dealing with the buffer list
+//
+
+static int top_file_num = 1;            ///< highest file number
+
+/// Initialize b:changedtick and changedtick_val attribute
+///
+/// @param[out]  buf  Buffer to intialize for.
+static inline void buf_init_changedtick(buf_T *const buf)
+  FUNC_ATTR_ALWAYS_INLINE FUNC_ATTR_NONNULL_ALL
+{
+  STATIC_ASSERT(sizeof("changedtick") <= sizeof(buf->changedtick_di.di_key),
+                "buf->changedtick_di cannot hold large enough keys");
+  buf->changedtick_di = (ChangedtickDictItem) {
+    .di_flags = DI_FLAGS_RO|DI_FLAGS_FIX,  // Must not include DI_FLAGS_ALLOC.
+    .di_tv = (typval_T) {
+      .v_type = VAR_NUMBER,
+      .v_lock = VAR_FIXED,
+      .vval.v_number = buf_get_changedtick(buf),
+    },
+    .di_key = "changedtick",
+  };
+  tv_dict_add(buf->b_vars, (dictitem_T *)&buf->changedtick_di);
+}