|
11 | 11 | /// - Zl Line Separator
|
12 | 12 | /// - Zp Paragraph Separator
|
13 | 13 | /// - Zs Space Separator
|
14 |
| -/// plus ". ", ", " and ។ល។" (៘ decomposition) to categorize them as hard separators |
| 14 | +/// plus "\0", ". ", ", " and ។ល។" (៘ decomposition) to categorize them as hard separators |
15 | 15 | /// and "`" to understand markdown formatted text
|
16 | 16 | #[rustfmt::skip]
|
17 | 17 | pub const DEFAULT_SEPARATORS: &[&str] = &[
|
18 |
| - ". ", ", ", "_", "‿", "⁀", "⁔", "︳", "︴", "﹍", "﹎", "﹏", "_", "-", "֊", "־", "᐀", "᠆", "‐", "‒", "–", |
| 18 | + "\0", ". ", ", ", "_", "‿", "⁀", "⁔", "︳", "︴", "﹍", "﹎", "﹏", "_", "-", "֊", "־", "᐀", "᠆", "‐", "‒", "–", |
19 | 19 | "—", "―", "⸗", "⸚", "⸺", "⸻", "⹀", "〜", "〰", "゠", "︱", "︲", "﹘", "﹣", "-", "𐺭", ")",
|
20 | 20 | "]", "}", "༻", "༽", "᚜", "⁆", "⁾", "₎", "⌉", "⌋", "〉", "❩", "❫", "❭", "❯", "❱", "❳", "❵", "⟆",
|
21 | 21 | "⟧", "⟩", "⟫", "⟭", "⟯", "⦄", "⦆", "⦈", "⦊", "⦌", "⦎", "⦐", "⦒", "⦔", "⦖", "⦘", "⧙", "⧛", "⧽",
|
@@ -64,6 +64,7 @@ pub const DEFAULT_SEPARATORS: &[&str] = &[
|
64 | 64 |
|
65 | 65 | #[rustfmt::skip]
|
66 | 66 | pub const CONTEXT_SEPARATORS: &[&str] = &[
|
| 67 | + "\0", // Null byte, can be used as artificial separator |
67 | 68 | "᠆", // Mongolian Todo Soft Hyphen, mark the end of a paragraph.
|
68 | 69 | "᚛", "᚜", // Oghams, mark start and end of text
|
69 | 70 | "!", ". ", ", ", ";", "?", "¡", "§", "¶", "¿", ";", // Latin
|
|
0 commit comments