Skip to content

Latest commit

 

History

History
82 lines (52 loc) · 2.53 KB

File metadata and controls

82 lines (52 loc) · 2.53 KB

Hyper-Language (HL) 核心概念记录

原创想法记录

日期: 2025年5月10日
来源: https://www.threads.com/@singwan0/post/DJecTKDziII
原创性声明: 此想法完全原创,由观察中文 token 信息密度高于英文而产生。


核心动机

我注意到/我設想一種"hyper language"(簡稱HL),並假設它是一種信息密度最高的文本,是否可以先將其他語言轉換成HL再學習以提高訓練效率?

想法由來: 我觀察到中文每個token比英文信息密度高可能直接影響機器學習總體訓練效率。


解决方案:单一语言整合知识

用單一語言(暫時用中文因為信息密度比較高)整合知識,目的是嘗試解決了「多語言資料如何貫通學習」的 tokenizer 層問題。

核心策略: 用簡體中文作為HL base純粹因為中文信息密度高。


编码方案

所有語言單次編碼壓成 [lang][HL中文詞][/lang] 格式:

英文/日文 → 翻譯成簡體中文 + tag

  • 英文: "Hello World" → [en][HL你好][HL世界][/en]
  • 日文: "こんにちは" → [ja][HL你好][/ja]

原生中文 → [原] 標記 + 簡化

  • 繁體: "繁體中文" → [原][HL繁体中文][/原]
  • 簡體: "你好世界" → [原][HL你好][HL世界][/原]

保留 lossless decode(可逆還原)

  • 确保可以完全还原到原始语言
  • 通过语言标签和翻译映射实现

目标特性

  • 密度極致: 利用中文高信息密度减少 token 数量
  • 結構自帶可展開: 树状结构便于解析和扩展
  • 跨語言貫通: 统一表示形式便于多语言学习

技术实现要点

  1. 脚本族分割: 自动分离拉丁文、中文、日文等脚本
  2. 语言检测: 每段文本独立检测语言
  3. 翻译机制: 非中文文本翻译为中文(带回退机制)
  4. 中文规范化: 繁体转简体
  5. 分词: 使用 jieba 进行中文分词
  6. 元数据包装: 添加语言标签确保可逆解码

创新点

  • 单次编码: 直接多语言到中文 token 转换
  • 密度优化: 通过中文 pivot 提高信息密度
  • 可逆设计: 保留原始语言信息,支持 lossless 解码
  • 跨语言贯通: 统一表示形式便于机器学习

预期收益

  • 训练效率提升: 减少 token 数量,提高模型收敛速度
  • 多语言统一: 解决多语言数据整合问题
  • 信息密度优化: 利用中文特性提高表示效率

记录日期: 2026年3月22日
项目状态: 已实现 (HL Tokenizer v5.3)