Witllm/wit/doc/meaning_dataset.md

43 lines
2.1 KiB
Markdown
Raw Normal View History

2024-04-07 00:25:21 +08:00
# meaning dataset
meaning数据集是一个模仿自然语言以及抽象表达的数据集。
## 概念
1. token表示最终体现的基本数据表达类似单词。vocab_size表示代表token的数量。
2. meaning表示一种语义符号所有的meaning都由一个编号表达编号越大表示语义越复杂
3. 所有的meaning都可以由更低标号表达
2024-04-10 00:34:47 +08:00
4. 从0到(vocab_size-1)的编号表示基本meaning是不能被拆解的也就是token
2024-04-07 00:25:21 +08:00
5. meaning通过一层层的向低编号的meaning进行组合替换最终形成一个最底层是token的树形数据
6. level表示当前token相对于root meaning的距离
2024-07-31 22:04:01 +08:00
7. rank
8. rank_idx表示当前token在不同层的排序编号每4位表示在一层里面的编号低4位表示最低层级的rank_idx高位无用的位用1填充
9. rank_all表示当前token在不同层的分子个数每4位表示在一层里面的编号低4位表示最低层级的rank_all高位无用的位用1填充
10. tree用于存储每个meaning的拆解的数据使用字典表达一个树形结构
11. get_seq_mask返回一个sequence每个token在对应level是不是对应的index,level=0:最底层index=-1:最后一个index=0:第一个
12. meaning_height 当前meaning的总高度
13. meaning_weight 当前meaning的总宽度
2024-04-10 00:34:47 +08:00
2024-04-07 00:25:21 +08:00
```
vocab_size = 256 meaning = 115200
115200
/ | \
10240 1100 12322
/ | \ / \ / | \
512 32 1201 245 233 3214 532 324
/ \ / \ / \ | / \
123 42 320 500 1231 23 324 93 176
/ \ / \ / \ / \
176 11 255 129 129 99 211 111
2024-07-31 22:04:01 +08:00
sequence = 123 42 32 176 11 255 129 245 233 129 99 23 211 111 93 176
level = 3 3 2 4 4 4 4 2 2 4 4 3 4 4 3 3
idx at 0 = 0 1 1 0 1 0 1 0 1 0 1 2 0 1 0 1
idx at 1 = 0 0 0 0 0 1 1 1 1 0 0 0 0 0 2 2
idx 0 1 1 0 1 16 17 16 17 0 1 2 0 1 32 33
2024-04-07 00:25:21 +08:00
2024-04-14 17:41:30 +08:00
```