序列标注中的几种标签方案

标签说明
标签方案中通常都使用一些简短的英文字符[串]来编码。

标签是打在token上的。

对于英文,token可以是一个单词(e.g. awesome),也可以是一个字符(e.g. a)。

对于中文,token可以是一个词语(分词后的结果),也可以是单个汉字字符。

为便于说明,以下都将token试作等同于字符。

标签列表如下:

B,即Begin,表示开始
I,即Intermediate,表示中间
E,即End,表示结尾
S,即Single,表示单个字符
O,即Other,表示其他,用于标记无关字符
常见标签方案
基于上面的标签列表,通过选择该列表的子集,可以得到不同的标签方案。同样的标签列表,不同的使用方法,也可以得到不同的标签方案。

分词、词性标注任务常用的序列表示法有IOB/BIO和start/end。
IOB表示法可以分为IOB1,IOB2,IOE1,IOE2四种。四种表示法大同小异,相同点是「I」代表当前词在一个组块中,「O」表示当前的词不在任意一个组块中。不同点是四种表示法对组块的开始或者结束的表达方式所有区别。具体如下:
IOB1: 标签I用于文本块中的字符,标签O用于文本块之外的字符,标签B用于当前词是紧跟前一个组块的新组块的开始。非紧邻的新组块开始标记位I。
例如:
序 I
列 I
标 B
注 I
中 O
的 O
几 O
种 O
标 I
签 I
方 B
案 I
IOB2: 每个文本块都以标签B开始,除此之外,跟IOB1一样。
例如:
序 B
列 I
标 B
注 I
中 O
的 O
几 O
种 O
标 B
签 I
方 B
案 I
IOE1: 标签I用于独立文本块中,标签E仅用于同类型文本块连续的情况,假如有两个同类型的文本块,那么标签E会被打在第一个文本块的最后一个字符。
例如:
序 I
列 E
标 I
注 I
中 O
的 O
几 O
种 O
标 I
签 E
方 I
案 I
IOE2: 每个文本块都以标签E结尾,无论该文本块有多少个字符,除此之外,跟IOE1一样。
例如:
序 I
列 E
标 I
注 E
中 O
的 O
几 O
种 O
标 I
签 E
方 I
案 E
start/end (也叫SBEIO、IOBES): 是另一个类型的表示法,该表示法表达的更为细致,包含了全部的5种标签,文本块由单个字符组成的时候,使用S标签来表示,由一个以上的字符组成时,首字符总是使用B标签,尾字符总是使用E标签,中间的字符使用I标签。
例如:
广 B
东 I
省 E
的 O
别 B
称 E
粤 S
其中最常用的是IOB2、IOBS、IOBES。

-------------本文结束感谢您的阅读-------------
坚持整理学习笔记,您的支持将鼓励我继续整理下去!