doccano

doccano是开源的数据标注工具,可以简化数据标注的难度。需要注意,市面上的机器学习课程一般都默认数据已标注,在此基础上讲机器学习。

您还可以将 doccano 与您的脚本集成,因为它将功能公开为API。 doccano API是在局域网内的网址链接,多台设备可打开浏览、标注。


一、标记流程

通过以下步骤开始和完成使用 doccano 的标签项目:

  1. 安装doccano。
  2. 运行doccano。
  3. 设置标签项目。 选择标签项目的类型, 配置项目设置。
  4. 导入数据集。 您还可以导入带标签的数据集。
  5. 给项目添加标注人员
  6. 给标志者定义标注工作文档说明
  7. 开始标记数据。
  8. 导出标记的数据集。

二、配置环境

2.1 安装

打开命令行(cmd、terminal)执行安装命令

pip3 install doccano

2.2 运行doccano

在命令行(cmd、terminal)内依次执行

#在电脑第一次运行的时候初始化doccano
#只需设置一次,之后不用再运行该命令
doccano init

#创建用户名及密码;例如现在有一个主管admin,两个标注员tom和jack
#设置好用户,之后不用再运行该命令
doccano createuser --username admin --password pass
doccano createuser --username tom --password pass
doccano createuser --username jack --password pass

#开启doccano服务
doccano webserver

完成上述操作后,另打开一个新的命令行,执行下列命令

doccano task

三、案例

下面我们以外卖评论数据为例,对评论进行判断,标注为正、负面情感。点击下载data.csv


3.1 创建项目

先登录用户名和密码,这里的admin是超级用户(权限最大)

为创建项目,如图点击Create按钮。 根据需要选择合适的项目类别,这里选择的Text Classification,

填写项目信息,例如项目名情感标注,简介、标注类型

根据需要选择项目的功能需求,例如允许单标签,把数据打乱随机显示, 用户之间共享标注


3.2 上传数据

创建项目后,点击Dataset按钮,点击Import dataset导入数据。我这里准备的是csv文件,拥有review和label两个字段。


3.3 定义标签

点击左侧菜单中的“Labels”按钮来定义我们的标签。 我们应该看到标签编辑器页面。 在标签编辑器页面中,您可以通过指定标签文本、快捷键、背景颜色和文本颜色来创建标签。

同理,可以定义负面neg标签。现在有了pos和neg两个标签。


3.4 添加成员

点击左侧目录中的 Members 按钮,

然后,选择“Add”按钮以显示表单。 使用您要添加到项目中的用户名和角色填写此表单。 然后,选择“Save”按钮。

如果没有可供选择的成员,记得创建成员。形如doccano createuser --username tom --password pass


3.5 开始标注

接下来,我们准备标注文本数据。 只需点击导航栏中的“Start annotation”按钮,我们就可以开始对文档进行批注了。


3.6 导出数据

在注释步骤之后,我们可以下载标注后的数据。 转到“Dataset”页面,然后单击“操作”菜单中的“Export dataset”按钮。 选择导出格式后,单击“Export”。 您应该看到以下屏幕:

到出的结果如下

import pandas as pd

df = pd.read_csv('all.csv')
df


3.7 导出数据

对了,当标注过程不同阶段,还看查看标注工作量等可视化信息


广而告之