1. 简介
label-studio
假设我们想使用机器学习做文本分析,一般都需要先对数据进行标注,才能训练出效果比较好的监督机器学习模型。
label-studio是多媒体数据标注工具,可以很方便的进行标注和导出。
Label Studio 是一款开源数据标注工具,用于标注和探索多种类型的数据。 您可以使用多种数据格式执行的标记任务。
您还可以将 Label Studio 与机器学习模型集成,以提供标签(预标签)的预测,或执行持续的主动学习。
操作步骤
- 安装Label Studio
- 启动Label Studio
- 创建Label Studio账号
- 项目默认配置
- 导入数据
- 标注数据
- 结束标记,导出标注数据
安装
命令行中执行
pip install label-studio==1.1.0
2 快速上手
在桌面创建自动生成一个名为Project的项目文件夹。
- Win命令行执行
label-studio --data-dir Desktop/Project
- Mac命令行执行
label-studio --data-dir desktop/Project
执行上方代码大概10s左右,会在浏览器弹出如下界面

注册好账号密码,点击Create Project

项目描述填写好,点击按钮**Data Import **,

这里我们要做文本分析,导入csv


设置标注模式,点击按钮Labeling Setup,选择Natural Language Process、TEXT Classification。就考研进行pos、neg、neo三个类别的文本标注。

注意label-studio提供了diy,考研根据自己需要点击Code设定标注类别名称、增减类别。大家感兴趣的可以深入研究。

点击Save 按钮,开始准备标注数据啦
数据界面,勾选全部数据,点击蓝色按钮Label All Tasks

开始标注,勾选你认为合适的标签,点击右侧Submit

导出标注数据,先点击右侧Export按钮,选择导出格式,最后点击底部Export按钮执行导出。
