1. 简介
label-studio
假设我们想使用机器学习做文本分析,一般都需要先对数据进行标注,才能训练出效果比较好的监督机器学习模型。
label-studio是多媒体数据标注工具,可以很方便的进行标注和导出。
Label Studio 是一款开源数据标注工具,用于标注和探索多种类型的数据。 您可以使用多种数据格式执行的标记任务。
您还可以将 Label Studio 与机器学习模型集成,以提供标签(预标签)的预测,或执行持续的主动学习。
操作步骤
- 安装Label Studio
- 启动Label Studio
- 创建Label Studio账号
- 项目默认配置
- 导入数据
- 标注数据
- 结束标记,导出标注数据
安装
命令行中执行
pip install label-studio==1.1.0
2 快速上手
在桌面创建自动生成一个名为Project的项目文件夹。
- Win命令行执行
label-studio --data-dir Desktop/Project
- Mac命令行执行
label-studio --data-dir desktop/Project
执行上方代码大概10s左右,会在浏览器弹出如下界面
![](img/%e5%88%9b%e5%bb%ba%e8%b4%a6%e6%88%b7.png)
注册好账号密码,点击Create Project
![](img/%e5%88%9b%e5%bb%ba%e9%a1%b9%e7%9b%ae.png)
项目描述填写好,点击按钮**Data Import **,
![](img/%e8%ae%be%e7%bd%ae%e9%a1%b9%e7%9b%ae%e6%8f%8f%e8%bf%b0.png)
这里我们要做文本分析,导入csv
![](img/%e5%af%bc%e5%85%a5%e6%95%b0%e6%8d%ae1.png)
![](img/%e5%af%bc%e5%85%a5%e6%95%b0%e6%8d%ae2.png)
设置标注模式,点击按钮Labeling Setup,选择Natural Language Process、TEXT Classification。就考研进行pos、neg、neo三个类别的文本标注。
![](img/%e8%ae%be%e7%bd%ae%e6%a0%87%e6%b3%a8%e6%a8%a1%e5%bc%8f1.png)
注意label-studio提供了diy,考研根据自己需要点击Code设定标注类别名称、增减类别。大家感兴趣的可以深入研究。
![](img/%e8%ae%be%e7%bd%ae%e6%a0%87%e6%b3%a8%e6%a8%a1%e5%bc%8f2.png)
点击Save 按钮,开始准备标注数据啦
数据界面,勾选全部数据,点击蓝色按钮Label All Tasks
![](img/%e6%95%b0%e6%8d%ae%e7%95%8c%e9%9d%a2.png)
开始标注,勾选你认为合适的标签,点击右侧Submit
![](img/%e5%bc%80%e5%a7%8b%e6%a0%87%e6%b3%a8.png)
导出标注数据,先点击右侧Export按钮,选择导出格式,最后点击底部Export按钮执行导出。
![](img/%e5%af%bc%e5%87%ba%e6%a0%87%e6%b3%a8%e6%95%b0%e6%8d%ae.png)