doccano标注工具|为机器学习建模做数据标注

admin2024-04-03  0

目录

一、标记流程
二、配置环境
        2.1 安装
        2.2 运行doccano
三、案例
        3.1 创建项目
        3.2 上传数据
        3.3 定义标签
        3.4 添加成员
        3.5 开始标注
        3.6 导出数据
        3.7 导出数据

doccano

doccano是开源的数据标注工具,可以简化数据标注的难度。需要注意,市面上的机器学习课程一般都默认数据已标注,在此基础上讲机器学习。

doccano标注工具|为机器学习建模做数据标注,第1张

您还可以将 doccano 与您的脚本集成,因为它将功能公开为API。 doccano API是在局域网内的网址链接,多台设备可打开浏览、标注。

一、标记流程

通过以下步骤开始和完成使用 doccano 的标签项目:

  • 安装doccano。
  • 运行doccano。
  • 设置标签项目。 选择标签项目的类型, 配置项目设置。
  • 导入数据集。 您还可以导入带标签的数据集。
  • 给项目添加标注人员
  • 给标志者定义标注工作文档说明
  • 开始标记数据。
  • 导出标记的数据集。


二、配置环境

2.1 安装
打开命令行(cmd、terminal)执行安装命令

pip3 install doccano


2.2 运行doccano
在命令行(cmd、terminal)内依次执行

#在电脑第一次运行的时候初始化doccano
#只需设置一次,之后不用再运行该命令
 

doccano init

#创建用户名及密码;例如现在有一个主管admin,两个标注员tom和jack
#设置好用户,之后不用再运行该命令
 

doccano createuser --username admin --password pass
doccano createuser --username tom --password pass
doccano createuser --username jack --password pass

#开启doccano服务
 

doccano webserver

完成上述操作后,另打开一个新的命令行,执行下列命令

doccano task


三、案例

下面我们以外卖评论数据为例,对评论进行判断,标注为正、负面情感。

3.1 创建项目

先登录用户名和密码,这里的admin是超级用户(权限最大)


doccano标注工具|为机器学习建模做数据标注,第2张

为创建项目,如图点击Create按钮。 根据需要选择合适的项目类别,这里选择的Text Classification,

填写项目信息,例如项目名情感标注,简介、标注类型

doccano标注工具|为机器学习建模做数据标注,第3张

根据需要选择项目的功能需求,例如允许单标签,把数据打乱随机显示, 用户之间共享标注

doccano标注工具|为机器学习建模做数据标注,第4张

3.2 上传数据

创建项目后,点击Dataset按钮,点击Import dataset导入数据。我这里准备的是csv文件,拥有review和label两个字段。

doccano标注工具|为机器学习建模做数据标注,第5张

doccano标注工具|为机器学习建模做数据标注,第6张

doccano标注工具|为机器学习建模做数据标注,第7张

3.3 定义标签

点击左侧菜单中的“Labels”按钮来定义我们的标签。 我们应该看到标签编辑器页面。 在标签编辑器页面中,您可以通过指定标签文本、快捷键、背景颜色和文本颜色来创建标签。

doccano标注工具|为机器学习建模做数据标注,第8张

doccano标注工具|为机器学习建模做数据标注,第9张

同理,可以定义负面neg标签。现在有了pos和neg两个标签。 

doccano标注工具|为机器学习建模做数据标注,第10张

3.4 添加成员

点击左侧目录中的 Members 按钮,

doccano标注工具|为机器学习建模做数据标注,第11张

然后,选择“Add”按钮以显示表单。 使用您要添加到项目中的用户名和角色填写此表单。 然后,选择“Save”按钮。 

doccano标注工具|为机器学习建模做数据标注,第12张

如果没有可供选择的成员,记得创建成员。形如doccano createuser --username tom --password pass

3.5 开始标注

接下来,我们准备标注文本数据。 只需点击导航栏中的“Start annotation”按钮,我们就可以开始对文档进行批注了。

doccano标注工具|为机器学习建模做数据标注,第13张

3.6 导出数据

在注释步骤之后,我们可以下载标注后的数据。 转到“Dataset”页面,然后单击“操作”菜单中的“Export dataset”按钮。 选择导出格式后,单击“Export”。 您应该看到以下屏幕:

doccano标注工具|为机器学习建模做数据标注,第14张

到出的结果如下

doccano标注工具|为机器学习建模做数据标注,第15张

3.7 导出数据

对了,当标注过程不同阶段,还看查看标注工作量等可视化信息

doccano标注工具|为机器学习建模做数据标注,第16张

四、安装过程命令

#虚拟环境
conda create --name doccano python=3.9
conda info --envs
source activate doccano


#pip安装方式
pip install doccano (默认doccano==1.8.4版本)
doccano init
doccano createuser --username admin --password pass
doccano createuser --username tom --password pass
doccano webserver

#卸载
pip uninstall doccano

pip install doccano==1.8.2

#pip源更换,提高安装速度
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple doccano
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple doccano==1.8.2



#Docker安装方式

docker pull doccano/doccano

sing default tag: latest
latest: Pulling from doccano/doccano
7a6db449b51b: Pull complete 
e238bceb2957: Pull complete 
9c37eda4ff12: Pull complete 
120078faa760: Pull complete 
2d3523ccd6f4: Pull complete 
c62e2504b88c: Pull complete 
933dc7a3d368: Pull complete 
f5ecd3a845d0: Pull complete 
dfb494ed37e3: Downloading [==========>                                        ]  33.45MB/159.6MB
548b03d8e5e3: Download complete 
4fb76ac8dbcd: Download complete 
51219b6ada00: Download complete 
4f4fb700ef54: Download complete 
e3407eb63e03: Downloading [============================>                      ]  4.324MB/7.477MB
47f7c73cd77f: Downloading [===========================>                       ]  19.13MB/35.4MB



完成状态:
Using default tag: latest
latest: Pulling from doccano/doccano
7a6db449b51b: Pull complete 
e238bceb2957: Pull complete 
9c37eda4ff12: Pull complete 
120078faa760: Pull complete 
2d3523ccd6f4: Pull complete 
c62e2504b88c: Pull complete 
933dc7a3d368: Pull complete 
f5ecd3a845d0: Pull complete 
dfb494ed37e3: Pull complete 
548b03d8e5e3: Pull complete 
4fb76ac8dbcd: Pull complete 
51219b6ada00: Pull complete 
4f4fb700ef54: Pull complete 
e3407eb63e03: Pull complete 
47f7c73cd77f: Pull complete 
Digest: sha256:165e8a1ba2fe3c3c92d4927d74b6badc9985d295c90de28674a5511a62bcdf5c
Status: Downloaded newer image for doccano/doccano:latest
docker.io/doccano/doccano:latest



docker container create --name doccano \
  -e "ADMIN_USERNAME=admin" \
  -e "ADMIN_EMAIL=admin@example.com" \
  -e "ADMIN_PASSWORD=password" \
  -v doccano-db:/data \
  -p 8000:8000 doccano/doccano


#创建中,稍等1分钟,显示
1dd2951d71970abb16199177e1fd8f9006508757f96d239669f23c1e7c09c7d5


#运行
docker container start doccano

运行完成显示doccano



五、已知问题

1、安装最新版本的1.8.4后,导入csv和excel文件一直无法成功,不清楚是源代码问题还是某个软件包版本问题,最后使用txt文件或json文件方式导入数据;

2、标注人员和审核人员,貌似权限没有什么区别,正常理解标注人员可以标注不能点击"对勾and叉叉"确定此条标注完成,审核人员审核后可以标注完成,目前安装完成后标注人员和审核人员都可以确认完成操作;

参考:
https://textdata.cn/blog/doccano_text_anotation/#32-%e4%b8%8a%e4%bc%a0%e6%95%b0%e6%8d%ae
https://blog.csdn.net/u013010473/article/details/125447063
https://zhuanlan.zhihu.com/p/371752234
https://blog.csdn.net/weixin_42475060/article/details/131540351
https://blog.csdn.net/weixin_37763484/article/details/132813982 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明原文出处。如若内容造成侵权/违法违规/事实不符,请联系SD编程学习网:675289112@qq.com进行投诉反馈,一经查实,立即删除!