唯众数据标注实训系统
1.产品简介
人工智能(ArtificialIntelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。在人工智能领域,算法、算力和数据称为人工智能的三驾马车,拥有大量标注好数据的数据集是产生好的数据模型的必要条件,一个好的数据标注系统将会使这一工作事半功倍。
唯众数据标注实训系统使用B/S架构,采用简洁、轻便的安装部署方式,兼容Edge、Chrome、FireFox等主流浏览器,可对文本、图形图像、视频、音频等多种数据进行标注,标注形式多样,颜色多种可选,可多人协助标注,可导出包括json、json-min、csv、tsv等多种格式数据集,方便师生进行后续的模型建立和模型训练。
唯众数据标注实训系统是一个数据标注工具。它允许您使用简单明了的 UI标记音频、文本、图像、视频和时间序列等数据类型,并导出为各种模型格式。它可用于准备原始数据或改进现有训练数据以获得更准确的 ML模型。
2.产品特点:
Ø 支持多用户注册并登录,当您创建标注时,它与您的帐户相关联。
Ø 支持同一项目多用户协同标注,成员角色由创建人控制。
Ø 支持在一个实例中处理所有数据集的多个项目。
Ø 流线型设计可帮助您专注于您的任务,而不是如何使用该软件。
Ø 可配置的标签格式让您可以自定义可视界面以满足您的特定标签需求。
Ø 支持多种数据类型,包括图像、音频、文本、HTML、时序和视频。
Ø 从文件或从JSON、CSV、TSV、RAR 和 ZIP 存档中导入。
3.产品功能
唯众数据标注实训系统主要由创建项目、导入原始数据文件、标注类型选择、图形化标注、团队化协助和导出数据集等功能组成,登录成功后可以看到当前用户所创建/参与的所有标注项目,如下图所示:
3.1创建项目
唯众数据标注实训系统提供流线型引导步骤,从创建项目名、导入数据、标注模型进行一站式设计,轻松完成数据标注前的所有设置:
3.2导入原始数据
唯众数据标注实训系统支持文本、音频、图像、HTML、时序等类型数据文件,完美解析包括有txt、wav、aiff、mp3、au、flac、m4a、ogg、jpg、png、gif、bmp、svg、webp、html、htm、xml、csv、tsv、csv、tsv、txt、json等多种格式数据:
3.3选择标注模型
系统提供计算机视觉、自然语言处理、音频处理、AI会话、得分与排序、结构化数据分析、时序分析、视频等不同原始数据相对应的标注模式,让使用快速进入到标注步骤:
3.4团队化协助
往往一个新研发的计算机视觉算法需要上万张到数十万张不等的标注图片训练,新功能的开发需要近万张图片训练,而定期优化算法也有上千张图片的需求,一个用于智慧城市的算法应用,每年都有数十万张图片的稳定需求。一个完整的数据标注项目往往不是一个人能够完成的,需要多人的协同处理,那么就需要系统提供团队化协助的功能。
系统以项目拥有者使用邀请链接的方式,邀请多人加入同一个项目中,每一次提交都会记录标注者信息和标注时间,有效溯源和标准化管理对提高标注效率有极大的帮助。
4、快速使用
管理员启动【唯众数据标注实训系统】后,使用者在浏览器中输入访问地址(测试地址:http://192.168.0.48:8081/),会出现一个登陆页面:
如上图,次使用需要创建账号,注册一下就好了。如果有账号则直接使用账号密码进行登录,测试号:daixikai@qq.com密:dxk19911210。
输入好用户名及密码后点击登录,会跳转到如下页面:
次登陆进来,这个页面应该是空白的,这些都是我自己建的项目。暂时不用管已经创建好的,下面,我们开始创建自己的项目:
1、 点击右上角的【创建】按钮
点击后弹出如下页面,设置自己的【项目名称】和项目【描述】
2、设置好项目名称和描述后,点击旁边的 【数据导入】,进入到数据导入页面
3、点击【上传文件】按钮,从本地选择一个待标注的文件,我的文件格式是一行一行的.txt 文本,如图:
一行表示一条数据。文件格式也可以是CSV,按理说只要是一行一条数据的都可以,感兴趣的同学可以自己探索下。
4、选择好待标注的文件后,点击【打开】,会弹出如下界面:
5、这里需要选择是【任务列表】 还是【时间序列】,这里我选择的是【任务列表】。
6、选择好后,点击旁边的【标注步骤】,页面如下:
7、找到【自然语言处理】,选择【命名实体识别】
8、选择后,弹出如下页面
9、默认的四个标签 PER ORG LOC MISC,删掉这四个标签,换成我们自己的标签,从旁边的【添加标签名称】方框里输入自己的标签名称,再点击【添加】就可以添加自己自定义的标签了
点击我们添加的标签,还能自定义颜色
10、至此,我们就选择好了所有的配置,看起来很麻烦事因为我说的比较细,就怕有些同学看不懂。点击右上角的【保存】按钮,就可以开始标注了
11、点击【标注所有任务】 按钮,开始你的标注之旅吧
12、点击实体名称,再通过鼠标从待标注的文本选择出正确的实体,如图:
注意:标注完成后,一定要点击【刷新】提交已标注的数据,不然系统不会记录已完成的工作。
设置一下可以让标签显示在实体右上角
13、标注完成后,点击右上角【导出】 可以导出已标注的数据
14、这里我们选择CSV,你想导出其他格式的也可以
点击下面的【导出】蓝色按钮,就能导出已标注的数据。
15、导出的csv的数据格式如下图所示: