知产审判 | 探索智能人机交互短视频的法律属性 | 法律讲堂

2023年，人工智能技术驱动的自然语言处理工具ChatGPT问世。这一事件再次引燃法律界对于人工智能生成物法律属性及其包含的在先创作行为与用户操作行为对于作品独创性认定等问题的探讨。此前，实务界对于人工智能产品和交互产品的法律属性有过初步探讨，其中包括智能人机交互短视频的相关法律属性问题。

智能人机交互短视频作为利用数字技术创作的新型短视频，其微创作、便捷性、自主化大大增强了用户体验，成为互联网内容产业竞争的流量密码之一。

关于智能人机交互短视频的法律属性、新型视听作品的独创性认定等前沿问题也一直备受理论界与实务界关注。在“窗花剪剪”特效道具案中，法院判决提出智能人机交互短视频包含先前创作行为和用户操作行为生成的两部分内容，在弱人工智能环境中，人工智能生成物本身未脱离虚拟“化身”的智力表达内容，当其本身符合作品的独创性要求时，应当予以保护，而对于自然“真身”的操作行为是否能够形成新的作品并予以保护，应当结合先前创作行为为用户预留的表达空间及具体的操作行为是否能够形成新的表达来综合判断用户交互画面的独创性来源。

知产审判 | 探索智能人机交互短视频的法律属性

一个案例的引入

在“窗花剪剪”特效案中，“窗花剪剪”特效道具通过设置窗景和红色纸张、识别用户鼻尖作为剪刀进行剪窗花并动态呈现在屏幕上。原告认为“窗花剪剪”特效构成视听作品，被告则主张“窗花剪剪”独创性部分主要源自用户且其中的内容为思想或公有领域元素，故认为其不构成视听作品。

本案的争议焦点为此类融合人机交互新型短视频的法律属性问题。杭州互联网法院经审理认为，用户鼻尖识别的交互程序设置、资源调度简单、机械。虽然每位用户使用特效所呈现的画面不同，但并未超出特效预设的画面。同时，用户对于交互程序设置所产生的连续画面的展示并未扮演积极创作角色，也未有创造性的表达。故该部分连续画面内容的独创性并非源于用户，仍应基于在先创作行为的作品性予以分析。

概念及其法律争议

人机交互是指用户与系统之间的交流、互动，人机交互技术是指通过计算机输入、输出设备，以有效的方式实现人与计算机对话的技术。人工智能的研究更多地体现在人的识别、语言的表达等数据密集型任务上的处理方法。换言之，人机交互技术主要是提高人与机器之间沟通效率的技术，人工智能是实现如何让机器能像人一样思考和处理问题的技术。

智能人机交互技术随着高速处理芯片、多媒体技术和Internet Web技术的迅速发展和普及而适用于多领域，具有“实现虚实融合+共情”的特征，能够增强用户体验感。故其在娱乐领域、传播领域使用范围广泛。在“窗花剪剪”特效道具中，用户鼻尖轨迹识别的程序设定即利用人机交互技术，其具体的绘制路径、展开方式、渲染方式属于人工智能范畴。

智能人机交互短视频是短视频的一种，具有短视频的基本特征。短视频是指一种视频长度以秒计数，主要依托于移动智能终端实现快速拍摄和美化编辑，可在社交媒体平台上实时分享和无缝对接的新型视频形式，融合了文字、图片、语音等多种内容，本质上是可以还原为线条、色彩、声音、动作等基本符号的组合。

智能人机交互短视频除前述短视频的特点外，还包含人工智能和人机交互两个方面，短视频中的部分画面需通过用户操作完成，该种操作可以是识别、输入、替换样本等多种形式。智能人机交互短视频中包含的人工智能和人机交互，对于判断其是否具有独创性及独创性来源具有关键影响。

智能人机交互短视频通过预设的人工智能(包括算法、程序)并利用人机交互技术从而实现视频的生成。其产生的法律争议主要包括以下三方面：

一是智能人机交互短视频是否构成作品。有观点认为构成作品;也有学者持相反观点，智能人工交互短视频是根据算法或预设程序生成的内容，属于人工智能生成物，并非由人创作，故不能构成《中华人民共和国著作权法》(以下简称《著作权法》)所保护的作品。

二是智能人机交互短视频是否构成视听作品。有观点认为其连续画面符合视听作品独创性的认定要求;有观点则认为该短视频由人工智能的预设程序或算法生成，整体属于计算机软件的部分;也有观点认为其连续画面的呈现本身独创性低，应当认定为录像制品;此外，还有观点认为智能人机交互短视频是将各种元素根据不同的主题进行了选择与编排。这种类型的短视频即使具有独创性，也没有达到视听作品连续画面独创性的标准，故应当认定为汇编作品、美术作品或其他作品类型。

三是智能人机交互短视频的作者认定问题。智能人机交互短视频由开发者先前创作，即进行主题设计并保留创作空间，由用户进行操作而整体完成短视频制作，故包含开发者的先前创作行为和用户操作行为两个方面。部分观点认为，智能人机交互短视频的独创性来源于基础模板的元素、搭配和设计，故独创性来源于开发者的先前创作行为;有观点则认为视听作品的独创性应体现在整体的连续画面上，而该整体的连续画面需由用户操作完成，故智能人机交互短视频的独创性来源于整体的交互过程，即来源于用户。

独创性要素分析

根据《著作权法》第三条规定，作品是指文学、艺术和科学领域内具有独创性并能以一定形式表现的智力成果。对于智能人机交互短视频是否构成作品，属于何种作品，以及作者的认定等问题，笔者在本文中结合作品的独创性要求，从创作行为、表现形态、表达空间三个维度进行分析。

第一，从创作行为角度，智能人机交互短视频作为一种新型信息传播模式，融知识性、互动性、娱乐性等特点于一体，并以短视频的形式呈现。判断一种智力成果能否成为“作品”的标准是具有独创性表达。即使人工智能是应用算法、规则、模板创作完成的智力成果，只要表达具有独创性，就不影响对生成物法律属性的判断。

互联网时代，创意大而创作难度不高的情形使得思想和表达的边界非常模糊。思想到表达是从抽象到具体的过程。理论上，该过程存在关键点，超过关键点可能被认为是一种具象化表达。同时，思想与表达并非递进关系。因此，对关键点的把握是实践难题。

实践中，对于围绕固定主题而创作的影像，其思想和表达界限可以观念抽层方式进行区分，即从主题、元素、表达、制作方面渐次分析其中对思想的具象化过程。当其在表达上可能达到非唯一性、非固定性、非固有性的特点时，即可认为是一种具象化表达，并根据具象化的程度，对作品的创造性进行评价。

具体到案件中，“窗花剪剪”特效从抽象到具象的过程分为以下四个层次。第一层次：剪纸，该内容应属于思想范畴。第二层次：工具选择+裁剪方式+纸张选择，即选择工具对虚拟纸张(角度、样式、颜色)进行裁剪并展开。该层面主要体现剪刻技艺，仍然属于思想范畴。但是，基于该剪刻技艺形成的窗花样式可构成作品。第三层次：识别定位+定位移动+纸张选择，即通过互联网和数字技术，运用定位识别和定位移动的方式表现剪纸工具和裁剪方式。在该层面，不同的选择导致不同的表达。表达已呈现具象化。第四层次：鼻尖识别定位+鼻尖痕迹复制+纸张选择+场景设置+展开方式等，在该层面，制作者在场景设置、元素创作、画面衔接等方面进行创作。用户围绕剪窗花的主题进行独创性表达，且该种表达方式并非已然存在的，其各元素的选择、搭配、呈现方式、画面安排等亦非唯一的、有限的表达方式，故应当认定其具有创造性。

第二，从表现形态角度，视听作品是指有伴音或无伴音的连续画面。其独创性源于连续画面整体的衔接、选择和编排方式。但是，目前视听作品连续画面的独创性如何判断仍存在争议。2021年6月1日，新修订的《著作权法》正式实施。视听作品作为修订后新增的作品类型，其主要源于微时长、微制作、微平台、开放性、互动视听资料的出现，也源于人民群众参与视听片段创作的积极性及日渐普及的移动通信设备。但是，将任何由固定图像组成、带有或不带有伴音、可视或可视听的“载体”都定义为视听作品的做法，可能会导致泛作品化现象。那么，如何合理界定视听作品的范围，如何清晰地划分视听作品的画面与内容情节的关系具有重要意义。

笔者认为，视听作品的独创性应当体现在“可视或可视听”的层面上。有的连续画面体现故事情节或传递信息，而有的连续画面则展示纯粹的视觉艺术美感。因此，在判断连续画面的独创性时，应当将画面呈现与内容相分离，即对于连续画面独创性的认定，可以从画面连续性、逻辑衔接性和影像画面感三个要素予以考量。

关于画面连续性，一般而言，视听作品应是体现动态的、具有连续性的与衔接性的影像展示过程;从呈现状态来看，制作者对于画面元素及其颜色搭配、静态显示、动态变化、画面排布等进行选择与设计。视听作品在画面连续性上的体现，使其区别于美术作品。

关于逻辑衔接性，视听作品的连续画面在上下衔接与画面切换方式的动态变化过程中应体现作者对于画面呈现与排布的逻辑安排。逻辑衔接性是视听作品区别于录像制品的关键因素。以早期的体育赛事直播画面为例，其是对整个赛事过程的播放，播放的内容没有体现制作者对于画面的选择和逻辑安排。但是，随着视听技术的发展，对于体育赛事的画面呈现会包含部分画面选取和逻辑安排，因此，实践中日渐倾向于认定体育赛事直播画面构成视听作品。

关于影像画面感，是指视听作品通过渲染元素搭配、场景布置、展开方式、转场效果与最终页面定格等细节描绘，从而形成一个整体的、连续的、表达艺术情境的连续影像，达到展示视觉艺术效果和美感的目的。该要素是视听作品区别于汇编作品和其他作品的关键。以“窗花剪剪”特效道具案为例，其通过渲染窗框、窗帘、城市背景等，配合进度条、剪纸形状、变换轨迹、展开方式、转场效果与最终页面定格等细节描绘，体现了整体剪窗花的情景设置，构成视听作品，而非汇编作品。

第三，从表达空间角度，智能人机交互短视频包含开发者的先前创作行为和用户操作行为两个方面的内容，故形成的画面包含基础展示画面和人机交互画面。在判断独创性来源时，应考虑开发者的先前创作行为是否具有独创性，即判断整体画面的独创性来源是基于先前创作行为，还是基于用户操作行为。主要从以下两方面考虑：

一是先前创作行为是否具有独创性。基于人工智能和人类智力水平的比较，人工智能发展阶段可分为弱人工智能、强人工智能和超人工智能。目前，日常所接触的算法系统应用多属于弱人工智能典型的应用场景。因此，笔者在本文中所讨论的内容也是基于弱人工智能人机交互短视频中先前创作行为的独创性认定问题。

先前创作行为是指自然人作出的对人工智能生成物的产生具有实质性贡献的智力活动。人工智能生成物的产生过程包括人的先前智力投入过程和算法自动生成过程。在该过程中，人的先前智力投入过程控制且决定着算法自动生成的过程。人的主观意志、价值判断与审美标准在算法自动生成过程中得以延续，对人工智能生成物的产生具有实质性贡献。当生成内容符合视听作品连续画面独创性的要求时，其本身应受到法律保护。

二是用户操作行为的表达空间。智能人机交互短视频包含算法、规则、模板与资源库的应用。设计者根据不同的应用场景，适配不同的交互应用程序。用户调用应用程序中的资源达到生成内容的目的。因此，整个生成内容包含设计者对于整体画面的预设性创作框架，用户则根据能够选配的元素进行操作。换言之，智能人机交互的识别、创作过程受制于预先设定的算法、规则、模板及资源等先前创作的范围。具体而言，根据先前创作行为为用户表达所预留的空间，可以主要分为以下三种情形：

首先，人工智能提供的内容参数和资源配置单一，用户对于呈现内容仅需进行机械的调配。此时，用户并未对生成物贡献创造性，如由用户进行选择并一键生成歌曲的AI音乐互动产品。在不考虑属于何种作品的情况下，用户对于这种单一配置的智能化产品，主要实现的是输入内容，未有创造性的贡献。

其次，设计者对于内容参数、资源和画面的基本表达步骤和呈现进行了设计，用户在人机交互过程中仅将有限的影像或图样以自动生成、无限排列组合的方式呈现在用户界面。在该交互过程中，整体画面的独创性并非来源于用户，而是基础画面的一种表现方式，属于先前创作行为的延伸。在“窗花剪剪”特效道具案中，该特效道具是用户的鼻尖轨迹，在预设的用户界面将该轨迹予以展示，呈现的画面是由用户在体验特效过程中临时生成的，并非制作者事先固定的序列画面，但因程序设置与资源调度简单、机械，也未超出特效预设的画面。该智能人机交互并未产生新的连续画面，人机交互短视频的独创性仍体现在展示基础画面之上。

最后，设计者对于内容参数、资源配置越具体，越具有个性化的选择和编排，但对于具体画面的呈现方式未予设置，则用户可以通过资源的组合、画面的具体呈现顺序和方式等方面融合自己的安排与设计，对于人机交互而生成画面的独创性具有贡献，人机交互短视频的独创性内容则可能体现为交互过程中形成的画面。

总之，智能人机交互短视频的法律属性应结合先前创作行为是否具有独创性及用户创作表达的空间来判断。当先前创作行为生成物本身具有独创性，能构成《著作权法》的视听作品或其他类型的作品时，用户表达空间越小，也越难形成新的表达。因此，整体生成物的作者应当认定为智能人机交互产品的权利人。当用户表达空间越大，在最终的生成物中越能够形成新的表达，基础展示内容和用户操作所生成的结果则可能分属不同的权利人。

“传承+创新”“艺术+技术”是新时代作品创作和传播的重要方式。随着视听技术的发展，各种新型的智力成果层出不穷。视听作品作为《著作权法》新增的作品类型，为未来新型作品的保护留下了空间。但是，如何界定视听作品的保护范围与如何保护新型视听成品，仍然考验着司法智慧。

笔者认为，“千举万变，其道一也”，应当结合视听作品独创性的要求，以呈现状态、上下衔接、画面感为判断要素，合理界定创作与创意的界限、平衡权利保护和避免泛视听作品化的关系，从而进一步促进文化娱乐著作权保护事业的健康发展。

文 | 杭州互联网法院卢忆纯