如何提高营销效率?让AI读懂内容产品
互联网时代海量的网络内容增加了内容运营者的难度,AI内容分类技术的诞生为内容运营者提供了释放数据与内容价值的可靠方法。众多内容出版商和广播公司已开始重视数据科学,并着手于建立起自己的内容分类系统,但本文指出,这种方法因其巨额成本不适合绝大多数内容机构,而出版商与技术公司的合作是考虑到资金和成本等因素的折中方案,同时他们首先需要关注的是如何促进价值最大化。
另外,本文还比较了三种常见的算法——随机森林、K近邻算法和神经网络在内容分类上的性能表现,并探究了同一内容分类系统的跨平台性与跨年代性,以期为内容机构提供参考。
关键词:人工智能;内容分类系统;算法;跨平台性
原文来源| WNIP;Journal of Business Research
原文作者| Matt Shearer;Joni Salminena
原文发表时间| 2023年5月11日;2023年8月
译者| 冯嘉欣
如何充分释放内容产品的价值?
自互联网诞生以来,出版商和广播媒体就一直追随着时代变革的步伐,不断颠覆传统的商业模式。部分公司,如BBC,早已迅速适应数字化世界,但还有许多公司在从传统向数字化的转型中苦苦挣扎。数字化出版流程的变化,传统广告市场的崩塌,平台的分散性,以及强势竞争对手的出现都对他们造成了巨大的威胁。
众多出版商或许已经意识到自己面临的挑战以及大力发展技术的重要性,但对他们而言,主要问题在于:如何充分释放其数据与内容产品的价值?
许多公司在人工智能(AI)和数据科学中寻求答案。内容分类是已成功利用AI的重大突破性领域,通过使用元数据(即采用通用术语标记业务范围内的资产与信息的描述性数据)进行自动化内容分类。
图片来源:DZone
元数据能最大程度地实现精准的商业化智能,以支持决策发布的时间与内容。它为用户创造了靶向性广告和内容推荐的新机会,并促进了搜索引擎优化(SEO)。另外,元数据描述与组织的一致性使其能够更简单快捷地根据新目的重新组织内容,且减少内容在发布渠道中产生的重复性工作。
正如环球音乐内容战略和运营执行副总裁Barack Moffitt 所说,我们应该用基础必需品来形容元数据,这样每个人都能意识到它的必要性。音乐产业已经提出需要更高质量的元数据,仅版税方面的元数据缺口估计每年能达到25亿美元。
对当今的出版商而言,元数据的核心应用价值在于AI内容分类。内容分类系统能够从更高的层次帮助出版商根据既定术语对任意内容进行分类。
首先,工作人员需要运用充分的案例进行算法训练,在这之后,内容分类系统将学习模仿案例中的分类方式,形成成熟的算法。
最后进入完全的自动化阶段。AI内容分类的引入加快了发行周期,并将新闻工作中从此类繁琐枯燥的工作中解放了出来。与人工手动标记相比,自动化的内容分类省时省力,极大地减少了人为错误,提高了内容分类的一致性,同时使新闻工作者能够将时间精力放在核心业务上。
基于AI与机器学习的内容分类系统。图片来源:KDnuggets
尽管AI内容分类系统在新闻出版领域的应用并不是新鲜事,但仍处于发展阶段。基于旧有分类方式自动化标记的过程需要海量学习数据的支撑,因此当面对突发新闻状况时AI内容分类系统常遇到障碍。例如,当新冠肺炎疫情暴发的初期,一家新闻媒体可能会发布一两篇报道和一两篇评论性文章。就算这四篇文章都被严格地人工标记,都不足以使内容分类系统学会如何整合这些新术语。这是目前AI内容分类存在的最大缺口。
适用于新闻编辑室的AI内容分类系统更适合关注点迅速变化的动态领域。对于更为稳定的常规文档,人们可能更希望系统花费更多的时间训练算法以提高精确性。但对出版商和广播媒体而言,他们更希望自动标记的速度能与突发新闻生产出的速度相匹配。很多情况下,AI的作用被过分夸大,但在极具变化性的环境下,AI确实能够真正体现出自身价值。
现在的关键问题不是「传统媒体是否会开始利用AI」,而是「何时」与「如何」利用AI。是否?答案是「是」。何时?答案是「很快」。如何?这个问题还需要更多的思考,但与大多数技术部署类似,它可以归结为三个选项:搭建,购买或者合作。
图片来源:WNIP
一些大型出版商和广播公司已经引进了数据科学家,依靠他们搭建自己的内容分类系统。看起来,鉴于丰富的网络资源,这似乎并非难事,但实际上构建强有力且可扩展的AI内容分类平台是一个相当复杂的项目,不仅需要大量的软件工程学知识,还需要良好的数据科学储备以及对应用程序接口(API)的熟悉程度。搭建自己的内容分类系统少不了大量的资金支撑。对稀缺人才的高薪聘用,加上长时间研发过程带来的时间成本,都是这一大项目中不小的开支。
合作通常被看作是一种很好的折衷方案,但这种方案要求最终产品具有品牌独特性,但从根本上讲,AI驱动下的内容分类系统并不具备特殊性。
对资金紧张的出版与广播部门而言,所有权总成本和产品差异化越来越重要。因此,出版商和广播媒体应确保将数据科学家部署在最具增值潜力的位置,而不是花费大量的精力重复生产基础工具。
哪种内容分类算法更为有效?
自动内容分类的本质是算法的运用,但许多算法并不具备多标签分类的功能,因此也并不能很好地解决当下出版商和广播媒体的问题。另外,由于新闻关键词数量庞大且种类繁多,针对每一个标签训练一种算法模型的方法也并不适用。研究学者们选择了三种具备多标签分类功能的算法:随机森林、K近邻算法、人工神经网络,通过抓取半岛电视台网站上的发布内容数据,对这三种算法进行了比较评估。
·随机森林:创建多个决策树或者统计数据结构,按照最优分配与平均分配的标准划分数据,以创建更为平衡的数据集。
·K近邻算法:按点分配数据,通过距离度量比较各个点,并给予最近原则进行标签分类。
·神经网络:建立某种简单模型,按不同的连接方式组成不同的网络。
研究结果发现,就模型整体性能而言,神经网络模型(平均得分0.627)优于随机森林(平均得分0.458)与K近邻算法(平均得分0.577)。
就算法的运行时间而言,K近邻算法最快,对10000篇文章的处理只需0.184秒,而随机森林需要5.612秒,神经网络模型需要14.668秒。尽管时长相差较大,但神经网络模型在实际应用中并无明显的性能瓶颈,甚至能在几个小时内针对数百万篇文章进行数据训练。为了进一步对神经网络模型的性能加以评估,研究者分析了不同的文本特征下的性能分数,结果发现,在获取所有可用文本数据时,神经网络模型达到最高性能。
针对不同文字特征的神经网络系统性能评估。F1是综合考虑精确度与召回率的调和平均数,是算法性能的评估指标。图表来源:Journal of Business Research
另外,研究者通过分类关键字随时间的变化对内容分类系统进行预测性能的评估。结果发现,部分关键字在未来出现的频率要低得多,这与整个社会环境变换有关。在预测未来时,内容分类系统的性能略有下降,但总体而言,该系统能够较好地推广到下一年,只是当出现新关键字时系统将暂时失效。
同一内容分类系统是否具有平台推广性?
半岛电视台英文YouTube频道。图片来源:Journal of Business Research
由于内容机构的跨平台运营策略,为一个渠道开发出的内容分类系统能否很好地适用于其他渠道也是出版商和广播公司密切关注的问题。通常来讲,由于文本内容的差异,以及不同平台中文本长度与内容描述的不同,同一系统不一定适用于多个平台。
为了对该问题加以评估,研究者们采用神经网络模型对半岛电视台英文YouTube频道的视频内容(包含标题和描述)进行分类。最终,该模型成功分类的概率为96.1%,这与对网站内容进行分类时99.6%的成功率相当。
另外通过人为标记对模型的标签分类的准确性评估结果显示,人类编码员之间的共识率仅比人类与机器之间的共识率高10.4%,差异很小,因此,神经网络模型在跨平台上的实际性能良好,这意味着同一内容分类系统能够在多个平台推广。
通过跨平台内容分类,各种绩效指标能够汇总到统一报表中,为内容营销机构提供了更好的内容管理和数字消费者空间优化的机会。
1号结语
AI在内容领域的应用早已不是新鲜事,除了AI个性化推荐、AI语聊机器人、AI自动生成内容之外,本文还提供了另一种AI应用——AI内容分类系统。对于内容运营机构而言,对内容产品的分类管理就如同编写出一本内部的内容「词典」,厘清整个机构多年来的内容脉络,既方便回顾历史,也帮助未来查阅。自动化的内容分类省时省力,极大地减少人为错误并提高内容分类的规范性,为工作者省下更多有效时间,是内容管理领域的一大突破。
另外,从几位学者的研究中可以得知,采用不同算法模型的内容分类系统具有不同的性能效果,其中神经网络模型性能最佳。同一系统不仅能够跨年使用,还能够跨平台使用,只不过由于不同年份、不同平台的文本差异,同一系统的性能存在略微差异。
但是,目前AI内容分类系统还处于发展阶段,如何完善地填补新事物的空白是目前的最大缺口。尽管如此,现阶段的AI分类系统同样有助于释放内容的隐藏价值,是所有内容机构不可忽视的新技术。
声明:本站所有文章资源内容,如无特殊说明或标注,均为采集网络资源。如若本站内容侵犯了原著者的合法权益,可联系本站删除。