科技行者
算力行者
维基百科一直是全球访问量top 10的网站,是许多人搜索历史人物与领创者资讯的第一站,但这些人物的传记,并不总被“平等”的呈现在维基百科上。
meta人工智能研究科学家angela fan在一篇博文中指出,维基百科的所有英文传记中只有20%是关于女性的。且这个数字在交叉性群体中估计就更少了,例如科学界的女性、非洲的女性和亚洲的女性等。
甚至,维基百科内容里“女性代表不足”的情况,也延伸到了该组织本身,该网站上只有15%的编辑表明自己是女性(来自维基媒体《2021年社群洞察报告》)。
angela fan提到,“女性在历史上对科学、政治、社会甚至创新创业的各个部分都产生了巨大影响。但是这些女性人物却被忽视,或是被以不成比例的方式在维基百科上呈现。”
比如,加拿大物理学家donna strickland,曾在2018年获得诺贝尔物理学奖,第一时间维基百科上却无法找到任何关于她的资讯,直到维基百科发布了关于她的工作传记后才得到改善,然而那时距离她获得诺奖已经过去很多天了。”
针对女性传记缺乏的情况,meta公司宣布开源旗下的一个“生成式(generative)”人工智能模型,该模型可以自动研究并创建一些重要人物的高质量传记文章。
该模型的工作方式与人类研究员的工作方式相似,分三步走:首先是「检索模块」,搜索特定人物的相关信息;然后是「生成模块」,起草一个维基百科式的人物条目;最后是「引用模块」,附上引证信息的来源。最终达到涵盖维基百科传记所需要的所有元素,如传记人物的早期生活、教育和职业。
由于该ai系统仍还存在一些限制,因此在定位上,需要能与维基百科编辑互补——由ai系统产生草稿,接着再由编辑进行事实查证和补充。模型的限制包括,用来创建维基百科条目的网页内容,可能存在文化偏见,需要依靠人工鉴别;而且在技术上,文本生成系统容易产生幻觉(hallucination),也就是非事实的内容;此外在语义方面,ai的连贯性和逻辑也有些力不从心。
即便如此,该ai模型仍然令人印象深刻。下图彩色文本,是由ai模型替无脊椎动物的研究先驱libbie hyman,所生成的简短传记。绿色文本来自参照文章;紫色文本则来自网络上的证据;橘色文本则表示幻觉,是由模型脑补,无法被验证的资讯。
虽然模型所生成的结果无法直接发布,但该模型已经拿到了足够多与libbie hyman相关的信息(包括对无脊椎动物的研究、重要出版物和工作等),人类研究员或作家可以根据这些信息迅速上手并完成这篇文章。
尽管技术方面还在完善中,但这是对维基百科内容的性别平等踏出的重要一步。研究人员提到,他们目前的工作,仅是解决一个复杂问题的一小部分,接下来还有很多工作要做,包括识别不同的“偏见”问题:比如女性传记往往涉及额外的生活细节,“离婚”一词出现在女性传记的频率是男性传记的4倍;一些“小报”往往更关注女性的生活,而这些细节可能冲淡人物更应该被关注的成就;跨性别和二元性别人物的传记,往往长度更长,但是大部分章节都是描写个人生活,而非个人成就。
为了改进该模型,meta还发布了一个数据集,数据集可用于评估该模型基于1527份来自“边缘化群体”的女性传记中的表现。meta表示,这些数据可用于训练该模型的迭代并评估模型的性能。
撰文 | 海外来电
图片 | 海外来电
好文章,需要你的鼓励
今天,meta公司人工智能研究部门meta ai官宣,正在着手一个长期研究项目,研究人脑如何处理语言,目标是建立更好的语言模型。