……那是因为男女之间的性关系总是能够明确展现发生性行为的社会中社会关系的本质,如果清楚地加以描述,性关系还可以对那些关系构成批判,即使那不是而且从来也不是色情文学作家的意图。 — 安吉拉·卡特《萨德式女人》

 

更新

  • 2022-11-25 重写了一些结论;将词云图修饰后重新发布。

总体概览

数据来源于某知名中文成人视频网站的采集站,我提取了每个视频的标题,共获得10W+ 条文本数据,足够产生有意义的结论了。

分析的基本想法是通过统计关键词在标题中出现的频率来获得投稿人的偏好,进而得到(这类)男性心目中的有性吸引力的女性形象。

需要重点说明的是,这份统计数据说明的不是某种职业、年龄、身份的女性更容易拍摄成人视频。因为视频上传者往往是男性,而上传视频的很大一部分原因是为了获取关注,这时标题就能起到吸睛的作用。可以想象得到的是,上传者往往会通过虚构来吸引观众。通过简单的调查,一种常见的现象是,同一个女角色在不同视频中被冠以的身份会不停改变。因此严格来说,这个统计真正反映的,是男性成人视频观众的性幻想对象情况。

我们常常提到物化女性这个概念,但总是泛泛而谈,没有具体到现实的内涵,这里通过分析自制成人视频者的偏好,进而塑造出某些男性性幻想对象的轮廓。

统计方法

具体的统计方法细节, 不关心的可以不看。 推荐先读一读。

  • 通过搜索关键词来进行统计
    • 比如想要统计视频中女性职业分布情况,我会先罗列一些诸如:大学生、老师、护士、空姐等热门关键词,然后再通过 sql like 语句进行计数。因此这种方法的准确度就取决于这个关键词集合涵盖了多大程度上的性癖好
    • 涉及到比例时,将同一类别关键词作为总数。除了“露脸”这个关键词,从隐私泄漏的角度出发,观察其占总量的比例可以了解到女性同意拍摄视频时会承担多大的风险。已经有评论指出,这种比例远远低于真实,因为很多视频上传者不会将其作为标题,但实际视频中女生是露脸的
    • 另外一个缺陷就是有些视频尽管在内容上命中了关键词,但却不会在标题中反映出来,因此作为比例来说某钟关键词可能被低估了;但是在横向对比同类关键词时,得出的结论还是有一定价值的
  • 程序实现细节
    • 通过 Scrapy 爬取数据,并将标题等信息导入到 csv
    • 对于不方便使用 sql 语句的,使用 linux 基本命令如 ripgrep, awk, uniq, sort 进行统计
      • 比如要统计年龄状况,使用的命令是 rg '(\d\d岁)' out.csv -or '$1'|sort|uniq -c|awk '{print $2" " $1}'
    • 其余数据导入 sqlite db 中,通过形如 like %老师% 的方式进行统计,考虑到有些关键词有同义替代,因此我简单地做了归总;比如“着装”中,“丝袜”关键词就涵盖了诸如“黑丝”、“丝袜”等同类项目

分析结果

词云概览

不作任何处理,直接对标题进行分词显示词频,是最能准确反应整体情况的方法,然而这里我不得不去掉了某些过于直白裸露的词语(往往是频率非常高的词)它们会引起读者的反感。

以下图片通过 jieba 分词之后导入 python wordcloud 生成。

 

 

 

原文https://hsingko.github.io/post/2022/11/24/ml-in-china/

发表回复

后才能评论