本文是作者研一时,修一门叫社会计算的选修课程的结课作业,看的话图一乐就好
简介
MBTI 人格测试是人格类型学中一种用于内省的自我报告问卷,用于展示问卷调查者在感知和决策的方式上存在的不同心理偏好。迈尔斯与布里格斯在基于荣格类型理论的基础上提出了该测试,根据心理差异分成四个相反的维度,排列组合成16种不同的人格类型。MBTI 的科学性仍存在较大争议,
这四维偏好分别是:
- 外向与内向(E/I):泛指一个人发泄及获得心灵能量的方向,简单讲是这个人进行社交活动是能够补充能量还是消耗能量。
- 实感与直觉(S/N):实感和直觉是信息收集功能,用于描述人们理解和诠释新信息的方式。偏好实感的人更可能信赖当下、有形具体的信息、数据;偏好直觉的人倾向于信任不太依赖感官的信息,在不同的想法和可能性之间跳跃地思考。
- 思考与情感(T/F):思考和情感功能都用于做出理性决策,而这种决策基于从信息收集功能(S/N)接收到的数据。偏好思考的人倾向于从更客观而不带感情的角度来做出决定,透过看似合理、合乎逻辑、有因果性、有一致性以及符合既定规则的事物来衡量决定;偏好情感的人则倾向于透过联想或同情来做出决策,将自身“代入”外部情况并加以权衡,以达到最大的和谐、共识与融洽,同时考虑到身边人的需求。
- 判断与感知(J/P):偏好判断(J)的类型会向外界展示他们偏好的判断功能(T/F),TJ类型倾向呈现逻辑思维,而FJ类型则倾向呈现同理心。而偏好感知(P)的人则会向外界展示他们偏好的感知功能(S/N)。因此SP类型倾向于展现实际和具体的特质,而NP类型则倾向展现抽象的特质。
如果将其组合起来,代表了功能态度(S/N,T/F)、能量态度(E/I)和对外界的态度(J/P)。
问题描述
网络平台上的社交行为不能全面的反映用户的人格类型,同样自述群体间的社交网络并不是这些个体所有的社交关系,所以本文进行的研究分析具有相当的局限性,仅限于该特定的背景下。会在 Twitter 社交平台上自述MBTI测试人格类别的用户群体的分布,在不考虑重测信度、推特使用率、数据集爬取偏差的前提下,假设是由社会实际人格类型分布和不同类型人群网络分享的意愿组成,
尝试基于该数据,除了进行一些基本的图论分析外,是否能发掘出这类群体的社交网络行为的一些特性,比如:
- 是否有某种人格类型的用户更关注那些也公布了测试结果的用户;
- 是否有某种人格类型的用户更关注相同人格类型的用户;
数据描述
8328edges.csvmbti_labels.csvuser_info.csvuser_tweets.csv
mbti_labels.csvedges.csvuser_info.csv
用户个人资料信息
具体到单个用户的信息如下(匿名 id 和 name):
user_tweets.csv
推文数据
下面截取自不同用户的推特动态数据,可以看出其特点是一般含有表情符、大量 `@id` 和图片(这里表现为推特内部的链接)。如果想要对其动态的文本进行分析,后续考虑清洗数据后将文本转换成词向量,表情符没有影响,`@id` 和图片需要清洗。
"I don't need a man, I just need my mom paiyak na ako nung naubos patron a buti na lang may B pa. https://t.co/7F1VYdd4PQ"
'@estjHoran @batangususan look at the date'
'I wanna fangirl wth @babymigsvergara dance all night,sing wth the boys n cry our eyes out wthout her wud notbeperf@SMARTPromos #Smart1D 95'
'RT @heyjenbartel: ✨ Fight Like a Girl ✨ this #InternationalWomensDay https://t.co/0aaFjJbxfM'
"@holdvmedown -- anime c'è un sacco di gente che lo segue, quindi se vuoi confrontarti con qualcuno hai l'imbarazzo della scelta "
......
另一方面,后续可以尝试从文本 `@id` 中统计这些用户之间的社交频率。 (没做捏)
方法与结果
群体统计
首先是统计这些用户中 MBTI 各类型中的用户数量,绘制扇形图如下。
INFJINTJENFPINFPESTPESFPISTPESTJ
如果按照根据1972至2002年的各种MBTI研究结果汇编而成的美国MBTI各类型人口分布,除以现实人口比例以放缩互联网上分享自身MBTI测试结果的人口比例,当然必然会引入一些误差(比如国家间人口结构、文化不同造成的影响),但这同样可以体现不同类型人群愿意参与MBTI测试并在网络上分享的意愿。此时得到的占比可以理解为一种选择性指标,无实际的物理意义,越高的值表明该类型的人更倾向在网络上分享自身测试结果,得到的结果如下图。
直觉(N)FJ/TJTP/FPI > E
社交网络图构建和绘制
2261
网络属性分析
社交网络的相关参数如下所示:
- 节点度:
- 平均:8.757
- 最大:53
- 网络直径:20
- 平均聚类系数:0.0946
- 图密度:0.00052
度分布: 可见网络的度分布大致呈现幂律,低度的节点数量较幂律分布有明显偏移,数量更多。
in degreeout degreein degreeout degreeinfj
Degree Follower Index = (in degree + out degree) / (2 * 平均关注量)
关注分析
estpistpisfpinfjinfj
总结
经过本文的初步分析,根据推特 MBTI 自诉数据,可以分析得出 :
直觉 N实感 SNinfjestpistpestp