社交网络邮箱分析

LIKE.TG 成立于2020年,总部位于马来西亚,是首家汇集全球互联网产品,提供一站式软件产品解决方案的综合性品牌。唯一官方网站:www.like.tg
作者:Multiangle 链接:https://www.zhihu.com/question/41676600/answer/113216461 来源:知乎 著作权归作者所有,转载请联系作者获得授权。
分析了6000封左右邮件,对收件人之间的关系进行了简单的分析,也没什么严密的分析计划,分析到哪就写到哪吧 ------------------------------------- update 7.27 ------------↓↓↓↓-------------------------------------------------------- 1.首先来看收发邮件数 在6000封邮件中,涉及了600个左右的邮箱 单看发送邮件的数目,前五强邮箱分别是 [email protected] 645封 [email protected] 645封 [email protected] 200封 [email protected] 149封 [email protected] 147封 单看接收和抄送的数目,则前五强分别是 [email protected] 2224封 [email protected] 1030封 [email protected] 656封 [email protected] 649封 [email protected] 540封 具体的一些信息如下图所示(按照发送邮件数目排序)
如果按照发件数或者收件数对各邮箱进行排序,都可以看到社交分析中常见的指数曲线
令我比较惊讶的是,在对发送邮件数取对数以后,所得到的结果仍旧是一条指数曲线。如下图所示。
这表明,这个竞选团队中极少数人有着极大的话语权。毕竟在求对数以后一般是得到一条直线的,例如微博中排名前几千的大V的粉丝数分布,就像下面这个图(原谅我的灵魂画技)
纵轴在接近0的地方会迅速向0靠近,这是由于对数函数本身的性质导致的。 2. 邮箱之间的社交分析(SNA) 这一部分的分析就比较好玩了,首先使用PageRank算法来计算各个邮箱的重要性。 结果发现收发最频繁的两个邮箱重要性反而不怎么高
可以看到PageRank值最高的邮箱是[email protected], 达到了0.07, 看名字似乎是负责对外推送消息的。排第二的是[email protected], 似乎与民主党的经济事务有关。 对上述社交网络进行可视化表示,在使用ForceAtlas2展开以后,得到如下图所示
其中节点表示邮箱,边代表邮箱间发送的邮件。点的颜色深度与收发邮件的数目有关,而点的大小则与PageRank值有关。可以看到上面有两个非常深的节点,分别是[email protected](左上)和[email protected](右下)。而最大的节点即[email protected] . 所以说啊,邮件往来频繁的也不见得重要性就高,真正重要的人都躲在后面闷声发大财。 从上面还可以看到竞选团队很明显的分成左上和右下两个部分,这个后面会讲 还有一点,上面的图有很多排成很密集的小白点, 比如说红线框起来的部分
这些有很多是外部邮箱,而且往往排在一起的那些邮箱都只与一个邮箱进行单线联系。虽然大部分只是进行了一次通信,不过也可以借此看出每个人负责哪一部分工作。下方红线部分的邮箱大部分是媒体,包括网络媒体和传统媒体,以及一些LGBT网站,教师工会等等,主要由MirandaL联系。而左上部分的邮箱比较杂,包括一些服务软件公司,策略咨询公司,金融服务公司,服装公司等。总的来讲是维持竞选团队正常运行的,主要由KaplanJ联系。
由MirandaL负责联系的有(主要看靠下红框,我随机抽了一些,一个个在Google上查后缀,这一部分是最累的)
由Kaplan J 负责联系的有
3. 社区发现 如果在第二步的基础上使用社区发现算法,就能够将整个竞选团队分成若干个子社区,如下图所示
一种颜色即代表了一个子社区。通过这个可以看到,算法显然比肉眼要更加精确,除了区分出绿色的子社区以外,还将右下角的大块分成了蓝色,紫色和橙色三个子社区。 绿色部分的大人物有 [email protected], [email protected] 等。 紫色部分不用说了,最明显的DNCPress@ http://dnc.org 橙色部分不知道干嘛的,比较有分量的是[email protected] 蓝色部分我也不知道是干嘛的,没有特别显眼的人物。但是从位置上来看,估计是竞选团队中的普通人员,负责日常事务和分析。 ------------------------------------- update 7.28 ----------↓↓↓↓---------------------------------------------------------- 4.邮件数目与日期的关系 邮件大部分是从今年4月20号以后开始的。首先绘制每天的邮件数目变化
可以看到在从4月20日到5月25日的一个月时间里,邮件数呈现明显的周期变化。细心的人应该已经猜到了,这是由于周末的缘故。几乎所有的低谷都发生在周六和周末。看来他们的双休制度执行的不错,加班情况不明显。 看完了低谷,再来看几个几个邮件数目比较高的日期: 5/4, 5/10, 5/17. 显然,这几天肯定有大事情发生。我跑去GoogleTrend 搜了下democratic party的搜索指数,结果发现跟邮件数是高度吻合的
其中橙色代表邮件数目,蓝色代表搜索指数。为了将两组数据放在一张图里,我对邮件数进行了等比例缩减。 跑去Democracy Now! 翻了翻之前的新闻,在忽略掉大量Trump的八卦以后,找到了那几天的大新闻 5/4 Ted Cruz 退选 5/10 Sanders 拿下了 West Virginia Primary (我之前不太关注这些,不知道这个该怎么翻) 5/17 Sanders 拿下了 Oregon Primary, 而Hillary 拿下了Kentucky 5.神秘的小团体 在之前的关系图中,还有一个点没讲,就是左上角的那一坨黑点
可以看出来这坨黑点内部交流十分紧密,而与外界联系十分的少,只通过少数人与Kaplan J 联系。非常神秘的样子。那么这个小团体里究竟是哪些人呢?首先要列出这些人的邮箱。这些人中任何一人都与名单中其他所有人有过联系
我查了一些人的资料,因为我对它们也不熟,所以只列个大概资料。
暂时就只搜4位,其他各位感兴趣的可以去Google搜,还是挺好搜的 可以看出来,这些人大部分是属于咨询机构,看起来是专门进行出谋划策的=。= ------------------------------------- update 7.26 ----------↓↓↓↓---------------------------------------------------------- 写个比较无关的,看到很多人对 @XY Lee 写的感兴趣,花了一个晚上+上午写了个分析邮件往来关系的单线程小爬虫来玩玩,很简陋而且代码也比较乱,实现的功能也比大神差远了,不过能生成基本的社交关系数据。至于分析嘛,是用gephi来完成的,很好玩的一个软件,号称SNA的matlab,可以做pagerank,社区发现等一些算法。代码放在GitHub - multiangle/HillaryEmailAnalysis ,注意要用到networkx库。 所有分析用到的工具: python3.4 + networkx 库 gephi excel
当然,如果不想用爬虫下邮件,我这有下了一晚上的成果,大概6k封的社交关系数据,还有已经生成的供gephi使用的gexf格式文件链接: http://pan.baidu.com/s/1qYpdVB2 密码: 9fax

现在关注【LIKE.TG出海指南频道】、【LIKE.TG大客户服务频道】,即可免费领取【WhatsApp、LINE、Telegram、Twitter、ZALO云控】等获客工具试用、【住宅IP、号段筛选】等免费资源,机会难得,快来解锁更多资源,助力您的业务飞速成长!点击【联系客服】
本文由LIKE.TG编辑部转载自互联网并编辑,如有侵权影响,请联系官方客服,将为您妥善处理。
This article is republished from public internet and edited by the LIKE.TG editorial department. If there is any infringement, please contact our official customer service for proper handling.
Server deployment全球论坛人工智能论坛全球峰会发展论坛战略论坛开放论坛程序员论坛互联网峰会科技峰会