技术峰会

开源一款现代化社区(论坛,问答,BBS社交,网络博客)系统平台
forum-javaspring boot框架开发的 社区:http://www.developers.pub简介forum-java 是一个开源的现代化社区平台,它实现了:面向内容讨论的论坛;面向知识问答的社区;100% 开源;为什么要做这个项目?PHP语言较多,Java的很少,目前spring boot开源的更是几乎没有,无法很好的接入公司内部系统;很多社区功能过于简单,无法满足大部分需求;界面风格老式,没有跟上时代发展的审美;缺乏实际运营需求的功能,管理功能过于简单;功能列表代码语言:javascript复制
用户端
文章分类
筛选文章
标签
查看详情
筛选文章/问答
文章
写文章
编辑
删除
评论
点赞
查看详情
问答
提问题
编辑
删除
查看详情
评论
关注
设置评论为最佳答案
筛选已解决问题
筛选未解决问题
用户
查看详情
编辑个人资料
更新登录密码
关注好友
查看粉丝
消息
文章/问答被关注通知
文章/问答被评论通知
个人被关注通知
设置消息为已读
关注
关注的用户文章/问答
关注的问答
评论的问答
点赞的文章
评论的文章
搜索
根据文章/问答标题/内容模糊搜索
配置
首页轮播图配置
侧边栏轮播图配置
管理端
用户管理
禁用/启用
设置为管理员/取消管理员
操作日志
操作类别筛选
文章管理
设置为官方
设置为置顶
设置为加精
审核通过(可见)
审核不过(不可见)
文章类别管理
审核通过(可见)
审核不过(不可见)
新增分类
问答管理
审核通过(可见)
审核不过(不可见)
标签管理
审核通过(可见)
审核不过(不可见)
新增标签
配置
首页轮播图配置
侧边栏轮播图配置
特性前端多终端适配(手机端,pc端)自定义主题颜色,方便企业用户自定义主题编辑器支持control + s保存编辑器支持control + v复制图片上传后端日志带有调用链,方便排查问题分布式session,支持集群部署用户角色权限分级,便于用户管理接口权限校验,接口操作更安全可扩展功能接口文章/问答更新时自带审核,可接入审核中心便于运营管理文件存储抽象接口,可支持自定义接入企业内部文件储存服务缓存服务抽象接口,可支持自定义接入企业内部缓存服务搜索服务抽象接口,可支持自定义接入企业内部搜索服务技术栈后端数据库:mysql持久层框架:mybatis数据库连接池管理:hikaricp数据库分页插件:github pagehelpermvc框架:spring mvc应用层容器:spring bootjson序列化工具:fastjson邮件发送sdk:javax mail七**存储sdk:qiniu java sdk服务端页面渲染:thymeleaf前端前端markdown编辑器:mavon-editor管理后台js框架:vue用户端UI框架:bootstrap管理后台UI框架 iview部分页面展示用户页面展示首页首页image.png问答页问答页image.png关注页image.png消息列表页image.png文章详情页文章详情页image.png标签详情页标签详情页搜索页image.png用户主页用户主页image.png写文章页写文章页管理后台页面image.png地址:https://gitee.com/linpaibin/forum-java/更多功能广大网友可以继续挖掘。

Drug Discov Today|挖掘社交媒体数据,促进药物开发的方法和案例
2021年9月1日,来自德国维滕/赫德克大学的Jonathan Koss等人在Drug Discovery Today合作发表综述,对使用社交媒体数据促进药物开发的基础方法和案例进行了介绍。亮点• 在药物开发的初始阶段,可以基于社交媒体数据进行患者偏好研究,根据患者未被满足的临床需求确定相关决策的优先级。• 典型的 SMM 管道包括从社交媒体平台中获取见解的5个基本阶段:资源识别、数据提取、数据预处理、数据分析和评估。• 提出了5个使用案例,说明SMM如何促进以患者为中心的药物发现。以下是全文内容。摘要从现代商业动态的角度来看,将患者的观点融入药物的发现和开发已变得至关重要。患者在社交媒体上讲述他们的疾病经历已有趋势。通过分析与此类社交媒体帖子相关的数据获得的见解,可以用来支持以患者为中心的药物开发。对这些数据进行手动分析几乎是不可能的,但人工智能实现了自动化和经济高效的处理,也称为社交媒体挖掘 (SMM, social media mining)。本文讨论了SMM的基本方法以及在一些相关的药物开发中的使用案例。前言传统制药企业专注于开发尖端药物,这些尖端药物可以带来可观的收入,以覆盖其始终高昂的研发成本。这种具有数十年历史且成功的商业模式,目前面临着技术演变和监管变化带来的若干挑战。不断变化的护理标准造成的"better-than-the-Beatles"的问题是此类挑战的常见示例。此外,药品监管部门在药品审批、定价和/或报销相关决策中越来越多地考虑患者感知到的获益,包括在健康技术评估中考虑患者报告结局(PROs, patient-reported outcomes) 。FDA的以患者为中心的药物开发计划设想将患者的观点纳入药物审批过程。因此,制药公司面临着解决与患者最相关的未满足医疗需求 (UMNs, unmet medical needs) 的要求。UMN 的特征可能与死亡率、症状或疾病负担、治疗副作用或治疗不便性、患者感知和患病时间有关。例如,药丸的大小可能会给敏感患者带来不便或不适,从而导致他们的不满和减少对处方治疗的坚持。因此,作为有效解决现有UMN的一种手段,越来越多的制药公司正系统地将患者观点融入其药物开发过程,开展"以患者为中心的药物开发(PCDD, patient-centered drug development)"。例如,在药物开发的初始阶段可以进行患者偏好研究,根据患者UMN确定相关决策的优先级。从社交媒体中提取的见解也可用于通过描述患者 UMN 和探索创新机会来指导PCDD。长期研究表明,患有严重疾病和残疾的患者利用社交媒体寻求自助并分享他们的经验。这些潜在有价值的信息数量之多,使其手动分析效率极低,几乎不可能。同时,基于人工智能的方法(如社交媒体挖掘),为人工处理来自社交媒体的数据提供了具有成本效益的替代方案。本文讨论了SMM的基本原理,并讨论了与药物开发过程相关的几个SMM使用案例。什么是SMM?SMM 是最近出现的跨学科研究领域。虽然SMM与计算机科学有着根本的联系,但它可以用来提供与各种学科和应用相关的见解。从本质上讲,SMM 需要提取和分析从在线论坛、博客和社交媒体平台收集的数据,以获取有关特定社区及其成员的看法和需求的知识。这些知识的例子包括与某些疾病相关的特征或症状,以及他们的地理动态。社交媒体数据来源庞大且嘈杂,且大多由非结构化的文本数据组成,即使有最先进的自动分析流程和算法,这些数据也难以处理。SMM管道典型的 SMM 管道包括从社交媒体平台中获取见解的5个基本阶段:资源识别、数据提取、数据预处理、数据分析和评估(图 1)。有关每个阶段的细节可能因最终应用而异,但构建模块基本一致。图1 典型的社交媒体挖掘(SMM) 管道中涉及的步骤,以及实施过程中产生的实际影响和表现。资源识别一般来说,有关健康相关主题的信息可从社交媒体平台(如 Facebook、Twitter、Instagram、Reddit 和针对健康的特定在线论坛)中提取。但是,这些平台具有特殊性,在决定特定平台作为数据源时应考虑这些特性。这些平台的数据质量存在根本差异,因为它们的基本业务模式不同,如表1所述。Facebook 和 Instagram 主要旨在通过投放广告来创造利润,而其它在线论坛往往是非营利性的,很少有广告,有时完全没有广告。平台上运行的广告越多,从探索与健康相关的研究课题和回答相关问题的角度出发,内容(数据)的质量就越低。例如,如果研究问题特别关注患者使用特定药物的经验,则企业广告可能会偏向结果。这要求将广告数据排除在随后的分析之外。相比之下,在线医疗保健论坛上的帖子通常很长,包括更多与上下文构建和作者背景相关的信息。此信息会影响后续分析,并可能产生更有意义的结果,甚至来自同一用户。此外,在线论坛通常提供与特定主题相关的信息(例如乳腺癌),而Twitter 等平台则提供对各种主题的讨论。因此,能够从非特定平台提取相关信息的SMM管道总是复杂的,需要使用尖端技术来产生预期的结果。此外,在线论坛的用户通常比Facebook和Twitter等热门平台用户少,内容托管更少。因此,此类平台上的数据很少,样本量也较小。应仔细选择SMM数据源,同时考虑上述方面,并根据最终应用权衡其相关性。表1 社交媒体平台和其提供数据质量的差异数据提取一旦选择一个或多个合适的社交媒体平台作为数据源,就可以使用集中爬虫和网络爬虫技术进行自动数据提取。集中爬虫是指收集符合特定标准网站的自动化过程:例如,该过程可能会"收集所有有关阿尔茨海默症的网站"或"从co.uk 域名收集所有有关公共卫生主题的网站"。为了保持聚焦并排除许多不相关的站点,应在爬虫算法中仔细管理超链接分析和优先级流程。在SMM方面,可以采取两种方法。作为第一种方法,Twitter 提供了一个应用程序程序接口(API),它为用户提供直接访问其内容(即Twitter帖子)的机会。但是,患者论坛不提供此服务,必须使用第三方工具或软件来访问其数据。在第二种方法中,爬虫算法模拟 Web 服务器与其用户之间的浏览交互。随时间推移,这些算法可以访问尽可能多的网站,以识别相关数据。找到所需数据后,可以使用网络爬虫来提取感兴趣的数据。必须遵守法律限制,如数据隐私法和主机平台政策。数据预处理社交媒体内容主要包括非结构化文本,因此在预处理过程中使用自然语言处理(NLP) 技术对于降低噪音和构建数据以促进有见地的分析至关重要。预处理可分为两个步骤:数据准备和数据简化。重要的数据准备技术包括数据清理、数据标准化和数据转换。数据清理可确保完整、无重复(例如,通过删除转帖)、简洁的(例如,通过删除停止字眼)数据集的可用性。数据标准化是指用适当的技术术语取代社交媒体帖子中常用的不精确的医疗术语和概念。值得注意的是,虽然拼写错误的单词很容易纠正,但俚语和缩写的修订仍然是一个重大挑战。数据转换是指将提取的数据转换为适合分析的格式。例如,使用基于规则的算法从帖子中提取患者症状并以结构化格式存储这些症状。数据简化技术通过功能转换、实例选择和功能选择降低数据维度。功能转换方法将原始数据功能压缩为小功能集,在处理高维文本数据时至关重要。此外,它们排除了与分析无关的词语,从而降低了维度。实例选择方法可减少数据集大小(例如,通过排除不相关的帖子),而不会丢失相关信息。数据预处理以功能选择结束,该选择旨在尽可能消除不相关和冗余的功能。一般来说,数据预处理需要调整现有技术,以解决手头的问题和后续分析的性质。这意味着,一个给定的问题可以使用几个技术解决,如图2所示。但是,当选择使用无监督学习进行分析时,此步骤是毫无根据的。图2 社交媒体挖掘 (SMM) 使用案例和管道的概述。根据用例类型,可能需要合并多个数据源和方法。数据源可分为特定和非特定平台。提取数据的预处理具有高度可变性,决定了后续分析结果的质量。因此,预处理管道的开发通常需要大部分开发时间。一般来说,通过受监督的机器学习 (ML) 方法对数据进行分析需要实例选择来准备数据集,数据集可以通过人工注释(数据转换的主要任务)高效标记。在通过无监督的机器学习分析数据时,不需要人工注释。功能转换和选择是指提取适当的数据特征,有利于数据分析。不同的特征可以具有语义、结构或人口特征。后续分析可能涉及各种 ML 算法、启发式算法或指标。分析结果必须由域专家进行评估,或(如果可用)根据金本位制进行评估。分析在分析社交媒体内容时使用的最先进的方法包括ML、启发式方法和特定指标法 (图2)。相关的ML方法可以分为监督学习法和无监督学习法。无监督的ML旨在检测数据模式(集群),而无需事先描述可能的结果。因此,在尝试根据功能(如感兴趣主题和人口统计数据)解决用户细分等问题时,可以探索无监督ML。相比之下,监督的ML会用事先定义的结果回答具体的研究问题,例如,某一帖子是否描述了某个以前定义的兴趣领域。ML模型在各种应用中很有用,但也受到重要限制。首先,ML算法的结构是不透明的,即单个变量之间的联系难以确定。这使得ML方法的操作难以解释和可能导致的混淆难以检测。其次,在典型ML算法中,揭示的关系是相关关系,而不是因果关系。这进一步限制了他们的解释和可靠性。对无监督ML模型的解释更加困难,因为基础算法可以适当地识别模式,但无法解释其重要性。启发式方法是受自然优化过程启发的试错方法,如"优胜劣汰"。与ML相比,启发式应用容易,需要的数据更少。虽然通过启发式方法比通过ML获得的结果更不准确,但这些方法在某些应用中可能足够。与 ML 方法不同,特定指标法不能做出"智能"决策,而只能提供供人类解释的数据。例如,机会算法指标可用于在满意度和重要性方面优先考虑未满足的需求。评估分析后,必须评估获得的结果,例如根据黄金标准进行测试。然而,在实践中,很少有可用的黄金标准,并且必须咨询具有深厚领域知识的专家进行结果评估。为了促进这一评估,必须以可理解和熟悉的方式可视化结果。SMM使用案例本节描述了典型的SMM使用案例,这些案例捕捉患者体验,从而支持以患者为中心的创新过程(图3)。图3 患者提供的疾病轨迹信息。这些信息通常不提供给制药公司。社交媒体挖掘(SMM) 技术可用于利用这一外部知识,获得的见解可用于多个研发活动。使用案例 1:识别并确定患者 UMN 的优先级由于患者和临床医生对疾病和 UMN 的看法可能不同,因此在药物开发过程中,可能会对与疾病相关的因素及其相关性做出有缺陷的假设。例如,一项有关类风湿性关节炎治疗的研究报告说,患者希望减轻疼痛和/或肿胀,而大多数医生将成功的治疗定义为实现对疾病进展的最大控制。在最坏的情况下,患者的需求可能被忽视,改善生活质量的创新机会可能会错过。Cook等人利用社交媒体进行患者偏好研究,作为干眼症(DED)和非酒精性脂肪性肝药物开发初始阶段的一部分。商业软件程序用于自动数据提取,而随后的分析则手动执行。DED 患者的 UMN 可分为4类:与疾病、症状和诊断、治疗和生活质量相关的药物。此外,这些作者报告说,大多数患者主要关心的是显著效果的减少(没有症状),而不是治疗潜在的疾病。技术进步不仅促进了数据提取的自动化,也促进了后续分析的自动化:例如,先前的几项研究,采用了无监督的ML技术,来探索被诊断患有自闭症、癌症、乳腺癌、COVID-19、饮食失调、心理健康和勃起功能障碍的患者的观点。在此上下文中,主题模型通常用于通过识别准确表示这些主题的单词来描述文本中的潜在主题。其中一种方法是LDA(Latent Dirichlet Allocation),它使用概率模型在给定语料库中推断每个文档中的主题。Tapi Nzali等人使用主题建模来识别乳腺癌患者在 Facebook 和在线乳腺癌论坛上讨论的主题。将这些主题与临床试验期间使用的标准化自我管理问卷的数据进行了比较。在自我管理问卷中考虑的23个主题中,有22个与患者社交媒体讨论中发现的主题相匹配。总的来说,主题模型是探索性的,因为它们的技术方法。它们揭示了潜在的主题,临床医生不了解,但与患者的日常生活高度相关。然而,主题模型的一个缺点是,对摘录主题的解释取决于主观专家判断,主观判断具有强烈的偏见倾向。由于 LDA 忽略了单词顺序,因此无法获得有关单词之间语义关系的上下文信息。这反过来又阻碍了更深层含义的解释和歧义的解决。LDA 的另一个局限性是假设主题本质上是独立的,因此,不能以元或子主题形式评估主题或层次结构之间的相关性。此外,主题模型中的细节水平和这些模型的重点高度依赖于数据处理前战略。Tapi Nzali等人通过减少需考虑的单词数量来提高主题模型的重点,例如,通过将模型限制为属于疾病特定词典的单词。这意味着此类词典由域专家手动策划。一旦确定了具体的UMN,就可以得出病人的偏好。机会算法(opportunity algorithm)的理论基础是基于Ulwick的结果驱动的创新(ODI)概念,可以应用于此目的。ODI 的假设是,当新产品满足重要但相对未得到满足的需求时,就会发生成功的创新。因此,机会算法在"重要性"(通过主题建模发现)和"满意度"(源自情绪分析)的基础上,对产品机会(通过主题建模确定)进行排序。使用案例 2:目标人群特征为了提高创新过程的成功概率,必须根据表型对新药的目标人群进行表征,以招募最有可能在临床试验中表现出获益的患者。最近,社交媒体挖掘已成为研究人类行为和识别语义、结构或人口特征所指定的疾病人群症状的一种有希望的方法。这种描述患病人群的方法称为"数字表型"。这种方法的基本假设是,社交媒体用户的行为受其遗传和环境影响。数字表型允许对传统的表型下结论,而传统表型也由基因和环境决定。此外,数字表型可以作为观察信息的来源,提供对不同健康状况个体的见解。Schafer等人使用聚合分层聚类(一种无监督的 ML 算法)来识别专门健康论坛中讨论胃肠道 (GI) 不适的用户。分层聚类分析是一种基于距离的方法,用于识别输入数据中的异质模式(群集)。来自不同集群的对象相距很远,这意味着特征相似度较低。在"聚合"分层聚类过程中,每个对象形成一个聚类。随后,所有对象合并以形成大簇。在Schafer等人提出的方法中,主题模型、疾病症状和用户人口统计学以及文本长度等结构特征被认为对用户细分有用。如前所述,基于ML的方法的主要局限性涉及对结果的解释容易受到不同偏见的影响。此外,只能假定调查结果的因果关系,不能解释。总体而言,文献表明,基于距离的聚类可用于在提供适当数据时描述子聚合的特征。业内专家的评价对于降低有偏见的解释风险至关重要。使用案例 3:药物重定向重定向是一种潜在的药物开发战略,可用于开发现有药物疗法的新应用。与开发新药相比,重新调整用途具有成本效益。例如,最初开发用于治疗抑郁症的bupropion(井布丁),但最终发现它对戒烟有用(为此它被推销为Zyban)。另一种类型的药物改用涉及处方药的超说明书用药(off-label drug use),以治疗其授权条件以外的条件。SMM 可以帮助识别日常实践中未知(说明书外)的药物使用模式,从而为后续药物重定向生成新的假设。Ru等人在训练受监督的 ML 算法 (图2)时考虑了患者情绪、疾病症状和药物适应症,该算法能够以 AUC 分数 0.93 成功预测偶然药物的使用。新应用包括用于肥胖和减肥的二甲双酚和胸腺素,用于抑郁症的曲马多,以及用于腹泻肠易激综合征的安丹塞特龙。由于基于ML方法的局限性,当算法预测药物的超说明书使用时,无法自动得出与临床相关的推论。相反,结果可用于测试后续假设。使用案例4:患者招募患者招募对于临床试验的成功至关重要。其目标是招募一个代表目标人群的病人群体。应包括与目标组相同的表型患者,以证明尽可能高的治疗价值。社交媒体平台正越来越多地用于招募有特定健康状况的患者。Merchant等人用功能转换的主题模型生成语义功能。这些功能随后被用于受监督的 ML 算法,以识别被诊断患有不同疾病的 Facebook 用户。例如,糖尿病患者的 AUC 评分为 0.73。同样,Sarker等人使用支持向量机 (SVM) - 一种受监督的 ML 算法 - 在 Twitter 上识别孕妇群体。他们的分类算法考虑了语义特征,如主题模型和情绪值,以及结构特征,如文本长度 (图2)。在这项研究中,孕妇的准确度为0.84。先前的研究表明,SMM可用于支持社交媒体患者招募临床试验。为此,使用案例 3 中衍生的数字表型特征可用于培训受监督的 ML 算法,该算法可以根据用户数据识别反映目标组数字表型的用户。在确定相关群体后,需要进行资格审查。因此,可以使用基于规则的算法来包括或排除符合不同标准的用户。然而,SMM 不能用于评估需要特定医疗状况(如患者生命体征)信息的资格标准,因为此类信息通常不可用。因此,其他数据源(如患者记录)必须由业内专家使用传统方法进行评估,以进行最终资格评估。使用案例 5:用于早期发现不良事件的补充数据源药品不良事件的发生对制药业具有深远的资金影响。当新药上市时,这种风险尤其高。传统的不良事件报告机制包括正式报告系统,将信息输入在线数据库。其中包括FDA不良事件报告系统(FAERS)。一些研究已经研究了使用SMM预测药物不良事件(ADE)信号的可能性。Abbasi等人开发了一个SMM管道(图2),将与健康相关的在线论坛数据与从Twitter和谷歌获得的搜索结果相结合,从而创建一个预测系统,有可能比既定的报告系统更早地识别ADE。Abbasi等人使用基于规则的标签工具将药物和品牌与特定的 ADEs 关联在一起,例如用户提及的具体事件。使用受监督的学习算法来检查用户情绪。此算法学习了与不同功能(如产品和经验丰富的事件)相关的时间系列特定权重,以创建不同的 ADE 信号。平均而言,Abbasi等人提出的方针在及时的 ADE 预测中优于常用数据库。例如,在FDA宣布之前22个月,建议的模型能够准确预测与Revatio药物有关的不良事件。在测试期间,该算法产生了4个真阳性和2个假阳性警告。使用Abbasi等人开发的算法获得的信号可用于生成早期发现药物安全问题的假设。一般来说,信号检测可以使用数据融合方法进行增强。此外,传统药理学数据源和社交媒体数据的组合可能提供一个很有希望的解决方案。结论和展望本文回顾了SMM的使用,以促进以患者为中心的药物开发。本文使用几个例子来描述SMM如何为研究人员提供适当方法来评估患者的社交媒体数据。这反过来又有助于根据以患者为中心的数字表型确定以患者为中心的创新机会以及目标人群群体。此外,SMM可用于获取信息,这些信息用于形成有关药物再利用和上市后监管的假设。尽管本文中提到并使用了这些案例,但专业人员对在药物开发过程中使用社交媒体数据的重要性没有达成共识。因此,必须进行进一步调查,以确定这些数据的价值。与在药物开发中使用SMM相关的主要限制出现在数据质量的各个维度上。某些数据可用性也有限。例如,涉及高水平患者痛苦的慢性疾病更易接受基于SMM的分析,而仅引起轻微痛苦的急性疾病在社交媒体平台上不常被提及。此外,数据准确性受年龄分布和患者获得技术的限制。很明显,不能通过 SMM 来研究不活跃在社交媒体上的患者群体。同样,由于互联网接入有限和/或识字率低,发展中国家的人口获得社交媒体平台的机会有限,因此很难进行调查和分析。与疾病相关的残疾,如视觉障碍,也可能抑制患者的社交媒体利用。此外,数据准确性受到社交媒体数据真实性的限制。患者通常不是专业医疗人员,因此他们通常用自己的术语描述自己的健康状况,与医学界使用的术语有显著差异。缺乏医疗培训也可能导致患者表达虚假联想。例如,有些患者经常在区分共同病症和不良事件方面遇到困难。数据质量差可能导致高抽样偏差,从而降低结果的有效性,从而暗示结果不代表目标人群。事实上,即使现有的社交媒体要代表目标人群,也必须考虑到这些数据可能不完整和/或不一致。此外,SMM 模型固有的误差率限制了相应的结果有效性。使用SMM技术可能受到法律和/或道德限制。例如,应始终遵守数据隐私法和平台政策的要求。从道德角度来看,问题可能产生,因为公共和私人空间的一般意识水平不同,确保用户匿名存在困难。包括SMM管道的不同步骤要求作出若干关键决定,并作出广泛调整,以适应具体的使用情况。首先,必须通过比较每个平台的商业和非商业产品的不同优缺点来选择适当的社交媒体平台。每个平台的具体特点和数据质量是这方面最重要的因素。其次,适当的数据预处理是成功数据分析的基础,数据质量差总是导致结果不佳。鉴于社交媒体平台上可用大量文本数据,NLP 技术的应用是有效数据结构的关键。在在线对话中使用非正式表达(例如,使用不精确的医学术语、俚语以及拼写和语法错误)对社交媒体数据的准确预处理提出了重大挑战。随后,在执行分析时,适当选择算法是关键。根据分析,评价往往因缺乏黄金标准而受损,因此相关学科之间的合作对于促进对结果的准确评价至关重要。总体而言,SMM 有助于使制药公司的药物开发流程与患者需求保持一致,并有助于使这些开发流程能够响应不断变化的商业环境。随着社交媒体数据和共享疾病轨迹相关信息的患者数量的增加,基于 SMM 的研究工作预计将在未来增加,并将成为以患者为中心的药物开发的关键推动方式。参考资料Jonathan Koss, Astrid Rheinlaender, Hubert Truebel, Sabine Bohnet-Joschko,Social media mining in drug development—Fundamentals and use cases, Drug Discovery Today, 2021, ISSN 1359-6446, https://doi.org/10.1016/j.drudis.2021.08.012.----------- End -----------

Tailor Brands推出了AI平台,可生成和安排社交媒体内容
编译:chux出品:ATYUN订阅号Tailor Brands是一家利用AI帮助公司自动化营销和品牌元素的公司,该公司宣布推出一种新的基于AI的社交媒体管理工具,可自动创建,安排和优化内容,以便在社交网络上共享。Tailor Social是该公司已经包含的现有产品的扩展,作为其核心产品的一部分,今天推出测试版。总部位于纽约的Tailor Brands成立于2014年,已经筹集了2000万美元的资金,其中包括几个月前的1550万美元。该公司一直致力于教授计算机如何设计徽标,制定登陆页面,甚至 计划社交媒体策略。但是,所有这些功能都捆绑在一起作为单个包的一部分。通过独立的Tailor Social订阅,该创业公司正在向所有人开放这项功能,无论他们是否想要自动化徽标设计。此外,Tailor Brands正在扩大产品范围。虽然它已经提供了由其自己的AI机器人构建的社交共享文本和设计,但现在它将推荐来自整个网络的内容,例如文章,视频和GIF。品牌必须首先告诉平台他们的行业和感兴趣的领域,Tailor Social将完成剩下的工作,包括建议分享到Facebook,Twitter和很快Instagram的时间表。值得注意的是,虽然社交调度自动化可以通过人类进行最终批准来建立,但也有一个完整的自动驾驶模式,顾名思义,它可以自动化所有内容。“自动驾驶模式完全自动化,它可以自动查找内容并自动安排,无需任何人工干预,但这只是在你想要这么做的情况下才行,”Tailor Brands首席执行官Yali Saar表示,“它也可以在半自动化的基础上工作,它只告诉你该做什么……我们发现许多中小型企业的所有者,你需要建立信任,然后你愿意将钥匙交给你持有的东西,如同你的社交媒体页面。在让它完全自动化之前看到系统做出正确的选择对于这个过程非常重要。”在定价方面,有三个核心计划。基本的10美元/月等级包括最多两个社交媒体帐户(例如一个Facebook和一个Twitter),并附带50个预定帖子,社交分析和“初级”设计工具。升级至每月15美元的专业级别,你将获得500个预定帖子,高级分析和“主”设计工具。每月50美元的企业计划允许最多9名工作同事访问该帐户并管理多达30个社交媒体帐户,并可访问2000个预定帖子。有很多社交媒体调度工具,有些还利用AI来优化内容。自动化几乎渗透到数字世界的每个方面,在线营销也不例外。对于那些不想亲自在社交媒体上与用户互动的人,Hootsuite 最近推出了Hootbot,以便在社交媒体网站上自动与粉丝和粉丝进行互动。不过,Tailor Brands正在瞄准规模较小的公司,这些公司的自助式AI内容推荐和调度平台基于简单性和最少的人为干预。Saar补充道,“当你看社交媒体管理领域时,有很多针对大公司的工具,而很少有工具可以满足小公司的需求,我们希望创建一个任何人都可以使用的工具,不仅可以节省用户的调度时间,还可以帮助他们选择正确的内容,并像社交媒体专家一样对其进行优化。”

用JAVA的DEA算法衡量社交媒体页面的流行度
Measuring the Social Media Popularity of Pages with DEA in JAVA原文作者:Vasilis Vryniotis原文地址:http://blog.datumbox.com/measuring-the-social-media-popularity-of-pages-with-dea-in-java/译者微博:@从流域到海域译者博客:blog.csdn.net/solo95用JAVA的DEA算法衡量社交媒体页面的流行度在前面的文章中,我们讨论了数据包络分析(Data Envelopment Analysis)技术,我们已经看到它如何被用作一个有效的非参数排序算法。在这篇博文中,我们将开发出一个JAVA数据包络分析的实例,我们将用它来评估网络上的网页和文章的社交媒体流行度。该代码是开源的(在GPL v3 license下),您可以从Github免费下载。更新:Datumbox机器学习框架现在是开源的,可以免费下载。查看包com.datumbox.framework.algorithms.dea以查看Java中Data Envelopment Analysis的实现。数据包络分析在JAVA中的实现代码是用JAVA编写的,可以直接从Github下载。它是根据GPLv3许可的,所以可以随意使用它,修改它,或者再分发。该代码实现了数据包络分析(Data Envelopment Analysis)算法,使用lp_solve库来解决线性规划问题,并使用Web搜索引擎优化分析(Web SEO Analytics )索引提取的数据,以构建基于Facebook,Google Plus和推特上分享的一个混合的社交媒体页面流行度矩阵。在前面的文章中介绍了算法的所有理论部分,在源代码中可以找到关于其实现的详细的javadoc注释。(原博文之后数据包络分析(Data Envelopment Analysis)算法及其实现全部简称了DEA,请读者注意,译者注。)下面我们提供一个关于其架构实现的高级别描述:1. lp_solve 5.5 library为了解决各种线性规划问题,我们使用一个名为lp\_solve的开源库。某些特定的lib是用ANSI C编写的,并使用JAVA包装来调用库方法。因此,在运行代码之前,您必须在您的系统上安装lp_solve。该库的二进制文件在[Linux和Windows都可以使用,您可以在lp_solve文档中阅读更多有关安装的信息。在尝试运行JAVA代码之前,请确保您的系统上安装了(相关的)特定库。有关安装和配置库的任何问题,请参阅lp_solve文档。2.DataEnvelopmentAnalysis Class这是DEA算法的主要实现类。它实现了一个名为estimateEfficiency()的公共方法,它获取记录的Map并返回它们的DEA得分。3. DeaRecord ObjectDeaRecord是一个特殊的对象,用于存储我们记录的数据。由于DEA需要分离输入和输出,因此DeaRecord对象将以DEA可以处理的方式分别存储我们的数据。4. SocialMediaPopularity ClassSocialMediaPopularity是一个应用程序,它使用DEA来评估社交媒体网络上Facebook的like,Google的 +1和twitter的Tweets的网页流行度。它实现了两个受保护的方法:calculatePopularity()和estimatePercentiles()以及两个公共方法loadFile()和getPopularity()。calculatePopularity()使用DEA实现根据社交媒体计数来估计页面的得分数。estimatedPercentiles()方法获取DEA分数并将其转换为百分位数。总的来说,百分比比DEA分数更容易解释; 因此当我们说一个网页的流行分数是70%时,这意味着该网页比70%的其他网页更受欢迎。为了能够估计一个特定页面的流行度,我们必须有一个包含其他页面的社交媒体数据的数据集。这是有原因的,因为需要预测哪个网页是受欢迎的,哪些不是,您必须能够将其与网络上的其他页面进行比较。为此,我们使用来自以txt格式提供的Web SEO分析索引的小型的匿名样本。您可以通过从网页上的更多页面提取社交媒体计数来构建自己的数据库。(社交媒体计数,比如点赞数、转发数、评论数)loadFile()方法用于加载DEA的上述统计信息,getPopularity()方法是一种易于使用的方法,可以获取Facebook的like,Google的+1和一个页面的Tweets数量,并以此评估其在社交媒体上的流行度。如何使用数据包络分析的JAVA实现在DataEnvelopmentAnalysisExample类中,我提供了2个不同的关于如何使用代码的例子。第一个例子直接使用DEA方法来根据它们的输出(ISSUES,RECEIPTS,REQS)和输入(STOCK,WAGES)来评估组织单位的效率。这个例子来自DEAzone.com的一篇文章。代码语言:txt复制Map<String, DeaRecord> records = new LinkedHashMap<>();
records.put("Depot1", new DeaRecord(new double[]{40.0,55.0,30.0}, new double[]{3.0,5.0}));
//...adding more records here...
DataEnvelopmentAnalysis dea = new DataEnvelopmentAnalysis();
Map<String, Double> results = dea.estimateEfficiency(records);
System.out.println((new TreeMap<>(results)).toString());第二个示例使用我们的社交媒体流行度应用程序,通过使用来自社交媒体的数据来评估页面的流行度,例如Facebook的like,Google的+1和Tweets。所有的社交媒体计数都被标记为输出,我们传递给DEA一个空的输入向量。代码语言:txt复制SocialMediaPopularity rank = new SocialMediaPopularity();
rank.loadFile(DataEnvelopmentAnalysisExample.class.getResource("/datasets/socialcounts.txt"));
Double popularity = rank.getPopularity(135, 337, 9079); //Facebook likes, Google +1s, Tweets
System.out.println("Page Social Media Popularity: "+popularity.toString());必要的扩展(上面)所提供的代码只是DEA如何被用作排名算法的一个例子。为了改进其实现,需要进行下面的扩展:1.加速(算法的)实现特定的DEA算法实现会评估数据库中所有记录的DEA得分。由于我们需要解决如同数据库中记录数量那样多的线性规划问题,这使得实现变得缓慢。如果我们不需要计算所有记录的分数,那么我们可以显著地加快执行速度。因此,该算法的小扩展可以使我们更好地控制哪些记录应该被解决掉,哪些只能被用作约束。2.扩大社交媒体统计数据库(这篇文章所)提供的社交媒体统计数据库由来自Web SEO Analytics索引的1111个样本组成。为了能够估计更准确的流行(度)分数,需要更大的样本。您可以通过统计来自网络上更多页面的社交媒体计数来创建自己的数据库。3.添加更多的社交媒体网络该实现使用Facebook的喜欢,Google的+1和推文的数量来评估文章的受欢迎程度。不过,来自其他社交媒体网络的指标可以很容易地被考虑在内。您只需要从您感兴趣的网络中构建一个社交媒体数据库,然后扩展SocialMediaPopularity类来处理它们。关于实施的最终意见为了能够扩展(算法的)实现,您必须对Data Envelopment Analysis的工作原理有一个很好的理解。这在前面的文章中已经介绍过了,所以在继续进行任何更改之前,请确保您阅读了之前的教程。此外,为了使用JAVA代码,您必须在您的系统中安装lp\_solve库(参见上文)。如果你在一个有趣的项目中使用这个实现,那么就给我们一条线索,我们将在我们的博客上展示你的项目。另外,如果你喜欢这篇文章,请花点时间在Twitter或Facebook分享。

社交媒体与邮件营销结合实现1+12的效果,你会玩吗?
社媒营销有助于卖家接触到新的受众,邮件营销则擅长于提高转化率。据了解在消费者做出购买决定之前需要接触一个品牌多达12次,而通过邮件与社交媒体结合,可以加速这一过程,卖家更容易建立起顾客忠诚度,也能提升客户有参与度,这种优势互补且成效卓越的营销方式,何乐而不为呢?下面将分享下社媒营销与邮件营销相结合的9大技巧。
技巧1:结合邮件营销和社媒营销渠道,打造一个更强大的品牌
潜在顾客看重的是品牌完整性,这意味着企业应该展现值得信赖的一面,并注重细节工作。那么,当两支营销团队互不交流时会发生什么情况呢?邮件营销和社媒营销渠道开始“各说各话”。
如果你发送的邮件既有趣又通俗,而像Facebook这些社媒平台页面却都是严肃的业务信息,这会影响到你的品牌一致性。整个品牌的感染力也因此弱化,最终导致你失去潜在顾客。
但是,同步你的邮件营销和社媒营销语言并不难,归根结底是团队之间的沟通。如果你做对了,这个方法可以帮助你建立更有成效的品牌推广。
新品分享网站Product Hunt就是一个典型范例,他们的邮件时事通讯和推文分享着同一种“语言”。如上图所示,这个品牌亲民而又热情,它使用了大量的表情符号,并发布了宠物猫的GIF动图。
因为保持了品牌的一致性,无论是使用Twitter、邮件还是两者兼而有之的Product Hunt粉丝,他们都能理解这个品牌的含义。
技巧2:利用邮件营销来测试自己的社媒广告创意
社媒广告是一种转化潜在顾客的强大方式,但它们的价格并不便宜。因此,首先了解哪种CTA(Call-to-action,行动号召)信息能够实现更多的转化不是更明智吗?
在购买广告之前,你可以使用邮件营销来测试自己的广告创意。例如,撰写几封邮件,并用上有效邮件标题的创建技巧,然后在社媒广告中使用表现最好的创意。
你还可以进行更深入的测试,根据你想要对准的顾客群体,对各种标题和图片采用A/B测试。
技巧3:内容的循环利用
在企业的邮件营销和社媒营销渠道之间重复使用内容非常容易,当然,这一切仍然归结于团队之间的沟通交流。该技巧的明显优势在于团队之间的资源共享,这是一个超值的策略。
以笔记管理软件Notion为例,在发布新功能之前,他们通常会在Twitter页面上使用大量GIF动图进行展示。但当更新完成时,其团队还会在邮件更新中重新搭配上相同的GIF内容(如下图):
Notion的做法是一个非常基本的使用案例,当然,你也可以把它提升到更高的层次。例如,让你的Twitter/Facebook粉丝分享他们的成功故事,从中选择最令人印象深刻的帖子,并在下次邮件更新中使用该内容。由此,你有了下一封邮件的内容,你也向订阅者传递了自己的社媒页面信息,这种战术可以说是一举两得。
另一种方法是,你可以使用Twitter的推文串功能thread(或Facebook帖子)向用户解释一些事情。而当你需要再写一封邮件的时候,你可以直接链接到该解释的内容页面,而不是重新写一篇新的邮件。同样地,这也会促使你的邮件列表订阅者在社交媒体上关注你。
这一利用链接创建的内容循环利用范例同样来自于Notion。在邮件更新中,他们宣布了一项新功能,并对其进行了简要描述。而在Twitter上,他们发布了一条更长的带有深入解释的Thread,然后在邮件中提供了该链接(如下图)。
Notion发布的Thread包含了12条带有自定义图片的推文。通过这样,你的顾客可以直接在推文底下进行回复,而那些希望获得积极反馈和邮件订阅者将立即看到社媒用户对你品牌的认可度:
内容的循环利用也在另一方面发挥着作用,你可以在邮件更新中讲述一个深入的故事,并在Twitter或Facebook上重复使用。内容交换可以帮助营销人员保持营销渠道畅通,并提高品牌的一致性。
技巧4:在邮件更新中添加社媒页面的链接
在邮件更新中添加相关社媒页面的链接,这将使得关注你的社媒账户成为一个一键决定。假设一位消费者订阅了你的邮件列表,如果感到满意,他们可能会对你的社媒页面感兴趣。但如果你没有提供这些链接,大多数人都不会亲自去寻找它们。
接下来,你需要比照两封电子邮件:
如下图所示,线上数据库服务公司Airtable在发送邮件更新时,并不会透露其相当受欢迎的社媒账户的信息。当订阅者阅读其中一封邮件时,他们并没有获得了解该公司社媒页面的激励:
V**提供商TunnelBear的邮件虽然看起来很类似,但他们在页面底部放上了Twitter和Facebook的链接,订阅者很有可能会点进去一探究竟。那么,你认为哪一种邮件更合适呢?
在邮件中提供社媒页面链接并不是TunnelBear的Twitter页面拥有19.1万粉丝的唯一原因(Airtable拥有1.4万粉丝),但它确实反映了一种更加紧密结合的整体营销方式。
技巧5:在社媒平台上发布新帖,向人们告知有关邮件注册的信息
对于新手来说,你可以编辑一条带有邮件注册着陆页链接的帖子,并在帖子中向用户解释他们将从中得到什么,以及注册你邮件的优势是什么。你可以参考下图中社会化客户关系管理平台Intercom所发布的帖子,他们还喜欢在推文中添加自定义图片:
在你的Instagram个人资料中添加一个链接是非常值得的,你也可以运用Stories(短视频)来推广自己的邮件注册。通过这种方式,用户只需简单地点击一下就可以访问你的着陆页面。在某些情况下,更好的做法是利用社媒平台自带工具来进行这类促销(如Facebook的CTA按钮)。
说到用一种简单的方式来推广企业邮件注册,Product Hunt可以说是一个很好的例子。如下图所示,Product Hun会在网上发布每一期邮件时事通讯内容,然后分享到社交媒体上。他们的粉丝可以在订阅之前查看他们将在邮件中看到的内容。如果确定想要订阅,他们可以在注册栏进行注册。
请注意,Product Hun发布的时事通讯中还突出了Twitter和Facebook的分享按钮,这再次模糊了邮件和社媒营销之间的界限。
技巧6:在社媒平台上开展比赛活动
比赛是吸引社媒粉丝的一种极佳方式。当然,你也可以通过这种方式来增加邮件列表订阅者。
首先,你需要想出比赛号召措辞和奖品。然后,请那些想要参与的人订阅你的邮件时事通讯。通过这样,你在社交媒体上的一大部分受众也订阅了你的邮件列表。
另一个类似的方法是利用人们的FOMO(错失恐惧症)心理,你可以推广一个即将到来的邮件更新内容,并表示其中提供了独家优惠和折扣。或者在下一封邮件中提到你正在Twitter上开展一项比赛活动。
技巧7:利用社媒平台上的邮件文摘栏目
DFW搜索引擎营销协会提供了一种方法,它可以让卖家在顾客没有注册的情况下发送邮件到他们的收件箱。
基本上来说,人们会选择LinkedIn上受欢迎的群组并参与其中,许多人会订阅他们关注的群组的邮件更新。如果你成功地发布了优质的内容,那么潜在顾客很有可能会在邮箱中看到你的邮件。当然,其诀窍是产出优质的内容。但是你也可以通过重新利用一些博客帖子来轻松做到这一点。
例如,某位社媒用户以前对网页设计与开发机构Tubik Studio并不了解。但是他订阅了博客发布平台Medium的Weekly Digest(每周文摘)内容。而Tubik的营销人员在UX Planet(与用户体验相关的一站式资源平台)群组中非常活跃,所以其中一篇文摘精选了他们的文章。
技巧8:利用社交媒体让理想受众订阅你的邮件
如果你想让特定的人注册你的邮件,社媒平台(尤其是LinkedIn)可以助你一臂之力。
例如,你可以将理想顾客资料添加到LinkedIn的Sales Navigator(销售导航)当中。该工具会立即生成一个列表,其中包含了数百个适合成为你的顾客的用户。
在此之后,你可以将资源用于与他们取得联系并让他们注册。你可以提供一些激励措施,比如他们在订阅之后可以获得一本电子书。需要注意的是,你应该多做研究并创建出个性化的信息,在获得最积极的顾客之后,你便能由此扩大邮件列表。
技巧9:将邮件订阅者列表上传到社媒平台
你可以将邮件订阅者列表上传到Twitter(Tailored Audiences)、Facebook(Custom Audiences)或LinkedIn(Matched Audiences)的受众设定功能上,通过这样,你可以根据顾客之前是否接触过你的品牌来更好地制定定向广告。
总结
现如今,有比以往任何时候都多的方法来在线推广你的业务,但这种多样性是需要付出代价的。有的企业试图同时涉足多个营销渠道,却忘了将它们整合在一起。结果,他们的营销策略受到了影响。事实上,邮件营销和社媒营销协同工作所传达的是一个经典的哲学观点——整体大于局部之和。

使用Python实现深度学习模型:智能社交媒体内容分析
随着社交媒体的普及,分析社交媒体内容以获取有价值的信息变得越来越重要。本文将介绍如何使用Python和深度学习技术实现智能社交媒体内容分析。我们将从数据预处理、模型构建、训练与评估等方面详细讲解,并提供相应的代码示例。一、背景介绍社交媒体平台每天产生大量的文本数据,这些数据包含了用户的观点、情感和行为模式。通过分析这些数据,我们可以进行舆情监控、用户画像、市场分析等多种应用。深度学习技术,尤其是自然语言处理(NLP)技术,为我们提供了强大的工具来处理和分析这些数据。二、数据预处理在进行深度学习模型训练之前,我们需要对数据进行预处理。常见的预处理步骤包括数据清洗、分词、去停用词和词向量化。代码语言:python代码运行次数:0复制Cloud Studio 代码运行import pandas as pd
import re
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
# 读取数据
data = pd.read_csv('social_media_data.csv')
# 数据清洗
def clean_text(text):
text = re.sub(r'http\S+', '', text) # 去除网址
text = re.sub(r'@\w+', '', text) # 去除提及
text = re.sub(r'#\w+', '', text) # 去除话题标签
text = re.sub(r'\d+', '', text) # 去除数字
text = re.sub(r'\s+', ' ', text) # 去除多余空格
return text.strip()
data['cleaned_text'] = data['text'].apply(clean_text)
# 分词和去停用词
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
stop_words = set(stopwords.words('english'))
def tokenize_and_remove_stopwords(text):
tokens = word_tokenize(text)
filtered_tokens = [word for word in tokens if word.lower() not in stop_words]
return ' '.join(filtered_tokens)
data['processed_text'] = data['cleaned_text'].apply(tokenize_and_remove_stopwords)
# 词向量化
vectorizer = TfidfVectorizer(max_features=5000)
X = vectorizer.fit_transform(data['processed_text']).toarray()
# 标签
y = data['label']
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)三、构建深度学习模型我们将使用TensorFlow和Keras构建一个简单的深度学习模型来进行文本分类。代码语言:python代码运行次数:0复制Cloud Studio 代码运行import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout
# 构建模型
model = Sequential()
model.add(Dense(512, input_shape=(5000,), activation='relu'))
model.add(Dropout(0.5))
model.add(Dense(256, activation='relu'))
model.add(Dropout(0.5))
model.add(Dense(1, activation='sigmoid'))
# 编译模型
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])
# 训练模型
history = model.fit(X_train, y_train, epochs=10, batch_size=32, validation_data=(X_test, y_test))四、模型评估训练完成后,我们需要评估模型的性能。我们可以使用混淆矩阵、准确率、精确率、召回率和F1分数等指标来评估模型。代码语言:python代码运行次数:0复制Cloud Studio 代码运行from sklearn.metrics import classification_report, confusion_matrix
import matplotlib.pyplot as plt
import seaborn as sns
# 预测
y_pred = (model.predict(X_test) > 0.5).astype("int32")
# 混淆矩阵
cm = confusion_matrix(y_test, y_pred)
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues')
plt.xlabel('Predicted')
plt.ylabel('Actual')
plt.show()
# 分类报告
print(classification_report(y_test, y_pred))五、实际应用通过上述步骤,我们已经构建了一个简单的深度学习模型来分析社交媒体内容。这个模型可以应用于多种实际场景,例如:舆情监控:实时监控社交媒体上的舆情,及时发现和应对负面信息。用户画像:分析用户的兴趣和行为,提供个性化推荐。市场分析:了解市场趋势和消费者需求,优化营销策略。六、总结本文介绍了如何使用Python和深度学习技术实现智能社交媒体内容分析。通过数据预处理、模型构建、训练与评估等步骤,我们可以有效地分析和利用社交媒体数据。希望本文能为您提供有价值的参考和帮助。

基于区块链的激励型短视频社交媒体imTube品牌正式发布
2018年4月26日,imTube在北京MeePark举办“文娱区块链高峰论坛暨品牌发布会”,到场嘉宾包括50余家新媒体公司、30余家投资机构和近40家媒体,发布会聚焦文娱区块链的新机遇,同时正式发布imTube品牌。发布会上,imTube发起人娄中燚、IMS新媒体商业集团创始人/CEO李檬、黑马基金合伙人胡翔和BitGuild创始人Jared共同就区块链、短视频和大文娱行业的发展提出了自己独到的见解,也共同展望了文娱区块链的发展趋势。imTube发起人娄中燚详细介绍了imTube的设计初衷、产品理念和未来规划。娄中燚表示2018年将成为区块链技术发展的黄金之年,短视频行业也正是各路资本布局的风口,imTube致力于利用区块链技术塑造全新的短视频内容生态。imTube拥有分布式架构,建立了开放式社区,是一个国际化的激励型短视频社交媒体。相较于现有的短视频产品,imTube生态圈中的内容生产者、内容受众、内容传播者和广告主不再受制于平台,生态角色不再有高低贵贱之分,实现了在去中心化体系下优质内容点对点的自由交易。imTube将帮助网红和KOL打造专属的内容生态,实现粉丝的高效管理,将注意力直接转化为经济效益。与此同时,imTube建立了友好的广告机制和精准的广告投放模式,一个多方共赢的内容生态体系呼之欲出。imTube发起人娄中燚演讲
IMS新媒体商业集团创始人/CEO李檬表示,在信息互联网时代,中心化已经发展到了顶峰,尤其是内容行业中心化架构导致的分配不公平,已经严重制约了行业的进一步发展。
而在imTube上面,内容权属是天然确定的,不可篡改,内容生产者可以完全支配自身的版权和传播路径。imTube对内容行业的痛点理解非常深刻,并且利用区块链技术有效的改善了生产关系,促进了生产力的发展。IMS新媒体商业集团创始人/CEO李檬演讲黑马基金合伙人胡翔表示,传统行业构建公司,而区块链构建的是社群组织。传统互联网是提供产品与服务,而区块链创造一个规则和生态。在区块链世界里,大家都是价值创造者和价值持有者。黑马基金合伙人胡翔演讲
此次发布会上还有国内最大的游戏自媒体平台聚耀星空、国内最大的汽车自媒体联盟WeCar和中国领先的体育短视频社交媒体球咖体育作为首批MCN机构正式入驻imTube。imTube在项目成立初期,就获得了诸多大型MCN机构的支持。首批MCN机构正式入驻imTube
据了解到,imTube产品预计于2018年第三季度正式上线,并将在适当的时机进军国际市场。

响铃:子弹短信后新产品不断,社交媒体还有创业“口子”吗?
文|曾响铃来源|科技向令说(xiangling0815)当最后一个记得你的人忘记你时,你就死了——《西部世界》。子弹短信最害怕的不是用户量的下坠,也不是口诛笔伐的看衰声,而是有一天没有人再谈论它。用户量断崖式下跌后,子弹短信仍然孜孜不倦地更新,不久前还大张旗鼓引入支付宝支付,实际意义有多大不得而知,但总归还能捞一点关注。不过,对喜欢看热闹的吃瓜群众而言,社交媒体的新晋创业者不只有子弹短信吊着一口气,下半年以来这个行当似乎又有了松动迹象,玩法也日渐丰富。例如,就在最近几天,APP Store和安卓各大市场又新上了一款称作“Ta在”的社交媒体软件,该产品在玩法上大打算法革新旗号,要颠覆传统社交媒体用户与内容的匹配方式,实现用户间兴趣和需求的真正契合。而Ta在,也只不过是最近一段时间出现的众多社交媒体产品的一个,在这之前,还有POP、ECHO、唔哩星球、微脸、我是谜、Soul、一罐等鱼贯而入,一些产品例如Soul还闹出不少动静。被几个产品独霸之后,社交媒体兴许还能一不小心真的创造奇迹了,如兴奋的罗永浩在台上所说。社交媒体“老了”,心有余而力不足俗话说,站着说话不腰疼。总有人盯着微博、微信等社交媒体产品不放,挖出各种问题,但是,你能想到的,互联网最好的产品经理们未必就想不到。他们只是心有余而力不足罢了。不是不听、不改、不优化,而是产品度过巅峰期后,大多数时候只得小心翼翼伺候着,能做得反而越来越少。例如,微信最基础的IM功能,我们总能找到一堆这个不好、那个不方便的问题。如何编辑、如何发送、如何语音、如何插入图片与小视频,来自不同背景的使用者,甚至专门挑刺的人,总能找出一大堆待优化之处。越是简单的东西越难设计,IM一发一收,能做的文章太多,无法完美,总有不足。用户量越大问题就越明显,众口难调的最好处理方式——以及现实的结果,就是干脆不调。微信公众号,过去是用户不愿意去关注新的博主,现在则变成了用户甚至懒得“取消关注”。这样一个对打今日头条、百家号的巅峰内容产品,生态愈发死气沉沉。张小龙要仿照信息流的方式呈现推送信息,让机会均等,在一片骂声中匆匆收场。朋友圈这个食之无味、弃之可惜的社交分享场所,虽然广被诟病“伪装场”、“微商天地”等,但除了小心翼翼加几条广告外,一直未有突破。另一边,同样拥有庞大用户量的微博,在媒体化的道路上越走越远,想做一点社交尝试,加个动态啥的,也是草草收场,用户还是习惯少数大V发声,多数人吃瓜,相互之间的交流……不存在的。改动风险太大是主流社交媒体难以在产品上突破的直接原因,继续僵持或是最好的解决办法,靠着使用惯性与天然网络效应“小心驶得万年船”。不过,另一股力量又直接摧毁了这种“据守”的想法。零点调查《中国00后群体研究分析》中提到,95后、00后才是真正的“移动的一代”(mobile generation)。这帮“小孩儿”首次触网年龄越来越早,平均已经到了6岁半,每天上网时间高达1.6小时。1995-2010出生的,已经全部挂在网上了。喜马拉雅、知乎、得到、分答等主要知识付费平台上,92年以上职场人士占据近6成至8成。用户未变,但人群却在更新,在踟蹰中畏首畏尾的社交媒体产品,能不能纳入新新人类的法眼,很难说。与此同时,产品经理又很难做点什么。创业者青睐垂直切入,但垂直也有不同“垂”法 “心有余而力不足”反映的客观事实是,帝国有强大的武力进行防守,但已无力再进攻、打压它人。这意味着,创业者只要能利用社交媒体产品的老态(仍然强大),找一个恰当的口子,就能博取市场空间,不会被“辣手摧花”。子弹短信初期的疯狂崛起,就是最好的证明。以子弹短信为代表,对突然涌入的诸多创业者而言,找个角度垂直进去是普遍的玩法。只不过,这种垂直化却分化出不同的花样来。1、功能垂直,肢解微信以一个结构完备的类似产品去怼微信并不现实,肢解微信,选取某一个功能切入,成了某些社交创业的首选。微信四大功能:IM、朋友圈、公众号、摇一摇/漂流瓶,除了公众号归属内容领域,其他三个都有对应的分蛋糕项目。IM是最难切的领域,但风险总是与收益对等,打下IM的江山就几乎打下了微信的江山,自来往、米聊、易信后,再次切入IM的勇士当然是子弹短信了。语音+文字输入方式、快速聊天回复、稍后处理……这些用户体验极佳的创新说明子弹短信对IM的改造下了功夫,如图:而微信自家出走的高管做的POP和ECHO,虽说是对标snapchat、instagram,但其玩法怎么看都想是朋友圈分享的强化版。POP的即时拍照分享、虚拟贴纸形象,都在主打熟人社交及圈子分享,虚拟贴纸甚至类似QQ秀;而ECHO的首要功能就是“瞬间合辑”,在圈子内分享,且能形成类似朋友圈的时间线,如图:Soul、一罐等产品,直指微信的摇一摇、漂流瓶而来。Soul的灵魂社交凭借8月在微博投放一个长篇大论的故事突然小小火了一阵,说白了,不看脸、性格测试配对这些功能,都是为了“摇一摇”或者“漂流瓶”的效率更高罢了。从摇一摇起,陌生人的暧昧社交总有那么些可能,前有陌陌探探,后来者不会停下。Soul界面如图:2、用户“双垂直”从不同的用户人群垂直切入,本来也是平常的做法,不过这种切入事实上也有两种方式。一种就是普通的直接抢夺。例如靠着几个匿名爆料突然大火的职场社交产品脉脉,最近的官方数据,所谓“高质量白领”注册用户的规模,已经突破5000万,这是直接分食客户群。如图:另外,就是不抢夺现有社交APP用户的玩法,而是“收纳式”垂直,盯住新入网的新新人群。打开唔哩星球app,“假面舞会”、“故事与酒”、“涂鸦拍卖”等95后、00后的玩法恐怕80后或更早的人群无法理解,但它的确创造了日活 25 万、月活 70-80 万、次日留存率约 46%等成果,其中00后占到60%-70%,这是不可忽视的、微信微博难以触及的新兴力量。如图(来源:网络):3、社交“方式”垂直还有一类垂直切入,干脆打起了社交方式的主意,毕竟,似乎从来没有人质疑过去默认的社交与分享方式本身是否有道理。最近新上线的Ta在APP就自称“新一代反常规社交媒体软件”,不再给各类人贴上社交的标签进行匹配,而试图用算法搞出所谓“一人千面”。例如,在内容分享上,Ta的主界面提供了3种方式,“Ta在”,用户分享内容,特殊的无标签算法推送内容;“我趣”,提高推荐的精准度,得出更为精准的推送结果;“合拍”,进一步提升精准度,通过用户行为分析得出与之最“合拍”的用户。如图:对社交默认的方式进行改变,这种玩法或许打开了切入市场的新思路,但基础层面的改变相应地难度也会更高。当然,除了上述三种通过垂直的方式切入社交媒体的玩法,也有一些产品喝了洋墨水不信邪,要正面杠微信微博。10月份刚刚完成近600万元天使轮融资的微脸,就宣称要做中国版的Facebook(虽然被网友称作人人网诈尸),打造真实姓名、真实信息的移动社交网络,一次把微信、微博全怼了。如图:该APP上线一天后,在iOS社交榜中的排行便达到了第38名,冲劲十足。虽然是借了脸书的名头,但也足以说明社交媒体的江山并不稳固,用户的审美疲劳后,替代的冲动难以预料和控制。八仙过海,社交媒体创业自有神通总体而言,选择什么角度切入社交媒体创业,除了外部市场的考量,与创业者的禀赋同样密切相关。POP创始人为林少华是前微信基础产品部产品中心副总监,ECHO创始人黄天晴是前微信开放平台基础部基础产品中心总监(部门拗口,注意二人的确不是一个部门的)。不过,两人都做“产品”,在如何分享这种事情上显然比做基础的、死板的IM在行一些,在Snapchat与instagram两个分享巨头影响下,盯住图片与生活分享方式在情理之中。而子弹短信做IM,啃硬骨头的玩法,实际上亦符合锤子系公司“研发能力过剩”的特征。在如何更好地通讯这件事上,锤子的确有两把刷子——无论是自家OS上曾出产过标志性的“大爆炸”功能,还是朱萧木煞费苦心研究如何让老年人、视觉障碍人士更好地沟通,甚至是锤子最失败的产品TNT,也显示了某些高效沟通的实践。虽然子弹短信只剩一口气了,但其却公认比微信在IM方面更好用,“引用回复”、“这是谁来着?”等小功能都是IM的高光创新。还是那句话,IM无法完美总有优化空间,子弹短信钻了进去。另一个搅局者Ta在,其本质上就是通过算法创新来拓展社交方式,这是新晋创业者可选的路径,大佬级企业与创业企业之间,最为平等的是平均的智力资源,小公司的算法创新不一定就比大公司差,这在金融科技创业浪潮上已经表现出来。而Ta在的一些社交媒体做法理念,都需要算法的支撑。以微信、微博为代表的社交媒体1.0时代已经出现了信息过载,一方面信息太多,另一方面信息不匹配,“我关注的人发的东西并不都是我想看的”现象已经十分明显,朋友圈影响力日益下滑,微博商业化越来越严重,不论是发出内容的,还是接收内容的,社交双方其实并不满意。以此为背景,Ta在打的旗号,就是让信息过剩时代社交过程中的内容分享、人群聚类更加准确。在实际操作时,“Ta在”、“合拍”,表现出越来越深度的匹配,此外,Ta在给了每个分享的内容用七种颜色的“钻石”进行标记,暖色偏大众,冷色偏小众。如图:不同于Ta在试图用算法完成所有人和社交内容的精确匹配,唔哩星球则利用创始人对95后、00后人群的洞察为产品设置一些“非我族类”看不懂但十分有用的功能。例如假面舞会,每天由不同的星主(来自经过筛选的用户)主持,根据男女比例,“舞池”人数150-300人,晚8点开始持续3个小时。这个虚拟的舞会还设置了一些规则,例如未报名的进入替补席,等着替代那些迟到5分钟以上的名额。如图:这种看起来小孩过家家的玩法,已经成为唔哩星球重要的引流产品,按创始人窦漪的说法,相当于游乐园中爆款的旋转木马。可以确认的是,这种光怪陆离又行之有效的玩法,真不懂95后、00后的,肯定想不到也玩不转。能搅局即是胜利都说移动互联网时代,社交媒体最难啃。但是,甭管有没有原罪陌陌都市值百亿了,横空出世的探探也一下子蹿火;子弹短信声量小了但700万沉淀用户还在;Soul凭借微博的一个广告火了一把;脉脉快速成长……社交媒体从来不是什么黑洞,至少最近一年尤其近半年以来,机会越来越多。反倒是,游戏、服务类创业的垄断迹象越来越明显,尤其是游戏,过去机会大现在机会越来越小,已经被流量大户把持,后进者几无机会。社交媒体的机会,与其他领域的机会,有着相反的演化。回过头来看,各种垂直方式、各种“神通”的出现,本身就证明社交媒体创业是一个有着很多口子的行当,能搅局就等于进入了这些口子,就已经算是胜利,剩下的只需静待“时机”到来。这种时机,先是外部的,社会需求剧烈变化引起用户的质变,又分为两种。1、现有人群的“霉变”社交圈越来越窄、宅化倾向越来越明显、B站流量越来越大,老网民们整天喊自己老了,实际不过是在发霉。Soul打着“不约”的旗号,要做博客自留地、不小心被志同道合的人看见的心语……这些说来说去都是盯着“性”之外的陌生人社交需求——日益明显的“孤独”。而一罐APP把这种孤独霉变体现得更为明显,产品UI中透露着一种隔绝,更被评为社交恐惧症患者专属社交软件。如图:2、新人群的替代95后、00后对现有用户的替代是时间上和物理上的,必然发生、无法阻止。每一波新人,带来的都是全新的机会,不再赘述。然后是内部的,如前所述,社交媒体长期积压存在着各种问题,IM、朋友圈、附属产品功能总有不如意的,疲态显露后给予创业者机会。此外,还有一些隐性的缺陷显露,例如Ta在这个产品盯的就是社交内容匹配算法本身的不完善。当前凡是涉及的人与社交内容匹配的算法,大多数都是制式教育背景下的产物,根本上遵循某些特定原则,实质是固化的。例如像Facebook、Amazon、Netflix、微博、微信、头条、淘宝、优酷等网站采用传统的标签化分类方法,“标签”是算法的基石,但标签本身,以及标签与标签之间的底层关系(行话叫“知识库”),说来说去都需要人肉输入和整理。这是Ta在的“时机”,它试图建立一套制式化教育之外的算法,颠覆掉过去的算法核心——标签,把原本由人控制和输入的标签也交由机器自己完成,这种玩法或能将同一品位的电影、音乐、诗歌和绘画归类到一起,而以标签为核心的算法是做不到的。社交媒体与过去的BBS相比,只是把所有的信息、知识和人聚合起来,但“我关注的人发的东西并不都是我想看的”,说明它并没有解决分类问题。Ta在想让算法不再被人为固定的标签框死而冰冷,“让机器自己玩”这种解决分类的方式,前方能走多远、是天堂还是毁灭还未可知。但无论如何,能搅局就是胜利,陌陌、探探、脉脉、子弹短信、唔哩星球、Ta在、微脸、Soul、一罐、POP、ECHO……社交媒体正变得越来越热闹,对“天下苦垄断久矣”的移动互联网而言,这一定是件好事。*以上图片包括封面来源于网络。【完】曾响铃1钛媒体、品途商业评论等2016年度十大作者;2 虎啸奖评委;3 AI新媒体“智能相对论”创始人;4 作家:【移动互联网+ 新常态下的商业机会】等畅销书作者;5 《商界》《商界评论》《销售与市场》等近十家杂志撰稿人;6 钛媒体、界面、虎嗅等近80家专栏作者;7 “脑艺人”(脑力手艺人)概念提出者,现演变为“自媒体”,成为一个行业。8 现为“今日头条问答签约作者”、多家科技智能公司传播顾问;重点关注领域1人工智能 |区块链 |汽车产业链| 内容创业 |新零售 2 电商 |新媒体营销 |SaaS企业级服务| 家居业 |社区O2O 3智能手机 |网红| 体育IP |互联网金融 |无人机4共享经济 | 直播、短视频 |传统企业转型

基于区块链的社交媒体平台 Steemit
从PC时代到移动互联网时代,社群媒体平台的需求一直都存在,从QQ到微信,我们在这些平台上撰写了多少文章、挥洒了多少青春岁月,同时也被把隐私卖给了平台、注意力也被广告所攫获? 不知你是否曾经想过,自己在社群媒体平台上发布的内容(文章、相片、影片)能值多少钱呢?猜他这一篇文章值多少钱?下面是一名中国网友的案例,他最近投资失利,难过地在Steemit上写了篇文章抒发心情,引发了大家的共鸣,你猜猜他这一篇文章值多少钱?看到下面红色框框的地方,左边的数字$80.22,代表这篇文章价值多少Steem,右边的数字205 votes,代表有多少人对这篇贴文点赞/投赞成票这是2017年12月初的币值对照表,简单换算一下80.22*7.42 = 595.2324, 也就是这篇文章价值将近600块钱一个外国的小哥更绝了,一张gif贴图就赚了1000块钱看到这里,是不是激起了你的好奇心呢?Steemit背后到底运作原理到底是什么呢?下面让我们来为你揭开他的神秘面纱什么是Steemit?Steemit是一个基于区块链的去中心化社交网络平台,有点类似于新浪博客 / 简书 / 微信公众号,并且透过Steem代币来奖励平台的参与者一般能通过以下几种方式来获得Steem代币发表优质文章:文章质量越高、收到的赞数越高,作者得到的奖励就越高挖掘优质文章:越早在优质文章刚发表的时候透过点赞、留言来支持,也能获得奖励持有Steem Power:类似股权分红(下面详解)透过外部交易所购买Steam代币为什么需要Steemit?相较于传统社交网络平台,Steemit有以下几个优势直接奖励内容生成者,省去平台中介费无广告,把使用者的注意力留给优质内容没人能透过算法操纵、屏蔽平台上的文章Steemit是如何运作的?三种Steem代币1Steem - 现金一般的数字货币,可以到交易所去兑换成其他货币/现金可转换成SP或者SMD (立即生效)2Steam Dollar (SMD) - 债券跟现实生活中的债券类似,具有还本付息的特性还本:不论Steem市场价格如何波动,1SMD永远等价于1美金的Steem假设今天1 Steem = 0.5美金1 SMD 可跟平台兑换 2 Steem假设今天1 Steem = 0.01美金1 SMD可跟平台兑换 100 Steem透过此制度,可以保证经济系统的稳定付息:年利率10%可转换成Steem3Steam Power (SP) - 股权可以分享系统每日产出steem的90%可以用赞同/反对来决定每个文章的收益可转换成Steem (需等13周,每周等额到帐)把Steem转为SP的过程称为Power Up把SP转为Steam的过程称为Power Down透过代币的设计可以得知,平台基本上非常鼓励使用者把代币换成SP,毕竟拥有SP就相当于成为了股东,才会与平台一起共享荣辱,使得系统欣欣向荣。以Steem为核心,这三种代币的转换关系图如下货币生成&分配按照平台的算法,Steem每年按照100%的速度增发,并且根据以下规则进行分配90% 依比例分配给SP持有者10% 进入贡献奖金池,再分成三份75% 发帖/回覆/评论创作者15% 投票者(根据SP计算)10% 证人(记帐/打包区块者)我在发表文章的时候,到底会拿到什么代币?Steemit根据你选择的奖励方式的不同,发放不同形式的代币在撰写文章介面的右下角有个Rewards,有三种不同的奖励方式可以选择,默认是Default (50%/50%)Power UP 100% - 将文章奖励 100% 存成 SPDefault (50%/50%) - 将文章奖励的50%存成 SP,另外 50% 透过 STEEM SBD 组合形式发放(根据市场行情,可能是一种或者两种组合)如果我发一个帖子,到底能够赚多少钱?影响一个帖子赚多少钱,最重要的还是内容的质量,质量越高的文章才有可能获得更多人点赞SP多的人点赞影响力更大,所有文章根据点赞者的SP加总计算后得出分数,共同瓜分奖金池你可以获得别人给你帖子回覆、评论时获得的奖励的 50%万一有人作弊、找人帮自己点赞怎么办?Steemit为了避免作弊行为的出现,有以下这些防御措施:否决票:如果被网友发现恶意刷赞行为,可以给予否决票。但为了避免否决票被滥用,每个人都有个信誉值,这个分数必须透过发帖、评论、日积月累才能逐步提升的,信誉值低对信誉值高的人的否决票是不起作用的投票力:每个人的投票力是有限的,每次投票都会消耗,随著投票力下降,点赞者带来的影响力也会下降,每天恢复20%的投票力延迟奖励:所有投票会被延迟24小时后才会计算奖励,如果有人在短时间内投票作弊,仍然会发现并予以否决看到这里,你难道以为Steem只有一个应用而已吗?Steem区块链可以透过不同平台获取上面的内容,除了官方的Steemit之外,还有许多第三方的平台,例如:1Dtube (山寨版Youtube)2Steepshot (山寨版Instagram)3Busy.org (山寨版Twitter)4DLive UI Preview (山寨版 Twitch)是不是很令人期待呀?结语区块链应用是否能取代原本中心化版本?目前大家都还是抱持著观望状态,在讨论是否能够带来颠覆影响之前,Steem及其产品本身首先必须创造出真正的价值,关键在于能否吸引到优质内容创作者、使得整个生态系统欣欣向荣。如果大家都只是一昧的想要赚钱、忽略内容创作的本质,用各种投机倒把的手段去骗取金钱、炒作币值,那这将会是Steem不得不严肃面对的挑战。除此之外,Steemit也是研究社会学和博弈论的绝佳工具,就让我们一起观察Steem未来的发展吧。

Java 程序示例:实现了一个简单的社交媒体平台:
Java 程序示例:实现了一个简单的社交媒体平台:代码语言:javascript复制import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
class User {
private String username;
private String password;
private List<Post> posts;
public User(String username, String password) {
this.username = username;
this.password = password;
posts = new ArrayList<>();
}
public String getUsername() {
return username;
}
public void addPost(Post post) {
posts.add(post);
}
public List<Post> getPosts() {
return posts;
}
}
class Post {
private String content;
private String author;
private List<String> comments;
public Post(String content, String author) {
this.content = content;
this.author = author;
comments = new ArrayList<>();
}
public String getContent() {
return content;
}
public String getAuthor() {
return author;
}
public void addComment(String comment) {
comments.add(comment);
}
public List<String> getComments() {
return comments;
}
}
class SocialMediaPlatform {
private Map<String, User> users;
public SocialMediaPlatform() {
users = new HashMap<>();
}
public void addUser(User user) {
users.put(user.getUsername(), user);
}
public User getUser(String username) {
return users.get(username);
}
}
public class Main {
public static void main(String[] args) {
SocialMediaPlatform platform = new SocialMediaPlatform();
User user1 = new User("alice", "password123");
User user2 = new User("bob", "password456");
platform.addUser(user1);
platform.addUser(user2);
Post post1 = new Post("Hello, world!", "alice");
Post post2 = new Post("I love programming.", "bob");
user1.addPost(post1);
user2.addPost(post2);
post1.addComment("Nice post!");
post2.addComment("Keep up the good work!");
System.out.println("User: " + user1.getUsername());
System.out.println("Posts:");
for (Post post : user1.getPosts()) {
System.out.println("Content: " + post.getContent());
System.out.println("Author: " + post.getAuthor());
System.out.println("Comments:");
for (String comment : post.getComments()) {
System.out.println("- " + comment);
}
System.out.println("-----------------------");
}
}
}这个程序示例实现了一个社交媒体平台,包括用户类 User,帖子类 Post 和社交媒体平台类 SocialMediaPlatform。用户类具有用户名、密码和帖子列表等属性,并提供添加帖子和获取帖子列表的方法。帖子类具有内容、作者和评论列表等属性,并提供添加评论和获取评论列表的方法。社交媒体平台类具有用户列表,并提供添加用户和获取用户的方法。在 main 函数中,示例创建了一个社交媒体平台对象 platform,并在平台上添加了两个用户 user1 和 user2,然后每个用户都发布了一个帖子,并给帖子添加了评论。最后,打印了用户1的帖子及其评论。

手把手教你如何利用“社交媒体分析学”挖掘潜在客户
与传统媒体不同,社交媒体让信息的传播者和接受者形成互动,成为了现今互联网世界不可忽视的重要组成部分,从Facebook和Twitter这样的社交网站,到YouTube等视频网站,再到各式各样的互动百科,社交媒体与人们的生活越来越近。举例来说,用户可以在YouTube上上传视频内容,然后回复视频的评论来与观众互动。通过社交媒体实现的这种双向交流为很多公司企业提供了宝贵机会,能够让他们与终端用户直接沟通。本文内容目录:1,什么是“社交媒体分析学”?
2,不同的公司是如何利用社交媒体分析学的?3,社交媒体分析学能为公司带来什么?4,如何利用社交媒体开发潜在客户?5,情感分析6,潜在客户开发7,社交媒体分析学工具1什么是“社交媒体分析学”?社交媒体分析,顾名思义,就是通过分析社交媒体数据来进行商业决策。这些数据通常来自于博客、论坛、社交媒体网站,通常使用文本挖掘和自然语言处理技术,将定性数据转化成定量数据。常见的社交媒体分析目的包括: 扩大业务通过社交媒体发布广告通过社交媒体监控减少客服成本获取产品和服务的反馈获取公众对某个产品或部门的意见2不同的公司是如何利用社交媒体分析学的?以下是不同公司使用社交媒体分析的主要形式:火焰检测(听取差评)扩大新产品影响力扩大品牌影响力公司形象维护发掘流行趋势分析内容传播力广告效果的测评开发潜在客户政府听取民意3社交媒体分析学能为公司带来什么?正确的维护好公司的官方社交媒体渠道,利用社交媒体平台分享行业知识和专业信息,来扩大公司品牌影响力和认可度。发现目标客户群体的讨论方向,发现热点,抓住潮流,发现产品和服务的痛点。跟踪本公司品牌和竞品的评价,观察用户的评价口碑。发现竞争对手与客户交流的渠道,找到他们对话的社交平台、博客、论坛或者讨论组。通过网络分析发现缝隙市场的主要影响因素。发现是否有公司内部人员未经公司允许参与外部讨论或者在社交平台发布公司信息。找出以往的和现在的竞争对手,关注他们的动态。发现行业中需要发展和改善的领域。招聘到优秀的人才。找到提高用户忠诚度的正确方法。打造品牌大使社区。发现对公司有威胁的领域。评估社交媒体上不同广告的投放效果。观察客户讨论情况,来对产品进行改善。发现销售机会。比较发现公众更喜欢哪种形式的内容。4如何利用社交媒体分析开发潜在客户关键词提取:首先我们需要在初级输入(primary input)中输入种类条目,找到数据提取需要的不同关键词。举例来说,对高价的组合式橱柜,我们需要知道不同品牌的数量、名称和特点,现在流行的款式等等。同时还需要剔除一些干扰词来去掉无关信息。如果我们仅仅使用“橱柜”这个关键词,就能找到“@XXX – 竞争激烈啊! Brand-YYY @Kitchen_Art #生活方式”,这样的信息就是和组合橱柜无关了。数据提取和数据筛选:一旦关键词列表确定了,我们就需要确定合理的查询模式来抓取有效内容。为了避免上面提到的问题,我们在输入关键词的同时也要剔除干扰词。当然我们还需要筛选正确的信息源,对组合橱柜来说,可以找Houzz.com论坛等。将定性数据转化为定量数据:接下来我们需要通过文本挖掘和自然语言处理技术来将定性数据转化为定量数据。演示如下图:之后还需要通过“测试学习”方式对上表进行调整,调整后如图:购买意向基本分类创建调整:分析购买意向时,我们需要以样本数据扫描为基础,创建一个初级分类。5 情感分析分析语气来判断公众心态,看他们对某个产品是持积极、消极还是中立态度。这种包含了预测模型和习惯分类法的基于Naïve Bayes分类器的分类方法能够有效提高准确度(>80%)。语气计算流程如下:文本挖掘:从每条动态中提取主要概念、创建变量并记录100个左右的概念。人工情感分类:随意提取10%样本或至少5000个数据点、人工对这些数据进行分类。预测模型:利用决策树、神经网络,SVM等算法,学习样本数据分类,从而确定分类规则。习惯规则:基于Business Logic、 Naïve Bayes分类器等条件概率算法,建立习惯规则,提高语气情感分析的准确性。运用分类规则:将预测算法规则和习惯规则应用到整个数据集,获取每个信息点的语气情感信息。6开发潜在客户购买意向分析和语气分析结束后,我们可以将内容分为:高可能性客户中等可能性客户低可能性客户然后着重分析高可能性和中等可能性用户的需求和痛点,然后制定沟通策略来对他们进行重点营销。解决方案运作模式 每一个新的数据产生以后,这个数据就将根据现有规则被分到相应的分类条目中。每三个月应该对这些规则进行再验证。7社交媒体分析工具目前可供市场分析师使用的社交媒体分析工具非常多,如Radian6、Sysomos、Poly Analyst (Megaputer)、HootSuite等等。这些工具可以用来分析多个渠道的数据,也有专门用于分析某个网站数据的分析工具,如Twitter分析工具,Facebook分析工具等。所有这些分析工具都能用于将定性数据转化成数据表格,可用于社交媒体监测。还有一些使用感较好的统计工具,如R语言、SPSS文本挖掘器、SAS统计分析系统,能够用于预测建模等高级分析过程。Naive Bayes分类器可用于提高情感分析的准确度。翻译:灯塔大数据

利用API接口获取社交媒体上特定用户或话题相关信息
社交媒体已成为人们获取信息、交流、分享的重要平台。利用API接口可以方便地获取社交媒体上特定用户或话题相关的信息,帮助我们了解用户需求、抓取时下热点等。本文将为您介绍如何利用API接口获取社交媒体上特定用户或话题相关信息的步骤,并分享实用的代码示例,帮助您快速掌握这一技巧,提升信息获取与分析的能力。 一、了解API接口 1.选择目标社交媒体平台: 不同的社交媒体平台提供不同的API接口。在开始之前,我们需要选择要获取信息的目标平台,如微博、短视频平台等,并查找相应的API文档或接口说明。 2.获取API授权: 大部分社交媒体API都需要获取授权才能进行数据访问。通常,您需要创建一个开发者账号,申请API密钥或Access Token,并遵循相应的使用规则。 二、使用API接口获取数据 1.安装所需库: 在Python中访问API接口通常使用requests库进行HTTP请求处理,因此我们需要安装它:代码语言:javascript复制```python
pip install requests
``` 2.构建API请求: 根据API文档的要求,构建相应的API请求,并设置请求参数,如用户ID、话题关键词、时间范围等:代码语言:javascript复制 ```python
import requests
#设置API请求的URL和参数
url="https://api.example.com/user"
params={
"user_id":"123456789",
"start_date":"2022-01-01",
"end_date":"2022-01-31"
}
#发送API请求并获取数据
response=requests.get(url,params=params)
data=response.json()
#处理获取到的数据
#...
``` 3.数据处理与分析: 获取到API返回的数据后,可以根据需求进行数据处理、分析和可视化,例如统计用户活跃度、识别热门话题等。 三、案例:获取某微博用户的最新推文代码语言:javascript复制```python
import requests
#设置API请求的URL和参数
url="https://api.weibo.com/1.1/statuses/user_timeline.json"
params={
"screen_name":"example_user",
"count":10
}
#发送API请求并获取数据(需要替换为您的API密钥)
response=requests.get(url,params=params,auth=("API_KEY","API_SECRET"))
data=response.json()
#提取推文内容
for tweet in data:
print(tweet["text"])
#处理获取到的数据
#...
``` 通过选择目标平台、获取API授权,并使用requests库发送API请求,我们可以方便地获取到目标用户或话题的相关数据。在获取到数据后,您可以根据需求进行处理,如统计、分析或可视化,以获得有价值的信息。希望本文对您在社交媒体信息获取与分析方面的学习和实践有所帮助!

独家 | 理解和管理社交媒体算法的4个想法
代码语言:javascript复制作者:Veronica Combs
翻译:赵茹萱校对:郑强本文约3700字,建议阅读10+分钟没有单一的解决方案能够让所有社交媒体算法都更加易于分析和理解。试想一下,如果科技公司必须公布有关算法如何工作的数据,而软件工程师在高等教育时期必须学习社会科学课程,那将会发生什么?麻省理工学院斯隆管理学院(MIT Sloan School of Management)教授埃克尔斯(DeanEckles)(左上)与斯坦福大学(Stanford University)平台监管主任达芙妮·凯勒(DaphneKeller)和沃顿商学院(WhartonUniversity)商业人工智能主管卡提克·霍萨纳加(KartikHosanagar)就“如何让算法更加透明”进行了对话没有单一的解决方案能够让所有社交媒体算法都更加易于分析和理解。但是,拆解围绕着这个软件的黑盒子或许是一个不错的开始,让我们在这个黑盒子上戳几个洞吧。通过与独立分析师共享内容,也可以提高可解释性。周四,在麻省理工学院举行的社交媒体峰会上,研究人员、技术专家和法律学者讨论了如何启动这一过程。麻省理工学院数字经济倡议组织主持了从乌克兰战争、虚假信息到算法透明度、人工智能监管的各种对话。Facebook吹哨者弗朗西斯·豪根(Frances Haugen) 开启了这场免费的在线活动,并在第一场会议上与麻省理工学院集成开发学院(MITIDE)主任希南·阿拉尔(SinanAral)就社交媒体问责制和透明度进行了讨论。Haugen 是一名电子计算机工程师,也是Facebook前产品经理。2021年年中,她与媒体、国会和监管机构分享了Facebook的内部研究,她在领英(LinkedIn)上将她目前的职业描述为“公民诚信”,并概述了在算法影响方面监管机构和行业领导者需要做出的几项改变。注意义务:社交媒体安全的预期Haugen大约一年前离开了 Meta,现在正在研究“注意义务”概念,即如何定义社交媒体平台上的合理安全预期。这包括回答以下问题:“如何让13岁以下的孩子远离这些系统?”“因为看不到幕后算法,他们不知道该问什么问题。那么,让孩子们远离这些平台,我们需要他们公布哪些数据,以了解他们是否履行了注意义务,这个可接受且合理的严格程度是多少?”参见:为什么安全的元宇宙是必须的,以及如何构建受欢迎的虚拟世界https://www.techrepublic.com/article/why-a-safe-metaverse-is-a-must-and-how-to-build-welcoming-virtual-worlds/她以 Facebook上“广受关注的内容”更新为例,说明了数据的欺骗性展示。该报告仅包含来自美国的内容。Haugen表示,Meta 已将大部分安全和内容审核预算投入到这个市场。她认为,经历种族灭绝风险比较高的国家的排名前20名的清单内容,其实比Facebook上的流行榜单更为准确。“如果我们看到那份内容清单,我们会说,这是无法忍受的。”她还强调,Facebook是许多人与互联网的唯一连接方式,除了与种族灭绝有关的社交媒体网站,没有其他选择。减少Facebook上虚假信息和仇恨言论的一种方法是,改变广告的定价方式。Haugen认为,广告的定价是基于质量,前提是“高质量的广告”比低质量的广告便宜。然而,Facebook将质量定义为获得反应的能力,即点赞、评论或分享。Facebook知道,点击的最短路径是愤怒,因此愤怒的广告最终会比其他广告便宜五到十倍。Haugen说,一个公平的折衷方案是统一广告费率并“从系统中取消对极端主义的补贴”。扩大对社交媒体平台数据的访问Haugen建议,强制发布有关算法的可审计数据。“这将使独立研究人员能够分析这些数据,并理解信息网络。”Haugen认为,提高数据透明度是提高社交媒体平台问责制的关键,共享数据也将促进这一点。在“算法透明度”会议中,研究人员解释了更广泛地获取这些数据的重要性。麻省理工学院斯隆管理学院教授、IDE 研究负责人 DeanEckles 主持了与斯坦福大学平台监管主任DaphneKeller 和沃顿商学院商业人工智能业务主管Kartik Hosanagar 的对话。参见:如何识别社交媒体上的虚假信息并保护您的业务https://www.techrepublic.com/article/how-to-identify-social-media-misinformation-and-protect-your-business/Hosanagar讨论了 Twitter和 Meta 关于算法影响的研究,但也指出了这些研究的局限性。“所有这些平台的研究都要经过内部批准,所以我们不知道哪些没有得到内部批准的研究。”让数据可访问很重要。数据透明度也很重要,但需要在特定受众背景下理解该术语,例如软件开发人员、研究人员或最终用户。Hosanagar 说,算法透明度可能意味着从揭示源代码,到共享数据,再到解释结果的任何事情。立法者经常考虑提高最终用户的透明度,但Hosanagar 表示,这似乎并没有增加用户之间的信任。通常而言,社交媒体平台对这些算法的理解有太多的控制权,而将这些信息暴露给外部研究人员是至关重要的。“透明度主要是为了让组织内的数据科学家更好地了解他们的系统在做什么。”跟踪哪些内容被删除了解哪些内容被推广或者是被审核的一种方法是,查看从不同平台删除信息的请求。Keller认为,最好的资源是哈佛大学的“流光计划”(ProjectLumen),这是一组基于美国数字千年版权法案(DigitalMillennium Copyright Act)以及商标、专利、本地监管内容和私人信息的在线内容删除请求。Keller表示,谷歌、Twitter、维基百科、WordPress和Reddit等公司已经从这些数据中进行了大量研究。“你可以看到是谁提出的问题,为什么提出,提出的内容是什么,找出错误或模式的偏见。”然而,为了便于研究人员查看哪些内容被从这些平台上删除,YouTube或Facebook的下架请求并不是单一的数据来源。Keller认为:“如果平台之外的人有这种访问权限,他们可以做得很好,但我们必须克服障碍和相互竞争的价值观。”Keller表示,欧盟于 2021 年 1 月批准的《数字服务法案》将改进算法的公开报告和研究人员对数据的访问权限。“这将极大地改变欧洲的透明度,并影响世界各地对信息的获取”电子前沿基金会(EFF)在一篇关于该法案的帖子中表示,欧盟立法者在该法案中提到的关于加强用户在线匿名和私人通信的权利,以及确立用户有权在合理情况下匿名使用和支付服务费用这几个要素上都做对了。但EFF仍然担心该法案的执行权力过于宽泛。Keller认为,监管机构最好制定透明规则。“监管者行动迟缓,但立法者更慢。”“他们将锁定要求错误的透明度模型。”参见:政策制定者希望监管人工智能,但对如何监管尚缺乏共识https://www.techrepublic.com/article/policymakers-want-to-regulate-ai-but-lack-consensus-on-how/Hosanagar表示,由于社交媒体平台变化如此之快,监管机构总是会远远落后于科技行业。“单靠法律规定并不能解决这个问题。我们需要更多的企业自主参与,而不是仅仅遵守法律规定。”“未来几年乃至几十年,这将是一个艰难的过程。”此外,正如Eckles指出的那样,适用于 Facebook 和Instagram 的法规不会解决TikTok和印度流行的社交媒体应用ShareChat的问题,建立在去中心化架构上的系统将是另一个挑战。“如果下一个社交媒体渠道是在区块链上呢?”Hosanagar认为,“这改变了整个讨论,并将其带到另一个维度,使当前所有对话都变得无关紧要。”对工程师的社会科学培训该小组还讨论了针对消费者和工程师进行用户教育,以提高透明度方法。让更多人提出“我们应该建造它吗?”的方法,就是在工程学位中增加一两门社会科学课程。这可以帮助算法架构师以不同的方式思考技术系统,并理解算法可能会带来的社会影响。Hosanagar认为,“工程师们考虑的是,新闻推送推荐算法的准确性,或者是10条被推荐的新闻中哪一部分是与之相关的。然而,这些都不能回答这是否会造成社会分裂或者是否影响个人隐私等问题。”Keller指出,许多工程师都愿意以公开的方式描述他们的工作,但社会科学家和律师并不总是使用这些信息来源。参见:实施人工智能还是考虑供应商态度?这些道德政策模板或许可以提供帮助https://www.techrepublic.com/article/implementing-ai-or-worried-about-vendor-behavior-these-ethics-policy-templates-can-help/Hosanagar认为,科技公司可以采取开源方式来实现算法透明度,就像组织分享有关如何管理数据中心或云部署的建议一样。他说,“Facebook和 Twitter一直在努力解决这些问题,并取得了很多成果,供其他公司借鉴参考”。Keller以Google的搜索质量评估指南为例,开启了“工程师对工程师”的讨论,以期能够让其他专业人士从中找到教育意义。“我生活在社会科学家和律师的世界里,他们不读那些东西。也就是说,现有的某种程度的透明度没有被充分利用。”选择自己的算法Keller关于提高透明度的想法是,允许用户通过中间件或“魔术API”选择自己的内容审核员。出版商、内容提供商或倡导小组可以创建一个由最终用户选择管理内容的过滤器或算法。Keller认为:“如果我们希望减少大型社交媒体平台的话语权,可以在内容审核和排名算法层引入竞争。”即用户可以选择某个组的审核规则,并根据自己的喜好调整设置。“这样一来,就没有一种算法如此重要。”在这种情况下,社交媒体平台仍将托管内容并管理版权侵权和删除内容的请求。参见:元宇宙安全:如何从Internet 2.0的错误中吸取教训,并构建安全的虚拟世界https://www.techrepublic.com/article/metaverse-security-learn-lessons-from-internet-2-0-mistakes-to-build-safe-virtual-worlds/Keller表示,这种方法可以解决一些法律问题,促进用户自主权,但它也带来了一系列新的隐私问题。“还有一个严重的问题是,收入如何流向提供商,”Keller认为,“肯定有后勤工作要做,但这是后勤问题,而不是我们在许多其他提案中遇到的第一修正案的根本问题。”Keller建议,用户希望内容审核人员能够将网络暴力者和种族主义者拒之门外,并减少网站向其群发垃圾邮件的次数。“一旦有政府监管部门为用户需求做把关,就可以对其进行监管,以满足政府需求。”原文标题:4 ideas for understanding and managing thepower of algorithms on social media原文链接:https://www.techrepublic.com/article/4-ideas-for-understanding-and-managing-the-power-of-algorithms-on-social-media/编辑:黄继彦
校对:杨学俊译者简介赵茹萱,东南大学法律硕士,现就职于北京市京都律师事务所,喜欢浏览“数据圈儿”,分享热点资讯,碰撞新奇观点的法律人。与我派一起成长的三年是熠熠生辉的三年。未来,愿继续与我派一起,探索未知,保持热爱。翻译组招募信息工作内容:需要一颗细致的心,将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友欢迎加入翻译小组。
你能得到:定期的翻译培训提高志愿者的翻译水平,提高对于数据科学前沿的认知,海外的朋友可以和国内技术应用发展保持联系,THU数据派产学研的背景为志愿者带来好的发展机遇。其他福利:来自于名企的数据科学工作者,北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。点击文末“阅读原文”加入数据派团队~转载须知如需转载,请在开篇显著位置注明作者和出处(转自:数据派ID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。发布后请将链接反馈至联系邮箱(见下方)。未经许可的转载以及改编者,我们将依法追究其法律责任。
点击“阅读原文”拥抱组织

加拿大尝试用社交媒体新技术预测和降低自杀率
加拿大政府正在与一家专门从事社交媒体监测和人工智能的公司商讨, 请他们协助预测自杀趋势,以求提前预测那些可能出现自杀高峰的地区。渥太华的Advanced Symbolics Inc.是一家人工智能和市场研究公司。它与大多数公司的不同之处在于,不是通过打电话等方式征询民意,而是通过识别和跟踪社交媒体帐户来建立一个有代表性的人口样本。此外在调查规模上他们数据分析所依据的样本也要大得多。通常大多数电话调查都是随机抽取约1500人,但该公司的加拿大人口样本则扩展为超过16万个社交媒体账户。成功预测了美国大选、加拿大大选和英国脱欧等重大事件正因为使用了这种高科技的统计方法,使其能够在其它民意测验不准确, 甚至失败的情况下,可以异军突起,成功地预测了特朗普,特鲁多和英国脱欧等重大事件的结果。© CBC/Advanced SymbolicsAdvanced Symbolics 公司的首席执行官埃里恩·凯利(Erin Kelly)表示:“我们是世界上唯一准确预测了英国脱欧,希拉里和特朗普选举以及2015年加拿大大选的研究公司,而且不侵犯任何人的隐私”。他说,这是因为他们的统计是通过人工智能寻找趋势,而不是个体情况。这点在涉及到很个人的问题时就非常重要,例如“自杀倾向”的预测。精神健康问题令人担忧在加拿大,近年来精神健康问题越来越引起各方的关注。每年因各种原因自杀的有4000多人,也是导致年轻人死亡的第二大原因。为了防止自杀,政府部门、社会团体都开设了帮助热线;社交媒体上也有不少可以使用的应用程序。有心理学专家统计过,目前可以在手机上下载的心理健康应用程序多达700个,但他们的质量参次不齐,有的防止自杀软件甚至提供危险的信息。但自杀是一种长期的个人心理行为,又具有很高的隐私性质。Advanced Symbolics 公司的技术总监肯顿·怀特说, 他们创立的系统的主要难题之一也是不要违反《隐私法》的相关条文。 他说:“我们这种不会违法隐私的技术有一些标准,也提供给加拿大统计局和其它收集个人信息的机构使用。我们不针对任何个人,而是只观测群体样本,这个群体有16万人。试想如果我们建立一个系统,监测人们在社交媒体上所说的话,然后有一天政府部门与某人联系说:’你好,我们电脑系统的人工智能分析显示你可能会自杀’,这会不会让人觉得怪异。因此,我们的人工智能系统只通过综合社交媒体上的信息,标志出可能发生多起自杀事件的社区或地区。像去年新斯科舍省布雷顿角岛地区连续有三名青少年自杀就很令人震惊”。新斯科舍省自杀学生的母亲 © CBC/Gary Mansfield怀特说:“布雷顿角发生的这起事件,是不幸的,我们可以从事件中学习,创建一种模式。我们也可以从萨斯喀彻温省发生的事情,从来自北方原住民社区发生的事情来创建不同的模式,还可以创建适合大学生的模式”。怀特补充说:“我们并不会违反任何人的隐私 – 因为数据都是建立在公开信息基础上。我们在社交媒体上创建具有代表性的人群样本,观察他们的行为而不会对其产生干扰。”在自杀发生之前采取预防行动在去年新斯科舍省布雷顿角自杀事件发生后的几个星期里,省政府曾向该地区派出了更多的咨询员和精神卫生专家。但那时的主要工作已经不是预防自杀, 而是减轻自杀事件对相关人士和社会的负面影响。根据Advanced Symbolics公司的介绍,他们通过社交媒体搜集数据,在自杀发生之前,人工智能系统可在两到三个月前发出警告,这些警示若分享给政府官员,就可以促使他们在危机发生之前调动精神卫生资源,而不是事后。这个公司已确定从1月份开始分析和确定与自杀相关的语言等信号,而真正的监测将在2018年晚些时候开始。

用JAVA的DEA算法衡量社交媒体页面的流行度
Measuring the Social Media Popularity of Pages with DEA in JAVA原文作者:Vasilis Vryniotis原文地址:http://blog.datumbox.com/measuring-the-social-media-popularity-of-pages-with-dea-in-java/译者微博:@从流域到海域译者博客:blog.csdn.net/solo95用JAVA的DEA算法衡量社交媒体页面的流行度在前面的文章中,我们讨论了数据包络分析(Data Envelopment Analysis)技术,我们已经看到它如何被用作一个有效的非参数排序算法。在这篇博文中,我们将开发出一个JAVA数据包络分析的实例,我们将用它来评估网络上的网页和文章的社交媒体流行度。该代码是开源的(在GPL v3 license下),您可以从Github免费下载。更新:Datumbox机器学习框架现在是开源的,可以免费下载。查看包com.datumbox.framework.algorithms.dea以查看Java中Data Envelopment Analysis的实现。数据包络分析在JAVA中的实现代码是用JAVA编写的,可以直接从Github下载。它是根据GPLv3许可的,所以可以随意使用它,修改它,或者再分发。该代码实现了数据包络分析(Data Envelopment Analysis)算法,使用lp_solve库来解决线性规划问题,并使用Web搜索引擎优化分析(Web SEO Analytics )索引提取的数据,以构建基于Facebook,Google Plus和推特上分享的一个混合的社交媒体页面流行度矩阵。在前面的文章中介绍了算法的所有理论部分,在源代码中可以找到关于其实现的详细的javadoc注释。(原博文之后数据包络分析(Data Envelopment Analysis)算法及其实现全部简称了DEA,请读者注意,译者注。)下面我们提供一个关于其架构实现的高级别描述:1. lp_solve 5.5 library为了解决各种线性规划问题,我们使用一个名为lp\_solve的开源库。某些特定的lib是用ANSI C编写的,并使用JAVA包装来调用库方法。因此,在运行代码之前,您必须在您的系统上安装lp_solve。该库的二进制文件在[Linux和Windows都可以使用,您可以在lp_solve文档中阅读更多有关安装的信息。在尝试运行JAVA代码之前,请确保您的系统上安装了(相关的)特定库。有关安装和配置库的任何问题,请参阅lp_solve文档。2.DataEnvelopmentAnalysis Class这是DEA算法的主要实现类。它实现了一个名为estimateEfficiency()的公共方法,它获取记录的Map并返回它们的DEA得分。3. DeaRecord ObjectDeaRecord是一个特殊的对象,用于存储我们记录的数据。由于DEA需要分离输入和输出,因此DeaRecord对象将以DEA可以处理的方式分别存储我们的数据。4. SocialMediaPopularity ClassSocialMediaPopularity是一个应用程序,它使用DEA来评估社交媒体网络上Facebook的like,Google的 +1和twitter的Tweets的网页流行度。它实现了两个受保护的方法:calculatePopularity()和estimatePercentiles()以及两个公共方法loadFile()和getPopularity()。calculatePopularity()使用DEA实现根据社交媒体计数来估计页面的得分数。estimatedPercentiles()方法获取DEA分数并将其转换为百分位数。总的来说,百分比比DEA分数更容易解释; 因此当我们说一个网页的流行分数是70%时,这意味着该网页比70%的其他网页更受欢迎。为了能够估计一个特定页面的流行度,我们必须有一个包含其他页面的社交媒体数据的数据集。这是有原因的,因为需要预测哪个网页是受欢迎的,哪些不是,您必须能够将其与网络上的其他页面进行比较。为此,我们使用来自以txt格式提供的Web SEO分析索引的小型的匿名样本。您可以通过从网页上的更多页面提取社交媒体计数来构建自己的数据库。(社交媒体计数,比如点赞数、转发数、评论数)loadFile()方法用于加载DEA的上述统计信息,getPopularity()方法是一种易于使用的方法,可以获取Facebook的like,Google的+1和一个页面的Tweets数量,并以此评估其在社交媒体上的流行度。如何使用数据包络分析的JAVA实现在DataEnvelopmentAnalysisExample类中,我提供了2个不同的关于如何使用代码的例子。第一个例子直接使用DEA方法来根据它们的输出(ISSUES,RECEIPTS,REQS)和输入(STOCK,WAGES)来评估组织单位的效率。这个例子来自DEAzone.com的一篇文章。代码语言:txt复制Map<String, DeaRecord> records = new LinkedHashMap<>();
records.put("Depot1", new DeaRecord(new double[]{40.0,55.0,30.0}, new double[]{3.0,5.0}));
//...adding more records here...
DataEnvelopmentAnalysis dea = new DataEnvelopmentAnalysis();
Map<String, Double> results = dea.estimateEfficiency(records);
System.out.println((new TreeMap<>(results)).toString());第二个示例使用我们的社交媒体流行度应用程序,通过使用来自社交媒体的数据来评估页面的流行度,例如Facebook的like,Google的+1和Tweets。所有的社交媒体计数都被标记为输出,我们传递给DEA一个空的输入向量。代码语言:txt复制SocialMediaPopularity rank = new SocialMediaPopularity();
rank.loadFile(DataEnvelopmentAnalysisExample.class.getResource("/datasets/socialcounts.txt"));
Double popularity = rank.getPopularity(135, 337, 9079); //Facebook likes, Google +1s, Tweets
System.out.println("Page Social Media Popularity: "+popularity.toString());必要的扩展(上面)所提供的代码只是DEA如何被用作排名算法的一个例子。为了改进其实现,需要进行下面的扩展:1.加速(算法的)实现特定的DEA算法实现会评估数据库中所有记录的DEA得分。由于我们需要解决如同数据库中记录数量那样多的线性规划问题,这使得实现变得缓慢。如果我们不需要计算所有记录的分数,那么我们可以显著地加快执行速度。因此,该算法的小扩展可以使我们更好地控制哪些记录应该被解决掉,哪些只能被用作约束。2.扩大社交媒体统计数据库(这篇文章所)提供的社交媒体统计数据库由来自Web SEO Analytics索引的1111个样本组成。为了能够估计更准确的流行(度)分数,需要更大的样本。您可以通过统计来自网络上更多页面的社交媒体计数来创建自己的数据库。3.添加更多的社交媒体网络该实现使用Facebook的喜欢,Google的+1和推文的数量来评估文章的受欢迎程度。不过,来自其他社交媒体网络的指标可以很容易地被考虑在内。您只需要从您感兴趣的网络中构建一个社交媒体数据库,然后扩展SocialMediaPopularity类来处理它们。关于实施的最终意见为了能够扩展(算法的)实现,您必须对Data Envelopment Analysis的工作原理有一个很好的理解。这在前面的文章中已经介绍过了,所以在继续进行任何更改之前,请确保您阅读了之前的教程。此外,为了使用JAVA代码,您必须在您的系统中安装lp\_solve库(参见上文)。如果你在一个有趣的项目中使用这个实现,那么就给我们一条线索,我们将在我们的博客上展示你的项目。另外,如果你喜欢这篇文章,请花点时间在Twitter或Facebook分享。

诺基亚与中国社交媒体巨头腾讯达成5G测试协议
近日,中国互联网服务提供商腾讯与诺基亚达成协议,宣布利用腾讯超过10亿社交媒体用户,强强联手在中国测试5G平台和服务。这项工作包括利用诺基亚的AirScale无线接入网络,5G核心,MEC框架和第三方设备,在深圳建立端到端的5G测试环境。这些公司最初的努力旨在使用5G来提高服务性能,最近还将使用人工智能(AI)和自动化管理来推广5G标准和支持新服务的开源生态系统。其中就包括针对垂直市场的边缘计算,如交通,金融,能源,智能制造和娱乐。诺基亚和腾讯的合作对于双方来说都非常重要。对于诺基亚,如今的诺基亚已经不是移动电话行业的主要参与者;几年前,由于苹果手机的一夜兴起,诺基亚失去了手机市场份额并最终卖了它;在这之后,诺基亚又卖掉了地图业务,并退出了所有和健康相关的服务。5G领域对诺基亚来说是一次重新审视并定义自身角色的机会,它或许可以成为网络服务提供商。诺基亚移动网络部门总裁Marc Rouanne在一份声明中表示:“与腾讯的合作是诺基亚迈出的重要一步,它向全球网络公司展示了如何利用5G Future X产品组合来实现端到端的功能。”对腾讯而言,它已经积累了大量的用户,去年在中国移动运营商中国联通也获得了一定的股份。财团的关系使得腾讯在软件、信息服务和游戏方面获得丰厚收益。建立与网络更紧密结合的服务方面会使腾讯变得更加强大。而这次与诺基亚达成的合作能让腾讯在即将到来的5G时代里大显身手。诺基亚首席执行官Rajeev Suri最近告诉投资者,该公司在过去两个季度中,企业、网络规模和有线电视市场的每季度增长率约为20%。“总的来说,如果你看一下企业和网络规模,它们在整体上结构上更具吸引力,长期来说会带来更高的利润率。”Rajeev SuriSuri说。诺基亚还与中国移动,NTT DoCoMo,Orange,沃达丰,韩国电信,SK电讯和西班牙电信在内的多家国际运营商签署了5G协议。5G的兴起或许是诺基亚一次翻身的机会。

分布式爬虫在社交数据媒体分析中的应用
作为一个爬虫工作者,你是否曾经遇到过需要从社交媒体上获取大量数据进行分析的问题?你是否觉得传统的爬虫技术无法满足你的需求?那么,分布式爬虫就是你的救星!传统的爬虫技术往往只能在单个机器上运行,无法满足大规模数据获取的需求。而分布式爬虫技术通过将任务分发给多台机器并行执行,可以大大提高数据获取的效率。此外,分布式爬虫还可以处理分散在不同平台上的数据,通过协调多个爬虫节点的工作,将数据整合到一起进行分析。 要实现分布式爬虫,我们可以使用Python编程语言和Scrapy框架。Scrapy是一个强大的爬虫框架,它提供了丰富的功能和灵活的扩展性,非常适合用于构建分布式爬虫系统。首先,我们需要设置代理信息。代理服务器可以帮助我们绕过反爬虫机制和IP封锁,确保我们能够顺利地获取数据。在Scrapy中,我们可以通过设置settings.py文件来配置代理信息:代码语言:javascript复制# settings.py
# 设置代理信息
PROXY_HOST = "u6205.5.tp.16yun.cn"
PROXY_PORT = "5445"
PROXY_USER = "16QMSOML"
PROXY_PASS = "280651"
# 启用代理中间件
DOWNLOADER_MIDDLEWARES = {
'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 543,
'your_project_name.middlewares.ProxyMiddleware': 544,
}
在上面的代码中,我们首先设置了代理的主机、端口、用户名和密码。然后,我们在DOWNLOADER_MIDDLEWARES中启用了代理中间件。接下来,我们需要创建一个名为ProxyMiddleware的自定义中间件类来实现代理功能。在middlewares.py文件中,我们可以编写以下代码:代码语言:javascript复制# middlewares.py
from scrapy import signals
from scrapy.http import Request
class ProxyMiddleware:
def __init__(self, proxy_host, proxy_port, proxy_user, proxy_pass):
self.proxy_host = proxy_host
self.proxy_port = proxy_port
self.proxy_user = proxy_user
self.proxy_pass = proxy_pass
@classmethod
def from_crawler(cls, crawler):
proxy_host = crawler.settings.get('PROXY_HOST')
proxy_port = crawler.settings.get('PROXY_PORT')
proxy_user = crawler.settings.get('PROXY_USER')
proxy_pass = crawler.settings.get('PROXY_PASS')
return cls(proxy_host, proxy_port, proxy_user, proxy_pass)
def process_request(self, request, spider):
request.meta['proxy'] = f"http://{self.proxy_host}:{self.proxy_port}"
if self.proxy_user and self.proxy_pass:
request.headers['Proxy-Authorization'] = f"Basic {self.proxy_user}:{self.proxy_pass}"
def process_response(self, request, response, spider):
# 在这里可以处理代理响应
return response
接下来,我们需要定义爬虫的逻辑。在Scrapy中,我们可以创建一个Spider类来定义爬虫的行为。下面是一个简单的示例:代码语言:javascript复制import scrapy
class MySpider(scrapy.Spider):
name = 'myspider'
start_urls = ['http://www.example.com']
def parse(self, response):
# 在这里解析网页内容,并提取需要的数据
pass
实例分析: 假设我们要分析微博上的用户行为数据。我们可以创建一个名为WeiboSpider的Spider类,来爬取用户的微博内容和评论。首先,我们需要在start_urls中添加微博用户的主页链接。然后,在parse方法中,我们可以使用XPath表达式来提取微博内容和评论的数据。当创建一个名为WeiboSpider的Spider类时,我们需要导入必要的库和模块。在这个例子中,我们需要使用Scrapy框架和XPath选择器来解析网页内容。下面是实现这个过程的代码:代码语言:javascript复制import ... scrapy
class WeiboSpider(scrapy.Spider):
name = 'weibospider'
start_urls = ['https://weibo.com/username']
def start_requests(self):
proxy_host = "u6205.5.tp.16yun.cn"
proxy_port = "5445"
proxy_auth = "280651"
# 设置代理
proxy = f"http://{proxy_host}:{proxy_port}"
meta = {'proxy': proxy}
# 设置代理验证信息
if proxy_auth:
meta['proxy_auth'] = proxy_auth
for url in self.start_urls:
yield scrapy.Request(url, callback=self.parse, meta=meta)
def parse(self, response):
# 提取微博内容和评论的数据
weibo_content = ... response.xpath('//div[@class="weibo-content"]/text()').get()
comments = response.xpath('//div[@class="comment"]/text()').getall()
# 打印微博内容和评论
print("微博内容:", weibo_content)
... print("评论:")
for comment in comments:
print(comment)
# 将微博内容和评论保存到文件
with open('weibo_data.txt', 'a', encoding='utf-8') as file:
file.write("微博内容:" + weibo_content ... "\n")
以上就是实现分析微博用户行为数据的代码过程。通过创建一个名为WeiboSpider的Spider类,并使用XPath表达式来提取数据,我们可以轻松地抓取微博内容和评论,并进行进一步的处理和分析。在实际应用中,我们可以根据需求来丰富代码,例如添加数据清洗、情感分析等功能。

社交还是媒体?微博答案是内容
曾几何时,人们对于微博究竟是媒体还是社交应用,一直有不同的看法。微博自身亦在两条路上不断探索,进行诸多尝试,兼具两种因素。现在如果你再问微博是一款什么应用,它的答案可能会让你觉得有些意外:『是一个内容平台』。近日微博发布了Q3财报,财报显示,微博MAU(月活跃用户)继续增长,消除了一些人对微博活跃度下滑的担忧。微博之所以变得更加活跃,与其内容化转型离不开关系。
内容互联网时代已到来移动互联网走过了『功能』时代,工具和平台的跑马圈地早已告一段落。基础设施搭建好了,在这些基础设施上运营内容是移动互联网眼下最核心的事情。这些内容由两部分构成:一类是信息内容,资讯、知识、娱乐、游戏等等;另一类是服务内容,O2O产业所做的正是填充服务类内容。我们进入了『内容互联网』时代,BAT为代表的互联网巨头从公司战略层面进军内容:百度主抓服务,腾讯启动内容战略强力进攻娱乐、音乐等内容,阿里巴巴则启动了健康和娱乐战略。今年许多高速增长的创业型App亦有不少来自于内容产业,例如腾讯投资的bilibili和知乎、微博投资的秒拍,未来会有更多『内容』创业者出现,寄生于平台生产视频、秀场、广播、文字、图片诸多形式内容,这些创业者中有望诞生更多明星公司,要么接受巨头橄榄枝,要么走向独立上市,用时髦的话说,内容领域是继O2O之后最有机会诞生『独角兽』的领域。内容产业已存在多年。最近的内容黄金时代是运营商主导的CP时代,大量内容提供商围绕着运营商面向数十亿移动用户做内容:段子短信、手机报、音乐等等内容,产值蔚为可观,诞生了许多闷声赚大钱的不知名公司。因为运营商特殊性,以及不重视用户体验诸多原因,这一内容时代昙花一现,并未延续太久。现在互联网接棒,『激活』内容产业,人人都是CP,内容的创作者和消费者被互联网无缝连接在一起,内容产业更有效率,更具创新,规模更大,一个新的黄金时代已然来临。内容互联网需要些什么?只有优质内容并不够,内容互联网需要持续不断的内容生产能力,尤其是有自我净化,自我进化这两大关键能力,才能保持勃勃生机,从音乐、电影、文学诸多垂直内容生态的发展来看,内容生态繁荣度由以下关键环节决定:1、内容分发平台:微博、微信、优酷土豆等内容分发平台至关重要,它们连接内容消费者与内容生产者,同时创造出诸多供应的商业模式如广告、赞赏等,这些平台必须通过模式来激发内容创作者的热情,通过强有力的运营手段来引导,避免内容出现劣币驱逐良币。2、内容分发技术:4G网络让短视频、移动视频和网络直播迅速普及,这体现了在内容分发上的技术重要性。除了4G网络,所见即所得的H5技术,精准理解用户内容消费需求的大数据技术,便于用户消费内容的移动支付技术,提升商业化效率且保持体验的原生广告技术,都在帮助内容产业的振兴,让内容消费更具效率更。3、内容消费终端:运营商时代移动内容消费以功能机为主,移动时代先是出现了手机、平板,现在则出现了越来越多的新的内容消费终端:Apple Watch等可穿戴设备,Oculus等VR设备,智能电视等智能影音设备……都在帮助人们更加方便、舒适和高质地消费内容,同时这些终端也引导了内容的生产,例如更多4K内容、VR内容,正在被设备倒逼着出现。4、内容保护体系:互联网加速了内容的流通,但同时又不可避免地带来了内容侵权问题,因为内容太容易copy和分发了,这时候唯有一套严格且被执行的保护体系才能确保内容可被源源不断地生产,看看当初数字音乐等行业的惨淡就知道缺乏版权保护的可怕了。近年来国家正在加大知识产权保护力度,视频、音乐等领域的版权已走向规范,各大平台也通过技术等手段来保护原创者权利。从平台、技术、终端和保护体系诸多方面来看,内容正在迎来一个黄金时代。微博如何变身内容平台?曾几何时,微博、Twitter所做的,都是『告诉别人我在干嘛』『告诉别人我在哪儿』『告别别人我的想法』……现在微博对于用户的价值远远不是这些,我们通过微博告诉关注者自己感兴趣的内容,通过微博向粉丝推送原创内容,微博已变身内容分发平台,与微信成掎角之势。一方面,不再『140字』,内容形式多种多样。微博不再是『140字不到』的短消息,内容形态多元化非常明显。你可以看到微博上有卡片式长文章了;微博上的图片已经远远多过文字了,微博Q3财报显示,现在微博图片发布量已占到微博每天发布量的65%,成为事实上的Instagram;微博上有各类小视频了,Q3微博内视频的日均播放量增长不少,很大部分来自于微博投资的秒拍,秒拍还有一款明星产品是小咖秀,短视频正在成为微博的优势内容形式。实际上Twitter近两年也在尝试内容多媒体化,过去发图片都不支持的Twitter开始鼓励用户上传图片而不是分享Instagram的链接,并推出自己的视频播放器。另一方面,走『垂直化』路线,扶持创作者。在昔日微博市场的混战中,新浪微博正是凭借着引入『明星』这一优质短内容生产者的策略,建立起壁垒。现在微博正在加大对内容生产者的扶持,走专业垂直路线,通过流量扶持和商业化刺激垂直领域自媒体作者的积极性,9月微博自媒体发博量和月阅读量都有提升,通过微任务、打赏等商业化手段,今年前9个月微博给自媒体的分成达到1.7亿。垂直化自媒体扶持策略提升了内容的数量和质量,进而增强了用户活跃性。作为内容平台,微博只有一个竞争对手:微信,因为与微博一样具有『全内容形态』的只有一个:微信。浏览器算吗?不算,尽管浏览器可以消费各种各样的内容形式,但是它的逻辑是『用户主动去获取某个内容』,而不是分发内容。相反,微博和微信基于订阅关系,通过消息流这一内容形式,给到用户源源不断精准的内容供给。优酷土豆等专注于某类内容形态的平台固然有其优势,但微博作为平台而言,可以给到大家一站式的内容消费,尤其是能解决内容的发现(推荐、话题等)、分享(转发)和碎片化消费(刷)的需求。微博与各大垂直类平台并不构成竞争关系,大家处于平行世界,抓住不同内容消费场景,某种场景下大家还是互通有无的:优酷土豆的视频可以分享到微博,用户可以在微博观看——包括优酷土豆的广告。微信自然有其优势:基于通信这一刚需引导到内容消费,具有更高频的使用几率。微博则更加纯粹地满足内容消费需求,更重要的是,微博是公开信息发布平台,其上的内容更容易被搜索、被发现,流通过程是透明的,订阅关系是基于兴趣的。微信朋友圈的传播则是封闭的,不利于搜索和发现,且是基于社交关系而非兴趣属性的,不利于内容推荐。因此,公开式的内容机制,是微博与微信最大的差异之处,也是微博的优势所在。微博@互联网阿超 微信罗超(luochaotmt)

助力企业社交媒体营销 “C位” 出道,给PICK理由
信息技术和互联网不仅改变了消费者,也改变了信息传递的方式,以消费者为中心的、数据驱动的泛零售业态孕育而生。企业营销必须变革,这里有两个关键词值得关注:消费者和数据,更宽泛点讲就是人和数据。客户如沧海遗珠般散落在不同的社交媒体平台上,其连接、互动、传播如同汪洋大海。企业有提高社交媒体营销预算的心,却苦于找不到合适自己的社交媒体营销策略去发力。乱花渐欲迷人眼的市场社交媒体营销方式,导致企业疲于仓促应对,被技术牵着鼻子走,营销浮于表面,定位不明确。科特勒曾说过:“营销应该是创造出不用推销的产品,让客户感受到产品价值”。社交媒体为消费者赋权,消费者从被动接受到主动参与,企业营销环境逆转,回归营销本质空前迫切。企业应该如何应对社交媒体营销趋势?如何开展营销活动?这是当今企业急需思考和解决的问题。从以产品为中心的营销1.0时代,以客户为中心的营销2.0时代,到以价值为中心的3.0时代,再到如今客户有了很大的自我实现诉求的营销4.0时代,不管形式如何变化,如营销大师菲力普·科特勒所言“不变的是营销的本质,数字技术只是对营销手段和营销方法的升级,它没有替代营销的本质。营销的本质还是利他、需求管理以及为客户创造卓越的价值。”建立以顾客为中心的会员体系需求管理(Demand Management),占营销界主导地位,是众多营销流派中体系构建最为完善、最为系统的学说。策略体系从PEST分析开始,到产业分析、竞争对手分析,再到消费者分析,然后根据STP战略,设计营销战术组合。这种战术组合被麦卡锡归纳为4P组合(Product,Price,Place,Promotion)。后期,在4P的基础上不断发展,其本质都是研究如何有效管理客户需求。上海启匙为企业客户搭建个性化、体系化、科学化的会员体系。顾客满意是公司未来利润的最好指示器。营销管理的实质就是需求管理三步式 会员体系 建立启匙“一步走”。以大数据为基础,APP为载体,构建企业客户画像。营销4.0诣在解决大数据、连接、价值驱动情况下,如何洞察与满足这些连接点所代表的需求,帮助消费者自我实现的过程。移动互联网、物联网的连接下,大量消费行为数据、消费习惯被记录到大数据系统内,变为消费者“比特化”。海量的消费行为、消费数据代表着与消费者无数个连接点,大数据和APP构成了企业会员体系的两层外网,据此可以构建客户画像,洞悉消费者需求。360度客户画像即360度客户信息标签化,根本是通过收集与分析消费者社会属性、生活习惯、消费行为等主要信息后,臆想客户的商业面貌。以大数据和APP信息为基础,店铺穿插数据采集设备,丰满型客户画像达成。企业将快速抓取精准用户群体以及用户需求。第一:收集数据。静态数据如年龄、性别、地域,动态数据如浏览网页、搜索内容等;第二:贴上客户标签及指标。标签代表客户的兴趣、偏好等,指标代表客户兴趣程度、购买概率等;第三:用户建模。即勾勒出什么地点什么时间谁做了什么事情。因此,企业可以通过客户画像,掌握消费者需求的雏形。启匙“两步跳”。掌握消费者需求,打造以会员为中心的服务体系。基于客户画像,企业进一步结合会员为中心的服务体系,落地实现消费者需求,以服务留存客户,形成客户忠诚。针对消费者不同需求,企业服务体系的实施可从以下五个方面进行:第一类,价值类需求。制定购物积分、折扣、生日特惠、免费包装服务等;第二类,便利类需求。制定致电会员中心享受免费预定、预留服务;第三类,个性类需求。安排会员VIP休息室、会员受邀出席沙龙活动等;第四类,速度类需求。机场VIP专用快速通道、银行快速服务通道等;第五类,信息类需求。发放指定商品信息、促销通知服务等。企业以会员为中心,掌握消费者不同个性需求,制定针对性活动,做到行动入心。在线上,借助会员特权和福利打造自己的积分商城,开拓市场合作,联合商家成为折扣专享联盟,让会员体验到特权。在线下,实体店实施体验升级计划、星级服务计划、体验旗舰店计划,对门店星级和服务进行管理。启匙“三步跑”。利用社交媒体,传播用户口碑。通过整合企业内外部资源,与顾客进行多方面接触,通过接触点向消费者传播企业形象和内容。并行采用线上推广、品牌投放、媒体公关、微信等社交媒体传播体系,充分调动一切积极因素,把客户的口碑传播开来。如海底捞就是把客户的体验做到了极致,产生了极强的口碑宣传作用。社交媒体营销管理闭环成型上海启匙运用以顾客为中心的需求管理三步式走法,即通过大数据找到客户画像;由客户画像对应的消费者需求,打造会员为中心的服务体系;再以服务为口碑,利用社交媒体传播出去,帮助企业形成口碑效应。至此,企业营销活动不再是单纯的造势,而是鲜活的内容。

2021社交媒体攻击又创记录,金融安全仍在榜首
根据PhishLabs的一份报告显示,社交媒体已成为黑客分发威胁渠道之一,在整个2021年这个渠道的攻击次数增加了两倍。PhishLabs 针对2021年第四季度和整个 2021 年开展了调查, 主要分析了次针对企业、其员工和品牌的数十万网络钓鱼和社交媒体攻击。该报告提出了最新发现和对影响威胁格局的关键趋势的见解。根据调查结果,与 2021 年 1 月相比,每个社交媒体账号遭遇攻击的数量增加了 103%,而且企业平均每天会遭遇一次威胁攻击。在2021年12 月,企业平均每月遭受超过68次攻击,或每天遭遇两次以上的攻击。“2021年是社交媒体作为威胁渠道遭遇攻击次数又创纪录的一年。HelpSystems首席策略师John LaCour表示,威胁行为者使用社交媒体进行欺诈、冒充名企和高管,并发起各种网络威胁,这也迫使安全团队监控各种平台以发现针对其企业的活动。“金融机构是最青睐的目标,因为它们的服务经常被广泛用于多个业务部门。”报告中还发现了其他成果。从第一季度到第四季度,由电子邮件发起的混合网络钓鱼(语音网络钓鱼)攻击的数量增加了 554%。网络钓鱼量同比增长28%,在第四季度观察到的所有网络钓鱼网站中有一半是使用免费工具或服务进行的。在Qbot和ZLoader攻击再次席卷的影响下,通过电子邮件传递的恶意软件在第四季度几乎增加了两倍。第四季度,70%的窃取数据广告出现在聊天服务平台和信用卡市场上。针对金融机构的网络钓鱼攻击,从第一季度的33.8%增加到第四季度的61.3%。LaCour 表示:“虽然黑客继续瞄准高价值行业,但他们也在持续关注社交媒体上安全性不足的企业机构,并伺机而动。在2022年,为了迅缩小针对其企业组织的威胁范围,企业必须拥有强大的防护能力,开始拓宽防线,进行跨渠道监控,并在新领域与技术提供商建立关系。”

AIGC-------AIGC在社交媒体内容生成中的应用
AIGC在社交媒体内容生成中的应用引言随着人工智能生成内容(AIGC)的快速发展,社交媒体平台上的内容创作方式发生了巨大变化。AIGC使得内容创作的门槛大大降低,从而让更多的人能够参与到社交媒体内容的创作中,同时也使得内容创作的质量和多样性得到了显著提升。在这篇博客中,我们将深入探讨AIGC在社交媒体内容生成中的应用,分析其技术实现方式以及在内容创作中的具体应用案例。我们将介绍AIGC的基本原理和其在文本生成、图像生成、音频生成等方面的具体应用,并且会涉及如何在实际项目中使用一些主流的AIGC工具和库进行开发。什么是AIGCAIGC(AI Generated Content),即人工智能生成的内容,是利用人工智能算法来自动生成文本、图像、音频或视频等内容的技术。这种技术的发展使得创作者能够快速生成优质内容,极大地降低了创作时间和成本。AIGC的核心技术AIGC的核心技术主要包括自然语言处理(NLP)、生成对抗网络(GAN)、Transformer架构以及深度学习模型。这些技术使得AI能够理解并生成各种类型的内容,下面我们将详细探讨几种主要的技术。自然语言处理与TransformerTransformer是一种基于注意力机制的神经网络架构,被广泛用于自然语言处理任务中,例如GPT系列模型。以下是一个基于Transformer的简化文本生成示例代码,使用了Hugging Face的transformers库:代码语言:javascript复制from transformers import GPT2LMHeadModel, GPT2Tokenizer
import torch
# 加载预训练的GPT-2模型和对应的分词器
tokenizer = GPT2Tokenizer.from_pretrained("gpt2")
model = GPT2LMHeadModel.from_pretrained("gpt2")
# 输入文本,作为生成的起点
input_text = "Social media content generation is "
input_ids = tokenizer.encode(input_text, return_tensors='pt')
# 生成文本
output = model.generate(input_ids, max_length=100, num_return_sequences=1, temperature=0.7)
# 解码生成的文本
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
print(generated_text)在上述代码中,我们使用GPT-2模型生成了一段社交媒体内容。这种基于Transformer的语言模型通过输入的起始文本,能够扩展生成相关内容,从而大幅度减少人工干预。生成对抗网络(GAN)生成对抗网络(GAN)常用于图像、视频和音频的生成。GAN由生成器和判别器两个神经网络组成,生成器用于生成新内容,而判别器用于判断内容是否真实。这种博弈过程可以让生成器不断提高生成内容的质量。下面是一个使用PyTorch实现简单GAN的例子,用于生成社交媒体上常见的图像内容:代码语言:javascript复制import torch
import torch.nn as nn
import torch.optim as optim
# 定义生成器
define_generator(input_dim, output_dim):
return nn.Sequential(
nn.Linear(input_dim, 256),
nn.ReLU(),
nn.Linear(256, 512),
nn.ReLU(),
nn.Linear(512, output_dim),
nn.Tanh()
)
# 定义判别器
define_discriminator(input_dim):
return nn.Sequential(
nn.Linear(input_dim, 512),
nn.LeakyReLU(0.2),
nn.Linear(512, 256),
nn.LeakyReLU(0.2),
nn.Linear(256, 1),
nn.Sigmoid()
)
# 定义超参数
z_dim = 100
img_dim = 28 * 28
lr = 0.0002
# 初始化生成器和判别器
generator = define_generator(z_dim, img_dim)
discriminator = define_discriminator(img_dim)
# 优化器
g_optimizer = optim.Adam(generator.parameters(), lr=lr)
d_optimizer = optim.Adam(discriminator.parameters(), lr=lr)
# 损失函数
criterion = nn.BCELoss()
# 训练循环(伪代码,仅示例)
for epoch in range(epochs):
# 生成随机噪声
z = torch.randn(batch_size, z_dim)
# 用生成器生成假图像
fake_images = generator(z)
# 判别器对真实图像和假图像进行判断
# 训练生成器和判别器
# ...上述代码展示了如何使用GAN生成用于社交媒体的图像内容。生成器根据随机噪声生成新的图像数据,判别器则用于判断生成的内容是否为“真实”的社交媒体图片。AIGC在社交媒体内容生成中的应用场景1. 文本内容生成在社交媒体上,文本内容的创作是最普遍的形式之一。从推文到社交帖子,AIGC通过自动生成有趣、引人注目的文本,帮助创作者提高效率。示例:社交媒体推文生成推文的生成是AIGC的典型应用之一,以下是使用OpenAI的GPT-3生成推文的代码示例:代码语言:javascript复制import openai
# 设置API密钥
openai.api_key = 'your_openai_api_key'
# 生成推文内容
def generate_tweet(prompt):
response = openai.Completion.create(
engine="text-davinci-003",
prompt=prompt,
max_tokens=50
)
return response.choices[0].text.strip()
# 示例输入和生成
prompt = "Write a tweet about the benefits of using AI in social media marketing."
tweet = generate_tweet(prompt)
print(tweet)使用这个代码,我们可以生成一条关于AI在社交媒体营销中应用的推文,自动化生成的内容可以有效帮助品牌增加社交媒体的曝光度和吸引力。2. 图像内容生成在社交媒体上,图像的吸引力远远超过纯文本内容。AIGC通过生成对用户有吸引力的图像,大大提高了社交内容的点击率。示例:使用DALL-E生成社交媒体图片以下是使用OpenAI的DALL-E模型生成社交媒体图片的示例代码:代码语言:javascript复制import openai
# 设置API密钥
openai.api_key = 'your_openai_api_key'
# 生成图像
def generate_image(prompt):
response = openai.Image.create(
prompt=prompt,
n=1,
size="1024x1024"
)
image_url = response['data'][0]['url']
return image_url
# 示例输入和生成
prompt = "A futuristic cityscape for a social media campaign."
image_url = generate_image(prompt)
print(f"Generated image URL: {image_url}")通过这个代码,我们可以生成一个适用于社交媒体活动的未来主义城市景观图像链接,从而使品牌在视觉上与众不同。3. 视频与音频内容生成除了文本和图像,视频和音频也是社交媒体内容的重要组成部分。AIGC也可以用于生成视频片段或者配音,增加用户参与度。示例:使用文本转语音(TTS)生成音频内容以下是使用gTTS(Google Text-to-Speech)库生成音频内容的示例代码:代码语言:javascript复制from gtts import gTTS
# 输入文本
text = "Welcome to our social media channel. Stay tuned for more AI content!"
# 生成音频
tts = gTTS(text=text, lang='en')
tts.save("welcome.mp3")
print("Audio content saved as 'welcome.mp3'")通过这段代码,我们可以将文本内容转化为音频文件,用于社交媒体视频中的配音,从而增强用户体验。AIGC应用的挑战与前景挑战内容质量控制:AIGC生成的内容有时会出现低质量或重复内容的问题,尤其是生成长篇内容时。道德与法律问题:AIGC在内容创作中可能涉及版权和隐私等问题,需要审慎对待。偏见与滥用:AIGC模型容易在生成内容中带有偏见,甚至被恶意用来生成虚假信息。前景创作者辅助:AIGC在未来将会成为创作者的有力助手,帮助他们快速产生创意、创作内容。多模态生成:结合文本、图像、视频和音频的多模态生成将是AIGC未来的重要发展方向。个性化内容生成:随着用户数据的不断积累,AIGC可以为每个用户生成个性化的社交媒体内容,进一步提升用户体验。结论AIGC在社交媒体内容生成中的应用前景广阔,其为内容创作带来了新的可能性,不仅提升了内容生产的效率,还显著降低了创作的门槛。尽管存在一些挑战,但随着技术的不断进步,AIGC在未来必将成为社交媒体内容创作的重要工具。通过本文的介绍和示例代码,我们可以看到如何使用AIGC技术生成社交媒体内容。如果您对AIGC的实际开发和应用感兴趣,推荐进一步学习深度学习模型的训练与优化,这将帮助您更好地理解并利用AIGC技术。希望这篇文章能为您提供有价值的启发,并帮助您在社交媒体内容生成的领域探索更多可能性!

社交媒体分析:洞察希拉里面对的性别歧视
大数据文摘作品
编译成员:周希雯,王昱森,闫蒲,陈妍君,Xenia
感谢Julia Lu提供的素材【摘要】作为女性总统候选人,希拉里被支持者视作政坛女强人,然而在社交媒体上,频现针对希拉里性别的语言攻击。本期大数据与社会为您译制了华盛顿邮报对于该现象的语义情感分析。友情提示,我们的团队成员还附上了文末彩蛋,让我们一起围观大数据下的美国竞选。不过,政治归政治,社交媒体要注意文明用语哦。下期大数据与社会将为您辣嘴点评海外数据科学与互联网研究相关的研究生项目,敬请期待。
图片及原文来自华盛顿邮报随着民主党总统初选,希拉里 • 克林顿和伯尼桑德斯之间的支持率越来越接近, 一些评论家认为,克林顿的竞选遭到性别歧视抨击的炮轰 — — 特别是来自桑德斯的支持者。但基于最近推特数据的系统分析,我们发现,非常少量针对克林顿的攻击可以归咎于一般大众里的左翼或特别是桑德斯支持者。极少量提到克林顿的推特包含着恶意且公开的性别歧视与性别诋毁。有不少观察者认为敌对和厌恶女人的风气已经在有些 #FeelTheBern 支持者中建立起来了— — 所谓的"伯尼兄弟 ” 例如记者琼沃尔什说,抱怨"情节恶劣"网上煽风点火,骚扰和性别歧视是来自于"伯尼键盘侠"。另一方面,作者格兰•格林沃尔德声称,“伯尼兄弟”这个称呼是希拉里支持者们对桑德斯万能且便捷的抹黑方式,用来削弱针对希拉里合理的批评。他认为,桑德斯的支持者并非只有那些在网络上言行特别侮辱与歧视女性的人群,他指出桑德斯的死忠粉中也有大量的女性。迄今为止,两边呈现出的情况都来源于一系列(不可否认,令人困扰的)趣闻轶事而非系统的分析。因此,我们基于推特,一个在性别歧视问题上臭名昭著的社交平台,来调查希拉里到底面临着多少敌意与性别歧视,以及在这样的言论攻击背后隐藏着什么样的群体。在新罕布什尔州初选期间,我们实时抽取了101,021条提及了希拉里或桑德斯或两者兼有的推特,并对他们的内容及发布者同时做了分析。◆ ◆ ◆我们如何分析文本数据?我们分析的第一步是检验有哪些词汇种类和提到各个候选人的推特有关联。我们把出现频率超过50次的词汇作为自变量,推特@账号(如@HillaryClinton, @BernieSanders,或两者一起)作为因变量,代入一系列统计模型。我们检验了特定词汇的出现能否预测这个推特是关于哪个候选人。实际上,我们已经知道推特内容是关于谁的,我们也没有那么关心这个预测的准确性,重要的是各个词汇的比重。比重越大,这个词汇和候选人的关联性便越高。随后我们更加仔细地检验了100个密切关联两个候选人的词汇的使用语气。为了检测使用语气,我们编译了一写包含此类词汇的推特的随机样本。与其让一个词汇代表它原本的含义,我们把它放入原文、更精确地理解这个词汇的使用是正面,负面,亦或是中性的。举例来说,词语“email(电子邮件)”本身是中性的,但在提到@HillaryClinton的推特里,“email”关系到正在进行的关于希拉里作为国务卿使用私人服务器的审查,带有负面含义。结合模型提供的词汇比重,展现在我们眼前的是推特用户如何对待民主党候选人的复杂关系。1.伯尼•桑德斯相关推文语义情感分析结果。从本图中可以看出,关于桑德斯的推文中,绝大多数词汇情感为中性或积极,少数情感偏负面消极。 2.希拉里•克林顿相关推文语义情感分析结果。而从这分可视化图表中可以看到,关于克林顿的推文只有少数偏积极情感,绝大多数词汇为中心或消极,而消极词汇中也偶现“撒谎(liars)”“输(lost)”等情绪更为激烈的负面词汇。如以上二图所示,@HillaryClinton 的相关词汇比@BernieSanders 更加负面。@BernieSanders的相关词汇中只有9个是负面的,有40个是正面的。克林顿相关词汇只有8个是正面的,有53个是负面的。然而,指向克林顿的负面词汇,如“Benghazi”(班加西,利比亚事件),“injustice(不公平)” “jail(监狱)” “emails(电子邮件)” 和 “unborn(未出生的)”,是和长期存在的右派言论相关的,且并没有来自左派的针对性特别批评。实际上,只有两个@HillaryClinton的关联词,“Goldman(高盛)”和“donors(捐赠人)”,与普遍存在的改革派怨言(特指克林顿和华尔街交好)有关。这两个词都处在前100高频词汇排名靠近最末的位置(分别是第97,98位)。◆ ◆ ◆我们如何寻找性别歧视相关的修辞?在关于大众媒体中的女政治家的论文基础上,我们接着评价这些词汇中有多少带着性别化色彩。性别化词汇包括一些感情,家庭生活,政策领域,外貌等等,会常被认为更男性化或女性化(比如国防,军队,教育)。如下图所示,只有12个@BernieSanders的关联词有性别化的意味。其中没有一个是负面的,同时4个正面词汇中有3个会提到Sanders在篮球场上的威力。3. 伯尼•桑德斯相关推文性别词汇语义情感分析结果。桑德斯推文中和性别相关的用词绝大部分偏中性,也有相当比例语义情感呈积极正向,比如“退伍军人(veterans)”。相反,在29个克林顿相关词中,13个带有负面含义,其中不少提到她丈夫。的确,大部分提到比尔•克林顿的推特会责怪希拉里•克林顿, 或指明她有顺从,她丈夫性关系上的不当行为。有趣的是,4个正面却带有性别化意味的词里有3个是典型的男性化。他们全都说克林顿正在为某事“搏斗”。 4. 希拉里•克林顿相关推文性别词汇语义情感分析结果。克林顿推文中与性别相关的词汇除了少数词汇情感为积极正向以外,其余多数偏中性和负面。尤其在负面词汇中,克林顿相关的推文中出现了“堕胎(abortion)”,“强奸犯(rapist)”等词汇。大部分这个群体里的负面词汇和社会上厌恶女人的言论一致,其中有许多特别让人反感(比如“vagina(阴道)” “b*tch(婊子)”)。为了进一步理解这些相互作用,我们在所有提到@HillaryClinton的推特中搜索了30个普遍的性别化诋毁的词,例如“bimbo(蠢女人)” “slut(荡妇)” “whore(娼妓)” 和 “shrill(尖刻)”(其中很多过于粗俗就不提了)。然后我们编译了出现过这些中伤词汇的推特,检验这些侮辱是否特别针对希拉里•克林顿。最终我们发现,30个性别诋毁中有23个在针对克林顿。然而,在一共52,181条提到@HillaryClinton的推特里包含了这些诋毁的,只有606条,也就是1.16%。尽管这些诽谤只是性别歧视中特别公开的一种,它们很少在推特里出现这一事实非常值得注意。“伯尼兄弟”(译者注:网络用语,泛指伯尼•桑德斯的男性支持者,具有性别主义色彩)是这些谩骂的幕后推手吗?其实这些谩骂者只是相当少的一部分人,但是任何这样的谩骂都令人烦恼。并且我们仍然需要知道谁应该对这些谩骂负责。因此,在分析的最后阶段,我们通过编程探究每一条谩骂是否源自伯尼•桑德斯的支持者 (作者注:可以通过他们的推特账户信息或者所发微博的语义信息来决定),以及探究在那些可被证实的桑德斯的支持者中,推文发送者的性别是男,女还是无法确定。5.针对希拉里克林顿推文中与性别相关的诋毁词。此图分析了针对希拉里克林顿具有性别歧视的诋毁词的来源统计,来源包括了桑德斯(民主党)的支持者、川普(共和党)的支持者及其他。其中诋毁词的来源绝大多数来自于川普的支持者,只有14.7%的诋毁词来自桑德斯的支持者。绝大部分的谩骂来自于右派(译者注:指美国共和党)的推特用户,特别是那些自认为是特朗普支持者的用户。但是仍有14.7%来自于那些支持桑德斯的用户。在桑德斯的支持者中,发布有关性别谩骂的用户有60.6%是男性,有29.2%是女性,还有10.1%无法确定性别。绝大多数谩骂语言男性和女性都会使用,但是一些语句的使用群体似乎更为特定:在这个数据集中,“荡妇”这个词作为侮辱性语句,主要会被女性桑德斯支持者所使用。6. 桑德斯支持者针对希拉里克林顿的性别诋毁词。该图分析了桑德斯支持者中对希拉里克林顿性别诋毁词的性别分布。 在发表类似词汇的桑德斯支持者中,有超过半数的用户为男性。而“娼妓(whore)”一词却主要来自桑德斯的女性支持者。因此,尽管我们确实发现了一些“伯尼兄弟”恶劣行为的证据,但是桑德斯支持者对希拉里•克林顿的谩骂,不管是来自于男性还是来自于女性,看起来都相对有限。希拉里•克林顿确实在推特上面临着负面的言语攻击和严重的性别歧视,不过绝大多数的攻击似乎还是来自于右派。此外,尽管任何有关性别歧视的谩骂都应该受到谴责,桑德斯的“键盘战士们”(译者注:网络用语,指那些专在网络表达愤怒等情绪的人)在新罕布什尔州初选中仅仅发布了89条与之相关的微博。在我们这次研究中,这只占了所有提到希拉里•克林顿的微博的0.17%。那些分析并不意味着桑德斯的支持者可以免于性别歧视的职责。我们并没有捕捉到全部形式的网络性别歧视,而是只捕捉到了那些最恶劣和公然的性别歧视。而且我们也没有研究对女性希拉里支持者的谩骂,而只是研究了有关对希拉里本人的谩骂。然而,对于网络上对希拉里攻击的程度和特点,我们的分析的确提供了一个更好的理解。此外,看起来只有相对极小比例的谩骂是来自于左派的(译者注:指美国民主党)。桑德斯也被右派全面攻击,却几乎没有在推特上受到负面关注的这样一个事实,也与性别歧视相符合。研究表明,与男性相比,所有的女性,不只是女政治家,不只是希拉里本人,都更可能面临网络上的攻击和谩骂。注:Rebekah Tromble是Leiden University政治科学中心的助理教授。Dirk Hovy是University of Copenhagen定量社会语言学的博士后研究员。【彩蛋】 除了此篇报到以外,大数据文摘与社会专栏特别对比了两位民主党候选人,桑德斯和克林顿在谷歌搜索中的支持率,谷歌趋势(google trend)统计了用户在谷歌搜索引擎搜索某一关键词的数量。我们分析了过去12个月以来两位民主党候选人在美国地区的搜索热度趋势变化图。桑德斯和希拉里的搜索热度变化趋势图,蓝色折线代表桑德斯的搜索热度,红色折线代表克林顿搜索热度。可以看出,在美国网民中,尽管在2015年4月左右,克林顿的搜索热度远高于桑德斯,然而此后桑德斯的搜索热度不断提高,并逐渐超越克林顿,截止今日,桑德斯的搜索热度已高于克林顿。谷歌搜索热度是否真的能够体现美国选民线下的投票意愿呢?让我们拭目以待。咦,团队一不小心加了“人见人不爱,花见花就败”的川普同学,居然搜索热度远超两位民主党候选人。恩,那么谷歌搜索热度是否真的能够体现美国选民线下的投票意愿呢?让我们拭目以待……

精选数据 | COVID-19 疫情微博社交媒体数据集
下载该数据集需要填写申请表,请访问https://github.com/nghuyong/weibo-public-opinion-datasets随着COVID-19在世界范围内的迅速发展,人们被要求保持“社会距离”和“居家隔离”。在这种情况下,广泛的社交互动转移到网络空间,特别是在Twitter和新浪微博等社交媒体平台上。在病毒大流行期间,人们通过发帖来分享信息、表达意见和寻求帮助,而社交媒体上的这些数据对于预防COVID-19传播的研究,如早期预警和疫情检测,都是很有价值的。
数据简介 我们发布了一个从新浪微博收集的全新的、细粒度的大规模COVID-19社交媒体数据集,名为Weibo-COV,包含了从2019年12月1日到2020年4月30日的4000多万条微博发帖。此外,该数据集还包含了诸如职位信息、交互信息、位置信息和转载网络等综合信息。我们希望这一数据集能够从多个角度促进对COVID-19的研究,并使更好和快速的研究能够抑制这种流行病的传播。数据集的字段说明如下表:字段字段说明_id微博IDcrawl_time爬取帖子时间(GMT+8)created_at发帖时间(GMT+8)like_num点赞数repost_num回帖数comment_num评论数content微博内容origin_weibo原贴IDgeo_info地址信息,经纬度数据集中每日微博数量分布数据来源和引用 北京理工大学毛先领教授团队。https://github.com/nghuyong/weibo-public-opinion-datasets 如果使用该数据集,请引用以下EMNLP2020论文:代码语言:javascript复制@inproceedings{hu-etal-2020-weibo,
title = "{W}eibo-{COV}: A Large-Scale {COVID}-19 Social Media Dataset from {W}eibo",
author = "Hu, Yong and
Huang, Heyan and
Chen, Anfan and
Mao, Xian-Ling",
booktitle = "Proceedings of the 1st Workshop on {NLP} for {COVID}-19 (Part 2) at {EMNLP} 2020",
month = dec,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.nlpcovid19-2.34",
doi = "10.18653/v1/2020.nlpcovid19-2.34",
}

算法也有“不靠谱”的时候,人工编辑再度占领社交媒体
摘要:虽然利用算法推送可以关注庞大用户群体的个性化阅读习惯且拥有较高的准确性,但算法推送只能单纯地依靠以往的阅读习惯进行推荐,却无法满足实时性的推送需求,也无法保证推送内容的质量。虽然算法可以在某种程度上帮助社交媒体公司和门户网站提高信息推送的准确度和更新速度,但算法永远无法像人工编辑一样理解用户的心理,并根据用户的心理来筛选相应推送内容。为了争夺用户和市场份额,社交应用公司们纷纷把目光投向人工编辑,希望通过人工编辑筛选内容来实现信息推送的个性化服务。Twitter和Moments在过去的半年多时间里,Twitter因为使用的算法无法读懂年轻人所使用的标签的含义而遭到投资人质疑其用户增速减缓。为了挽救这一局面,董事会邀请早前被炒掉的Jack Dorsey回归Twitter。
而Jack Dorsey在出任CEO后做的第一件事情就是在Twitter上推出了一个新功能——Moments。
新推出的Moments实质上是一个新闻聚合功能插件。与以往借助算法筛选信息的方式不同,Moments通过人工编辑对信息进行筛选、整合,形成当天热点事件的整合推送。除此之外,Moments还将与某一件事情相关的推文、图片、视频等资源整合到一起,让用户以一种全新的方式来了解“世界在发生什么”。
虽然Moments与微博的热门话题功能有很多相似之处,但在具体运作过程中,Moments与微博的“热门话题”之间却有着非常大的差别:
首先,Moments推送的内容是经由专门的编辑进行筛选、组织后产生的。为了提高筛选内容的精确度,Twitter在启用自家编辑的同时,还联合了华盛顿邮报、BuzzFeed、纽约时报、Vogue等多家合作伙伴。
其次在表现形式方面,Moments也具备更好的用户体验。Moments功能以闪电图标的形式出现在Twitter操作界面的底端。用户在点击进入Moments后会自动进入全屏模式以达到最佳的沉浸式体验。
Moments在APP底部以闪电图标出现在选择某一事件后,用户可以滑动屏幕浏览跟这个事件相关的所有内容,包括不同用户针对此事件发布的各种推文、视频、Vines 短视频等多种媒体形式。值得一提的是,针对不同事件,Moments会根据事件的特性采取不同的呈现形式,既为用户提供了丰富的感官体验,也保证用户可以通过最佳的形式了解某一事件。
虽然Moments目前只在美国开放使用,但Twitter方面对于这个新功能寄予非常高的期望。Moments功能的项目经理马德步·穆斯库瓦表示,Moments将帮助他们攻破那些并不非常热爱Twitter的轻度使用用户。
关于Moments是否能够帮助Twitter一扫当下的颓势我们目前并不能给出结论,但Moments的出现,无疑是对人工编辑在信息筛选方面能力的肯定。
知乎和读读日报作为当前国内最优质的网络问答社区,知乎从来不用担心缺乏优质的内容。但知乎的用户体验却做得差强人意。且不说知乎的站内搜索引擎有多么让人不敢恭维,单是在消息推送方面,知乎就很难将优质内容进行主动、有效地输出。知乎并没有根据话题和用户兴趣来关联回答内容,而是根据用户所关注的用户来关联问答内容。这样的消息推送方式让用户很难在最短的时间里找到自己需要的信息。为了解决这一问题,知乎进行了大量尝试,其中就包括知乎日报。尽管早期的知乎日报通过人工编辑筛选内容迅速地网罗了1500多万名用户,但随着用户基数的扩张和推送内容的增多,知乎日报的用户粘度渐渐开始呈现出下降的趋势。更重要的问题在于:每天20篇左右的精选文章,并不能从根本上解决内容有效归纳并输出给需要的人这个困境。读读日报,就是知乎日报为解决这一问题而进行的转型。与通过算法进行信息筛选、推荐的今日头条不同,读读日报在沿袭了知乎日报人工推荐模式的同时,新增了了“人人都是主编”的UGC(用户生成内容)模式。在这一模式下,每个用户都可以根据自己的兴趣创立自己的主题日报,并对其中的内容进行筛选填充,以供其他用户关注阅读。这种信息推荐模式使得信息的传播由以往的单向传播变成了双向传播。知乎编辑在为用户进行内容筛选推荐的同时,也可以从用户筛选的内容中获取有效信息,既加强了用户粘度,也能在一定程度上提高编辑的工作效率。总结除了Twitter和读读日报,Snapchat、Instagram、Facebook和YouTube等以往通过算法进行内容推送的社交媒体也分别于近日宣布增加新的管理功能:依靠人类从已经筛选过的大规模内容中选择最好的内容进行推荐。虽然利用算法推送可以关注庞大用户群体的个性化阅读习惯且拥有较高的准确性,但算法推送只能单纯地依靠以往的阅读习惯进行推荐,却无法满足实时性的推送需求,也无法保证推送内容的质量。
而人工编辑则可以利用他们对新闻的敏感性来判断新闻是否具有价值,根据社会环境和自然环境的变化决定当下用户最关注的新闻内容,从而确保用户可以准确地获取有价值的信息。
在这个信息爆炸的时代,想要做好内容的推送,不是单凭算法或是人工编辑就能完成的。只有将算法推荐和人工编辑的优势结合起来,才能够实现个性、精准、有质量的推送服务。

币聪财经-Sapien新秀社交媒体平台,分布式DAPP能否替代Facebook这样的传统社交?
最近涉及社交媒体的丑闻引起了如此轰动,以至于一些评论员甚至宣称“ 互联网已经崩溃。”区块链创业公司 Sapien 正试图解决其中一些问题,包括糟糕的数据隐私标准,普遍存在假新闻和审查制度。这些问题都极具政治色彩,这也是为什么像Sapien所做的那样需要分散社交媒体和新闻,这是非常迫切需要的。Sapien正在将以太坊区块链与业内最有效的令牌模型之一结合使用,以创建一个分散的平台,社区与独特的独一无二的奖励结构一起策划内容,而不是集中权威。Sapien选择使用以太坊网络的原因让我们看到了推动公共区块链运动的一些关键问题。先发优势在查看公共区块链时,实际的核心源代码只是一系列基本组件之一。伙伴关系,监管步法,品牌认知和信任以及社区都是在维护和扩展健康区块链生态系统方面发挥重要作用的部分。特别是,信任是社交媒体中的一个主要问题,许多人正在 离开Facebook 和其他平台,因为他们觉得自己的信任受到了侵犯。由于对隐私和其他问题的担忧,Facebook最近在一天内损失了1240亿美元的市值。个人利益往往与Facebook等大公司的利益不一致,以太坊社区因寻求开创保护个人权利的新形式治理而赢得声誉。以太坊是最早的几个平台之一,因此Solidity和以太坊开发堆栈正在迅速成为行业标准。Sapien选择以以太坊区块链为基础,意味着他们的商业模式可以分享这种势头的好处,这种势头正在迅速接近(或已经达到)临界质量。以太网似乎正在为Web 3.0做智能合约和分布式应用程序(DAPPs),TCP / IP和HTTP为Web 1.0上的数据共享协议做了什么。该Sapien的平台工作的信誉系统,用户奖励与SPN的发布高质量的内容,注释和upvoting岗位的基础上,并通过平台上的其他动作。除了分享这个市场地位外,Sapien Network最大的优势之一是为以太坊网络上的开发人员提供的工具套件。代码即法律计算机科学中经常引用一项名为“ 康威定律 ” 的法律。“简而言之,它指出软件的结构将反映开发软件的团队的结构。这是以太坊让很多开发人员兴奋的众多原因之一。加密货币作为软件开发的基础,开辟了全新的,非等级的团队结构,从而产生了新的软件。新的组织结构意味着开源开发人员实际上可以从他们的工作中谋生,而不是在业余时间追求开源野心。使用以太坊,这导致了一些滚雪球效应,因为已经开发的工具构成了后续工具的构建块。各种开发工具对于像Sapien这样复杂的多层应用程序尤其重要。这也是为什么任何较新的以太坊竞争对手不太可能在短期内在这个级别上竞争的原因。目前,以太坊是一个快速发展的生态系统,全球有多达250,000名开发人员。EEA(以太坊企业联盟)也包括令人印象深刻的500名成员,而2017年为30名。在以太坊上建设的开发商的环境在质量和数量方面都远远超过了竞争对手 - 但为什么呢?权力下放的重要性以太坊有几个竞争对手宣传卓越的技术性能,但他们仍然无法吸引以太坊为特征的同类开源社区(以及扩展,易于开发)。理解为什么以太坊吸引了众多有才华的开发人员需要查看网络中内置的基础价值。这些相同的价值观是Sapien团队定居以太坊的原因。以太坊是目前存在的最优秀的分布式dapp平台。数量比以太网更好的竞争对手通过分散可扩展性来实现这种性能,这对于许多专门的开发人员而言是令人反感的。转向权益证明随着Casper的发布,以太坊正朝着从工作证明转向证明合作的方向迈出重大步伐。Sapien Network也正在向Proof-of-Stake迈进,并已在其平台内实施了自己的赌注系统。这个赌注系统是分散系统的核心元素,用于确保Sapien平台上的新闻质量,就像以太坊的证明是一种保护以太坊网络上传输的数据和价值的完整性的手段一样。2018年3月发布的Sapien白皮书v1.3讨论了这些问题,Sapien博客上的每周更新也表明该团队始终跟上区块链领域快速发展的步伐。扩展问题这导致了像Sapien这样基于区块链的社交媒体平台面临的主要挑战 - 可扩展性。在Cryptokitties之后,以太坊的可扩展性成为人们关注的焦点。虽然以太坊批评者正在利用这些事件,但正如一些人所做的那样,将以太坊与AOL或MySpace 进行比较,有点牵强。区块链是协议,而不是接口。Facebook没有通过提供更好的技术来击败MySpace。他们赢了,因为他们使用相同的技术提供了更好的用户体验。以太坊的开发者体验是首屈一指的,正如在以太坊上进行的ICO数量所示。最终用户体验是Sapien关注的重要组成部分。以太坊的扩展辩论可能与比特币一样有争议,但最终,分片或等离子等解决方案实际上是以太坊生态系统的扩展,以包含更多的区块链,所有区块链都在一个共同的框架内运作。最后的想法总体而言,Sapien的模型是区块链技术最有前途和最令人兴奋的用例之一。团队决定在以太坊平台上发展,这反映了他们致力于在道德和道德问题与技术发展的实际方面之间取得平衡。用这种方法出现问题并不是真的可以想象。大多数区块链和分布式分类账运动的开源性和透明性意味着技术上的任何突破都可能在整个区块链空间中迅速传播。最大的问题是Sapien的用户体验如何适应不断增长的数据量。毫无疑问,具有当前问题意识的意识形态驱动人群将更喜欢Sapien,但要实现大规模采用,他们将不得不与用户体验和集中平台的熟悉程度竞争。如果Sapien能够实现这一目标,那么收益将是巨大的,即使占据Facebook市值的1%,也会转化为超过50亿美元的估值,或者每SPN 10美元。然而,这种成功将以直接的货币方式分配给Sapien 的用户,而不仅仅是股东。Sapien团队看起来装备精良,准备迎接挑战。以太坊区块链的选择意味着他们并不是唯一面对这些障碍的人,因为他们也拥有与他们一起工作的庞大而有才华的以太坊开发者社区的全部重量。