开放论坛
使用Puppeteer提升社交媒体数据分析的精度和效果
亿牛云代理导语社交媒体是互联网上最受欢迎的平台之一,它们包含了大量的用户生成内容,如文本、图片、视频、评论等。这些内容对于分析用户行为、舆情、市场趋势等有着重要的价值。但是,如何从社交媒体上获取这些数据呢?一种常用的方法是使用网络爬虫,即一种自动化地从网页上提取数据的程序。概述在本文中,我们将介绍如何使用Puppeteer这个强大的Node.js库来进行社交媒体数据抓取和分析。Puppeteer是一个可以控制Chrome或Chromium浏览器的API,它可以实现以下功能:生成网页截图或PDF文件模拟用户操作,如点击、输入、滚动等捕获网页上的元素,如文本、图片、链接等监听网页上的事件,如网络请求、响应、错误等评估网页上的JavaScript代码使用Puppeteer进行社交媒体数据抓取和分析有以下优点:可以处理动态渲染的网页,即那些需要执行JavaScript代码才能显示完整内容的网页可以模拟真实用户的行为,绕过反爬虫机制,如验证码、登录验证等可以灵活地定制爬虫逻辑,根据不同的社交媒体平台和数据需求进行调整正文在本节中,我们将详细介绍如何使用Puppeteer进行社交媒体数据抓取和分析的步骤。我们以Twitter为例,展示如何从Twitter上获取用户的基本信息、发表的推文、点赞的推文等数据,并对这些数据进行简单的分析。安装Puppeteer首先,我们需要安装Puppeteer这个Node.js库。我们可以使用npm或yarn这样的包管理器来安装。在命令行中输入以下命令:代码语言:javascript复制// 使用npm安装
npm i puppeteer
// 使用yarn安装
yarn add puppeteer启动浏览器和页面接下来,我们需要启动一个浏览器实例,并打开一个新的页面。我们可以使用puppeteer.launch()方法来启动浏览器,并使用browser.newPage()方法来创建页面。我们还可以传入一些选项来配置浏览器和页面的行为,例如是否显示浏览器界面、是否开启无头模式(即不显示浏览器界面)、是否忽略HTTPS错误等。例如:代码语言:javascript复制// 引入puppeteer库
const puppeteer = require('puppeteer');
// 启动浏览器
const browser = await puppeteer.launch({
// 是否显示浏览器界面,默认为false
headless: false,
// 是否开启无头模式,默认为true
devtools: true,
// 是否忽略HTTPS错误,默认为false
ignoreHTTPSErrors: true,
});
// 创建页面
const page = await browser.newPage();设置爬虫代理IP由于社交媒体平台通常会对频繁访问的IP地址进行限制或封禁,所以我们需要使用代理IP来提高爬虫效果。代理IP是指可以替代我们真实IP地址访问目标网站的其他IP地址,它可以帮助我们隐藏真实身份,避免被识别或屏蔽。我们可以使用亿牛云爬虫代理这样的服务来获取代理IP,它提供了高速稳定的代理IP池,支持多种协议和地区,还有免费试用的机会。要使用亿牛云爬虫代理,我们需要先注册一个账号,并获取域名、端口、用户名、密码等信息。然后,我们可以使用puppeteer.launch()方法的args选项来设置代理IP,例如:代码语言:javascript复制// 启动浏览器
const browser = await puppeteer.launch({
// 是否显示浏览器界面,默认为false
headless: false,
// 是否开启无头模式,默认为true
devtools: true,
// 是否忽略HTTPS错误,默认为false
ignoreHTTPSErrors: true,
// 设置代理IP
args: [
// 使用亿牛云 爬虫代理的域名和端口
`--proxy-server=http://www.16yun.cn:9180`,
// 使用亿牛云爬虫代理的用户名和密码
`--proxy-auth=16YUN:16IP`,
],
});访问目标网站有了浏览器和页面,我们就可以开始访问目标网站了。我们可以使用page.goto()方法来跳转到指定的网址,并等待网页加载完成。我们还可以传入一些选项来控制跳转的行为,例如是否等待网络空闲、是否等待指定的选择器出现等。例如:代码语言:javascript复制// 访问Twitter首页
await page.goto('https://twitter.com/', {
// 等待网络空闲,即没有超过0.5秒的网络请求
waitUntil: 'networkidle0',
});模拟用户操作有时候,我们需要模拟用户的一些操作,才能获取到我们想要的数据。例如,我们可能需要登录账号、输入关键词、点击按钮、滚动页面等。Puppeteer提供了一系列的方法来实现这些操作,例如:page.type()方法可以在指定的选择器中输入文本page.click()方法可以点击指定的选择器page.waitForSelector()方法可以等待指定的选择器出现page.waitForNavigation()方法可以等待页面跳转完成page.evaluate()方法可以在页面上执行JavaScript代码例如,我们可以使用以下代码来登录Twitter账号:代码语言:javascript复制// 点击登录按钮
await page.click('a[href="/login"]');
// 等待登录页面加载完成
await page.waitForNavigation({ waitUntil: 'networkidle0' });
// 输入用户名和密码
await page.type('input[name="session[username_or_email]"]', 'your_username');
await page.type('input[name="session[password]"]', 'your_password');
// 点击提交按钮
await page.click('div[data-testid="LoginForm_Login_Button"]');
// 等待首页加载完成
await page.waitForNavigation({ waitUntil: 'networkidle0' });提取数据元素当我们访问到我们想要的网页后,我们就可以开始提取数据元素了。Puppeteer提供了一些方法来获取网页上的元素,例如:page.$()方法可以返回一个匹配指定选择器的元素对象page.$$()方法可以返回一个匹配指定选择器的元素对象数组page.$eval()方法可以对一个匹配指定选择器的元素对象执行回调函数,并返回结果page.$$eval()方法可以对一个匹配指定选择器的元素对象数组执行回调函数,并返回结果例如,我们可以使用以下代码来获取Twitter上一个用户的基本信息,如昵称、简介、关注数、粉丝数等:代码语言:javascript复制// 访问一个用户的主页,例如@elonmusk
await page.goto('https://twitter.com/elonmusk', {
waitUntil: 'networkidle0',
});
// 获取用户昵称
const name = await page.$eval(
'div[data-testid="primaryColumn"] div[dir="ltr"] span[role=“heading”]', (el) => el.textContent );
// 获取用户简介
const bio = await page.$eval( ‘div[data-testid=“primaryColumn”] div[dir=“auto”] span’, (el) => el.textContent );
// 获取用户关注数
const following = await page.$eval( ‘div[data-testid=“primaryColumn”] a[href=“/elonmusk/following”] span’, (el) => el.textContent );
// 获取用户粉丝数
const followers = await page.$eval( ‘div[data-testid=“primaryColumn”] a[href=“/elonmusk/followers”] span’, (el) => el.textContent );
// 打印用户基本信息
console.log(昵称:${name}); console.log(简介:${bio}); console.log(关注:${following}); console.log(粉丝:${followers});分析数据内容当我们提取到数据元素后,我们就可以对数据内容进行分析了。Puppeteer可以让我们在页面上执行任意的JavaScript代码,所以我们可以使用JavaScript的内置或第三方库来进行数据分析。例如,我们可以使用以下代码来获取Twitter上一个用户的发表的推文,并对推文的情感进行分析:代码语言:javascript复制// 引入sentiment库,用于情感分析
const sentiment = require('sentiment');
// 获取用户发表的推文
const tweets = await page.$$eval(
'div[data-testid="tweet"] div[dir="auto"] span',
(els) => els.map((el) => el.textContent)
);
// 对每条推文进行情感分析,并打印结果
tweets.forEach((tweet) => {
// 使用sentiment库对推文进行情感分析,返回一个对象,包含分数、比较度、正面词、负面词等信息
const analysis = sentiment(tweet);
// 打印推文和分析结果
console.log(`推文:${tweet}`);
console.log(`分数:${analysis.score}`); // 分数越高,表示情感越正面;分数越低,表示情感越负面
console.log(`比较度:${analysis.comparative}`); // 比较度表示每个单词的平均分数,范围在-5到5之间
console.log(`正面词:${analysis.positive}`); // 正面词表示推文中的正面情感词汇
console.log(`负面词:${analysis.negative}`); // 负面词表示推文中的负面情感词汇
});案例为了更好地理解如何使用Puppeteer进行社交媒体数据抓取和分析,我们可以看一个完整的案例。在这个案例中,我们将从Twitter上获取@BillGates这个用户的基本信息、发表的推文、点赞的推文等数据,并对这些数据进行简单的分析。完整的代码如下:代码语言:javascript复制// 引入puppeteer库
const puppeteer = require('puppeteer');
// 引入sentiment库,用于情感分析
const sentiment = require('sentiment');
// 定义一个异步函数,用于执行爬虫逻辑
async function scrapeTwitter() {
// 启动浏览器
const browser = await puppeteer.launch({
// 是否显示浏览器界面,默认为false
headless: false,
// 是否开启无头模式,默认为true
devtools: true,
// 是否忽略HTTPS错误,默认为false
ignoreHTTPSErrors: true,
// 设置代理IP
args: [
// 使用亿牛云爬虫代理的域名和端口
`--proxy-server=http://www.16yun.cn:9180`,
// 使用亿牛云爬虫代理的用户名和密码
`--proxy-auth=16YUN:16IP`,
],
});
// 创建页面
const page = await browser.newPage();
// 访问Twitter首页
await page.goto('https://twitter.com/', {
// 等待网络空闲,即没有超过0.5秒的网络请求
waitUntil: 'networkidle0',
});
// 点击登录按钮
await page.click('a[href="/login"]');
// 等待登录页面加载完成
await page.waitForNavigation({ waitUntil: 'networkidle0' });
// 输入用户名和密码
await page.type('input[name="session[username_or_email]"]', 'your_username');
await page.type('input[name="session[password]"]', 'your_password');
// 点击提交按钮
await page.click('div[data-testid="LoginForm_Login_Button"]');
// 等待首页加载完成
await page.waitForNavigation({ waitUntil: 'networkidle0' });
// 访问@BillGates的主页
await page.goto('https://twitter.com/BillGates', {
waitUntil: 'networkidle0',
});
// 获取用户昵称
const name = await page.$eval(
'div[data-testid="primaryColumn"] div[dir="ltr"] span[role="heading"]',
(el) => el.textContent
);
// 获取用户简介
const bio = await page.$eval(
'div[data-testid="primaryColumn"] div[dir="auto"] span',
(el) => el.textContent
);
// 获取用户关注数
const following = await page.$eval(
'div[data-testid="primaryColumn"] a[href="/BillGates/following"] span',
(el) => el.textContent
);
// 获取用户粉丝数
const followers = await page.$eval(
'div[data-testid="primaryColumn"] a[href="/BillGates/followers"] span',
(el) => el.textContent
);
// 打印用户基本信息
console.log(`昵称:${name}`);
console.log(`简介:${bio}`);
console.log(`关注:${following}`);
console.log(`粉丝:${followers}`);
// 获取用户发表的推文
const tweets = await page.$$eval(
'div[data-testid="tweet"] div[dir="auto"] span',
(els) => els.map((el) => el.textContent)
);
// 对每条推文进行情感分析,并打印结果
tweets.forEach((tweet) => {
// 使用sentiment库对推文进行情感分析,返回一个对象,包含分数、比较度、正面词、负面词等信息
const analysis = sentiment(tweet);
// 打印推文和分析结果
console.log(`推文:${tweet}`);
console.log(`分数:${analysis.score}`); // 分数越高,表示情感越正面;分数越低,表示情感越负面
console.log(`比较度:${analysis.comparative}`); // 比较度表示每个单词的平均分数,范围在-5到5之间
console.log(`正面词:${analysis.positive}`); // 正面词表示推文中的正面情感词汇
console.log(`负面词:${analysis.negative}`); // 负面词表示推文中的负面情感词汇
});
// 关闭浏览器
await browser.close();
}
// 调用异步函数,开始爬虫任务
scrapeTwitter();结语本文介绍了如何使用Puppeteer这个强大的Node.js库来进行社交媒体数据抓取和分析。Puppeteer可以让我们控制Chrome或Chromium浏览器,模拟用户操作,提取网页元素,执行JavaScript代码等。我们可以使用Puppeteer来从不同的社交媒体平台上获取我们想要的数据,并对这些数据进行简单或复杂的分析。Puppeteer是一个非常有用和灵活的工具,可以帮助我们实现各种网络爬虫的需求。
全球主流社交媒体算法解析:Facebook、YouTube、Twitter如何利用算法推荐内容?
作者Ste Davies (转载自“腾讯媒体研究院”)在如今的世界中,算法已经成为了我们日常生活的核心。当你进行网络搜索,滚动浏览社交媒体上的信息,或者从Spotify上接收到歌曲推荐时,实际上你正在被算法指导,甚至算法比你本人更了解你的消费习惯。每天,你的决策和选择都会受到算法的影响。这些数学上的计算会影响你在亚马逊上的购买决定、你的购物历程,甚至是否在购物车中保留你喜欢的麦片。算法就像魔术一样,当他们正在运行时,你完全无法识别他们。他们在你和你的任务之间悄无声息地运作着。虽然听起来很危险,但总的来说,算法可以为你提供帮助。社交媒体算法正在成为你所做的所有事情的核心。虽然算法经常错误地理解人类,出现不准确的情况,但是他们一直在学习。你,以及整个社会的新闻和信息消费方式可以直接归因于算法。无论是在Google上搜索还是在Facebook和Twitter上滚动浏览,呈现的新闻和信息的方式均来自一个数学方程式,基于以下两个因素:1.算法质量——内容的质量标准。2.历史记录——过去你对特定内容所做的动作和反应。这意味着无论是被设计的还是个人选择,社交媒体算法都使我们能够创建过滤器以查看所需内容,并删除所有我们不需要的内容。此外,业内还出现了一种“算法可能会引起信息极化和偏差”的说法。因此,了解算法并了解算法何时发挥作用,这一点很重要。算法的重要性还体现在哈佛商学院的一项研究中,研究发现人们更有可能遵循来自算法的建议,而不是人的建议。这正是本文诞生的原因之一。本文提供了一种指导方法——当算法控制了你的阅读时,你该如何思考。首先,本文并不打算列出算法内部的确切的计算原理,而是将重点放在囊括当前主流社交媒体算法的主要特点。其次,文中所展示的图表并不是算法的可视化,它们更多地是展示某些决定性问题,而不是算法方程式。本文作者为Ste Davies,由腾讯媒体研究院编译。你可以遵循这篇文章来迭代自身内容,以确保能在各大平台获得最大的影响。本文内容纲要:Facebook算法发展及解析Twitter算法发展及解析Instagram算法发展及解析YouTube算法发展及解析日新月异的社交媒体算法早期社交媒体的目的是为那些在现实生活中无法联系的人们提供一个线上联系的渠道。比如Facebook上的家人和朋友;Linkedln上的同事和工作熟人;以及Twitter上的任何人。随着各平台不断地成长,以及不断地探索变现的方法,这些平台开始丰富他们的产品。新闻分发是其中的关键组成部分。社交媒体尤其是Facebook,开始把自己定位为新闻发布的渠道。随着越来越多的人开始通过他们接收新闻,Facebook改变了自己的算法以适应这种变化,新闻出版机构致力于在这些平台上扩大受众,并越来越多地制作简短有趣又可共享的内容。2015年,Facebook超越Google,成为新闻网站的第一大流量来源,巩固了其作为社交网络巨头的地位。然而,事故随之而来。标题党文章、虚假新闻、机器人、网络喷子开始占领社交媒体平台。Facebook算法(也许是世界上最著名的算法)处于漩涡中心。报告显示,人们在访问Facebook和Twitter之后感到更高程度的焦虑和不满。社交媒体平台变成了黄色新闻的传播者,他们没有建立人与人之间的交流,反而促使了群体的分裂。自2018年以来,社交媒体算法的潮流再次改变。Facebook宣布,他们打算优先传播“有意义的对话”而不是新闻报道。Twitter正在终止平台上的自动化,这意味着所有由机器人创造的虚假数据如点赞,关注或者转发将会被消除。LinkedIn的状态更新优先级将给予那些敢于展示更多个性化和个人生活的专业用户。所有的平台都将优先展示自己平台上的原创内容,而不是第三方链接。在2018年,“搜索”超过了“社交”,自2015年来首次成为社交网站上新闻网站的更大引荐来源。这是社交媒体新时代的开始。如今这个时代更注重人际关系,而不是信息消费。这也是为什么如今网红营销蒸蒸日上的原因之一。品牌希望与社交媒体网红合作,因为他们已经与受众建立了深厚的联系。算法规则再次被改变。对于许多发布者而言,这意味着流量的终结,甚至在某些情况下,这意味着他们整个业务模型的终结。对于那些希望在社交媒体中分一杯羹的品牌来说,它们则需要转变观念。现在的算法不仅仅是为一个受众,而是关于建立社区;不再是吸引注意力,而是使内容更具对话性;它的最终目的是用更坦白的方法参与用户的社交活动。为什么我们需要了解社交媒体算法如果不理解社交媒体算法是如何工作的,就如同在黑夜中开车不开灯。虽然在这种情况下你也有可能达成目标,但我们没有必要冒这个风险。简而言之,出于以下原因,你需要了解它们:影响:确保您的内容产生最大的影响投资回报率:确保你为内容制作和发布所花费的时间和精力能获得最大的回报。声誉:长期成为算法系统中的可靠信息源。扩大社会影响力:我们必须能够“以其人之道还治其人之身”,以防止虚假信息在网上传播各大社交平台正在不断地改变、完善和测试他们的算法。最重要的是,我们要跟上他们的步伐。准备好了吗?让我们开始研究社交媒体算法吧。Facebook算法Facebook可能拥有世界上最著名(或臭名昭著)的社交媒体算法。
在过去的几年中,它一直处于争议的中心,不仅在美国和欧洲,而且在世界各地都引起争议。由于Facebook希望为用户提供更多价值,为广告吸引更多的注意力,因此它不断地进化算法。也许这就是为什么,它会与Google搜索算法一起成为传统和互联网媒体持续裁员的主要原因。Facebook算法以前被称作EdgeRank,在过去几年中它由于种种过失而备受关注。因为该算法导致了一种病态的情况:自然接触率几乎消失,新闻信息流已近消亡,标题党和假新闻濒于垮台。1 / 用户自由访问率大幅下滑2014年,Facebook的专页用户注意到他们的用户访问率开始下降。尽管数字有所变化,但平均用户访问率却从16%下降至6.5%。一个拥有10,000个粉丝的专页只会吸引其中的650个点击浏览。拥有超过500,000名粉丝的专页用户,他们的用户访问率陡降至2%左右。Facebook表示,这样做仅仅是因为平台上的内容变多了,所以人们应该只看到与他们最相关的内容。从那以后,Facebook继续调整该算法,进一步降低了专页的用户访问率。大约在同一时间,Facebook专页在Facebook平台上的广告收入几乎达到了顶峰,然而不久后,它就依靠Instagram来实现大部分收入增长。如今,Facebook专页更适合用于开展广告活动,而不是其他任何活动。2 / 互联网不断渗透,过新闻信息流正在退出主场,与用户相关的生活内容才是王道生活内容改变了社交媒体的格局,而新闻信息流遭受重击。消费者最想要看到的内容是他们朋友、家人和KOL们在Instagram,Snapchat和Facebook上发布的短内容。而新闻信息流成为了旧时代的遗物。尽管它不会很快消失,但它将不再具有曾经对社会的影响。Facebook将生活内容视为未来,并声称每天有十亿条内容在其平台上共享,但到目前为止,它们还无法像其他广告资源那样从中获利。不过,生活内容是前进的方向,永远不要低估Facebook的获利能力。3 / Facebook将不再宽容地对待虚假新闻和标题党曾经,在Facebook上“病毒式传播”是一件很容易的事。制作一段人们会共享的内容,并采用不错的发行方式,就可以保证将其传播到整个Facebook平台。这就是BuzzFeed与其他发行商(例如紧随其后的Unilad)建立他们业务模式的基础。内容被设计为“可点击”和“可共享的”,因为它们利用了社交心理触发因素,这些触发因素会唤起人们对爱情,幽默,恐惧或愤怒的情绪。这一策略常常被运用,人们用各种不道德的方法制作虚假的内容。这个旧的Facebook算法,其病毒性元素在2016年美国大选和英国脱欧中都产生了巨大的影响。有关这两个事件的内容都主要在Facebook上播放,很轻易地传播各种假新闻,并且用标题党来篡改知名新闻来源的内容尽管Facebook仍有推动假新闻传播的倾向,但该公司最近删除了1400万条恐怖内容,建立“选举战情室”以维护各地选举,要求浏览网站和政治广列的用户验证其身份。通过这种方式来提高控制和根除虚假新闻的能力。在分享新闻方面,Facebook的用户习惯也发生了变化。一项研究显示,出于对隐私的关注,他们更喜欢使用消息应用程序WhatsApp和Messenger(均为Facebook Inc.拥有)与密友和熟人共享和讨论新闻。4 / 新的Facebook算法负面媒体报道的累积,以及研究发现人们访问Facebook后会感到不开心,这两项原因促使该公司迅速采取行动,删除了有关使人发疯,难过或悲伤的内容的共享。排名因素。资料来源:Facebook,作者Matt Matt Navarra马克·扎克伯格(Mark Zuckerberg)在2018年1月发布的公告中说,新的算法将优先考虑“有意义的社交互动”。在扎克伯格的帖子中,他概述了以算法为中心的Facebook的新发展方向。“我们营造的Facebook的方法正在发生重大改变。我改变了产品团队的目标,从专注于帮用户找到相关内容,转变为帮助用户得到更多有意义的社交互动。”这意味着,Facebook算法现在将优先考虑推荐一些可以引起朋友和家人讨论的内容,而不是标题党内容和第三方链接。Facebook提供的有意义的互动包括:个人评论、对他人的状态更新或照片的点赞个人对朋友分享的内容所做出的回复视频或文章评论中的多人互动通过Messenger共享链接与一群朋友开启对话此举引发了一些依赖Facebook作为交流平台的企业和组织的担忧。媒体行业的员工以及像LittleThings和Unilad之类的出版商受到了极大的影响。由于新算法的引荐流量突然下降,他们被迫关闭或者被收购。但是,由于自然接触率一直处于历史最低水平,以及优先考虑亲朋好友之间的交流的举措,许多组织开始质疑,在Facebook上投入精力是否值得。鉴于其庞大的规模和流量优势地位,Facebook仍值得创作者们付出努力,但是需要用一种新的方式来改变算法。5 / 我们对Facebook算法了解多少?和原来所想的不一样,Facebook声称他们并没有在最初与26个人分享你的内容可以用一个面向小部分用户的帖子来测试初始参与度Facebook算法将优先推荐促进朋友和家人之间对话的内容Facebook将优先推荐Messenger共享的链接用户的积分(页面的完整性,共享历史等)是排名因素被用户分享并引起进一步讨论的品牌或发布者内容将获得优先推荐Facebook算法将优先推荐实况视频,因为它会收到更多互动比起第三方链接帖子,本地视频帖子会获得更多的参与度参与度的计算将基于积分系统带有长评的帖子将获得更高的权重本地内容优先于第三方链接内容根据Buffer的研究,每天发布五条内容或许是最佳方案标题党,以及要求人们“点赞,评论或分享”的内容会被降低权重耸人听闻的内容会被该算法标记Facebook算法将降低出现标题错误的文章的排名6 / Facebook算法排名因素——7 / 如何适应Facebook算法?有意地制作可以推动Facebook用户讨论的内容
这是Facebook的新常态,任何使用该算法的人,如果他们希望在该平台上获得好的反馈的话,在制作内容时都应该考虑到这一点。采取80/20作为原创内容和他人内容的比例
Facebook希望用户为该平台创造内容,但是如果你的目标是为自己的网站引流,那你需要采取合适的举措。算法在以下情况中可以帮助你:成为可靠的内容生产者,制作原创内容,只在极少的时候链接到你自己的网站。尽可能使用直播视频来提高参与度
Facebook明确表示,他们将优先推荐直播视频,因为他们知道直播视频的参与度是任何其他内容的六倍。任何能够推动有意义的参与的事情,都是值得做的。制定一个总体的视频战略
在可预见的未来,优质的本地视频仍将在Facebook中占据领先地位。定一个目标:要成为算法眼中的优质内容(有选择地分享你的内容)
不要在Facebook上分享你的所有内容。如果该内容没有产生参与度,那么你的积分就会降低。仅分享你认为适合平台和受众的内容。绝对不能有标题党,骗赞和过度营销的内容
Facebook算法将标记标题党、耸人听闻的文章、要求用户点赞,评论和分享的内容以及过度营销的内容。如果要成为算法眼中的可靠账户,请不要执行任何这些操作。Twitter算法退一步说,Twitter自成立以来的经历波澜起伏。实际上,Twiter多年来一直无利可图,直到2018年它才实现了首次年度盈利。
尽管具有盈利能力,但Twitter正在失去用户,这与它清理平台,删除垃圾邮件和机器人帐户有关。Twitter可能仍将是一个利基社交网络,但它吸引的用户类型是世界上最具影响力的一些用户。这个平台受到了媒体和政治精英的青睐,在推动新闻议程方面发挥着关键作用。Twitter的实时性,极易上手,不需要任何写博客或者创建博客等技术知识,这些可能是Twitter在这些人中受欢迎的原因。1 / Algorithmic Timelines引言2016年Twitter推出了它的算法,被称之为“Algorithmic Timelines”。在此之前,当你登录Twitter时,你的信息流是按逆序排列的,你关注的人的最新推文被排在首页顶部。但是现在登录Twitter的话,情况有所不同。它不再按时间顺序排列,你的时间轴顶端的内容可能是30分钟前发布的消息,而最近的推文可能会在后面显示。这是目前正在使用的算法,旨在根据用户先前对平台的使用情况,为用户提供最相关的内容。算法认为你会觉得这些内容最重要,所以把这些推文推送给你。当你在制定Twitter策略的时候,必须考虑到这一点。不过,Twitter为用户提供了在算法时间轴和正常时间轴之间切换的选择,尽管默认情况下是使用算法时间轴。2 / 网络喷子,机器人账号和选举和Facebook一样,Twitter近年来一直是争议的焦点。它被指控为匿名的网络喷子和极端主义团体提供了一个平台,可以大肆宣扬恶毒言论和仇恨,并容许俄罗斯帐户和机器人账户介入2016年美国总统大选。去年1月,Twitter声称,他们已删除了50,000个与俄罗斯有关的帐户,这些账号使用该平台发表了与2016年选举有关的、机器生产的恶意内容。这也促使了去年2月Twitter算法进行了新一轮改进。从现在开始,将不允许在Twitter平台上发表自动化内容(或使用机器人账号)。Twitter通过以下声明向服,明确警告了那些使用机器人账号的服务商:“不允许使用任何形式的自动化(包括计划使用)来发布相同或基本相似的内容,也不允许一人操控多个账号进行点赞或转发等操作(无论你是否创建或直接控制这些帐户)。”3 / 在280个字的限制下运用算法时间轴Twitter算法的目的是增强时间轴的相关性,以便用户可以捕获重要的推文,否则他们会错失与他们互动最多的人之间的交流机会。与此同时,Twitter仍将自己视为实时新闻网站以及社交平台。当你登陆账户时,首页会询问“正在发生什么?”,Twitter通过这一举措来增强以上两种属性。它不会向你展示几天前的推文,因为按照Twitter的标准,它们太旧了。Twitter的目的是帮助人们发现“现在正在发生的事情”,与之相比,Facebook或LinkedIn则更多地关注“本周发生的事情”。因此,虽然该算法会把较旧的推文展示在首页顶端,但时间仍然是重要的因素。而且,如果你希望自己的推文获得尽可能多的覆盖率和参与度,你必须适应该算法。2017年9月,Twitter做出了迄今为止最大胆的改变之一,将字符数限制从140个增加到280个。这引起了用户的愤怒,他们认为此举将导致该平台的灭亡。但是事后看来,Twitter制定了一项不错的计划,因为通过对语言的参与度数据进行分析后发现,推文中可以容纳更多的内容。他们发现日语推文(这种文字允许更多的内容)比英语推文获得了更多的参与度。话虽如此,据报道,截止2018年10月,平均推文长度仍然只有35个字符。4 / 我们对Twitter算法了解多少?时间在Twitter算法中占重要地位信誉度高的账户受到算法的青睐字数控制在280个字以内可提高参与率尽管可以分享链接,但平台内的内容权重将高于第三方链接内容与您互动最多的人的推文将排在顶部可以用一个面向小部分用户的帖子来测试初始参与度点赞,回复和转发能得到较高分数即使你与某些内容没有互动,阅读改文章或访问某个人的个人资料所花费的时间仍将影响你的首页内容。你与他人的互动越多,算法就会更多地为你推荐他所关注的内容(如果他们关注你的话)5 / Twitter算法排名因素——6 / 如何适应Twitter的算法?发布时间:在粉丝在线的时候发送推文
使用第三方服务(例如Tweroid或ManagerFlitter)来了解,你的粉丝通常在一天中的什么时间在线。这个时间段是最好的发布时间,能够确保你的推文在粉丝中获得尽可能多的曝光度。推文拥有的曝光度越高,互动的几率就越大。通过围绕特定主题或领域来建立粉丝基础,以此提高相关性和参与度
有些人为了使自己看起来很有影响力而买粉,或者他们用机器人来关注或取关大量账号,以此快速增加自己的粉丝数。
这样做的问题是,他们发推时很少收到互动。因为他们的大多数粉丝要么是垃圾账号,要么是不相关的账号。
谢天谢地,现在Twitter禁止了这种数据操作。对我们所有人来说,我们从中学到的是:
要制作参与度高的推文,你必须拥有相关且响应迅速的受众。不需要关注大量不相关账号,以希望他们回关你。相反,你需要重点对待你关注的账号,因为时间长了之后,这些类型的帐户有可能会关注您。根据粉丝的喜好来制作推文
Twitter Analytics(分析)不仅提供了大量关于你的推文的数据,而且提供了大量关于粉丝的数据。它将告诉你粉丝的主题兴趣,并按百分比细分。
一旦了解了粉丝的兴趣,就可以根据他们的喜好制作推文。内容与粉丝越相关,他们参与的可能性就越大。使用280个字来提供更多信息和上下文
Twitter声称,字数更多的推文能吸引更多的用户。这是因为你可以添加更多信息和更多上下文。字数多也可以提供更多的创造力。Twitter算法奖励这样的行为,所以请写更多的字数。确保你的个人资料是可信的
确保您的个人资料是最新的,并且填写了所有的相关信息(名称,简历,位置,链接,照片等)。
该算法更喜欢看起来可信度高的账号,因此不要发垃圾内容,发失效的链接或使用自动化软件。每天都发内容
如果你每天都发推文,为粉丝带来价值,那么算法就会为你带来回报。如果在过去一周中粉丝与你的推文进行了互动,那么算法将会增加你的优先级。与你的粉丝互动
当你转发,@回复其他人,他人回复你的时候,算法会在他们的时间轴中推荐你的内容(前提是他们关注你)。
与其他Twitter帐户互动可以确保算法将你视为社区的内容创作者。不要只是发推文并期望人们与你互动——你需要主动与他人互动。Instagram算法尽管Instagram不如Facebook算法出名,但Instagram无疑是最酷的社交媒体算法,也是未来最重要的算法,因为Instagram逐渐成为改变消费者文化的中坚力量。毫无疑问,Instagram是最热门的社交媒体平台,而且热度可能还会持续一段时间。它改变了整个行业,例如时装业中,著名时尚杂志(如Vogue)不再硬性规定其中应该出现的内容和不应该出现的内容。现在,它已经成为人们变身KOL的主要平台,因为Instagram的创作过程比任何其他社交平台都容易得多。数据显示出持续上升的趋势,这意味着Instagram的网红营销正在蓬勃发展。Instagram是时尚,健身,旅行,游戏,宠物甚至CGI KOL等各行各业KOL们的家园。只要你使用Instagram工具和软件,有足够的才干并投入工作,任何人都可以成为“ins明星”。不过,像其兄弟网站一样,Instagram最近也出现了负面新闻,不过和Facebook相比还差得远。1 / KOL骗局对于新手来说,有很多人尝试欺骗Instagram算法,使自己看起来比实际上更有影响力。人们使用机器人和代理服务来自动关注或取消关注他人帐户,用机器人来点赞或对他人内容进行评论,这种情况在Instagram上比比皆是。这并不是真正的粉丝关系和互动参与,而是一种对系统的操纵。Instagram似乎对此无能为力。更糟糕的是,购买假粉和假互动来夸大其粉丝数量,这种情况在Instagram上也很盛行。从第三方网站上购买几千个粉丝只需很少的费用(5-10美元),用相似的价格,还可以让“人们”点赞并评论你的内容。在这种情况被整顿之前,许多假KOL会以此来欺骗品牌和代理商与他们合作,为他么花钱。从长远来看,这些假KOL们肯定会被发现,因为品牌的投资回报率并不符合KOL们所展现出的影响力。2 / 从时间轴到Instagram算法的转变Instagram于2016年中宣布了自己的社交媒体算法,旨在为用户提供他们最希望参与的内容类型。在上线nstagram算法之前,信息流按时间顺序发布,这意味着你可以在页面顶部看到最新的帖子。当时,新帖的生命周期为72分钟;但现在,它在发布几天之后仍可以获得互动。现在,在重新登陆instagram后,你可以在时间轴中看到上次登录时你互动最多的人发布的内容。参与度是Instagram算法的关键排名因素。内容所收到的点赞,评论,评论点赞,内容收藏,DM回复和通过DM发送的次数越多,算法对其赋予的权重就越大。3 / 我们对Instagram算法了解多少?首次发布时,内容会被推荐给一个特定的粉丝群,以评估参与度其中的三个重要因素是:1.兴趣(Instagram算法认为你喜欢该内容的可能性越高,你看到它的可能性就越大);2.时间轴(优先推荐最近发布的帖子);3.关系(如果你为某些帖子点很多赞,并发表很多评论,算法会把你认定为这些账号的朋友和家人)定期发布将有助于你在用户的时间轴中得到更高的权重,并且算法不会降低发布次数过多的人的权重算法并不偏好使用Stories,直播或其他特殊功能的用户通过DM分享的帖子会被算法排名评论的权重比仅点赞的权重更高使用不多于30个话题标签来优化内容,这样更容易被用户发现。不过每个内容不应该用相同的话题。你互动越多的内容将获得更高的曝光率主题标签仍在算法中起作用,但主要只在“浏览”页面中发挥作用一个拥有好的建设且参与度高的社区可以提高每份内容的积分积极地与他人的内容进行互动(通过点赞和评论)有助于引流自己的内容,并进一步提高自己账号的参与度用户在内容上花费的时间越长,该内容的算法积分就越高4 / Instagram算法排名因素——5 / 如何适应Instagram算法?定期发布
如果你发帖不规律,算法会将你视为流量玩家,不会在粉丝中优先推荐你的内容。而那些定期发布并贡献最大的人将获得算法的青睐。与特定内容进行互动
与那些和你的Instagram账户相关的用户和内容进行互动,可以帮助你引流自己的账户。你与他们互动的越多,你的内容在他们时间轴中的算法权重就越高。在最佳时间发布内容
Instagram算法的三个关键因素之一是及时性。首先了解何时是你的最佳发布时间,然后发布内容。使用话题标签,这样用户就可以通过“搜索”页面找到你
通过使用话题标签,如果你能获得搜索页面的头部位置的话,它可以为你带来数百甚至数千的点赞和粉丝。YouTube算法由于平台太过流行,导致YouTube算法可能是当今最难破解的社交媒体算法之一。YouTube拥有15亿全球用户,从数据上说,它是世界第二大搜索引擎,是一个需要认真应对的平台。开发YouTube算法的目的是服务对网站做出重大贡献的用户。这反映在它的一些排名因素上,这些排名因素基于坚持发布和用户拥有的粉丝数量来制定的。除非您是知名人士,拥有某种特别出众的才华,或者在制作视频方面拥有与众不同的角度,否则,想从零开始在YouTube上吸引大量粉丝,需要投入大量的工作。为什么?因为Youtube上的内容质量非常高,并且这些内容涵盖了每个可以想到的主题。最重要的是,它需要每周发布约2/3次才能获得算法的青睐。这就是为什么YouTube SEO是一个蓬勃发展的行业的原因,许多像Brian Dean这样的 “传统” SEO专家也开始注重并磨练他们在YouTube平台上的技能。1 / 推荐算法与儿童安全在过去的几年中,YouTube的推荐算法遭到了抨击,因为有关儿童的视频中出现了问题评论,算法还自动填充恋童癖相关的内容。。这导致许多主要品牌暂停在YouTube上投放广告,除非问题得到解决。在撰写本文时,由于类似问题的再次发生,YouTube算法正处于风暴中心。像Google / Alphabet和Facebook这样数十亿美元的公司并没有完全控制自己的社交媒体算法的使用。你是否会感到担心呢?2 / KOL强烈反对YouTube算法测试2018年5月,许多YouTube上的KOL对平台进行的算法测试感到愤怒,该平台向用户推荐了他们尚未订阅的频道的视频,而不是已经订阅的频道视频。YouTube表示,它只对一小部分用户进行了测试,但一些YouTube明星对此感到恼火,并公开表示反对这种行为。这是一个值得牢记的教训。用户——即使是最有影响力的用户——在任何社交媒体网站上都无法完全控制自己的频道或内容,他们也永远得不到这个权利。他们拥有的是一块租来的土地。3 / 我们对YouTube算法了解多少?总观看时间和观众留存是重要的排名因素上载频率是一个重要因素,持续上传的人会得到算法的青睐可以用一个面向小部分用户的帖子来测试初始参与度粉丝越多,YouTube算法对你的视频的优先级就越高视频的观看次数越多,YouTube算法的优先级越高频道的观看次数越多,YouTube算法的优先级越高视频的点赞/踩和评论是重要的排名因素标题,描述和关键词标签是重要的排名因素视频的最佳长度是7-16分钟YouTube算法是人工智能,它正在不断地学习,理解人类并拓展4 / YouTube算法排名因素——5 / 如何适应YouTube算法?持续性是关键
如果断断续续的更新频道中的内容,那么算法会降低 该频道的权重。所以你最好持续发布内容,最好在每周的同一时间发布,也可以每天发布。
这不仅能从算法角度为你提供帮助,而且知晓更新时间会让你的粉丝更乐于观看你的视频。建立粉丝基础
频道中的粉丝数越多,你在算法中的积分就越高。但这对于从零开始以及希望发展Youtube账号的新手来说是一个左右为难的规则。让你的目标受众喜欢你的视频
你应该这样做,而且你获得的点赞越多,算法给予你的权重越高。制作一些讨你的目标受众欢心的视频,并注意不要出现争议性内容,这样会导致负面评价。在视频的前几分钟内勾住观众
YouTube算法认为,人们观看视频的时间越长,你的内容就越有趣。所以你的目的是勾住观众,许多YouTube博主会使用特定的策略来勾住观众。视频时长应在7-16分钟之内
马特·吉伦(Matt Gielen)发现,时长7 – 16分钟的视频具有最佳的用户留存率,最高的参与度和最佳的观看者订阅率。解码社交媒体算法需要集体努力
社交媒体正在不断进行A / B测试并更改其算法,以适应新功能,增加收入并为用户提供更多价值。结语尽管我们永远不能完全了解每种社交媒体算法的内部工作原理,但我们可以从公司的公开资料中获取线索,并相应地调整我们的方法。
我们可以通过自己的经验,和他人相互分享经验,逐一地解码社交媒体算法。使用信息碎片,基本假设,一些常识,不断测试和数据共享,可以破解这些神秘的数学方程式。就像SEO行业诞生于破解搜索引擎算法的集体愿望,我们也可以共同努力,以了解这些正在塑造社会文化的强大社交媒体。这意味着我们要不断地测试内容来发现有效的方法,无效的方法以及出现这两种情况的原因。此外,在社交媒体传播方面,我们不仅需要速度和敏捷性,还需要知识和经验的集体共享,需要KOL们集体对社交媒体公司施压,迫使他们提供更多有关这些神秘算法的内部工作原理的信息。因为算法对我们所有人的生活将产生更大的影响。
黑客正传播可劫持社交媒体账户的恶意软件
近日,瑞典、保加利、俄罗斯、百慕大和西班牙的5000多台Windows设备被一种能够控制社交媒体帐户的新恶意软件感染,它主要通过微软的应用商店以计算机木马游戏应用程序的形式入侵。这种新型恶意软件是一种典型的网络病毒,它以隐蔽的方式进入到目标设备,对目标设备中的私密信息进行收集和破坏,再通过互联网,把收集到的私密信息反馈给攻击者,从而实现其目的。以色列网络安全公司Check Point将这恶意软件称为“Electron Bot”,目前攻击者的身份尚不清楚,但有证据表明他们可能来自保加利亚。Check Point的Moshe Marelus在本周发布的一份报告中表示:“Electron Bot是一种模块化的SEO毒害恶意软件,用于社交媒体推广和点击欺诈,它主要通过微软商店平台传播,并在数十个受感染的应用程序中散播,这些应用程序由攻击者不断传播。”2018年10月第一次发现该恶意软件活动迹象始于广告点击器活动,恶意软件假装自己是Google相册的一部分,但实际上是一个广告点击器,可以反复打开Windows 10中的隐藏广告。往后几年,该恶意软件经历了多次更新,开创并提供了新功能和规避功能。除了使用跨平台Electron框架之外,该恶意软件还可以在运行时加载从C2服务器获取的有效负载,使其难以被发现。Marelus解释说:"这使得攻击者能够在任何时间修改恶意软件并控制修改你的电脑"。Electron Bot的主要功能是打开一个隐藏的浏览器窗口,以感染SEO,产生广告点击量,将流量引导到YouTube视频网站和SoundCloud语音录制托管的内容页面,并推广特定产品提高广告点击量、提升商店评级以获得更高的销售额,从中赚取利润。最重要的是,它还具有可以控制Facebook,Google和Sound Cloud上的社交媒体帐户的功能,包括注册新帐户,登录、评论和点赞其他帖子以增加观看次数。在此过程中,在木马程序继续获取实际的恶意软件之前,可以利用来自卡巴斯基实验室、ESET、诺顿安全、WebrootSophos和F-Secure等公司的软件采取一些步骤来识别潜在威胁检测软件。推送带有恶意软件的应用程序的游戏发行商列表如下:Lupy游戏
疯狂4游戏
Jeuxjeuxkeux 游戏
阿克什游戏
GOO游戏
Bizzon CaseMarelus指出:“由于在每次运行时恶意软件的有效负载都是动态加载的,攻击者可以修改代码并将恶意软件的行为更改为高风险,例如,他们可以初始化并释放新的恶意软件,如勒索软件或RAT。所有这些都可以在受害者不知情的情况下发生。”参考来源https://thehackernews.com/2022/02/social-media-hijacking-malware.html
2015年中国社交媒体核心用户数据分析
来源:媒介360(微信ID:imedia360)2015年可能要载入中国媒体发展史。因为,这一年,中国用户花费在数字媒体上的时间已经过半,一举超过传统媒体。伴随而来的是广告进一步从传统媒体转向新媒体。网络媒体成为第一大广告收入媒体,未来网络广告尤其是移动广告的收入份额将继续增长。
目前,社交媒体依旧是新媒体中最为活跃且最有发展潜力的领域。2015年,在数字媒体用户使用时长首超传统媒体的大背景下,社交媒体也表现出了自己独特的平台发展属性和用户使用习惯变化。以下,媒介360综合了凯度发布的《2015中国社交媒体发展报告》、腾讯企鹅智库发布的《2015年微信平台数据研究报告》和新浪发布的《2014年微博用户发展报告》,为大家描绘出2015年社交媒体发展的大致轮廓。中国用户各类媒体花费时间据eMarketer的最新报告,2015年中国用户所有媒体每天总用时为6小时08分。其中:数字媒体每天花费时间已达3小时05分。传统电视每天用时下降到2小时40分,收音机下降为11分钟,印刷媒体下降为11分钟(报纸下降为10分钟,杂志下降为1分钟)。各类媒体的渗透率2015年,在18岁及以上中国成年人中,传统电视的渗透率达94.8%,遥遥领先于其他媒体。但使用时间却呈缓慢下降趋势,这表明电视的开机比率在逐步走低。PC端互联网用户的渗透率为46%,智能手机用户的渗透率为43.1%,非智能手机用户的渗透率为42%。印刷媒体(报纸与杂志),其2011~2015年复合年均增长率(CAGR)为-7.4%,其中报纸CAGR为-5.1%,杂志CAGR为-7.4%。相比而言,杂志比报纸更惨。社会化媒体数据全览根据凯度发布的《2015中国社交媒体发展报告》,社交媒体用户呈现快速增长态势,日趋主流。社交媒体用户在城市居民中的百分比已经从2013年的28.6%上升到2014年的34%。社交媒体用户年龄结构呈现多元化:90后成为最大人群,70、60、50后份额均呈现不同幅度的增长。社交媒体用户地域分布呈现多元化:一线城市比例下降,二三四线城市均有不同程度的增长。社交媒体用户受教育水平呈现多元化:高等学历比例小幅下滑,初等学历比例上升。移动社交成为主流趋势,移动属性的媒体更受社交媒体用户青睐。不同代际社交媒体用户的网络行为如下:目前,微信已经超越QQ空间成为网民使用最多的社交应用。2013年微博在原创方面占据优势,2014年则是微信全面领先。社交媒体用户互动减少,单纯浏览信息的比例继续提升。社交用户的目的性在减弱,获取新闻资讯、分享心情以及获取实用信息依然是大家使用社交媒体的主要诉求。并且,社交媒体用户更加注重社交中隐私的保护,减少互动。微信根据腾讯发布的《2015年微信平台数据研究报告》,微信Wechat合并月活跃用户数超过4.68亿。微信使用人群中,男女用户比例64.3% :35.7% (约1.8:1),用户以男性为主。微信用户普遍年轻,平均年龄在26岁。97.7% 的用户在50岁以下。86.2%的用户在18-36岁。绝大部分微信用户的职业来自:企业职员、自由职业者、学生、事业单位员工这四类职业。微信已成为人们生活的重要部分。25%的微信用户每天打开微信超过30次。55.2% 的微信用户每天打开微信超过10次。微信作为中国微信用户强大的社交工具,接近一半活跃用户拥有超过100位微信好友。62.7%的微信用户的好友超过50人。微信直接带动的生活消费规模已达到110亿元(US$1.76),其中娱乐消费时最大支出,规模为58.91亿元(US$943)。各部分比例分别为:娱乐53.6%;公众平台20.0%;购物13.2%;出行11.3%;餐饮2.0%。公众号是微信的主要服务之一,近80%用户关注微信公众号。企业和媒体的公众账号是用户主要关注的对象,比例高达73.4%。微信公众号的用户关注比例:29.1%自媒体;25.4%认证媒体;20.7%没有关注;18.9%企业商家;5.9%营销推广。用户关注公众号主要目的是获取资讯41.1%,其实是方便生活36.9%和学习知识13.7%。微信热门订阅号按内容分类中,娱乐,健康生活,新闻资讯以及美容时尚类订阅号占据了80%的份额。除日常发帖,42%的订阅号还会通过微社区或微讨论功能与粉丝互动。其中,娱乐类内容最受微信用户的追捧。微博根据《2014年微博用户发展报告》,截止2014年9月30日,微博月活跃用户数(MAU)已经达到1.67亿人。微博用户年龄结构较为均衡:从月活用户的年龄比重上看,19-35岁用户占月活跃用户总量的72%,80、90后为微博活跃用户主体,且年轻化用户有较为明显的增长趋势。微博月活跃用户群中,男性用户占比较大,达60.9%,女性用户占39.1%。从省份分布上不难看出,北上广以及江浙一带用户分布较为密集,从地区分布上看,华东、华南地区微博活跃用户较多。高粘性用户数量占比持平,总量增加:从整年用户登陆情况来看,全年月均登陆天数在15天以上的高粘性用户占比较2013年相比基本持平为32.11%。低粘度用户占比比重大幅降低:登陆一日的用户占比大幅下降,微博用户整体粘性依然保持较好的上涨态势。微博用户每日发布的博文数据中不难看出,微博用户发布博文行为主要集中于一般用户活动时间内(6点至24点间),而博文发布的最高点位于晚间时分,其中22-23点间为用户发布博文的最高时段。根据《2015中国社交媒体影响报告》,网民在微博上除了热衷于讨论娱乐和社会舆论类资讯,还注重个人生活类信息的获取和互动。最热门的关键词主要围绕娱乐及社会舆论类话题。娱乐类关键词如热门电视节目,明星,网络视频站点等。社会舆论类关键词如环境,安全,违法等。结语2015年,在“互联网+”行动计划的推动下,新媒体加速向全产业渗透。而社会化媒体是这个浪潮中的代表之一,也是不容忽视的一股力量。一场从线上和掌心开启的变革浪潮,正在深刻地改变我们生活和生产力的方方面面,这当中,社会化媒体已经建立了强大的影响力和生态粘合力,而其对于新领域的探索也一直未有停歇。
一款基于 Spring Boot 的现代化社区(论坛问答社交网络博客)
推荐一个不错的论坛类开源项目!
这个项目叫做「forum-java」,是一款用 Java(spring boot) 实现的现代化社区(论坛 / 问答 / BBS / 社交网络 /博客)系统平台。forum-java 是一个开源的现代化社区平台,它实现了:面向内容讨论的论坛面向知识问答的社区100% 开源关注公众号“武哥聊编程”,好的项目分享给大家
forum-java 功能列表图片forum-java 特性前端:多终端适配(手机端,pc端)自定义主题颜色,方便企业用户自定义主题编辑器支持 control + s 保存编辑器支持 control + v 复制图片上传后端:日志带有调用链,方便排查问题分布式 session,支持集群部署用户角色权限分级,便于用户管理接口权限校验,接口操作更安全可扩展功能接口:文章/问答更新时自带审核,可接入审核中心便于运营管理文件存储抽象接口,可支持自定义接入企业内部文件储存服务缓存服务抽象接口,可支持自定义接入企业内部缓存服务搜索服务抽象接口,可支持自定义接入企业内部搜索服务forum-java 技术栈后端:数据库:mysql持久层框架:mybatis数据库连接池管理:hikaricp数据库分页插件:github pagehelpermvc框架:spring mvc应用层容器:spring bootjson 序列化工具:fastjson邮件发送 sdk:javax mail七牛云存储 sdk:qiniu java sdk服务端页面渲染:thymeleaf前端:前端 markdown 编辑器:mavon-editor管理后台 js 框架:vue用户端 UI 框架:bootstrap管理后台 UI 框架 iviewforum-java 页面展示图片图片图片图片
美国正考虑禁止中国社交媒体APP,据称TikTok在名单中
新智元报道 来源:reuters编辑: 永上【新智元导读】据路透社报道,美东时间6日晚间,美国国务卿迈克·蓬佩奥表示,美国正考虑禁止中国社交媒体应用程序,包括抖音海外版TikTok。路透社消息,美国国务卿蓬佩奥表示,美国正在考虑禁止中国社交媒体APP。蓬佩奥在接受福克斯新闻采访时称:「我不想在总统(特朗普)之前宣布这件事,但这确实是我们在考虑的事。」目前尚无法知道更多消息,双方也未就此问题协商谈判。上周,印度禁止了抖音海外版TikTok等59款中国应用程序,美国国务卿蓬佩奥曾对此表示赞赏,并表示「印度政府此举确保印度自身安全不受威胁。另外,印度拒绝中资参与道路建设,扩大了经济上的抵制中国运动。」蓬佩奥在周三的新闻发布会上说:「我们欢迎印度禁止某些可用于中国监视工具的移动应用程序」,并表示此举能够保护印度主权完整和国家安全。据法新社报道,印度道路交通与高速公路部长加德卡里表示,「印度将不允许中国企业及合资企业参与印度道路与高速公路建设」。这项政策似乎是印度国内抵制中国运动的一部分。参考链接:https://www.reuters.com/article/us-usa-tiktok-china-pompeo/pompeo-says-u-s-looking-at-banning-chinese-social-media-apps-including-tiktok-fox-idUSKBN2480DF
数据挖掘duang duang duang的前世今生 兼谈社交媒体的舆情传播
好像一夜之间,其实就是一夜之间,duang这个词火了,火得一塌糊涂。我们先来看看它火到什么程度。从今天(26日)早9:00-19:00这段时间关键词“duang”在新浪微博的被提及826万次,平均每秒229次,照此速度今天在微博会出现1300万次左右。什么时间开始火的?上图:
可以看得出21号出现变化,22号突变,25号起势,26号爆了!其中26号13:00-14:00是明显的爆点。从百度指数来看23号之前都为0,从23号开始才有人陆续搜索这个词,而新浪的微博指数到目前(26日19:00)还没有收录这个关键词。duang来自哪儿?它来自于一个叫“三次元鬼畜”的网友上传的一段搞笑视频。25日前的所有新浪微博均引用自这个视频地址:http://www.bilibili.com/video/av2023391/ 。视频比较搞笑,同时涉及成龙,又是在春节期间,同时选择了微博作为主传播渠道,传播元素具备,只欠东风。大家先欣赏一下这个视频内容吧:《引爆点》中提到流行三法则:人物法则、附着力因素法则和环境威力法则。我理解就是关键人物,新闻价值,传播渠道。目前还缺关键人物。我们通过时间线来看看关键人物的出场吧。传播关键人物是谁?2月20日16:31 网友三次元鬼畜上传视频到网站16:46 居然有网友开始模仿造句了,应该不是作者本人,因为作者本人会直接放视频的。22:13 该视频第一次被评论,然后开始被热评,可能是网站做了推荐。但是一直到22日前都只是在网站内部火。22:25 视频被第一次分享到新浪微博,于是开始有陆续的分享。2月21日23:18 一个有27万粉丝的账号分享了该视频
不过这条微博的3.7万转发量主要集中在22日和24日。2月22日8:44 一个粉丝有225万的账号分享了该视频。当天有五个粉丝在几万到14万的账号转发了此视频。至此数据开始突变,但是没有很好的持续性,从前面的数据来看23日并没有爆,反而是一个低点。基本可以确定21和22日这两个账号是传播的源头。
2月24日4:38 粉丝52万的@幕斯 转发了21号那条微博,带来6千多的转发量4:52 著名的@使徒子 粉丝452万转发了21日的那条微博,带来5千多的转发量经过二人的转发后,这个视频就广为人知了。等待25日的起势。
2月25日各种大V使劲传播,从单纯的传播视频开始过渡到模仿和恶搞了,于是2015年第一个热词诞生了。18:05 @叫兽易小星 粉丝635万 原创微博被转发4万多次。无数大号转发这条,就不一一列举了。21:03 @斯道 粉丝98万 原创微博被转发18万多次21:09 @我的朋友是个呆B 粉丝693万 原创微博被转发3万多次。22:47 @王尼玛 粉丝379万 原创微博被转发1万多次
2月26日爆了,视频被纷纷上传到各大网站,这是网友欢乐吐槽的一天,主要事件两个。7:39 视频被上传到腾讯视频,播放次数高达900多万次,而源视频也只有175万的播放次数。9:40 “duang”的百度词条被创建,并且一天内被修改了9次。
可能看到这里很多人还是不明白duang的准确定义,看看网友的图片就明白了。接下来如何发展?
1、被各种PR公司利用搞营销2、被各种传播学院分析这种现象3、被主流媒体批驳,大家的无聊,精神的空虚......最后重温这句《引爆点》中提到流行三法则:人物法则、附着力因素法则和环境威力法则。就是关键人物,新闻价值,传播渠道和时间节点的组合。
如何使用SocialHunter爬取网站并寻找可以劫持的社交媒体链接
关于SocialHunterSocialHunter是一款功能强大的网站安全检测工具,该工具可以帮助广大研究人员轻松爬取给定的URL地址,并寻找目标站点中存在安全问题且可能遭受劫持攻击的社交媒体链接。如果一个网站存在这样的链接地址,那么攻击者将有可能利用该链接来执行网络钓鱼攻击。除此之外,这种链接也有可能导致企业或网站的名誉受损。值得一提的是,这种社交媒体链接劫持漏洞也包含在了很多漏洞奖励计划之中。支持的社交媒体平台Twitter
Facebook
Instagram
Tiktok(不需要任何API密钥)工具要求Golang环境工具安装代码下载广大研究人员可以使用下列命令将该项目源码克隆至本地:代码语言:javascript复制git clone https://github.com/utkusen/socialhunter.git源码安装除此之外,我们也可以直接从该项目的【Releases页面】下载预构建的项目代码,或者直接运行下列命令远程获取安装:代码语言:javascript复制wget https://github.com/utkusen/socialhunter/releases/download/v0.1.1/socialhunter_0.1.1_Linux_amd64.tar.gz
tar xzvf socialhunter_0.1.1_Linux_amd64.tar.gz
./socialhunter --helpGo安装该工具基于Go语言开发,因此我们也可以使用go get命令来安装和部署SocialHunter:代码语言:javascript复制go get -u github.com/utkusen/socialhunter工具使用SocialHunter的使用非常简单,我们只需要给SocialHunter提供两个参数,即可执行我们想要的任务。-f参数:指定包含了目标URL地址的文本文件的路径,其中包含待测试的URL地址,每条地址按行分隔。SocialHunter所采取的资源爬取策略为“路径感知”策略,比如说,如果目标URL为“https://utkusen.com/blog”,那么该工具只会爬取“/blog”路径下的页面。-w参数:需要运行的Worker数量,比如说“-w 10”,该选项的默认值为5,我们可以通过增加或减少该参数的值来适配你系统设备的性能。工具演示视频https://asciinema.org/a/wYMVXIHCxxOB3QPWq4Fe8Advn许可证协议本项目的开发与发布遵循MIT开源许可证协议。项目地址https://github.com/utkusen/socialhunter精彩推荐
腾讯多媒体自由视角技术首次亮相中国网媒论坛
11月24日,以“发展与秩序·让大流量澎湃正能量”为主题的2021中国网络媒体论坛在广州举办,来自中央和地方新闻单位、知名互联网企业、县级融媒体中心等43家单位参展。论坛包括开幕式、5场平行论坛、“同心粤港澳 携手大湾区”网络主题活动,集中展现网络媒体领域的新技术、新应用、新业态,让技术创新为网络媒体发展插上蝶变的翅膀。该论坛是目前我国网络媒体界层次最高、最具权威性和影响力的年度盛会,被誉为观察中国网络媒体发展走向的重要窗口。自腾讯数字生态大会,腾讯自由视角产品首次亮相获得社会各界一致好评后,腾讯多媒体实验室自由视角技术再次受邀,亮相中国网络媒体论坛,与之一同亮相的还有腾讯多媒体实验室与集团公关与市场部通力推出的腾讯妙笔·沉浸式互动水墨画。腾讯展区腾讯妙笔·沉浸式互动水墨画 和 腾讯自由视角腾讯自由视角允许用户通过相应的终端(手机、电脑等)调整屏幕,自由的选择观看角度。在赛事中,例如足球比赛,将相机架设在门框前,可以看到多种精彩的射门角度在重视动作的教学中,学生通过手机可以多角度的查看老师动作细节。现在随着5G网络的普及,我们的网速逐渐变高,视频也逐渐向高清,超高清的趋势发展。自由视角,因为用户可以自由的选择观赏角度,会有大量的视频文件被下载,对设备,和网络都有较高的要求。腾讯自由视角产品,结合腾讯多媒体实验室沉浸式自研技术,为用户打造在多视角切换时能够平滑且低延时切换的体验。腾讯多媒体实验室作为腾讯的核心实验室之一,专注于多媒体技术领域的前沿技术探索、研发、应用和落地,包含音视频编解码、网络传输和实时通信,基于信号处理和深度学习的多媒体内容处理、分析、理解和质量评估,沉浸式媒体(VR、AR、点云等)系统设计和端到端解决方案;同时负责国际国内行业标准制定,包含多媒体数据压缩、网络传输协议、多媒体系统和开源平台等。腾讯妙笔·沉浸式互动水墨画多媒体实验室自研的腾讯沉浸式互动水墨画技术,结合智能水墨画、智能作诗和智能配乐等多媒体算法能力,形成了多模态融合且能互动娱乐的完整技术方案。从“水墨画、绝句诗、中国乐”相结合的形式入手,凭借着在技术上的深入研究和产品能力的积累,成功实现通过用户的简单线条即可生成动态山水诗画的效果,为大家带来丰富的沉浸式体验。在迪拜世博会中国馆官方小程序首发上线。正如人民日报社副总编辑赵嘉鸣所说:“让移动直播、VR全景、虚拟现实、竖屏短视频、互动H5等新技术充分被应用到融媒体报道中。”而这正是腾讯多媒体实验室目前专注的方向。未来,多媒体实验室将在腾讯集团“用户为本,科技向善”愿景与使命的引导下,不断创造更多社会价值,推动科技创新与文化传承,助力各行各业升级,促进社会的可持续发展。请随时与我们联系并分享您的需求:腾讯多媒体实验室[email protected]作者:张意晗编辑:张意晗
一款基于 Spring Boot 的现代化社区(论坛问答社交网络博客)!
推荐一个不错的论坛类开源项目!
这个项目叫做「forum-java」,是一款用 Java(spring boot) 实现的现代化社区(论坛 / 问答 / BBS / 社交网络 /博客)系统平台。forum-java 是一个开源的现代化社区平台,它实现了:面向内容讨论的论坛面向知识问答的社区100% 开源forum-java 功能列表forum-java 特性前端:多终端适配(手机端,pc端)自定义主题颜色,方便企业用户自定义主题编辑器支持 control + s 保存编辑器支持 control + v 复制图片上传后端:日志带有调用链,方便排查问题分布式 session,支持集群部署用户角色权限分级,便于用户管理接口权限校验,接口操作更安全可扩展功能接口:文章/问答更新时自带审核,可接入审核中心便于运营管理文件存储抽象接口,可支持自定义接入企业内部文件储存服务缓存服务抽象接口,可支持自定义接入企业内部缓存服务搜索服务抽象接口,可支持自定义接入企业内部搜索服务forum-java 技术栈后端:数据库:mysql持久层框架:mybatis数据库连接池管理:hikaricp数据库分页插件:github pagehelpermvc框架:spring mvc应用层容器:spring bootjson 序列化工具:fastjson邮件发送 sdk:javax mail七牛云存储 sdk:qiniu java sdk服务端页面渲染:thymeleaf前端:前端 markdown 编辑器:mavon-editor管理后台 js 框架:vue用户端 UI 框架:bootstrap管理后台 UI 框架 iviewforum-java 页面展示
开源一款现代化社区(论坛,问答,BBS社交,网络博客)系统平台
forum-javaspring boot框架开发的 社区:http://www.developers.pub简介forum-java 是一个开源的现代化社区平台,它实现了:面向内容讨论的论坛;面向知识问答的社区;100% 开源;为什么要做这个项目?PHP语言较多,Java的很少,目前spring boot开源的更是几乎没有,无法很好的接入公司内部系统;很多社区功能过于简单,无法满足大部分需求;界面风格老式,没有跟上时代发展的审美;缺乏实际运营需求的功能,管理功能过于简单;功能列表代码语言:javascript复制
用户端
文章分类
筛选文章
标签
查看详情
筛选文章/问答
文章
写文章
编辑
删除
评论
点赞
查看详情
问答
提问题
编辑
删除
查看详情
评论
关注
设置评论为最佳答案
筛选已解决问题
筛选未解决问题
用户
查看详情
编辑个人资料
更新登录密码
关注好友
查看粉丝
消息
文章/问答被关注通知
文章/问答被评论通知
个人被关注通知
设置消息为已读
关注
关注的用户文章/问答
关注的问答
评论的问答
点赞的文章
评论的文章
搜索
根据文章/问答标题/内容模糊搜索
配置
首页轮播图配置
侧边栏轮播图配置
管理端
用户管理
禁用/启用
设置为管理员/取消管理员
操作日志
操作类别筛选
文章管理
设置为官方
设置为置顶
设置为加精
审核通过(可见)
审核不过(不可见)
文章类别管理
审核通过(可见)
审核不过(不可见)
新增分类
问答管理
审核通过(可见)
审核不过(不可见)
标签管理
审核通过(可见)
审核不过(不可见)
新增标签
配置
首页轮播图配置
侧边栏轮播图配置
特性前端多终端适配(手机端,pc端)自定义主题颜色,方便企业用户自定义主题编辑器支持control + s保存编辑器支持control + v复制图片上传后端日志带有调用链,方便排查问题分布式session,支持集群部署用户角色权限分级,便于用户管理接口权限校验,接口操作更安全可扩展功能接口文章/问答更新时自带审核,可接入审核中心便于运营管理文件存储抽象接口,可支持自定义接入企业内部文件储存服务缓存服务抽象接口,可支持自定义接入企业内部缓存服务搜索服务抽象接口,可支持自定义接入企业内部搜索服务技术栈后端数据库:mysql持久层框架:mybatis数据库连接池管理:hikaricp数据库分页插件:github pagehelpermvc框架:spring mvc应用层容器:spring bootjson序列化工具:fastjson邮件发送sdk:javax mail七**存储sdk:qiniu java sdk服务端页面渲染:thymeleaf前端前端markdown编辑器:mavon-editor管理后台js框架:vue用户端UI框架:bootstrap管理后台UI框架 iview部分页面展示用户页面展示首页首页image.png问答页问答页image.png关注页image.png消息列表页image.png文章详情页文章详情页image.png标签详情页标签详情页搜索页image.png用户主页用户主页image.png写文章页写文章页管理后台页面image.png地址:https://gitee.com/linpaibin/forum-java/更多功能广大网友可以继续挖掘。
Drug Discov Today|挖掘社交媒体数据,促进药物开发的方法和案例
2021年9月1日,来自德国维滕/赫德克大学的Jonathan Koss等人在Drug Discovery Today合作发表综述,对使用社交媒体数据促进药物开发的基础方法和案例进行了介绍。亮点• 在药物开发的初始阶段,可以基于社交媒体数据进行患者偏好研究,根据患者未被满足的临床需求确定相关决策的优先级。• 典型的 SMM 管道包括从社交媒体平台中获取见解的5个基本阶段:资源识别、数据提取、数据预处理、数据分析和评估。• 提出了5个使用案例,说明SMM如何促进以患者为中心的药物发现。以下是全文内容。摘要从现代商业动态的角度来看,将患者的观点融入药物的发现和开发已变得至关重要。患者在社交媒体上讲述他们的疾病经历已有趋势。通过分析与此类社交媒体帖子相关的数据获得的见解,可以用来支持以患者为中心的药物开发。对这些数据进行手动分析几乎是不可能的,但人工智能实现了自动化和经济高效的处理,也称为社交媒体挖掘 (SMM, social media mining)。本文讨论了SMM的基本方法以及在一些相关的药物开发中的使用案例。前言传统制药企业专注于开发尖端药物,这些尖端药物可以带来可观的收入,以覆盖其始终高昂的研发成本。这种具有数十年历史且成功的商业模式,目前面临着技术演变和监管变化带来的若干挑战。不断变化的护理标准造成的"better-than-the-Beatles"的问题是此类挑战的常见示例。此外,药品监管部门在药品审批、定价和/或报销相关决策中越来越多地考虑患者感知到的获益,包括在健康技术评估中考虑患者报告结局(PROs, patient-reported outcomes) 。FDA的以患者为中心的药物开发计划设想将患者的观点纳入药物审批过程。因此,制药公司面临着解决与患者最相关的未满足医疗需求 (UMNs, unmet medical needs) 的要求。UMN 的特征可能与死亡率、症状或疾病负担、治疗副作用或治疗不便性、患者感知和患病时间有关。例如,药丸的大小可能会给敏感患者带来不便或不适,从而导致他们的不满和减少对处方治疗的坚持。因此,作为有效解决现有UMN的一种手段,越来越多的制药公司正系统地将患者观点融入其药物开发过程,开展"以患者为中心的药物开发(PCDD, patient-centered drug development)"。例如,在药物开发的初始阶段可以进行患者偏好研究,根据患者UMN确定相关决策的优先级。从社交媒体中提取的见解也可用于通过描述患者 UMN 和探索创新机会来指导PCDD。长期研究表明,患有严重疾病和残疾的患者利用社交媒体寻求自助并分享他们的经验。这些潜在有价值的信息数量之多,使其手动分析效率极低,几乎不可能。同时,基于人工智能的方法(如社交媒体挖掘),为人工处理来自社交媒体的数据提供了具有成本效益的替代方案。本文讨论了SMM的基本原理,并讨论了与药物开发过程相关的几个SMM使用案例。什么是SMM?SMM 是最近出现的跨学科研究领域。虽然SMM与计算机科学有着根本的联系,但它可以用来提供与各种学科和应用相关的见解。从本质上讲,SMM 需要提取和分析从在线论坛、博客和社交媒体平台收集的数据,以获取有关特定社区及其成员的看法和需求的知识。这些知识的例子包括与某些疾病相关的特征或症状,以及他们的地理动态。社交媒体数据来源庞大且嘈杂,且大多由非结构化的文本数据组成,即使有最先进的自动分析流程和算法,这些数据也难以处理。SMM管道典型的 SMM 管道包括从社交媒体平台中获取见解的5个基本阶段:资源识别、数据提取、数据预处理、数据分析和评估(图 1)。有关每个阶段的细节可能因最终应用而异,但构建模块基本一致。图1 典型的社交媒体挖掘(SMM) 管道中涉及的步骤,以及实施过程中产生的实际影响和表现。资源识别一般来说,有关健康相关主题的信息可从社交媒体平台(如 Facebook、Twitter、Instagram、Reddit 和针对健康的特定在线论坛)中提取。但是,这些平台具有特殊性,在决定特定平台作为数据源时应考虑这些特性。这些平台的数据质量存在根本差异,因为它们的基本业务模式不同,如表1所述。Facebook 和 Instagram 主要旨在通过投放广告来创造利润,而其它在线论坛往往是非营利性的,很少有广告,有时完全没有广告。平台上运行的广告越多,从探索与健康相关的研究课题和回答相关问题的角度出发,内容(数据)的质量就越低。例如,如果研究问题特别关注患者使用特定药物的经验,则企业广告可能会偏向结果。这要求将广告数据排除在随后的分析之外。相比之下,在线医疗保健论坛上的帖子通常很长,包括更多与上下文构建和作者背景相关的信息。此信息会影响后续分析,并可能产生更有意义的结果,甚至来自同一用户。此外,在线论坛通常提供与特定主题相关的信息(例如乳腺癌),而Twitter 等平台则提供对各种主题的讨论。因此,能够从非特定平台提取相关信息的SMM管道总是复杂的,需要使用尖端技术来产生预期的结果。此外,在线论坛的用户通常比Facebook和Twitter等热门平台用户少,内容托管更少。因此,此类平台上的数据很少,样本量也较小。应仔细选择SMM数据源,同时考虑上述方面,并根据最终应用权衡其相关性。表1 社交媒体平台和其提供数据质量的差异数据提取一旦选择一个或多个合适的社交媒体平台作为数据源,就可以使用集中爬虫和网络爬虫技术进行自动数据提取。集中爬虫是指收集符合特定标准网站的自动化过程:例如,该过程可能会"收集所有有关阿尔茨海默症的网站"或"从co.uk 域名收集所有有关公共卫生主题的网站"。为了保持聚焦并排除许多不相关的站点,应在爬虫算法中仔细管理超链接分析和优先级流程。在SMM方面,可以采取两种方法。作为第一种方法,Twitter 提供了一个应用程序程序接口(API),它为用户提供直接访问其内容(即Twitter帖子)的机会。但是,患者论坛不提供此服务,必须使用第三方工具或软件来访问其数据。在第二种方法中,爬虫算法模拟 Web 服务器与其用户之间的浏览交互。随时间推移,这些算法可以访问尽可能多的网站,以识别相关数据。找到所需数据后,可以使用网络爬虫来提取感兴趣的数据。必须遵守法律限制,如数据隐私法和主机平台政策。数据预处理社交媒体内容主要包括非结构化文本,因此在预处理过程中使用自然语言处理(NLP) 技术对于降低噪音和构建数据以促进有见地的分析至关重要。预处理可分为两个步骤:数据准备和数据简化。重要的数据准备技术包括数据清理、数据标准化和数据转换。数据清理可确保完整、无重复(例如,通过删除转帖)、简洁的(例如,通过删除停止字眼)数据集的可用性。数据标准化是指用适当的技术术语取代社交媒体帖子中常用的不精确的医疗术语和概念。值得注意的是,虽然拼写错误的单词很容易纠正,但俚语和缩写的修订仍然是一个重大挑战。数据转换是指将提取的数据转换为适合分析的格式。例如,使用基于规则的算法从帖子中提取患者症状并以结构化格式存储这些症状。数据简化技术通过功能转换、实例选择和功能选择降低数据维度。功能转换方法将原始数据功能压缩为小功能集,在处理高维文本数据时至关重要。此外,它们排除了与分析无关的词语,从而降低了维度。实例选择方法可减少数据集大小(例如,通过排除不相关的帖子),而不会丢失相关信息。数据预处理以功能选择结束,该选择旨在尽可能消除不相关和冗余的功能。一般来说,数据预处理需要调整现有技术,以解决手头的问题和后续分析的性质。这意味着,一个给定的问题可以使用几个技术解决,如图2所示。但是,当选择使用无监督学习进行分析时,此步骤是毫无根据的。图2 社交媒体挖掘 (SMM) 使用案例和管道的概述。根据用例类型,可能需要合并多个数据源和方法。数据源可分为特定和非特定平台。提取数据的预处理具有高度可变性,决定了后续分析结果的质量。因此,预处理管道的开发通常需要大部分开发时间。一般来说,通过受监督的机器学习 (ML) 方法对数据进行分析需要实例选择来准备数据集,数据集可以通过人工注释(数据转换的主要任务)高效标记。在通过无监督的机器学习分析数据时,不需要人工注释。功能转换和选择是指提取适当的数据特征,有利于数据分析。不同的特征可以具有语义、结构或人口特征。后续分析可能涉及各种 ML 算法、启发式算法或指标。分析结果必须由域专家进行评估,或(如果可用)根据金本位制进行评估。分析在分析社交媒体内容时使用的最先进的方法包括ML、启发式方法和特定指标法 (图2)。相关的ML方法可以分为监督学习法和无监督学习法。无监督的ML旨在检测数据模式(集群),而无需事先描述可能的结果。因此,在尝试根据功能(如感兴趣主题和人口统计数据)解决用户细分等问题时,可以探索无监督ML。相比之下,监督的ML会用事先定义的结果回答具体的研究问题,例如,某一帖子是否描述了某个以前定义的兴趣领域。ML模型在各种应用中很有用,但也受到重要限制。首先,ML算法的结构是不透明的,即单个变量之间的联系难以确定。这使得ML方法的操作难以解释和可能导致的混淆难以检测。其次,在典型ML算法中,揭示的关系是相关关系,而不是因果关系。这进一步限制了他们的解释和可靠性。对无监督ML模型的解释更加困难,因为基础算法可以适当地识别模式,但无法解释其重要性。启发式方法是受自然优化过程启发的试错方法,如"优胜劣汰"。与ML相比,启发式应用容易,需要的数据更少。虽然通过启发式方法比通过ML获得的结果更不准确,但这些方法在某些应用中可能足够。与 ML 方法不同,特定指标法不能做出"智能"决策,而只能提供供人类解释的数据。例如,机会算法指标可用于在满意度和重要性方面优先考虑未满足的需求。评估分析后,必须评估获得的结果,例如根据黄金标准进行测试。然而,在实践中,很少有可用的黄金标准,并且必须咨询具有深厚领域知识的专家进行结果评估。为了促进这一评估,必须以可理解和熟悉的方式可视化结果。SMM使用案例本节描述了典型的SMM使用案例,这些案例捕捉患者体验,从而支持以患者为中心的创新过程(图3)。图3 患者提供的疾病轨迹信息。这些信息通常不提供给制药公司。社交媒体挖掘(SMM) 技术可用于利用这一外部知识,获得的见解可用于多个研发活动。使用案例 1:识别并确定患者 UMN 的优先级由于患者和临床医生对疾病和 UMN 的看法可能不同,因此在药物开发过程中,可能会对与疾病相关的因素及其相关性做出有缺陷的假设。例如,一项有关类风湿性关节炎治疗的研究报告说,患者希望减轻疼痛和/或肿胀,而大多数医生将成功的治疗定义为实现对疾病进展的最大控制。在最坏的情况下,患者的需求可能被忽视,改善生活质量的创新机会可能会错过。Cook等人利用社交媒体进行患者偏好研究,作为干眼症(DED)和非酒精性脂肪性肝药物开发初始阶段的一部分。商业软件程序用于自动数据提取,而随后的分析则手动执行。DED 患者的 UMN 可分为4类:与疾病、症状和诊断、治疗和生活质量相关的药物。此外,这些作者报告说,大多数患者主要关心的是显著效果的减少(没有症状),而不是治疗潜在的疾病。技术进步不仅促进了数据提取的自动化,也促进了后续分析的自动化:例如,先前的几项研究,采用了无监督的ML技术,来探索被诊断患有自闭症、癌症、乳腺癌、COVID-19、饮食失调、心理健康和勃起功能障碍的患者的观点。在此上下文中,主题模型通常用于通过识别准确表示这些主题的单词来描述文本中的潜在主题。其中一种方法是LDA(Latent Dirichlet Allocation),它使用概率模型在给定语料库中推断每个文档中的主题。Tapi Nzali等人使用主题建模来识别乳腺癌患者在 Facebook 和在线乳腺癌论坛上讨论的主题。将这些主题与临床试验期间使用的标准化自我管理问卷的数据进行了比较。在自我管理问卷中考虑的23个主题中,有22个与患者社交媒体讨论中发现的主题相匹配。总的来说,主题模型是探索性的,因为它们的技术方法。它们揭示了潜在的主题,临床医生不了解,但与患者的日常生活高度相关。然而,主题模型的一个缺点是,对摘录主题的解释取决于主观专家判断,主观判断具有强烈的偏见倾向。由于 LDA 忽略了单词顺序,因此无法获得有关单词之间语义关系的上下文信息。这反过来又阻碍了更深层含义的解释和歧义的解决。LDA 的另一个局限性是假设主题本质上是独立的,因此,不能以元或子主题形式评估主题或层次结构之间的相关性。此外,主题模型中的细节水平和这些模型的重点高度依赖于数据处理前战略。Tapi Nzali等人通过减少需考虑的单词数量来提高主题模型的重点,例如,通过将模型限制为属于疾病特定词典的单词。这意味着此类词典由域专家手动策划。一旦确定了具体的UMN,就可以得出病人的偏好。机会算法(opportunity algorithm)的理论基础是基于Ulwick的结果驱动的创新(ODI)概念,可以应用于此目的。ODI 的假设是,当新产品满足重要但相对未得到满足的需求时,就会发生成功的创新。因此,机会算法在"重要性"(通过主题建模发现)和"满意度"(源自情绪分析)的基础上,对产品机会(通过主题建模确定)进行排序。使用案例 2:目标人群特征为了提高创新过程的成功概率,必须根据表型对新药的目标人群进行表征,以招募最有可能在临床试验中表现出获益的患者。最近,社交媒体挖掘已成为研究人类行为和识别语义、结构或人口特征所指定的疾病人群症状的一种有希望的方法。这种描述患病人群的方法称为"数字表型"。这种方法的基本假设是,社交媒体用户的行为受其遗传和环境影响。数字表型允许对传统的表型下结论,而传统表型也由基因和环境决定。此外,数字表型可以作为观察信息的来源,提供对不同健康状况个体的见解。Schafer等人使用聚合分层聚类(一种无监督的 ML 算法)来识别专门健康论坛中讨论胃肠道 (GI) 不适的用户。分层聚类分析是一种基于距离的方法,用于识别输入数据中的异质模式(群集)。来自不同集群的对象相距很远,这意味着特征相似度较低。在"聚合"分层聚类过程中,每个对象形成一个聚类。随后,所有对象合并以形成大簇。在Schafer等人提出的方法中,主题模型、疾病症状和用户人口统计学以及文本长度等结构特征被认为对用户细分有用。如前所述,基于ML的方法的主要局限性涉及对结果的解释容易受到不同偏见的影响。此外,只能假定调查结果的因果关系,不能解释。总体而言,文献表明,基于距离的聚类可用于在提供适当数据时描述子聚合的特征。业内专家的评价对于降低有偏见的解释风险至关重要。使用案例 3:药物重定向重定向是一种潜在的药物开发战略,可用于开发现有药物疗法的新应用。与开发新药相比,重新调整用途具有成本效益。例如,最初开发用于治疗抑郁症的bupropion(井布丁),但最终发现它对戒烟有用(为此它被推销为Zyban)。另一种类型的药物改用涉及处方药的超说明书用药(off-label drug use),以治疗其授权条件以外的条件。SMM 可以帮助识别日常实践中未知(说明书外)的药物使用模式,从而为后续药物重定向生成新的假设。Ru等人在训练受监督的 ML 算法 (图2)时考虑了患者情绪、疾病症状和药物适应症,该算法能够以 AUC 分数 0.93 成功预测偶然药物的使用。新应用包括用于肥胖和减肥的二甲双酚和胸腺素,用于抑郁症的曲马多,以及用于腹泻肠易激综合征的安丹塞特龙。由于基于ML方法的局限性,当算法预测药物的超说明书使用时,无法自动得出与临床相关的推论。相反,结果可用于测试后续假设。使用案例4:患者招募患者招募对于临床试验的成功至关重要。其目标是招募一个代表目标人群的病人群体。应包括与目标组相同的表型患者,以证明尽可能高的治疗价值。社交媒体平台正越来越多地用于招募有特定健康状况的患者。Merchant等人用功能转换的主题模型生成语义功能。这些功能随后被用于受监督的 ML 算法,以识别被诊断患有不同疾病的 Facebook 用户。例如,糖尿病患者的 AUC 评分为 0.73。同样,Sarker等人使用支持向量机 (SVM) - 一种受监督的 ML 算法 - 在 Twitter 上识别孕妇群体。他们的分类算法考虑了语义特征,如主题模型和情绪值,以及结构特征,如文本长度 (图2)。在这项研究中,孕妇的准确度为0.84。先前的研究表明,SMM可用于支持社交媒体患者招募临床试验。为此,使用案例 3 中衍生的数字表型特征可用于培训受监督的 ML 算法,该算法可以根据用户数据识别反映目标组数字表型的用户。在确定相关群体后,需要进行资格审查。因此,可以使用基于规则的算法来包括或排除符合不同标准的用户。然而,SMM 不能用于评估需要特定医疗状况(如患者生命体征)信息的资格标准,因为此类信息通常不可用。因此,其他数据源(如患者记录)必须由业内专家使用传统方法进行评估,以进行最终资格评估。使用案例 5:用于早期发现不良事件的补充数据源药品不良事件的发生对制药业具有深远的资金影响。当新药上市时,这种风险尤其高。传统的不良事件报告机制包括正式报告系统,将信息输入在线数据库。其中包括FDA不良事件报告系统(FAERS)。一些研究已经研究了使用SMM预测药物不良事件(ADE)信号的可能性。Abbasi等人开发了一个SMM管道(图2),将与健康相关的在线论坛数据与从Twitter和谷歌获得的搜索结果相结合,从而创建一个预测系统,有可能比既定的报告系统更早地识别ADE。Abbasi等人使用基于规则的标签工具将药物和品牌与特定的 ADEs 关联在一起,例如用户提及的具体事件。使用受监督的学习算法来检查用户情绪。此算法学习了与不同功能(如产品和经验丰富的事件)相关的时间系列特定权重,以创建不同的 ADE 信号。平均而言,Abbasi等人提出的方针在及时的 ADE 预测中优于常用数据库。例如,在FDA宣布之前22个月,建议的模型能够准确预测与Revatio药物有关的不良事件。在测试期间,该算法产生了4个真阳性和2个假阳性警告。使用Abbasi等人开发的算法获得的信号可用于生成早期发现药物安全问题的假设。一般来说,信号检测可以使用数据融合方法进行增强。此外,传统药理学数据源和社交媒体数据的组合可能提供一个很有希望的解决方案。结论和展望本文回顾了SMM的使用,以促进以患者为中心的药物开发。本文使用几个例子来描述SMM如何为研究人员提供适当方法来评估患者的社交媒体数据。这反过来又有助于根据以患者为中心的数字表型确定以患者为中心的创新机会以及目标人群群体。此外,SMM可用于获取信息,这些信息用于形成有关药物再利用和上市后监管的假设。尽管本文中提到并使用了这些案例,但专业人员对在药物开发过程中使用社交媒体数据的重要性没有达成共识。因此,必须进行进一步调查,以确定这些数据的价值。与在药物开发中使用SMM相关的主要限制出现在数据质量的各个维度上。某些数据可用性也有限。例如,涉及高水平患者痛苦的慢性疾病更易接受基于SMM的分析,而仅引起轻微痛苦的急性疾病在社交媒体平台上不常被提及。此外,数据准确性受年龄分布和患者获得技术的限制。很明显,不能通过 SMM 来研究不活跃在社交媒体上的患者群体。同样,由于互联网接入有限和/或识字率低,发展中国家的人口获得社交媒体平台的机会有限,因此很难进行调查和分析。与疾病相关的残疾,如视觉障碍,也可能抑制患者的社交媒体利用。此外,数据准确性受到社交媒体数据真实性的限制。患者通常不是专业医疗人员,因此他们通常用自己的术语描述自己的健康状况,与医学界使用的术语有显著差异。缺乏医疗培训也可能导致患者表达虚假联想。例如,有些患者经常在区分共同病症和不良事件方面遇到困难。数据质量差可能导致高抽样偏差,从而降低结果的有效性,从而暗示结果不代表目标人群。事实上,即使现有的社交媒体要代表目标人群,也必须考虑到这些数据可能不完整和/或不一致。此外,SMM 模型固有的误差率限制了相应的结果有效性。使用SMM技术可能受到法律和/或道德限制。例如,应始终遵守数据隐私法和平台政策的要求。从道德角度来看,问题可能产生,因为公共和私人空间的一般意识水平不同,确保用户匿名存在困难。包括SMM管道的不同步骤要求作出若干关键决定,并作出广泛调整,以适应具体的使用情况。首先,必须通过比较每个平台的商业和非商业产品的不同优缺点来选择适当的社交媒体平台。每个平台的具体特点和数据质量是这方面最重要的因素。其次,适当的数据预处理是成功数据分析的基础,数据质量差总是导致结果不佳。鉴于社交媒体平台上可用大量文本数据,NLP 技术的应用是有效数据结构的关键。在在线对话中使用非正式表达(例如,使用不精确的医学术语、俚语以及拼写和语法错误)对社交媒体数据的准确预处理提出了重大挑战。随后,在执行分析时,适当选择算法是关键。根据分析,评价往往因缺乏黄金标准而受损,因此相关学科之间的合作对于促进对结果的准确评价至关重要。总体而言,SMM 有助于使制药公司的药物开发流程与患者需求保持一致,并有助于使这些开发流程能够响应不断变化的商业环境。随着社交媒体数据和共享疾病轨迹相关信息的患者数量的增加,基于 SMM 的研究工作预计将在未来增加,并将成为以患者为中心的药物开发的关键推动方式。参考资料Jonathan Koss, Astrid Rheinlaender, Hubert Truebel, Sabine Bohnet-Joschko,Social media mining in drug development—Fundamentals and use cases, Drug Discovery Today, 2021, ISSN 1359-6446, https://doi.org/10.1016/j.drudis.2021.08.012.----------- End -----------
Tailor Brands推出了AI平台,可生成和安排社交媒体内容
编译:chux出品:ATYUN订阅号Tailor Brands是一家利用AI帮助公司自动化营销和品牌元素的公司,该公司宣布推出一种新的基于AI的社交媒体管理工具,可自动创建,安排和优化内容,以便在社交网络上共享。Tailor Social是该公司已经包含的现有产品的扩展,作为其核心产品的一部分,今天推出测试版。总部位于纽约的Tailor Brands成立于2014年,已经筹集了2000万美元的资金,其中包括几个月前的1550万美元。该公司一直致力于教授计算机如何设计徽标,制定登陆页面,甚至 计划社交媒体策略。但是,所有这些功能都捆绑在一起作为单个包的一部分。通过独立的Tailor Social订阅,该创业公司正在向所有人开放这项功能,无论他们是否想要自动化徽标设计。此外,Tailor Brands正在扩大产品范围。虽然它已经提供了由其自己的AI机器人构建的社交共享文本和设计,但现在它将推荐来自整个网络的内容,例如文章,视频和GIF。品牌必须首先告诉平台他们的行业和感兴趣的领域,Tailor Social将完成剩下的工作,包括建议分享到Facebook,Twitter和很快Instagram的时间表。值得注意的是,虽然社交调度自动化可以通过人类进行最终批准来建立,但也有一个完整的自动驾驶模式,顾名思义,它可以自动化所有内容。“自动驾驶模式完全自动化,它可以自动查找内容并自动安排,无需任何人工干预,但这只是在你想要这么做的情况下才行,”Tailor Brands首席执行官Yali Saar表示,“它也可以在半自动化的基础上工作,它只告诉你该做什么……我们发现许多中小型企业的所有者,你需要建立信任,然后你愿意将钥匙交给你持有的东西,如同你的社交媒体页面。在让它完全自动化之前看到系统做出正确的选择对于这个过程非常重要。”在定价方面,有三个核心计划。基本的10美元/月等级包括最多两个社交媒体帐户(例如一个Facebook和一个Twitter),并附带50个预定帖子,社交分析和“初级”设计工具。升级至每月15美元的专业级别,你将获得500个预定帖子,高级分析和“主”设计工具。每月50美元的企业计划允许最多9名工作同事访问该帐户并管理多达30个社交媒体帐户,并可访问2000个预定帖子。有很多社交媒体调度工具,有些还利用AI来优化内容。自动化几乎渗透到数字世界的每个方面,在线营销也不例外。对于那些不想亲自在社交媒体上与用户互动的人,Hootsuite 最近推出了Hootbot,以便在社交媒体网站上自动与粉丝和粉丝进行互动。不过,Tailor Brands正在瞄准规模较小的公司,这些公司的自助式AI内容推荐和调度平台基于简单性和最少的人为干预。Saar补充道,“当你看社交媒体管理领域时,有很多针对大公司的工具,而很少有工具可以满足小公司的需求,我们希望创建一个任何人都可以使用的工具,不仅可以节省用户的调度时间,还可以帮助他们选择正确的内容,并像社交媒体专家一样对其进行优化。”
用JAVA的DEA算法衡量社交媒体页面的流行度
Measuring the Social Media Popularity of Pages with DEA in JAVA原文作者:Vasilis Vryniotis原文地址:http://blog.datumbox.com/measuring-the-social-media-popularity-of-pages-with-dea-in-java/译者微博:@从流域到海域译者博客:blog.csdn.net/solo95用JAVA的DEA算法衡量社交媒体页面的流行度在前面的文章中,我们讨论了数据包络分析(Data Envelopment Analysis)技术,我们已经看到它如何被用作一个有效的非参数排序算法。在这篇博文中,我们将开发出一个JAVA数据包络分析的实例,我们将用它来评估网络上的网页和文章的社交媒体流行度。该代码是开源的(在GPL v3 license下),您可以从Github免费下载。更新:Datumbox机器学习框架现在是开源的,可以免费下载。查看包com.datumbox.framework.algorithms.dea以查看Java中Data Envelopment Analysis的实现。数据包络分析在JAVA中的实现代码是用JAVA编写的,可以直接从Github下载。它是根据GPLv3许可的,所以可以随意使用它,修改它,或者再分发。该代码实现了数据包络分析(Data Envelopment Analysis)算法,使用lp_solve库来解决线性规划问题,并使用Web搜索引擎优化分析(Web SEO Analytics )索引提取的数据,以构建基于Facebook,Google Plus和推特上分享的一个混合的社交媒体页面流行度矩阵。在前面的文章中介绍了算法的所有理论部分,在源代码中可以找到关于其实现的详细的javadoc注释。(原博文之后数据包络分析(Data Envelopment Analysis)算法及其实现全部简称了DEA,请读者注意,译者注。)下面我们提供一个关于其架构实现的高级别描述:1. lp_solve 5.5 library为了解决各种线性规划问题,我们使用一个名为lp\_solve的开源库。某些特定的lib是用ANSI C编写的,并使用JAVA包装来调用库方法。因此,在运行代码之前,您必须在您的系统上安装lp_solve。该库的二进制文件在[Linux和Windows都可以使用,您可以在lp_solve文档中阅读更多有关安装的信息。在尝试运行JAVA代码之前,请确保您的系统上安装了(相关的)特定库。有关安装和配置库的任何问题,请参阅lp_solve文档。2.DataEnvelopmentAnalysis Class这是DEA算法的主要实现类。它实现了一个名为estimateEfficiency()的公共方法,它获取记录的Map并返回它们的DEA得分。3. DeaRecord ObjectDeaRecord是一个特殊的对象,用于存储我们记录的数据。由于DEA需要分离输入和输出,因此DeaRecord对象将以DEA可以处理的方式分别存储我们的数据。4. SocialMediaPopularity ClassSocialMediaPopularity是一个应用程序,它使用DEA来评估社交媒体网络上Facebook的like,Google的 +1和twitter的Tweets的网页流行度。它实现了两个受保护的方法:calculatePopularity()和estimatePercentiles()以及两个公共方法loadFile()和getPopularity()。calculatePopularity()使用DEA实现根据社交媒体计数来估计页面的得分数。estimatedPercentiles()方法获取DEA分数并将其转换为百分位数。总的来说,百分比比DEA分数更容易解释; 因此当我们说一个网页的流行分数是70%时,这意味着该网页比70%的其他网页更受欢迎。为了能够估计一个特定页面的流行度,我们必须有一个包含其他页面的社交媒体数据的数据集。这是有原因的,因为需要预测哪个网页是受欢迎的,哪些不是,您必须能够将其与网络上的其他页面进行比较。为此,我们使用来自以txt格式提供的Web SEO分析索引的小型的匿名样本。您可以通过从网页上的更多页面提取社交媒体计数来构建自己的数据库。(社交媒体计数,比如点赞数、转发数、评论数)loadFile()方法用于加载DEA的上述统计信息,getPopularity()方法是一种易于使用的方法,可以获取Facebook的like,Google的+1和一个页面的Tweets数量,并以此评估其在社交媒体上的流行度。如何使用数据包络分析的JAVA实现在DataEnvelopmentAnalysisExample类中,我提供了2个不同的关于如何使用代码的例子。第一个例子直接使用DEA方法来根据它们的输出(ISSUES,RECEIPTS,REQS)和输入(STOCK,WAGES)来评估组织单位的效率。这个例子来自DEAzone.com的一篇文章。代码语言:txt复制Map<String, DeaRecord> records = new LinkedHashMap<>();
records.put("Depot1", new DeaRecord(new double[]{40.0,55.0,30.0}, new double[]{3.0,5.0}));
//...adding more records here...
DataEnvelopmentAnalysis dea = new DataEnvelopmentAnalysis();
Map<String, Double> results = dea.estimateEfficiency(records);
System.out.println((new TreeMap<>(results)).toString());第二个示例使用我们的社交媒体流行度应用程序,通过使用来自社交媒体的数据来评估页面的流行度,例如Facebook的like,Google的+1和Tweets。所有的社交媒体计数都被标记为输出,我们传递给DEA一个空的输入向量。代码语言:txt复制SocialMediaPopularity rank = new SocialMediaPopularity();
rank.loadFile(DataEnvelopmentAnalysisExample.class.getResource("/datasets/socialcounts.txt"));
Double popularity = rank.getPopularity(135, 337, 9079); //Facebook likes, Google +1s, Tweets
System.out.println("Page Social Media Popularity: "+popularity.toString());必要的扩展(上面)所提供的代码只是DEA如何被用作排名算法的一个例子。为了改进其实现,需要进行下面的扩展:1.加速(算法的)实现特定的DEA算法实现会评估数据库中所有记录的DEA得分。由于我们需要解决如同数据库中记录数量那样多的线性规划问题,这使得实现变得缓慢。如果我们不需要计算所有记录的分数,那么我们可以显著地加快执行速度。因此,该算法的小扩展可以使我们更好地控制哪些记录应该被解决掉,哪些只能被用作约束。2.扩大社交媒体统计数据库(这篇文章所)提供的社交媒体统计数据库由来自Web SEO Analytics索引的1111个样本组成。为了能够估计更准确的流行(度)分数,需要更大的样本。您可以通过统计来自网络上更多页面的社交媒体计数来创建自己的数据库。3.添加更多的社交媒体网络该实现使用Facebook的喜欢,Google的+1和推文的数量来评估文章的受欢迎程度。不过,来自其他社交媒体网络的指标可以很容易地被考虑在内。您只需要从您感兴趣的网络中构建一个社交媒体数据库,然后扩展SocialMediaPopularity类来处理它们。关于实施的最终意见为了能够扩展(算法的)实现,您必须对Data Envelopment Analysis的工作原理有一个很好的理解。这在前面的文章中已经介绍过了,所以在继续进行任何更改之前,请确保您阅读了之前的教程。此外,为了使用JAVA代码,您必须在您的系统中安装lp\_solve库(参见上文)。如果你在一个有趣的项目中使用这个实现,那么就给我们一条线索,我们将在我们的博客上展示你的项目。另外,如果你喜欢这篇文章,请花点时间在Twitter或Facebook分享。
社交媒体与邮件营销结合实现1+12的效果,你会玩吗?
社媒营销有助于卖家接触到新的受众,邮件营销则擅长于提高转化率。据了解在消费者做出购买决定之前需要接触一个品牌多达12次,而通过邮件与社交媒体结合,可以加速这一过程,卖家更容易建立起顾客忠诚度,也能提升客户有参与度,这种优势互补且成效卓越的营销方式,何乐而不为呢?下面将分享下社媒营销与邮件营销相结合的9大技巧。
技巧1:结合邮件营销和社媒营销渠道,打造一个更强大的品牌
潜在顾客看重的是品牌完整性,这意味着企业应该展现值得信赖的一面,并注重细节工作。那么,当两支营销团队互不交流时会发生什么情况呢?邮件营销和社媒营销渠道开始“各说各话”。
如果你发送的邮件既有趣又通俗,而像Facebook这些社媒平台页面却都是严肃的业务信息,这会影响到你的品牌一致性。整个品牌的感染力也因此弱化,最终导致你失去潜在顾客。
但是,同步你的邮件营销和社媒营销语言并不难,归根结底是团队之间的沟通。如果你做对了,这个方法可以帮助你建立更有成效的品牌推广。
新品分享网站Product Hunt就是一个典型范例,他们的邮件时事通讯和推文分享着同一种“语言”。如上图所示,这个品牌亲民而又热情,它使用了大量的表情符号,并发布了宠物猫的GIF动图。
因为保持了品牌的一致性,无论是使用Twitter、邮件还是两者兼而有之的Product Hunt粉丝,他们都能理解这个品牌的含义。
技巧2:利用邮件营销来测试自己的社媒广告创意
社媒广告是一种转化潜在顾客的强大方式,但它们的价格并不便宜。因此,首先了解哪种CTA(Call-to-action,行动号召)信息能够实现更多的转化不是更明智吗?
在购买广告之前,你可以使用邮件营销来测试自己的广告创意。例如,撰写几封邮件,并用上有效邮件标题的创建技巧,然后在社媒广告中使用表现最好的创意。
你还可以进行更深入的测试,根据你想要对准的顾客群体,对各种标题和图片采用A/B测试。
技巧3:内容的循环利用
在企业的邮件营销和社媒营销渠道之间重复使用内容非常容易,当然,这一切仍然归结于团队之间的沟通交流。该技巧的明显优势在于团队之间的资源共享,这是一个超值的策略。
以笔记管理软件Notion为例,在发布新功能之前,他们通常会在Twitter页面上使用大量GIF动图进行展示。但当更新完成时,其团队还会在邮件更新中重新搭配上相同的GIF内容(如下图):
Notion的做法是一个非常基本的使用案例,当然,你也可以把它提升到更高的层次。例如,让你的Twitter/Facebook粉丝分享他们的成功故事,从中选择最令人印象深刻的帖子,并在下次邮件更新中使用该内容。由此,你有了下一封邮件的内容,你也向订阅者传递了自己的社媒页面信息,这种战术可以说是一举两得。
另一种方法是,你可以使用Twitter的推文串功能thread(或Facebook帖子)向用户解释一些事情。而当你需要再写一封邮件的时候,你可以直接链接到该解释的内容页面,而不是重新写一篇新的邮件。同样地,这也会促使你的邮件列表订阅者在社交媒体上关注你。
这一利用链接创建的内容循环利用范例同样来自于Notion。在邮件更新中,他们宣布了一项新功能,并对其进行了简要描述。而在Twitter上,他们发布了一条更长的带有深入解释的Thread,然后在邮件中提供了该链接(如下图)。
Notion发布的Thread包含了12条带有自定义图片的推文。通过这样,你的顾客可以直接在推文底下进行回复,而那些希望获得积极反馈和邮件订阅者将立即看到社媒用户对你品牌的认可度:
内容的循环利用也在另一方面发挥着作用,你可以在邮件更新中讲述一个深入的故事,并在Twitter或Facebook上重复使用。内容交换可以帮助营销人员保持营销渠道畅通,并提高品牌的一致性。
技巧4:在邮件更新中添加社媒页面的链接
在邮件更新中添加相关社媒页面的链接,这将使得关注你的社媒账户成为一个一键决定。假设一位消费者订阅了你的邮件列表,如果感到满意,他们可能会对你的社媒页面感兴趣。但如果你没有提供这些链接,大多数人都不会亲自去寻找它们。
接下来,你需要比照两封电子邮件:
如下图所示,线上数据库服务公司Airtable在发送邮件更新时,并不会透露其相当受欢迎的社媒账户的信息。当订阅者阅读其中一封邮件时,他们并没有获得了解该公司社媒页面的激励:
V**提供商TunnelBear的邮件虽然看起来很类似,但他们在页面底部放上了Twitter和Facebook的链接,订阅者很有可能会点进去一探究竟。那么,你认为哪一种邮件更合适呢?
在邮件中提供社媒页面链接并不是TunnelBear的Twitter页面拥有19.1万粉丝的唯一原因(Airtable拥有1.4万粉丝),但它确实反映了一种更加紧密结合的整体营销方式。
技巧5:在社媒平台上发布新帖,向人们告知有关邮件注册的信息
对于新手来说,你可以编辑一条带有邮件注册着陆页链接的帖子,并在帖子中向用户解释他们将从中得到什么,以及注册你邮件的优势是什么。你可以参考下图中社会化客户关系管理平台Intercom所发布的帖子,他们还喜欢在推文中添加自定义图片:
在你的Instagram个人资料中添加一个链接是非常值得的,你也可以运用Stories(短视频)来推广自己的邮件注册。通过这种方式,用户只需简单地点击一下就可以访问你的着陆页面。在某些情况下,更好的做法是利用社媒平台自带工具来进行这类促销(如Facebook的CTA按钮)。
说到用一种简单的方式来推广企业邮件注册,Product Hunt可以说是一个很好的例子。如下图所示,Product Hun会在网上发布每一期邮件时事通讯内容,然后分享到社交媒体上。他们的粉丝可以在订阅之前查看他们将在邮件中看到的内容。如果确定想要订阅,他们可以在注册栏进行注册。
请注意,Product Hun发布的时事通讯中还突出了Twitter和Facebook的分享按钮,这再次模糊了邮件和社媒营销之间的界限。
技巧6:在社媒平台上开展比赛活动
比赛是吸引社媒粉丝的一种极佳方式。当然,你也可以通过这种方式来增加邮件列表订阅者。
首先,你需要想出比赛号召措辞和奖品。然后,请那些想要参与的人订阅你的邮件时事通讯。通过这样,你在社交媒体上的一大部分受众也订阅了你的邮件列表。
另一个类似的方法是利用人们的FOMO(错失恐惧症)心理,你可以推广一个即将到来的邮件更新内容,并表示其中提供了独家优惠和折扣。或者在下一封邮件中提到你正在Twitter上开展一项比赛活动。
技巧7:利用社媒平台上的邮件文摘栏目
DFW搜索引擎营销协会提供了一种方法,它可以让卖家在顾客没有注册的情况下发送邮件到他们的收件箱。
基本上来说,人们会选择LinkedIn上受欢迎的群组并参与其中,许多人会订阅他们关注的群组的邮件更新。如果你成功地发布了优质的内容,那么潜在顾客很有可能会在邮箱中看到你的邮件。当然,其诀窍是产出优质的内容。但是你也可以通过重新利用一些博客帖子来轻松做到这一点。
例如,某位社媒用户以前对网页设计与开发机构Tubik Studio并不了解。但是他订阅了博客发布平台Medium的Weekly Digest(每周文摘)内容。而Tubik的营销人员在UX Planet(与用户体验相关的一站式资源平台)群组中非常活跃,所以其中一篇文摘精选了他们的文章。
技巧8:利用社交媒体让理想受众订阅你的邮件
如果你想让特定的人注册你的邮件,社媒平台(尤其是LinkedIn)可以助你一臂之力。
例如,你可以将理想顾客资料添加到LinkedIn的Sales Navigator(销售导航)当中。该工具会立即生成一个列表,其中包含了数百个适合成为你的顾客的用户。
在此之后,你可以将资源用于与他们取得联系并让他们注册。你可以提供一些激励措施,比如他们在订阅之后可以获得一本电子书。需要注意的是,你应该多做研究并创建出个性化的信息,在获得最积极的顾客之后,你便能由此扩大邮件列表。
技巧9:将邮件订阅者列表上传到社媒平台
你可以将邮件订阅者列表上传到Twitter(Tailored Audiences)、Facebook(Custom Audiences)或LinkedIn(Matched Audiences)的受众设定功能上,通过这样,你可以根据顾客之前是否接触过你的品牌来更好地制定定向广告。
总结
现如今,有比以往任何时候都多的方法来在线推广你的业务,但这种多样性是需要付出代价的。有的企业试图同时涉足多个营销渠道,却忘了将它们整合在一起。结果,他们的营销策略受到了影响。事实上,邮件营销和社媒营销协同工作所传达的是一个经典的哲学观点——整体大于局部之和。
使用Python实现深度学习模型:智能社交媒体内容分析
随着社交媒体的普及,分析社交媒体内容以获取有价值的信息变得越来越重要。本文将介绍如何使用Python和深度学习技术实现智能社交媒体内容分析。我们将从数据预处理、模型构建、训练与评估等方面详细讲解,并提供相应的代码示例。一、背景介绍社交媒体平台每天产生大量的文本数据,这些数据包含了用户的观点、情感和行为模式。通过分析这些数据,我们可以进行舆情监控、用户画像、市场分析等多种应用。深度学习技术,尤其是自然语言处理(NLP)技术,为我们提供了强大的工具来处理和分析这些数据。二、数据预处理在进行深度学习模型训练之前,我们需要对数据进行预处理。常见的预处理步骤包括数据清洗、分词、去停用词和词向量化。代码语言:python代码运行次数:0复制Cloud Studio 代码运行import pandas as pd
import re
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
# 读取数据
data = pd.read_csv('social_media_data.csv')
# 数据清洗
def clean_text(text):
text = re.sub(r'http\S+', '', text) # 去除网址
text = re.sub(r'@\w+', '', text) # 去除提及
text = re.sub(r'#\w+', '', text) # 去除话题标签
text = re.sub(r'\d+', '', text) # 去除数字
text = re.sub(r'\s+', ' ', text) # 去除多余空格
return text.strip()
data['cleaned_text'] = data['text'].apply(clean_text)
# 分词和去停用词
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
stop_words = set(stopwords.words('english'))
def tokenize_and_remove_stopwords(text):
tokens = word_tokenize(text)
filtered_tokens = [word for word in tokens if word.lower() not in stop_words]
return ' '.join(filtered_tokens)
data['processed_text'] = data['cleaned_text'].apply(tokenize_and_remove_stopwords)
# 词向量化
vectorizer = TfidfVectorizer(max_features=5000)
X = vectorizer.fit_transform(data['processed_text']).toarray()
# 标签
y = data['label']
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)三、构建深度学习模型我们将使用TensorFlow和Keras构建一个简单的深度学习模型来进行文本分类。代码语言:python代码运行次数:0复制Cloud Studio 代码运行import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout
# 构建模型
model = Sequential()
model.add(Dense(512, input_shape=(5000,), activation='relu'))
model.add(Dropout(0.5))
model.add(Dense(256, activation='relu'))
model.add(Dropout(0.5))
model.add(Dense(1, activation='sigmoid'))
# 编译模型
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])
# 训练模型
history = model.fit(X_train, y_train, epochs=10, batch_size=32, validation_data=(X_test, y_test))四、模型评估训练完成后,我们需要评估模型的性能。我们可以使用混淆矩阵、准确率、精确率、召回率和F1分数等指标来评估模型。代码语言:python代码运行次数:0复制Cloud Studio 代码运行from sklearn.metrics import classification_report, confusion_matrix
import matplotlib.pyplot as plt
import seaborn as sns
# 预测
y_pred = (model.predict(X_test) > 0.5).astype("int32")
# 混淆矩阵
cm = confusion_matrix(y_test, y_pred)
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues')
plt.xlabel('Predicted')
plt.ylabel('Actual')
plt.show()
# 分类报告
print(classification_report(y_test, y_pred))五、实际应用通过上述步骤,我们已经构建了一个简单的深度学习模型来分析社交媒体内容。这个模型可以应用于多种实际场景,例如:舆情监控:实时监控社交媒体上的舆情,及时发现和应对负面信息。用户画像:分析用户的兴趣和行为,提供个性化推荐。市场分析:了解市场趋势和消费者需求,优化营销策略。六、总结本文介绍了如何使用Python和深度学习技术实现智能社交媒体内容分析。通过数据预处理、模型构建、训练与评估等步骤,我们可以有效地分析和利用社交媒体数据。希望本文能为您提供有价值的参考和帮助。
基于区块链的激励型短视频社交媒体imTube品牌正式发布
2018年4月26日,imTube在北京MeePark举办“文娱区块链高峰论坛暨品牌发布会”,到场嘉宾包括50余家新媒体公司、30余家投资机构和近40家媒体,发布会聚焦文娱区块链的新机遇,同时正式发布imTube品牌。发布会上,imTube发起人娄中燚、IMS新媒体商业集团创始人/CEO李檬、黑马基金合伙人胡翔和BitGuild创始人Jared共同就区块链、短视频和大文娱行业的发展提出了自己独到的见解,也共同展望了文娱区块链的发展趋势。imTube发起人娄中燚详细介绍了imTube的设计初衷、产品理念和未来规划。娄中燚表示2018年将成为区块链技术发展的黄金之年,短视频行业也正是各路资本布局的风口,imTube致力于利用区块链技术塑造全新的短视频内容生态。imTube拥有分布式架构,建立了开放式社区,是一个国际化的激励型短视频社交媒体。相较于现有的短视频产品,imTube生态圈中的内容生产者、内容受众、内容传播者和广告主不再受制于平台,生态角色不再有高低贵贱之分,实现了在去中心化体系下优质内容点对点的自由交易。imTube将帮助网红和KOL打造专属的内容生态,实现粉丝的高效管理,将注意力直接转化为经济效益。与此同时,imTube建立了友好的广告机制和精准的广告投放模式,一个多方共赢的内容生态体系呼之欲出。imTube发起人娄中燚演讲
IMS新媒体商业集团创始人/CEO李檬表示,在信息互联网时代,中心化已经发展到了顶峰,尤其是内容行业中心化架构导致的分配不公平,已经严重制约了行业的进一步发展。
而在imTube上面,内容权属是天然确定的,不可篡改,内容生产者可以完全支配自身的版权和传播路径。imTube对内容行业的痛点理解非常深刻,并且利用区块链技术有效的改善了生产关系,促进了生产力的发展。IMS新媒体商业集团创始人/CEO李檬演讲黑马基金合伙人胡翔表示,传统行业构建公司,而区块链构建的是社群组织。传统互联网是提供产品与服务,而区块链创造一个规则和生态。在区块链世界里,大家都是价值创造者和价值持有者。黑马基金合伙人胡翔演讲
此次发布会上还有国内最大的游戏自媒体平台聚耀星空、国内最大的汽车自媒体联盟WeCar和中国领先的体育短视频社交媒体球咖体育作为首批MCN机构正式入驻imTube。imTube在项目成立初期,就获得了诸多大型MCN机构的支持。首批MCN机构正式入驻imTube
据了解到,imTube产品预计于2018年第三季度正式上线,并将在适当的时机进军国际市场。
响铃:子弹短信后新产品不断,社交媒体还有创业“口子”吗?
文|曾响铃来源|科技向令说(xiangling0815)当最后一个记得你的人忘记你时,你就死了——《西部世界》。子弹短信最害怕的不是用户量的下坠,也不是口诛笔伐的看衰声,而是有一天没有人再谈论它。用户量断崖式下跌后,子弹短信仍然孜孜不倦地更新,不久前还大张旗鼓引入支付宝支付,实际意义有多大不得而知,但总归还能捞一点关注。不过,对喜欢看热闹的吃瓜群众而言,社交媒体的新晋创业者不只有子弹短信吊着一口气,下半年以来这个行当似乎又有了松动迹象,玩法也日渐丰富。例如,就在最近几天,APP Store和安卓各大市场又新上了一款称作“Ta在”的社交媒体软件,该产品在玩法上大打算法革新旗号,要颠覆传统社交媒体用户与内容的匹配方式,实现用户间兴趣和需求的真正契合。而Ta在,也只不过是最近一段时间出现的众多社交媒体产品的一个,在这之前,还有POP、ECHO、唔哩星球、微脸、我是谜、Soul、一罐等鱼贯而入,一些产品例如Soul还闹出不少动静。被几个产品独霸之后,社交媒体兴许还能一不小心真的创造奇迹了,如兴奋的罗永浩在台上所说。社交媒体“老了”,心有余而力不足俗话说,站着说话不腰疼。总有人盯着微博、微信等社交媒体产品不放,挖出各种问题,但是,你能想到的,互联网最好的产品经理们未必就想不到。他们只是心有余而力不足罢了。不是不听、不改、不优化,而是产品度过巅峰期后,大多数时候只得小心翼翼伺候着,能做得反而越来越少。例如,微信最基础的IM功能,我们总能找到一堆这个不好、那个不方便的问题。如何编辑、如何发送、如何语音、如何插入图片与小视频,来自不同背景的使用者,甚至专门挑刺的人,总能找出一大堆待优化之处。越是简单的东西越难设计,IM一发一收,能做的文章太多,无法完美,总有不足。用户量越大问题就越明显,众口难调的最好处理方式——以及现实的结果,就是干脆不调。微信公众号,过去是用户不愿意去关注新的博主,现在则变成了用户甚至懒得“取消关注”。这样一个对打今日头条、百家号的巅峰内容产品,生态愈发死气沉沉。张小龙要仿照信息流的方式呈现推送信息,让机会均等,在一片骂声中匆匆收场。朋友圈这个食之无味、弃之可惜的社交分享场所,虽然广被诟病“伪装场”、“微商天地”等,但除了小心翼翼加几条广告外,一直未有突破。另一边,同样拥有庞大用户量的微博,在媒体化的道路上越走越远,想做一点社交尝试,加个动态啥的,也是草草收场,用户还是习惯少数大V发声,多数人吃瓜,相互之间的交流……不存在的。改动风险太大是主流社交媒体难以在产品上突破的直接原因,继续僵持或是最好的解决办法,靠着使用惯性与天然网络效应“小心驶得万年船”。不过,另一股力量又直接摧毁了这种“据守”的想法。零点调查《中国00后群体研究分析》中提到,95后、00后才是真正的“移动的一代”(mobile generation)。这帮“小孩儿”首次触网年龄越来越早,平均已经到了6岁半,每天上网时间高达1.6小时。1995-2010出生的,已经全部挂在网上了。喜马拉雅、知乎、得到、分答等主要知识付费平台上,92年以上职场人士占据近6成至8成。用户未变,但人群却在更新,在踟蹰中畏首畏尾的社交媒体产品,能不能纳入新新人类的法眼,很难说。与此同时,产品经理又很难做点什么。创业者青睐垂直切入,但垂直也有不同“垂”法 “心有余而力不足”反映的客观事实是,帝国有强大的武力进行防守,但已无力再进攻、打压它人。这意味着,创业者只要能利用社交媒体产品的老态(仍然强大),找一个恰当的口子,就能博取市场空间,不会被“辣手摧花”。子弹短信初期的疯狂崛起,就是最好的证明。以子弹短信为代表,对突然涌入的诸多创业者而言,找个角度垂直进去是普遍的玩法。只不过,这种垂直化却分化出不同的花样来。1、功能垂直,肢解微信以一个结构完备的类似产品去怼微信并不现实,肢解微信,选取某一个功能切入,成了某些社交创业的首选。微信四大功能:IM、朋友圈、公众号、摇一摇/漂流瓶,除了公众号归属内容领域,其他三个都有对应的分蛋糕项目。IM是最难切的领域,但风险总是与收益对等,打下IM的江山就几乎打下了微信的江山,自来往、米聊、易信后,再次切入IM的勇士当然是子弹短信了。语音+文字输入方式、快速聊天回复、稍后处理……这些用户体验极佳的创新说明子弹短信对IM的改造下了功夫,如图:而微信自家出走的高管做的POP和ECHO,虽说是对标snapchat、instagram,但其玩法怎么看都想是朋友圈分享的强化版。POP的即时拍照分享、虚拟贴纸形象,都在主打熟人社交及圈子分享,虚拟贴纸甚至类似QQ秀;而ECHO的首要功能就是“瞬间合辑”,在圈子内分享,且能形成类似朋友圈的时间线,如图:Soul、一罐等产品,直指微信的摇一摇、漂流瓶而来。Soul的灵魂社交凭借8月在微博投放一个长篇大论的故事突然小小火了一阵,说白了,不看脸、性格测试配对这些功能,都是为了“摇一摇”或者“漂流瓶”的效率更高罢了。从摇一摇起,陌生人的暧昧社交总有那么些可能,前有陌陌探探,后来者不会停下。Soul界面如图:2、用户“双垂直”从不同的用户人群垂直切入,本来也是平常的做法,不过这种切入事实上也有两种方式。一种就是普通的直接抢夺。例如靠着几个匿名爆料突然大火的职场社交产品脉脉,最近的官方数据,所谓“高质量白领”注册用户的规模,已经突破5000万,这是直接分食客户群。如图:另外,就是不抢夺现有社交APP用户的玩法,而是“收纳式”垂直,盯住新入网的新新人群。打开唔哩星球app,“假面舞会”、“故事与酒”、“涂鸦拍卖”等95后、00后的玩法恐怕80后或更早的人群无法理解,但它的确创造了日活 25 万、月活 70-80 万、次日留存率约 46%等成果,其中00后占到60%-70%,这是不可忽视的、微信微博难以触及的新兴力量。如图(来源:网络):3、社交“方式”垂直还有一类垂直切入,干脆打起了社交方式的主意,毕竟,似乎从来没有人质疑过去默认的社交与分享方式本身是否有道理。最近新上线的Ta在APP就自称“新一代反常规社交媒体软件”,不再给各类人贴上社交的标签进行匹配,而试图用算法搞出所谓“一人千面”。例如,在内容分享上,Ta的主界面提供了3种方式,“Ta在”,用户分享内容,特殊的无标签算法推送内容;“我趣”,提高推荐的精准度,得出更为精准的推送结果;“合拍”,进一步提升精准度,通过用户行为分析得出与之最“合拍”的用户。如图:对社交默认的方式进行改变,这种玩法或许打开了切入市场的新思路,但基础层面的改变相应地难度也会更高。当然,除了上述三种通过垂直的方式切入社交媒体的玩法,也有一些产品喝了洋墨水不信邪,要正面杠微信微博。10月份刚刚完成近600万元天使轮融资的微脸,就宣称要做中国版的Facebook(虽然被网友称作人人网诈尸),打造真实姓名、真实信息的移动社交网络,一次把微信、微博全怼了。如图:该APP上线一天后,在iOS社交榜中的排行便达到了第38名,冲劲十足。虽然是借了脸书的名头,但也足以说明社交媒体的江山并不稳固,用户的审美疲劳后,替代的冲动难以预料和控制。八仙过海,社交媒体创业自有神通总体而言,选择什么角度切入社交媒体创业,除了外部市场的考量,与创业者的禀赋同样密切相关。POP创始人为林少华是前微信基础产品部产品中心副总监,ECHO创始人黄天晴是前微信开放平台基础部基础产品中心总监(部门拗口,注意二人的确不是一个部门的)。不过,两人都做“产品”,在如何分享这种事情上显然比做基础的、死板的IM在行一些,在Snapchat与instagram两个分享巨头影响下,盯住图片与生活分享方式在情理之中。而子弹短信做IM,啃硬骨头的玩法,实际上亦符合锤子系公司“研发能力过剩”的特征。在如何更好地通讯这件事上,锤子的确有两把刷子——无论是自家OS上曾出产过标志性的“大爆炸”功能,还是朱萧木煞费苦心研究如何让老年人、视觉障碍人士更好地沟通,甚至是锤子最失败的产品TNT,也显示了某些高效沟通的实践。虽然子弹短信只剩一口气了,但其却公认比微信在IM方面更好用,“引用回复”、“这是谁来着?”等小功能都是IM的高光创新。还是那句话,IM无法完美总有优化空间,子弹短信钻了进去。另一个搅局者Ta在,其本质上就是通过算法创新来拓展社交方式,这是新晋创业者可选的路径,大佬级企业与创业企业之间,最为平等的是平均的智力资源,小公司的算法创新不一定就比大公司差,这在金融科技创业浪潮上已经表现出来。而Ta在的一些社交媒体做法理念,都需要算法的支撑。以微信、微博为代表的社交媒体1.0时代已经出现了信息过载,一方面信息太多,另一方面信息不匹配,“我关注的人发的东西并不都是我想看的”现象已经十分明显,朋友圈影响力日益下滑,微博商业化越来越严重,不论是发出内容的,还是接收内容的,社交双方其实并不满意。以此为背景,Ta在打的旗号,就是让信息过剩时代社交过程中的内容分享、人群聚类更加准确。在实际操作时,“Ta在”、“合拍”,表现出越来越深度的匹配,此外,Ta在给了每个分享的内容用七种颜色的“钻石”进行标记,暖色偏大众,冷色偏小众。如图:不同于Ta在试图用算法完成所有人和社交内容的精确匹配,唔哩星球则利用创始人对95后、00后人群的洞察为产品设置一些“非我族类”看不懂但十分有用的功能。例如假面舞会,每天由不同的星主(来自经过筛选的用户)主持,根据男女比例,“舞池”人数150-300人,晚8点开始持续3个小时。这个虚拟的舞会还设置了一些规则,例如未报名的进入替补席,等着替代那些迟到5分钟以上的名额。如图:这种看起来小孩过家家的玩法,已经成为唔哩星球重要的引流产品,按创始人窦漪的说法,相当于游乐园中爆款的旋转木马。可以确认的是,这种光怪陆离又行之有效的玩法,真不懂95后、00后的,肯定想不到也玩不转。能搅局即是胜利都说移动互联网时代,社交媒体最难啃。但是,甭管有没有原罪陌陌都市值百亿了,横空出世的探探也一下子蹿火;子弹短信声量小了但700万沉淀用户还在;Soul凭借微博的一个广告火了一把;脉脉快速成长……社交媒体从来不是什么黑洞,至少最近一年尤其近半年以来,机会越来越多。反倒是,游戏、服务类创业的垄断迹象越来越明显,尤其是游戏,过去机会大现在机会越来越小,已经被流量大户把持,后进者几无机会。社交媒体的机会,与其他领域的机会,有着相反的演化。回过头来看,各种垂直方式、各种“神通”的出现,本身就证明社交媒体创业是一个有着很多口子的行当,能搅局就等于进入了这些口子,就已经算是胜利,剩下的只需静待“时机”到来。这种时机,先是外部的,社会需求剧烈变化引起用户的质变,又分为两种。1、现有人群的“霉变”社交圈越来越窄、宅化倾向越来越明显、B站流量越来越大,老网民们整天喊自己老了,实际不过是在发霉。Soul打着“不约”的旗号,要做博客自留地、不小心被志同道合的人看见的心语……这些说来说去都是盯着“性”之外的陌生人社交需求——日益明显的“孤独”。而一罐APP把这种孤独霉变体现得更为明显,产品UI中透露着一种隔绝,更被评为社交恐惧症患者专属社交软件。如图:2、新人群的替代95后、00后对现有用户的替代是时间上和物理上的,必然发生、无法阻止。每一波新人,带来的都是全新的机会,不再赘述。然后是内部的,如前所述,社交媒体长期积压存在着各种问题,IM、朋友圈、附属产品功能总有不如意的,疲态显露后给予创业者机会。此外,还有一些隐性的缺陷显露,例如Ta在这个产品盯的就是社交内容匹配算法本身的不完善。当前凡是涉及的人与社交内容匹配的算法,大多数都是制式教育背景下的产物,根本上遵循某些特定原则,实质是固化的。例如像Facebook、Amazon、Netflix、微博、微信、头条、淘宝、优酷等网站采用传统的标签化分类方法,“标签”是算法的基石,但标签本身,以及标签与标签之间的底层关系(行话叫“知识库”),说来说去都需要人肉输入和整理。这是Ta在的“时机”,它试图建立一套制式化教育之外的算法,颠覆掉过去的算法核心——标签,把原本由人控制和输入的标签也交由机器自己完成,这种玩法或能将同一品位的电影、音乐、诗歌和绘画归类到一起,而以标签为核心的算法是做不到的。社交媒体与过去的BBS相比,只是把所有的信息、知识和人聚合起来,但“我关注的人发的东西并不都是我想看的”,说明它并没有解决分类问题。Ta在想让算法不再被人为固定的标签框死而冰冷,“让机器自己玩”这种解决分类的方式,前方能走多远、是天堂还是毁灭还未可知。但无论如何,能搅局就是胜利,陌陌、探探、脉脉、子弹短信、唔哩星球、Ta在、微脸、Soul、一罐、POP、ECHO……社交媒体正变得越来越热闹,对“天下苦垄断久矣”的移动互联网而言,这一定是件好事。*以上图片包括封面来源于网络。【完】曾响铃1钛媒体、品途商业评论等2016年度十大作者;2 虎啸奖评委;3 AI新媒体“智能相对论”创始人;4 作家:【移动互联网+ 新常态下的商业机会】等畅销书作者;5 《商界》《商界评论》《销售与市场》等近十家杂志撰稿人;6 钛媒体、界面、虎嗅等近80家专栏作者;7 “脑艺人”(脑力手艺人)概念提出者,现演变为“自媒体”,成为一个行业。8 现为“今日头条问答签约作者”、多家科技智能公司传播顾问;重点关注领域1人工智能 |区块链 |汽车产业链| 内容创业 |新零售 2 电商 |新媒体营销 |SaaS企业级服务| 家居业 |社区O2O 3智能手机 |网红| 体育IP |互联网金融 |无人机4共享经济 | 直播、短视频 |传统企业转型
基于区块链的社交媒体平台 Steemit
从PC时代到移动互联网时代,社群媒体平台的需求一直都存在,从QQ到微信,我们在这些平台上撰写了多少文章、挥洒了多少青春岁月,同时也被把隐私卖给了平台、注意力也被广告所攫获? 不知你是否曾经想过,自己在社群媒体平台上发布的内容(文章、相片、影片)能值多少钱呢?猜他这一篇文章值多少钱?下面是一名中国网友的案例,他最近投资失利,难过地在Steemit上写了篇文章抒发心情,引发了大家的共鸣,你猜猜他这一篇文章值多少钱?看到下面红色框框的地方,左边的数字$80.22,代表这篇文章价值多少Steem,右边的数字205 votes,代表有多少人对这篇贴文点赞/投赞成票这是2017年12月初的币值对照表,简单换算一下80.22*7.42 = 595.2324, 也就是这篇文章价值将近600块钱一个外国的小哥更绝了,一张gif贴图就赚了1000块钱看到这里,是不是激起了你的好奇心呢?Steemit背后到底运作原理到底是什么呢?下面让我们来为你揭开他的神秘面纱什么是Steemit?Steemit是一个基于区块链的去中心化社交网络平台,有点类似于新浪博客 / 简书 / 微信公众号,并且透过Steem代币来奖励平台的参与者一般能通过以下几种方式来获得Steem代币发表优质文章:文章质量越高、收到的赞数越高,作者得到的奖励就越高挖掘优质文章:越早在优质文章刚发表的时候透过点赞、留言来支持,也能获得奖励持有Steem Power:类似股权分红(下面详解)透过外部交易所购买Steam代币为什么需要Steemit?相较于传统社交网络平台,Steemit有以下几个优势直接奖励内容生成者,省去平台中介费无广告,把使用者的注意力留给优质内容没人能透过算法操纵、屏蔽平台上的文章Steemit是如何运作的?三种Steem代币1Steem - 现金一般的数字货币,可以到交易所去兑换成其他货币/现金可转换成SP或者SMD (立即生效)2Steam Dollar (SMD) - 债券跟现实生活中的债券类似,具有还本付息的特性还本:不论Steem市场价格如何波动,1SMD永远等价于1美金的Steem假设今天1 Steem = 0.5美金1 SMD 可跟平台兑换 2 Steem假设今天1 Steem = 0.01美金1 SMD可跟平台兑换 100 Steem透过此制度,可以保证经济系统的稳定付息:年利率10%可转换成Steem3Steam Power (SP) - 股权可以分享系统每日产出steem的90%可以用赞同/反对来决定每个文章的收益可转换成Steem (需等13周,每周等额到帐)把Steem转为SP的过程称为Power Up把SP转为Steam的过程称为Power Down透过代币的设计可以得知,平台基本上非常鼓励使用者把代币换成SP,毕竟拥有SP就相当于成为了股东,才会与平台一起共享荣辱,使得系统欣欣向荣。以Steem为核心,这三种代币的转换关系图如下货币生成&分配按照平台的算法,Steem每年按照100%的速度增发,并且根据以下规则进行分配90% 依比例分配给SP持有者10% 进入贡献奖金池,再分成三份75% 发帖/回覆/评论创作者15% 投票者(根据SP计算)10% 证人(记帐/打包区块者)我在发表文章的时候,到底会拿到什么代币?Steemit根据你选择的奖励方式的不同,发放不同形式的代币在撰写文章介面的右下角有个Rewards,有三种不同的奖励方式可以选择,默认是Default (50%/50%)Power UP 100% - 将文章奖励 100% 存成 SPDefault (50%/50%) - 将文章奖励的50%存成 SP,另外 50% 透过 STEEM SBD 组合形式发放(根据市场行情,可能是一种或者两种组合)如果我发一个帖子,到底能够赚多少钱?影响一个帖子赚多少钱,最重要的还是内容的质量,质量越高的文章才有可能获得更多人点赞SP多的人点赞影响力更大,所有文章根据点赞者的SP加总计算后得出分数,共同瓜分奖金池你可以获得别人给你帖子回覆、评论时获得的奖励的 50%万一有人作弊、找人帮自己点赞怎么办?Steemit为了避免作弊行为的出现,有以下这些防御措施:否决票:如果被网友发现恶意刷赞行为,可以给予否决票。但为了避免否决票被滥用,每个人都有个信誉值,这个分数必须透过发帖、评论、日积月累才能逐步提升的,信誉值低对信誉值高的人的否决票是不起作用的投票力:每个人的投票力是有限的,每次投票都会消耗,随著投票力下降,点赞者带来的影响力也会下降,每天恢复20%的投票力延迟奖励:所有投票会被延迟24小时后才会计算奖励,如果有人在短时间内投票作弊,仍然会发现并予以否决看到这里,你难道以为Steem只有一个应用而已吗?Steem区块链可以透过不同平台获取上面的内容,除了官方的Steemit之外,还有许多第三方的平台,例如:1Dtube (山寨版Youtube)2Steepshot (山寨版Instagram)3Busy.org (山寨版Twitter)4DLive UI Preview (山寨版 Twitch)是不是很令人期待呀?结语区块链应用是否能取代原本中心化版本?目前大家都还是抱持著观望状态,在讨论是否能够带来颠覆影响之前,Steem及其产品本身首先必须创造出真正的价值,关键在于能否吸引到优质内容创作者、使得整个生态系统欣欣向荣。如果大家都只是一昧的想要赚钱、忽略内容创作的本质,用各种投机倒把的手段去骗取金钱、炒作币值,那这将会是Steem不得不严肃面对的挑战。除此之外,Steemit也是研究社会学和博弈论的绝佳工具,就让我们一起观察Steem未来的发展吧。
Java 程序示例:实现了一个简单的社交媒体平台:
Java 程序示例:实现了一个简单的社交媒体平台:代码语言:javascript复制import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
class User {
private String username;
private String password;
private List<Post> posts;
public User(String username, String password) {
this.username = username;
this.password = password;
posts = new ArrayList<>();
}
public String getUsername() {
return username;
}
public void addPost(Post post) {
posts.add(post);
}
public List<Post> getPosts() {
return posts;
}
}
class Post {
private String content;
private String author;
private List<String> comments;
public Post(String content, String author) {
this.content = content;
this.author = author;
comments = new ArrayList<>();
}
public String getContent() {
return content;
}
public String getAuthor() {
return author;
}
public void addComment(String comment) {
comments.add(comment);
}
public List<String> getComments() {
return comments;
}
}
class SocialMediaPlatform {
private Map<String, User> users;
public SocialMediaPlatform() {
users = new HashMap<>();
}
public void addUser(User user) {
users.put(user.getUsername(), user);
}
public User getUser(String username) {
return users.get(username);
}
}
public class Main {
public static void main(String[] args) {
SocialMediaPlatform platform = new SocialMediaPlatform();
User user1 = new User("alice", "password123");
User user2 = new User("bob", "password456");
platform.addUser(user1);
platform.addUser(user2);
Post post1 = new Post("Hello, world!", "alice");
Post post2 = new Post("I love programming.", "bob");
user1.addPost(post1);
user2.addPost(post2);
post1.addComment("Nice post!");
post2.addComment("Keep up the good work!");
System.out.println("User: " + user1.getUsername());
System.out.println("Posts:");
for (Post post : user1.getPosts()) {
System.out.println("Content: " + post.getContent());
System.out.println("Author: " + post.getAuthor());
System.out.println("Comments:");
for (String comment : post.getComments()) {
System.out.println("- " + comment);
}
System.out.println("-----------------------");
}
}
}这个程序示例实现了一个社交媒体平台,包括用户类 User,帖子类 Post 和社交媒体平台类 SocialMediaPlatform。用户类具有用户名、密码和帖子列表等属性,并提供添加帖子和获取帖子列表的方法。帖子类具有内容、作者和评论列表等属性,并提供添加评论和获取评论列表的方法。社交媒体平台类具有用户列表,并提供添加用户和获取用户的方法。在 main 函数中,示例创建了一个社交媒体平台对象 platform,并在平台上添加了两个用户 user1 和 user2,然后每个用户都发布了一个帖子,并给帖子添加了评论。最后,打印了用户1的帖子及其评论。
手把手教你如何利用“社交媒体分析学”挖掘潜在客户
与传统媒体不同,社交媒体让信息的传播者和接受者形成互动,成为了现今互联网世界不可忽视的重要组成部分,从Facebook和Twitter这样的社交网站,到YouTube等视频网站,再到各式各样的互动百科,社交媒体与人们的生活越来越近。举例来说,用户可以在YouTube上上传视频内容,然后回复视频的评论来与观众互动。通过社交媒体实现的这种双向交流为很多公司企业提供了宝贵机会,能够让他们与终端用户直接沟通。本文内容目录:1,什么是“社交媒体分析学”?
2,不同的公司是如何利用社交媒体分析学的?3,社交媒体分析学能为公司带来什么?4,如何利用社交媒体开发潜在客户?5,情感分析6,潜在客户开发7,社交媒体分析学工具1什么是“社交媒体分析学”?社交媒体分析,顾名思义,就是通过分析社交媒体数据来进行商业决策。这些数据通常来自于博客、论坛、社交媒体网站,通常使用文本挖掘和自然语言处理技术,将定性数据转化成定量数据。常见的社交媒体分析目的包括: 扩大业务通过社交媒体发布广告通过社交媒体监控减少客服成本获取产品和服务的反馈获取公众对某个产品或部门的意见2不同的公司是如何利用社交媒体分析学的?以下是不同公司使用社交媒体分析的主要形式:火焰检测(听取差评)扩大新产品影响力扩大品牌影响力公司形象维护发掘流行趋势分析内容传播力广告效果的测评开发潜在客户政府听取民意3社交媒体分析学能为公司带来什么?正确的维护好公司的官方社交媒体渠道,利用社交媒体平台分享行业知识和专业信息,来扩大公司品牌影响力和认可度。发现目标客户群体的讨论方向,发现热点,抓住潮流,发现产品和服务的痛点。跟踪本公司品牌和竞品的评价,观察用户的评价口碑。发现竞争对手与客户交流的渠道,找到他们对话的社交平台、博客、论坛或者讨论组。通过网络分析发现缝隙市场的主要影响因素。发现是否有公司内部人员未经公司允许参与外部讨论或者在社交平台发布公司信息。找出以往的和现在的竞争对手,关注他们的动态。发现行业中需要发展和改善的领域。招聘到优秀的人才。找到提高用户忠诚度的正确方法。打造品牌大使社区。发现对公司有威胁的领域。评估社交媒体上不同广告的投放效果。观察客户讨论情况,来对产品进行改善。发现销售机会。比较发现公众更喜欢哪种形式的内容。4如何利用社交媒体分析开发潜在客户关键词提取:首先我们需要在初级输入(primary input)中输入种类条目,找到数据提取需要的不同关键词。举例来说,对高价的组合式橱柜,我们需要知道不同品牌的数量、名称和特点,现在流行的款式等等。同时还需要剔除一些干扰词来去掉无关信息。如果我们仅仅使用“橱柜”这个关键词,就能找到“@XXX – 竞争激烈啊! Brand-YYY @Kitchen_Art #生活方式”,这样的信息就是和组合橱柜无关了。数据提取和数据筛选:一旦关键词列表确定了,我们就需要确定合理的查询模式来抓取有效内容。为了避免上面提到的问题,我们在输入关键词的同时也要剔除干扰词。当然我们还需要筛选正确的信息源,对组合橱柜来说,可以找Houzz.com论坛等。将定性数据转化为定量数据:接下来我们需要通过文本挖掘和自然语言处理技术来将定性数据转化为定量数据。演示如下图:之后还需要通过“测试学习”方式对上表进行调整,调整后如图:购买意向基本分类创建调整:分析购买意向时,我们需要以样本数据扫描为基础,创建一个初级分类。5 情感分析分析语气来判断公众心态,看他们对某个产品是持积极、消极还是中立态度。这种包含了预测模型和习惯分类法的基于Naïve Bayes分类器的分类方法能够有效提高准确度(>80%)。语气计算流程如下:文本挖掘:从每条动态中提取主要概念、创建变量并记录100个左右的概念。人工情感分类:随意提取10%样本或至少5000个数据点、人工对这些数据进行分类。预测模型:利用决策树、神经网络,SVM等算法,学习样本数据分类,从而确定分类规则。习惯规则:基于Business Logic、 Naïve Bayes分类器等条件概率算法,建立习惯规则,提高语气情感分析的准确性。运用分类规则:将预测算法规则和习惯规则应用到整个数据集,获取每个信息点的语气情感信息。6开发潜在客户购买意向分析和语气分析结束后,我们可以将内容分为:高可能性客户中等可能性客户低可能性客户然后着重分析高可能性和中等可能性用户的需求和痛点,然后制定沟通策略来对他们进行重点营销。解决方案运作模式 每一个新的数据产生以后,这个数据就将根据现有规则被分到相应的分类条目中。每三个月应该对这些规则进行再验证。7社交媒体分析工具目前可供市场分析师使用的社交媒体分析工具非常多,如Radian6、Sysomos、Poly Analyst (Megaputer)、HootSuite等等。这些工具可以用来分析多个渠道的数据,也有专门用于分析某个网站数据的分析工具,如Twitter分析工具,Facebook分析工具等。所有这些分析工具都能用于将定性数据转化成数据表格,可用于社交媒体监测。还有一些使用感较好的统计工具,如R语言、SPSS文本挖掘器、SAS统计分析系统,能够用于预测建模等高级分析过程。Naive Bayes分类器可用于提高情感分析的准确度。翻译:灯塔大数据
利用API接口获取社交媒体上特定用户或话题相关信息
社交媒体已成为人们获取信息、交流、分享的重要平台。利用API接口可以方便地获取社交媒体上特定用户或话题相关的信息,帮助我们了解用户需求、抓取时下热点等。本文将为您介绍如何利用API接口获取社交媒体上特定用户或话题相关信息的步骤,并分享实用的代码示例,帮助您快速掌握这一技巧,提升信息获取与分析的能力。 一、了解API接口 1.选择目标社交媒体平台: 不同的社交媒体平台提供不同的API接口。在开始之前,我们需要选择要获取信息的目标平台,如微博、短视频平台等,并查找相应的API文档或接口说明。 2.获取API授权: 大部分社交媒体API都需要获取授权才能进行数据访问。通常,您需要创建一个开发者账号,申请API密钥或Access Token,并遵循相应的使用规则。 二、使用API接口获取数据 1.安装所需库: 在Python中访问API接口通常使用requests库进行HTTP请求处理,因此我们需要安装它:代码语言:javascript复制```python
pip install requests
``` 2.构建API请求: 根据API文档的要求,构建相应的API请求,并设置请求参数,如用户ID、话题关键词、时间范围等:代码语言:javascript复制 ```python
import requests
#设置API请求的URL和参数
url="https://api.example.com/user"
params={
"user_id":"123456789",
"start_date":"2022-01-01",
"end_date":"2022-01-31"
}
#发送API请求并获取数据
response=requests.get(url,params=params)
data=response.json()
#处理获取到的数据
#...
``` 3.数据处理与分析: 获取到API返回的数据后,可以根据需求进行数据处理、分析和可视化,例如统计用户活跃度、识别热门话题等。 三、案例:获取某微博用户的最新推文代码语言:javascript复制```python
import requests
#设置API请求的URL和参数
url="https://api.weibo.com/1.1/statuses/user_timeline.json"
params={
"screen_name":"example_user",
"count":10
}
#发送API请求并获取数据(需要替换为您的API密钥)
response=requests.get(url,params=params,auth=("API_KEY","API_SECRET"))
data=response.json()
#提取推文内容
for tweet in data:
print(tweet["text"])
#处理获取到的数据
#...
``` 通过选择目标平台、获取API授权,并使用requests库发送API请求,我们可以方便地获取到目标用户或话题的相关数据。在获取到数据后,您可以根据需求进行处理,如统计、分析或可视化,以获得有价值的信息。希望本文对您在社交媒体信息获取与分析方面的学习和实践有所帮助!
独家 | 理解和管理社交媒体算法的4个想法
代码语言:javascript复制作者:Veronica Combs
翻译:赵茹萱校对:郑强本文约3700字,建议阅读10+分钟没有单一的解决方案能够让所有社交媒体算法都更加易于分析和理解。试想一下,如果科技公司必须公布有关算法如何工作的数据,而软件工程师在高等教育时期必须学习社会科学课程,那将会发生什么?麻省理工学院斯隆管理学院(MIT Sloan School of Management)教授埃克尔斯(DeanEckles)(左上)与斯坦福大学(Stanford University)平台监管主任达芙妮·凯勒(DaphneKeller)和沃顿商学院(WhartonUniversity)商业人工智能主管卡提克·霍萨纳加(KartikHosanagar)就“如何让算法更加透明”进行了对话没有单一的解决方案能够让所有社交媒体算法都更加易于分析和理解。但是,拆解围绕着这个软件的黑盒子或许是一个不错的开始,让我们在这个黑盒子上戳几个洞吧。通过与独立分析师共享内容,也可以提高可解释性。周四,在麻省理工学院举行的社交媒体峰会上,研究人员、技术专家和法律学者讨论了如何启动这一过程。麻省理工学院数字经济倡议组织主持了从乌克兰战争、虚假信息到算法透明度、人工智能监管的各种对话。Facebook吹哨者弗朗西斯·豪根(Frances Haugen) 开启了这场免费的在线活动,并在第一场会议上与麻省理工学院集成开发学院(MITIDE)主任希南·阿拉尔(SinanAral)就社交媒体问责制和透明度进行了讨论。Haugen 是一名电子计算机工程师,也是Facebook前产品经理。2021年年中,她与媒体、国会和监管机构分享了Facebook的内部研究,她在领英(LinkedIn)上将她目前的职业描述为“公民诚信”,并概述了在算法影响方面监管机构和行业领导者需要做出的几项改变。注意义务:社交媒体安全的预期Haugen大约一年前离开了 Meta,现在正在研究“注意义务”概念,即如何定义社交媒体平台上的合理安全预期。这包括回答以下问题:“如何让13岁以下的孩子远离这些系统?”“因为看不到幕后算法,他们不知道该问什么问题。那么,让孩子们远离这些平台,我们需要他们公布哪些数据,以了解他们是否履行了注意义务,这个可接受且合理的严格程度是多少?”参见:为什么安全的元宇宙是必须的,以及如何构建受欢迎的虚拟世界https://www.techrepublic.com/article/why-a-safe-metaverse-is-a-must-and-how-to-build-welcoming-virtual-worlds/她以 Facebook上“广受关注的内容”更新为例,说明了数据的欺骗性展示。该报告仅包含来自美国的内容。Haugen表示,Meta 已将大部分安全和内容审核预算投入到这个市场。她认为,经历种族灭绝风险比较高的国家的排名前20名的清单内容,其实比Facebook上的流行榜单更为准确。“如果我们看到那份内容清单,我们会说,这是无法忍受的。”她还强调,Facebook是许多人与互联网的唯一连接方式,除了与种族灭绝有关的社交媒体网站,没有其他选择。减少Facebook上虚假信息和仇恨言论的一种方法是,改变广告的定价方式。Haugen认为,广告的定价是基于质量,前提是“高质量的广告”比低质量的广告便宜。然而,Facebook将质量定义为获得反应的能力,即点赞、评论或分享。Facebook知道,点击的最短路径是愤怒,因此愤怒的广告最终会比其他广告便宜五到十倍。Haugen说,一个公平的折衷方案是统一广告费率并“从系统中取消对极端主义的补贴”。扩大对社交媒体平台数据的访问Haugen建议,强制发布有关算法的可审计数据。“这将使独立研究人员能够分析这些数据,并理解信息网络。”Haugen认为,提高数据透明度是提高社交媒体平台问责制的关键,共享数据也将促进这一点。在“算法透明度”会议中,研究人员解释了更广泛地获取这些数据的重要性。麻省理工学院斯隆管理学院教授、IDE 研究负责人 DeanEckles 主持了与斯坦福大学平台监管主任DaphneKeller 和沃顿商学院商业人工智能业务主管Kartik Hosanagar 的对话。参见:如何识别社交媒体上的虚假信息并保护您的业务https://www.techrepublic.com/article/how-to-identify-social-media-misinformation-and-protect-your-business/Hosanagar讨论了 Twitter和 Meta 关于算法影响的研究,但也指出了这些研究的局限性。“所有这些平台的研究都要经过内部批准,所以我们不知道哪些没有得到内部批准的研究。”让数据可访问很重要。数据透明度也很重要,但需要在特定受众背景下理解该术语,例如软件开发人员、研究人员或最终用户。Hosanagar 说,算法透明度可能意味着从揭示源代码,到共享数据,再到解释结果的任何事情。立法者经常考虑提高最终用户的透明度,但Hosanagar 表示,这似乎并没有增加用户之间的信任。通常而言,社交媒体平台对这些算法的理解有太多的控制权,而将这些信息暴露给外部研究人员是至关重要的。“透明度主要是为了让组织内的数据科学家更好地了解他们的系统在做什么。”跟踪哪些内容被删除了解哪些内容被推广或者是被审核的一种方法是,查看从不同平台删除信息的请求。Keller认为,最好的资源是哈佛大学的“流光计划”(ProjectLumen),这是一组基于美国数字千年版权法案(DigitalMillennium Copyright Act)以及商标、专利、本地监管内容和私人信息的在线内容删除请求。Keller表示,谷歌、Twitter、维基百科、WordPress和Reddit等公司已经从这些数据中进行了大量研究。“你可以看到是谁提出的问题,为什么提出,提出的内容是什么,找出错误或模式的偏见。”然而,为了便于研究人员查看哪些内容被从这些平台上删除,YouTube或Facebook的下架请求并不是单一的数据来源。Keller认为:“如果平台之外的人有这种访问权限,他们可以做得很好,但我们必须克服障碍和相互竞争的价值观。”Keller表示,欧盟于 2021 年 1 月批准的《数字服务法案》将改进算法的公开报告和研究人员对数据的访问权限。“这将极大地改变欧洲的透明度,并影响世界各地对信息的获取”电子前沿基金会(EFF)在一篇关于该法案的帖子中表示,欧盟立法者在该法案中提到的关于加强用户在线匿名和私人通信的权利,以及确立用户有权在合理情况下匿名使用和支付服务费用这几个要素上都做对了。但EFF仍然担心该法案的执行权力过于宽泛。Keller认为,监管机构最好制定透明规则。“监管者行动迟缓,但立法者更慢。”“他们将锁定要求错误的透明度模型。”参见:政策制定者希望监管人工智能,但对如何监管尚缺乏共识https://www.techrepublic.com/article/policymakers-want-to-regulate-ai-but-lack-consensus-on-how/Hosanagar表示,由于社交媒体平台变化如此之快,监管机构总是会远远落后于科技行业。“单靠法律规定并不能解决这个问题。我们需要更多的企业自主参与,而不是仅仅遵守法律规定。”“未来几年乃至几十年,这将是一个艰难的过程。”此外,正如Eckles指出的那样,适用于 Facebook 和Instagram 的法规不会解决TikTok和印度流行的社交媒体应用ShareChat的问题,建立在去中心化架构上的系统将是另一个挑战。“如果下一个社交媒体渠道是在区块链上呢?”Hosanagar认为,“这改变了整个讨论,并将其带到另一个维度,使当前所有对话都变得无关紧要。”对工程师的社会科学培训该小组还讨论了针对消费者和工程师进行用户教育,以提高透明度方法。让更多人提出“我们应该建造它吗?”的方法,就是在工程学位中增加一两门社会科学课程。这可以帮助算法架构师以不同的方式思考技术系统,并理解算法可能会带来的社会影响。Hosanagar认为,“工程师们考虑的是,新闻推送推荐算法的准确性,或者是10条被推荐的新闻中哪一部分是与之相关的。然而,这些都不能回答这是否会造成社会分裂或者是否影响个人隐私等问题。”Keller指出,许多工程师都愿意以公开的方式描述他们的工作,但社会科学家和律师并不总是使用这些信息来源。参见:实施人工智能还是考虑供应商态度?这些道德政策模板或许可以提供帮助https://www.techrepublic.com/article/implementing-ai-or-worried-about-vendor-behavior-these-ethics-policy-templates-can-help/Hosanagar认为,科技公司可以采取开源方式来实现算法透明度,就像组织分享有关如何管理数据中心或云部署的建议一样。他说,“Facebook和 Twitter一直在努力解决这些问题,并取得了很多成果,供其他公司借鉴参考”。Keller以Google的搜索质量评估指南为例,开启了“工程师对工程师”的讨论,以期能够让其他专业人士从中找到教育意义。“我生活在社会科学家和律师的世界里,他们不读那些东西。也就是说,现有的某种程度的透明度没有被充分利用。”选择自己的算法Keller关于提高透明度的想法是,允许用户通过中间件或“魔术API”选择自己的内容审核员。出版商、内容提供商或倡导小组可以创建一个由最终用户选择管理内容的过滤器或算法。Keller认为:“如果我们希望减少大型社交媒体平台的话语权,可以在内容审核和排名算法层引入竞争。”即用户可以选择某个组的审核规则,并根据自己的喜好调整设置。“这样一来,就没有一种算法如此重要。”在这种情况下,社交媒体平台仍将托管内容并管理版权侵权和删除内容的请求。参见:元宇宙安全:如何从Internet 2.0的错误中吸取教训,并构建安全的虚拟世界https://www.techrepublic.com/article/metaverse-security-learn-lessons-from-internet-2-0-mistakes-to-build-safe-virtual-worlds/Keller表示,这种方法可以解决一些法律问题,促进用户自主权,但它也带来了一系列新的隐私问题。“还有一个严重的问题是,收入如何流向提供商,”Keller认为,“肯定有后勤工作要做,但这是后勤问题,而不是我们在许多其他提案中遇到的第一修正案的根本问题。”Keller建议,用户希望内容审核人员能够将网络暴力者和种族主义者拒之门外,并减少网站向其群发垃圾邮件的次数。“一旦有政府监管部门为用户需求做把关,就可以对其进行监管,以满足政府需求。”原文标题:4 ideas for understanding and managing thepower of algorithms on social media原文链接:https://www.techrepublic.com/article/4-ideas-for-understanding-and-managing-the-power-of-algorithms-on-social-media/编辑:黄继彦
校对:杨学俊译者简介赵茹萱,东南大学法律硕士,现就职于北京市京都律师事务所,喜欢浏览“数据圈儿”,分享热点资讯,碰撞新奇观点的法律人。与我派一起成长的三年是熠熠生辉的三年。未来,愿继续与我派一起,探索未知,保持热爱。翻译组招募信息工作内容:需要一颗细致的心,将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友欢迎加入翻译小组。
你能得到:定期的翻译培训提高志愿者的翻译水平,提高对于数据科学前沿的认知,海外的朋友可以和国内技术应用发展保持联系,THU数据派产学研的背景为志愿者带来好的发展机遇。其他福利:来自于名企的数据科学工作者,北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。点击文末“阅读原文”加入数据派团队~转载须知如需转载,请在开篇显著位置注明作者和出处(转自:数据派ID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。发布后请将链接反馈至联系邮箱(见下方)。未经许可的转载以及改编者,我们将依法追究其法律责任。
点击“阅读原文”拥抱组织
加拿大尝试用社交媒体新技术预测和降低自杀率
加拿大政府正在与一家专门从事社交媒体监测和人工智能的公司商讨, 请他们协助预测自杀趋势,以求提前预测那些可能出现自杀高峰的地区。渥太华的Advanced Symbolics Inc.是一家人工智能和市场研究公司。它与大多数公司的不同之处在于,不是通过打电话等方式征询民意,而是通过识别和跟踪社交媒体帐户来建立一个有代表性的人口样本。此外在调查规模上他们数据分析所依据的样本也要大得多。通常大多数电话调查都是随机抽取约1500人,但该公司的加拿大人口样本则扩展为超过16万个社交媒体账户。成功预测了美国大选、加拿大大选和英国脱欧等重大事件正因为使用了这种高科技的统计方法,使其能够在其它民意测验不准确, 甚至失败的情况下,可以异军突起,成功地预测了特朗普,特鲁多和英国脱欧等重大事件的结果。© CBC/Advanced SymbolicsAdvanced Symbolics 公司的首席执行官埃里恩·凯利(Erin Kelly)表示:“我们是世界上唯一准确预测了英国脱欧,希拉里和特朗普选举以及2015年加拿大大选的研究公司,而且不侵犯任何人的隐私”。他说,这是因为他们的统计是通过人工智能寻找趋势,而不是个体情况。这点在涉及到很个人的问题时就非常重要,例如“自杀倾向”的预测。精神健康问题令人担忧在加拿大,近年来精神健康问题越来越引起各方的关注。每年因各种原因自杀的有4000多人,也是导致年轻人死亡的第二大原因。为了防止自杀,政府部门、社会团体都开设了帮助热线;社交媒体上也有不少可以使用的应用程序。有心理学专家统计过,目前可以在手机上下载的心理健康应用程序多达700个,但他们的质量参次不齐,有的防止自杀软件甚至提供危险的信息。但自杀是一种长期的个人心理行为,又具有很高的隐私性质。Advanced Symbolics 公司的技术总监肯顿·怀特说, 他们创立的系统的主要难题之一也是不要违反《隐私法》的相关条文。 他说:“我们这种不会违法隐私的技术有一些标准,也提供给加拿大统计局和其它收集个人信息的机构使用。我们不针对任何个人,而是只观测群体样本,这个群体有16万人。试想如果我们建立一个系统,监测人们在社交媒体上所说的话,然后有一天政府部门与某人联系说:’你好,我们电脑系统的人工智能分析显示你可能会自杀’,这会不会让人觉得怪异。因此,我们的人工智能系统只通过综合社交媒体上的信息,标志出可能发生多起自杀事件的社区或地区。像去年新斯科舍省布雷顿角岛地区连续有三名青少年自杀就很令人震惊”。新斯科舍省自杀学生的母亲 © CBC/Gary Mansfield怀特说:“布雷顿角发生的这起事件,是不幸的,我们可以从事件中学习,创建一种模式。我们也可以从萨斯喀彻温省发生的事情,从来自北方原住民社区发生的事情来创建不同的模式,还可以创建适合大学生的模式”。怀特补充说:“我们并不会违反任何人的隐私 – 因为数据都是建立在公开信息基础上。我们在社交媒体上创建具有代表性的人群样本,观察他们的行为而不会对其产生干扰。”在自杀发生之前采取预防行动在去年新斯科舍省布雷顿角自杀事件发生后的几个星期里,省政府曾向该地区派出了更多的咨询员和精神卫生专家。但那时的主要工作已经不是预防自杀, 而是减轻自杀事件对相关人士和社会的负面影响。根据Advanced Symbolics公司的介绍,他们通过社交媒体搜集数据,在自杀发生之前,人工智能系统可在两到三个月前发出警告,这些警示若分享给政府官员,就可以促使他们在危机发生之前调动精神卫生资源,而不是事后。这个公司已确定从1月份开始分析和确定与自杀相关的语言等信号,而真正的监测将在2018年晚些时候开始。
用JAVA的DEA算法衡量社交媒体页面的流行度
Measuring the Social Media Popularity of Pages with DEA in JAVA原文作者:Vasilis Vryniotis原文地址:http://blog.datumbox.com/measuring-the-social-media-popularity-of-pages-with-dea-in-java/译者微博:@从流域到海域译者博客:blog.csdn.net/solo95用JAVA的DEA算法衡量社交媒体页面的流行度在前面的文章中,我们讨论了数据包络分析(Data Envelopment Analysis)技术,我们已经看到它如何被用作一个有效的非参数排序算法。在这篇博文中,我们将开发出一个JAVA数据包络分析的实例,我们将用它来评估网络上的网页和文章的社交媒体流行度。该代码是开源的(在GPL v3 license下),您可以从Github免费下载。更新:Datumbox机器学习框架现在是开源的,可以免费下载。查看包com.datumbox.framework.algorithms.dea以查看Java中Data Envelopment Analysis的实现。数据包络分析在JAVA中的实现代码是用JAVA编写的,可以直接从Github下载。它是根据GPLv3许可的,所以可以随意使用它,修改它,或者再分发。该代码实现了数据包络分析(Data Envelopment Analysis)算法,使用lp_solve库来解决线性规划问题,并使用Web搜索引擎优化分析(Web SEO Analytics )索引提取的数据,以构建基于Facebook,Google Plus和推特上分享的一个混合的社交媒体页面流行度矩阵。在前面的文章中介绍了算法的所有理论部分,在源代码中可以找到关于其实现的详细的javadoc注释。(原博文之后数据包络分析(Data Envelopment Analysis)算法及其实现全部简称了DEA,请读者注意,译者注。)下面我们提供一个关于其架构实现的高级别描述:1. lp_solve 5.5 library为了解决各种线性规划问题,我们使用一个名为lp\_solve的开源库。某些特定的lib是用ANSI C编写的,并使用JAVA包装来调用库方法。因此,在运行代码之前,您必须在您的系统上安装lp_solve。该库的二进制文件在[Linux和Windows都可以使用,您可以在lp_solve文档中阅读更多有关安装的信息。在尝试运行JAVA代码之前,请确保您的系统上安装了(相关的)特定库。有关安装和配置库的任何问题,请参阅lp_solve文档。2.DataEnvelopmentAnalysis Class这是DEA算法的主要实现类。它实现了一个名为estimateEfficiency()的公共方法,它获取记录的Map并返回它们的DEA得分。3. DeaRecord ObjectDeaRecord是一个特殊的对象,用于存储我们记录的数据。由于DEA需要分离输入和输出,因此DeaRecord对象将以DEA可以处理的方式分别存储我们的数据。4. SocialMediaPopularity ClassSocialMediaPopularity是一个应用程序,它使用DEA来评估社交媒体网络上Facebook的like,Google的 +1和twitter的Tweets的网页流行度。它实现了两个受保护的方法:calculatePopularity()和estimatePercentiles()以及两个公共方法loadFile()和getPopularity()。calculatePopularity()使用DEA实现根据社交媒体计数来估计页面的得分数。estimatedPercentiles()方法获取DEA分数并将其转换为百分位数。总的来说,百分比比DEA分数更容易解释; 因此当我们说一个网页的流行分数是70%时,这意味着该网页比70%的其他网页更受欢迎。为了能够估计一个特定页面的流行度,我们必须有一个包含其他页面的社交媒体数据的数据集。这是有原因的,因为需要预测哪个网页是受欢迎的,哪些不是,您必须能够将其与网络上的其他页面进行比较。为此,我们使用来自以txt格式提供的Web SEO分析索引的小型的匿名样本。您可以通过从网页上的更多页面提取社交媒体计数来构建自己的数据库。(社交媒体计数,比如点赞数、转发数、评论数)loadFile()方法用于加载DEA的上述统计信息,getPopularity()方法是一种易于使用的方法,可以获取Facebook的like,Google的+1和一个页面的Tweets数量,并以此评估其在社交媒体上的流行度。如何使用数据包络分析的JAVA实现在DataEnvelopmentAnalysisExample类中,我提供了2个不同的关于如何使用代码的例子。第一个例子直接使用DEA方法来根据它们的输出(ISSUES,RECEIPTS,REQS)和输入(STOCK,WAGES)来评估组织单位的效率。这个例子来自DEAzone.com的一篇文章。代码语言:txt复制Map<String, DeaRecord> records = new LinkedHashMap<>();
records.put("Depot1", new DeaRecord(new double[]{40.0,55.0,30.0}, new double[]{3.0,5.0}));
//...adding more records here...
DataEnvelopmentAnalysis dea = new DataEnvelopmentAnalysis();
Map<String, Double> results = dea.estimateEfficiency(records);
System.out.println((new TreeMap<>(results)).toString());第二个示例使用我们的社交媒体流行度应用程序,通过使用来自社交媒体的数据来评估页面的流行度,例如Facebook的like,Google的+1和Tweets。所有的社交媒体计数都被标记为输出,我们传递给DEA一个空的输入向量。代码语言:txt复制SocialMediaPopularity rank = new SocialMediaPopularity();
rank.loadFile(DataEnvelopmentAnalysisExample.class.getResource("/datasets/socialcounts.txt"));
Double popularity = rank.getPopularity(135, 337, 9079); //Facebook likes, Google +1s, Tweets
System.out.println("Page Social Media Popularity: "+popularity.toString());必要的扩展(上面)所提供的代码只是DEA如何被用作排名算法的一个例子。为了改进其实现,需要进行下面的扩展:1.加速(算法的)实现特定的DEA算法实现会评估数据库中所有记录的DEA得分。由于我们需要解决如同数据库中记录数量那样多的线性规划问题,这使得实现变得缓慢。如果我们不需要计算所有记录的分数,那么我们可以显著地加快执行速度。因此,该算法的小扩展可以使我们更好地控制哪些记录应该被解决掉,哪些只能被用作约束。2.扩大社交媒体统计数据库(这篇文章所)提供的社交媒体统计数据库由来自Web SEO Analytics索引的1111个样本组成。为了能够估计更准确的流行(度)分数,需要更大的样本。您可以通过统计来自网络上更多页面的社交媒体计数来创建自己的数据库。3.添加更多的社交媒体网络该实现使用Facebook的喜欢,Google的+1和推文的数量来评估文章的受欢迎程度。不过,来自其他社交媒体网络的指标可以很容易地被考虑在内。您只需要从您感兴趣的网络中构建一个社交媒体数据库,然后扩展SocialMediaPopularity类来处理它们。关于实施的最终意见为了能够扩展(算法的)实现,您必须对Data Envelopment Analysis的工作原理有一个很好的理解。这在前面的文章中已经介绍过了,所以在继续进行任何更改之前,请确保您阅读了之前的教程。此外,为了使用JAVA代码,您必须在您的系统中安装lp\_solve库(参见上文)。如果你在一个有趣的项目中使用这个实现,那么就给我们一条线索,我们将在我们的博客上展示你的项目。另外,如果你喜欢这篇文章,请花点时间在Twitter或Facebook分享。