instagram探索

Instagram的 发表了一篇描述 幕后机械 在Instagram的“浏览”选项卡中填充了有趣的新内容 每次打开它。这有点技术性,所以这里有五个 takeaways.

甚至Instagram和Facebook资源也有限

不像 饲料, 有些人仍然希望只是按时间顺序浏览标签 需要通过算法来驱动。但是了解发生了什么 在基于图像的社交网络上并向人们推荐新内容 这个问题确实很难解决。

如果这些公司具有无限的处理能力和时间,那么他们可能会在探索问题上有一些不同。但事实上,他们需要在短时间内且仅在短短的时间内为数亿人提供服务 巨大 计算资源。我认为他们将其放在帖子的顶部,所以人们不会奇怪为什么他们会偷工减料。

他们指出,当您可以更改内容并快速查看结果时,也更容易进行实验和迭代。

全部与帐户有关,而不是发布

所以 很多东西发布到Instagram上,这几乎是不可能的 单独跟踪每张照片,以供推荐 无论如何。跟踪帐户更简单,更高效,因为 帐户通常具有主题或主题,例如“旅行” 高度特定的东西,例如圆形密封件。

而 喜欢某个帐户中的一条信息并不一定意味着您会喜欢 该帐户中的所有其他信息,这很好地表明您在 对那个帐户的主题最不感兴趣。即使是这个 您想引起注意的特定猫的特定帖子,因为 如果您喜欢某个帐户中的图片,它会让您想起旧手套 大部分张贴猫,这是有价值的信息。

复杂的习惯告知算法

值得注意的是,Instagram不仅可以使用图像功能来确定哪些帐户已进行了局部链接,当然也可以检测到这种情况。他们也会使用您的行为。

例如,当您连续喜欢多个帖子时,它们的数量更多 即使Instagram的算法无法实现,也可能以某种方式链接 quite see it:

如果某人与 同一会话中的帐户顺序,则更有可能是 局部相干,与来自 Instagram帐户种类繁多。这有助于我们局部识别 similar accounts.

人们只是倾向于研究事物 这样,从一个以旅行为重点的帐户转到下一个,或者 专注于动物,因为它们需要接我。所有这些信息 被算法吸收并检查了相关性。当然 蓄意采取的行动,例如“减少此类帖子”并阻止 帐户也很重要。

从“种子帐户”到前25名

的 从几十亿个职位增加到只有二十个职位的过程可能是 相当困难,但是您可以将问题缩减到可管理的范围 通过将“浏览”选项卡限制为以某种方式链接到帐户的帐户 用户已经喜欢或保存了来自的帖子。这些叫做“种子” 帐户”,因为流程中的其他所有内容实际上都是从 them.

因为机器学习系统是如何表示的 帐户及其主题本身,找到一个超级容易 几百个类似的帐户。

想像一下,如果您认识某人 喜欢特殊的红橙色大理石,您需要找到更多 喜欢它。如果您只是将手浸入一袋大理石中, 不可能很快找到一个。即使将它们倒在地板上 您仍然需要四处寻找。但是如果你已经 按颜色组织它们,您要做的就是深入了解 他们喜欢的大理石附近,您几乎可以保证选择 winner.

机器学习模型通过提供所有这些来做到这一点 在虚拟空间中占一类位置,并且最接近的两个是 在那个空间中,它们离主题越近。

因此,将数十亿美元削减为 基本上已经通过帐户方式完成了数百个 classified.

从那里开始,Instagram对复杂性越来越高的神经网络进行了三遍测试。

第一, 有点令人困惑,是下两个的更简单的组合版本 流程,从500到150个帐户。这有点 很奇怪,但是这样想:这个神经网络已经看到了步骤2 和3多次发生,并且有一个 漂亮 好主意 他们是这样。有点像您看到Cookie制作足够的时间 你可能会猜到一个食谱。您可能会接近,但您也 不想将其发布给一亿人。所以这 步骤只是使显而易见的东西正确。

第二 是 计算便宜的神经网络,使用的信号比 上述简单的主题相似性。这是你的 个人喜好以及与之相关的更深入数据 帐户。当然,您喜欢旅行,但是特别喜欢 情侣 旅行—上面的大理石分类算法都可以提供帮助 用。其他参数,例如帖子的普遍受欢迎程度,或者实际上 its being 不同 从其他帖子中也可以看到。剩下的100个就剩下了50个。

第三 是上述计算的昂贵版本,它又对这50个数据又进行了一次传递,并将它们减半,基本上是通过仔细观察并花时间包括也许每个1000个数据点而不是100个数据点。

本文的灵感来自Techcrunch。

脸书评论