* 新闻详情- */>
免费预约专业提供网站解决方案
搜 索引擎 非 常 重 视高质 量 分类目录 这样 的 外部链 接, 所以 ,我 们在 做SE O优 化的 时 候 一定要 重视起 来 。当你 的网站 建好以 后,把你的网址 提交到分类目录 ,选择合 适的 关键词 提交到相 关页面进 行 链接 。产 生高质 量的 外部 链接 最 好的方法 就是写高质 量的 内 容 ,你 的网站内 容 使 读者 产生 阅读的 欲 望 。 你可以 和别 的 网站交 换链 接 ,也 可以 注册自 动 生 成 链 接的程
内容分析和用户标签是推荐系统的两大基石。内容分析涉 及到机器学习的内容多一些,相比而言,用户标签工程挑战更大。今日头条常用的用户标签包括用户感兴趣的 类别和主题、 关键词、来 源、基于兴趣的用户聚类以及各种垂直兴趣特征(车型,体育球队,股票等)。还有性别、年龄、地点等信息。 性别信息通过用户第三方社交账号登录得 到。年龄信息通常由模型预测,通过机型、阅读 时间分布等预估。常驻地点来自用户授权访问位置信息,在 位置信 息的 基础上通过传统聚类的方法拿 到常驻点。常驻点结合其他信息,可以推测 用户的工作地 点、出差地点、旅游地点。这些用户标签非常有助于推荐。
当然最简单的用户标签是 浏览过的内容标签。但这里涉及到一些数据处理策略。主要包括:一、过滤噪声。通过停留时间短的点击,过滤标题党。二、热点惩罚。对用户在一 些热门文章(如前段 时间PGOne 的新闻)上的动作做降权处理。理论上,传播范围较大的内容,置信度会下降。三、时间衰减。用户兴趣会发生偏移,因此策略更偏向新的用户行为。因此,随着用户动作的增加,老的特征权重 会随时间衰减,新动作贡献的特征权重会更大。四、惩罚展现。如果一篇推荐给用户 的文章没有被点击,相关特征(类别,关键词,来源)权重会被惩罚。当然同时,也要考虑全局背景,是不是相关内容推送比较多,以及相关的关闭和dislike信号等。
用 户标签 挖掘总体比较简单,主要还是刚刚提到 的工程挑战。头条用户标签第一版是批量计算框架,流程比较简单,每 天抽取昨天的日活用户过去两个月的动作数据, 在Hado op集群上批量计算结果。
但问题在于,随着用户高速增长,兴趣模型种类和其他批量处理任务都在增加,涉及 到的计算量太大。2014年,批量处理任务几百万用户标签更新的Hadoop任务,当天完成已经开始勉强。集群计算资源紧张很容易 影响其它工作,集中写入分布式存储系统的压力也开始增大,并且用户兴趣标签更新延迟越来越高。
面对这些挑战。2014年底今日头条上线了用户标签Storm集群流式计算系统。改成 流式之 后,只 要有用户动作更 新就更新标签,CPU代价 比较小,可以节省80%的CPU时间,大大降低了计算资源开销。同时,只需几十台机器就可以支撑每天数千万用 户的兴趣模型更新,并且特征更新速度非常快,基本可以做 到准实时。这套系统从上线一直使用至今 。
当然,我们也发现并非所有用户标签都需要流式系统。像用户的性别、年龄、常驻地点这些信息,不需要实时重复计算,就仍然 保留 daily更新。事实上,很多因素都会影响推荐 效果。比如侯选 集合变 化,召回模块的改进 或增加,推荐 特征的增加,模型架构的改进在,算法参数的优 化等等,不一一举例。评估的意义就在于,很多优化最终可能是负向效果,并不是优化上线后效果就会改进。
全面的评估推荐系统,需要完备的评估体系、强大的实验平台以及易用的经验分析工具。所谓完备的体系就是并非单一指标衡量 ,不能只看点击率或者停留时长等,需要综合评估。过 去几年我们一直在尝试,能不能综合尽可能多的指标合成唯一的评估指标,但仍在探索中。目前,我们上线还是要由各业务比较资深的同学组成评审委员会深入讨论后决定。
很多公司算法做的不好,并非是工 程师能 力不够, 而是需要一个强大的实验平台,还有便 捷的实验分析工具,可以智能分析数据指标的置信度。一个良好的评估体系建立需要遵循几个原则,首先是 兼顾短期指标与长期指标。我在之前公司负责 电商方向的时候观察到,很多策略调 整短期内用户觉得新鲜,但 是长期看其实没有任何助益。
其次,要兼顾用户指标和生态指标。今日头条作为内容分创作平台,既要为内容创作者提供价值,让他更有尊严的创作,也有义务满足用户,这两者要平衡。还有广告主利益也要考虑,这是多方博弈和平衡的过程。另外, 要注意协同效应的影响。实验 中严格的流量隔离很难做到,要注意外部效应。
强大的实验平台非常直接的优点是,当同时在线的实验比较多时,可以由平台自动分配流量,无需人工沟通,并且实验结束流量立即回收,提高管理效率。这能帮助公司降低分析成本,加快算法迭代效应,使整个系统的算法优化工作能够快速往前推进。这是头条A/BTest实验系统的基本原理。首先我们会 做在离线状态下做好用户分桶,然后线上分配实验流量,将桶里用户打上标签,分给实验组。举个例子,开一个10%流量的实验,两个实验组各5%,一个 5%是基线,策略和线上大盘一样,另外一个是新的策略。
实验过程中用户动作会被搜集,基本上是准实时,每小时都可以看到。但因为小时数据有波动,通常是以天为时间节点来看。动作搜集后会有日志处理、分布式统计、写入数据库,非常便捷。在这个系统下工程师只需要设置流量需求、实验时间、定义特殊过滤条件,自定义实验组ID。系统可以自动生成:实验数据对比、实验数据置信度、实验结论总结以及实验优化建议。
当然,只有实验平台是远远不够的。线上实验平台只能通过数据指标变化推测用户体验的变化,但数据指标和用户体验存在差异,很多指标不能完全量化。很多改进仍然要通过人工分析,重大改进需要人工评估二次确认。最后要介绍今日头条在内 容安全上的一些举措。头条现在已经是国内最大的内容创作与分发凭条,必须越来越重视社 会责任和行业领导者的责任。如果1% 的推荐内容出现问题,就会产生较大的影响。
因此头条从创立 伊始就把内容安全放在公司最高优先级队列。成立之初,已经专门设有审核团队负责内容安全。当时研发所有客户端、后端、算法的同学一共才不到40人,头条非常重视内容审核。现在,今日头条的内容主要来源于两部分,一是具有成熟内容生产能力的PGC平台,一是UGC用户内容,如问答、用户评论、微头条。这两部分内容需要通过统一的审核机制。如果是数量相对少的PGC内容,会直接进行风险审核,没有问题会大范围推荐。UGC内容需要经过一个风险模型的过滤,有问题的会进入二次风险审核。审核通过后,内容会被真正进行推荐。这时如果收到一定量以上的评论或者举报负向反馈,还会再回到复 审环节,有问题直接下架。整个机制相对而言比较健全,作为行业领先者,在内容安全上,今日头条一直用最高的标准要求自己。
分享内容识别技术主要鉴黄模型,谩骂模型以及低俗模型 。今日头条的低 俗模型通过深度学习算法训练,样本库非常大,图片、文本同时分析。这部分模型更注重召回率,准确率甚至可以牺牲一些。谩骂模型的样本库同样超过百万,召回率高达95%+,准确率8 0%+。 如果用户经常出言不讳或者不当的评论,我们有一些惩罚机制。
泛低质识别涉 及的情况非常多,像假新闻、黑稿、题文不符、标题党、内容质量低等等,这部分内容由机器理解是非 常难的,需要大量反馈信息,包括其他样本信息比对。目前低质模型的准确率和召 回率都不是特别高,还需要结合 人工复审,将阈值提高。目前最终的召回已达到95%,这部分其实还有非常多的工作可以做。头条人工智能实验室李航老师目前也在和密歇根大学共 建科研项目,设立谣言
确 实, 上面所提到的几点,完美地做 到,并 且能够达到提升搜索引擎排名非常难。这时 候,你就进行 需要百度s eo培训了。百度seo 培训会主要帮助网站站长学会抓取关键词,搜索引擎 爬虫在对网站进行抓取是 是依据你的关键词来给定位 网 站类型。与此同 时,百度seo培训还会教各个站的站 长进行文 章内容写作时,网站标题尽量呈现关键字,文章内容中也 要尽可能 的 ,适当的、灵活的多呈现关键字。 灵活地呈现关键 词,对于网站的站长来说,也很重要。导入的锚文本的连接地点的网站P R值越 高越 好,这么能将其他网 站的权重导入 进你的网站,这对你的网 站排行能 起到很 好的协助提升的作用。
总 而言之 ,无论是为 单独的新闻源或者企业 网站、商城、淘 宝 等做SEO搜索优 化时, 关键词、关键字的选取对于网站排名 都是 非常重 要的。百度搜索资源平台日前推出了细 雨算法,此算法 针对黄页类 B2 B站点 不尽人意的用户 体验,靠采 集堆砌关 键词、内容重 复植入联系方式的 B2B平台以 后的 日子“难过 了” !一般来说 ,B 2B类站点发布的商家信 息较为频繁和广泛,还 有一些招商加盟 网 站主要针对商家项目加 盟代 理进行推广;但 这两类站点均 存 在大大小小 的板块标题 作弊、堆砌 关键词,甚至是穿插各种联系方式和 不相关的内容。目的不为别 的,收 录和好的展现,顺
部 分本 身 内容 质 量并 不高 的网 站,为了获 取流量、赚 取收 入 ,因此, 不 受任 何 第三 方公 司 影 响 ,百 度鼓励 网 站开 发者及站长 对 网 站 进 行合 理 优化 、改 善 用户 的 搜 索体验 ,对于一些 别有 用 心的 传 谣 、造 谣者, 百 度站 长平 台声 明 原 文 :近日,对 于一些 别 有用 心的 传谣 、造谣者 。
也可通过进 行投 诉举报 ,百度不会 提供 任何 SEO服