透视百度技术红利:何以从中文快速迁移至葡语?

浏览:
字体:
发布时间:2014-07-25 09:57:56
来源:

百度股价又创52周新高。

一周前,在大国外交护航、两国元首启动、巴西产业全方位合作的支持下,百度以一种新的姿态进军巴西,改变了以往互联网公司出海的路径,象征着中国也开始从资源型、劳务型输出向技术型输出之路迈进。在过去,由于存在文化差异的巨大鸿沟和国际巨头的先发优势,互联网公司出海,要么是选择以投资方式收购海外团队,要么是采取边缘化战略做海外巨头忽视的工具类产品。

百度(BIDU)今日股价。近期百度股价一路飙升,市值已超700亿美元。

因此,要推出与本地化网络及文化相关度很高、且有Google这类巨头占据先机的搜索引擎产品,其难度可谓相当大,百度此次发布葡语搜索让人看到其强大的技术力量,而且更重要的一点是,不仅仅是葡语,百度已经从中文搜索迅速的迁移到了泰语、阿拉伯语,这更让人看到其背后的技术力量能产生的想象空间,这些想象空间得到华尔街的追捧,目前百度股价为200.12美元,市值超过700亿美元。

那是什么能让百度快速迁移新语种搜索?背后有哪些技术上的支持?百度葡语搜索将与Google有怎样的抗衡?

如何做到快速迁移?

搜索引擎有两个层面的核心技术,第一层面是首先要收录和索引内容,通过搜索引擎的爬虫不断的将网络的内容抓取、分析、处理、排序,这是基础,相当于建立一个会不断自我完善的图书馆,第二层面是读懂用户的搜索需求,从用户在框里的输入理解其真实的搜索目的,然后根据其目的展现收录的内容。

要实现国际化的扩张和语种的快速迁移,必须要为不同语言建立一个好用的图书馆,人们在搜索时,能够最快得到自己想要的结果,同时,只要这个语言的网站有对应的结果,还不会被漏掉,这是搜索引擎最本质的需求。要做到这个基础,在百度,实际是由一个简称WD的技术部门来实现的,全称互联网数据研发部。

它关键做三件事情:

一是资源收录,就是把相应语言的网站资源进行抓取,抓取技术通用性较高,能够快速迁移到不同语言。

二是数据挖掘,也就是通过页面特征分析,来计算页面的权重、价值从而进行排序。这一点是搜索好坏的关键,如何读懂资源并打上正确的属性标签,并根据PageRank的算法进行评分,将决定搜索的质量。

三是结构化数据分析。也就是把互联网的数据按一定规则解析提取,比如把影视站点的视频名字、长度以及检索需要的数据快速拿出来,以结构化形式展现,做到这个就最终能够形成知识图谱。

经过长期的积累,WD在这三个层次的技术领域,已经形成了一个通用的架构,它的底层逻辑不再按语言体系来区分,在抓取、收录、分析、结构化、排序、打分等各个环节,核心算法逻辑和数据模型是相同的,只需要针对不同国家的法律法规、互联网生态做一些调优,让基础数据模型更符合这个国家特性就可以了。

详细的来说,百度WD在架构方面拥有支持多语言的通用基础架构,实现了多语种基础服务;在策略上,资源收录、编码识别、网页分类体系、网页结构化抽取、页面/站点价值计算等搜索引擎所需要的基础特征方向,WD也拥有跨语言的通用挖掘技术,进而能结合本地化特色实现快速策略插拔,优化模型,满足最优的本地化搜索需要。

以阿拉伯语为例,它的文字是反着写的,其次它的字节与中文或英文是很不一样的,但掌握了语言的核心逻辑以后,后续的数据处理、页面分析、排序、结构化其实是类似的。经过阿拉伯语、泰语对这套通用技术的锤炼,百度的葡语搜索仅用了不到一年的时间,各项指标就达到了Google的水准。

有了这套经过验证的体系,跨一个语系已经对百度没有太多的难度,相信未来百度还会不断的推出新的语言的搜索。这为百度的国际化策略打下了坚实基础。

如何与Google抗衡?

在中文领域,百度的搜索能力已经超越Google,但是在国外的环境下,百度不再具备文字的优势,甚至而言,Google对英文的熟悉在葡语、西班牙语等语系中更占优,那百度如何与之抗衡?

一是搜索的核心指标上不输Google。覆盖率是衡量搜索引擎效果的重要量化效果之一,体现搜索引擎资源“全”,提升覆盖率最大的难点在于资源的抓取。对于巴西来说,Google和百度都是外来者,其资源的公开度也是一致的。百度WD针对葡语不同站点个性化的选择,解决地域适配问题,对葡语资源能够准确、完整的收录,支撑覆盖率效果的稳步提升。所以从技术上来讲,百度Google并没有差别,索引量和覆盖率上应该都是一个量级的。此外,百度在多语种编码识别准确率也略高一筹。

而在低质评估方面,百度WD价值判断团队,针对葡语网页中上百类属性,建立特定的策略模型,对页面价值建立价值体系,反馈系统,确保葡语搜索展现低质保持在较低水平,首页搜索结果中对用户没价值的结果比例,百度的指标甚至已经超越Google。

二是搜索算法的差异化方面具有特色。相对而言,Google进入的国家较多,其强大的话语权优势使得其算法会相对统一,而百度在竞争中会更强调本地化特色,目前针对不同国家都会有一些量身定制的东西,比如阿拉伯语,由于诸多原因阿拉伯国家网民更喜欢用论坛,百度会加大论坛的权重或者会更多考虑这个论坛的用户。

三是提供开放合作的阿拉丁平台。阿拉丁平台是非常有特色的一项技术,它能够满足用户不再点击网页跳转访问服务,而是直接在搜索结果页面中直接使用服务,非常便捷省时,在国内我就非常喜欢用这种方式来查快递、做翻译甚至听音乐。这项服务需要搜索引擎和本地服务上的无间合作,在巴西市场,百度已经和其本地资源提供商建立了战略合作伙伴关系,由他们通过“阿拉丁”为百度提供结构化数据。在用户搜索黄金价格、客户服务号码或者彩票中奖号码时,直接在搜索结果页面顶部为其提供答案。同时,百度也在开发交互性更强的搜索引擎。例如,用户在搜索流行歌曲或真人秀之后可以直接通过我们的搜索结果页面投票选出最喜爱的歌手。

此外,百度WD也非常重视技术专利的申请,仅2014年上半年,该团队已经申请了大量技术专利,其中在知识图谱应用,结构化数据挖掘,链接关系,数据挖掘对应的推荐上都有较多专利申请。

可以说,过去百度积累的基础技术正在慢慢释放发展红利,其核心能力架构构成了国际化扩张的基础,其差异化的特色业务又构成了与国际巨头抗衡的砝码,这些技术能力带来了巨大的国际化想象空间,这些或许就是股价创新高背后的逻辑。

>更多相关文章
24小时热门资讯
24小时回复排行
资讯 | QQ | 安全 | 编程 | 数据库 | 系统 | 网络 | 考试 | 站长 | 关于东联 | 安全雇佣 | 搞笑视频大全 | 微信学院 | 视频课程 |
关于我们 | 联系我们 | 广告服务 | 免责申明 | 作品发布 | 网站地图 | 官方微博 | 技术培训
Copyright © 2007 - 2024 Vm888.Com. All Rights Reserved
粤公网安备 44060402001498号 粤ICP备19097316号 请遵循相关法律法规
');})();