Google即将开始深度Web索引

  • 时间:
  • 浏览:0

Google 从来有的是会停止对信息的追求,去年共有100 Exabyte 的数据被 Google 消化(1Exabyte=100000000Gigabyte)。据估计,仍有大量的在线数据是 Google 所无法获取的,如哪些未被索引的网页,非文本内容,以及必须通过表单发布方可获取的动态内容,即所谓的角度Web。Google 近日在一篇博客文章中组阁 ,大伙即将涉足哪些角度Web数据。

在这篇博客文章中,Google 的 Jayant Madhavan 与 Alon Halevy 说,对于哪些文本框,大伙会从所在页选取或多或少词汇填写,对于选取框与复选框,大伙会从 HTML 中选取或多或少值,一旦填写好表单,大伙会尝试发布你这些 表单并对返回的合法,有意义的内容进行索引。

Google 并肩强调,大伙会一如既往地尊重 robots.txt 协议,任何在 robots.txt 被禁止的表单有的是会被索引。

据估计,角度 Web 的规模是常规的公开 Web  的数倍,尽管在网络中,有或多或少或多或少数据是  Google 不应涉足的,但表单可不可不还可以让 Google 在网络中更进一步,Matt Cutts 指出,大伙那末 做主要有的是为了哪些通过表单发布而返回的搜索结果,更多是为了发现或多或少通过常规手段所没能发现的新链接。

必须指出的是,Google 只索引哪些使用 GET 协议的表单,而不让尝试去发布哪些使用 POST协议 的表单,或多或少或多或少,你无须担心我本人的在线反馈表单收到一堆来自 Google 的垃圾信息。

本文国际来源:http://www.readwriteweb.com/archives/google_crawling_html_forms.php,中文翻译来源:COMSHARP CMS 官方网站的行业新闻。



有好的文章希望站长之家帮助分享推广,猛戳这里我想投稿