研究人员探寻了如何自动抓取深网内容。
2001年,斯利拉姆·拉格哈瓦(Sriram Raghavan)和赫克托·加西亚·莫利纳(Hector Garcia-Molina)发明了一个从用户请求界面表格收集关键词的深网抓取模型并且抓取深网资源。加利福尼亚大学洛杉矶分校的Alexandros Ntoulas、Petros Zerfos和Junghoo Cho创建了一个自动生成有意义的查询词的程序。
商业搜索引擎已经开始使用以上两种方法之一抓取深网。Sitemap协议(由Google于2005年首次开发并由Google引入)和mod oai是允许搜索引擎和其他网络服务探索深网解决方法。以上两种解决方法允许网络服务主动公布网址,这对于他们来说是容易的,因而允许自动探寻资源而不直接通过网络表面的链接。Google的深网探寻系统预先计算每个HTML表单并且添加结果HTML页面到Google搜索引擎索引。在这个系统里,使用三种方法计算提交词:
为输入搜索选择关键词允许的输入值,
确定是否只接受特定的值(例如时间),以及
选择少量的组合生成适合纳入网站的搜索索引网址。
|