“会编写个名为代理者程序。”翠西解释说,“这不是完整程序,但用起来很快。原则上,就是命令别人搜索引擎为们工作服务。大部分数据库都有内部搜索功能——图书馆、博物馆、大学、z.府机构等等。编写蜘蛛会找到他们搜索引擎,输入你关键词,要求他们进行搜索。使用这种方式,们
『注④:搜索蜘蛛(searchspider),搜索引擎种自动程序。』凯瑟琳似乎已经想到翠西前面,在张纸上匆匆写下些可能关键词。
写几个后,她停顿下,思索片刻后又写串。“好。”她说着把那张纸递给翠西。
翠西接过那张搜索词表,眼睛猛地睁大。凯瑟琳要调查是什疯狂传说啊?“你要搜索所有这些关键词条吗?”里面甚至有个翠西都不认识词。
这是英语吗?“你真认为们在个地方找齐全部东西?逐字逐字?”
“想试下。”
息来源提供,是真。”
“嗯……”她这含糊其辞地是要说些什?
“准备和哥哥谈谈这事儿,但突然想到,在这之前你也许能给些启发。很想知道,这个传说能否从其他历史文献中得到确证?”
“所有历史?”
凯瑟琳点点头。“世界上所有历史,任何语言、任何时间段历史。”
翠西本想说不可能。但这个单词在这儿是被禁用。凯瑟琳认为,在个会把预先设定谬误变成确定真理领域里,这是个危险意识设定。翠西·唐纳极为怀疑对这些关键词搜索会落入那个范畴。
“需要多长时间?”凯瑟琳问。
“编写蜘蛛需要两分钟,然后启动搜索。大概十五分钟后,蜘蛛就会抓得差不多。”
“这快?”觊瑟琳看上去颇受鼓舞。
翠西点点头。传统搜索引擎通常需要整天时间来爬梳整个在线世界,以找出新文本,消化其内容,然后添加到可搜索数据库里。但这不是翠西要编写蜘蛛。
奇怪要求,翠西想,可这肯定办得到。十年前,也许这是项不可能任务。但今天,在互联网和全球所有大图书馆和博物馆在线数据帮助下,凯瑟琳这要求只需使用配有翻译模块相对简单搜索引擎,输入些精心挑选关键词就能办到。
“没问题。”翠西说。这个实验室许多研究资料包含许多用古代文字书写段落,翠西经常被要求编写些特定光学字符识别翻译模块,把那些晦涩文字变成英语文本。她不得不成为世界上惟使用古老弗里斯兰语①、米克语②、阿卡得语③建立光学字符识别翻译模块元系统专家。
『注①:弗里斯兰语(Frisian),古代居住在荷兰北部条顿人使用语言。』
『注②:米克语(Maek),据东密歇根大学语言学网页介绍,这是韩国东部极少数居民使用种口语,但有些专家怀疑这种语言存在。』『注③:阿卡得语(Akkadian),古代生活在美索不达米亚闪米特人游牧部族阿卡得人语言。』
这些模块会有助益,但要想建立个有效搜索蜘蛛④,关键还在于选对关键词。具有独特性却又不能过度限制。
请关闭浏览器阅读模式后查看本章节,否则可能部分章节内容会丢失。