搜索引擎 search
当前位置:首页 > 网站营销 > 搜索引擎
腾讯工程师提议用中文索引算法创建DNA搜索引擎
发布日期:2010-07-02 阅读次数:500 字体大小:

科学家解码了越来越多的基因组,但对遗传学家或研究人员来说,寻找有机体的共享基因组是一件十分艰巨的任务——因为要对比的DNA字母难以计数。如何快速搜索巨大的生物信息学数据库?多数研究人员使用的是BLAST或FASTA算法,它们本质上逐一比较每个基因组。现在中国第三大搜索引擎、腾讯旗下搜搜(SOSO.com)的一位计算机科学家王亮(Wang Liang)提出应用中文索引算法去检索生物信息。

王亮指出,中文的每个字之间没有留下间隔,因此索引中文文档的一种方法是将文本分解成N个片段(n-grams),N代表字数,1-grams表示一个汉字,2-grams表示两个汉字,3-grams表示三个汉字,一些中文搜索引擎就只索引2-grams。王亮称,DNA序列的统计分布应该遵循齐夫定律(Zipf‘s law)。齐夫定律是指一个单词出现的频率与它在频率表里的排名成反比,频率最高的单词出现的频率大约是出现频率第二位的单词的2倍,而出现频率第二位的单词则是出现频率第四位的单词的2倍。王亮应用同样标准去寻找拟南芥、曲霉、果蝇和老鼠的基因组字母平均长度,他发现平均长度为12个字母,因此用12-gram索引基因组数据也许最优。