什么是海量数据挖掘引擎

国内领先的海量数据智能计算技术服务商--海量科技公司(hylanda.com)近期推出了海量数据挖掘引擎（www.digdig.cn），提出了新一代的搜索引擎概念--数据挖掘引擎。
海量科技为什么要开发数据挖掘引擎？
传统的关键词搜索引擎技术产生于上世纪末，通过对网页文本的全文搜索提供了网页快速查询的手段，使得网页信息的可用性大大提高。但随着网页数量的快速膨胀，重复引用，使得罗列的搜索结果越来越难以利用。多媒体技术、宽带技术的发展也使网络资源日趋多元化，这些资源质量评价标准不同、特征各异，混合排序难以达到满意的效果。网络用户年龄结构年轻化，平均知识水平降低，使得用户对搜索技巧掌握、结果筛选的能力降低。网络上不同领域爱好者群体的兴起对搜索结果的个性化、专业化提出了更高要求。
所有这些变化促使我们希望改变简单的关键词全文匹配、结果混合罗列的单一搜索方式，开发一种更聪明的搜索引擎。
海量数据挖掘引擎（www.digdig.cn）在这种需求下诞生了。
什么是海量数据挖掘引擎？
用户在互联网上搜索的目的是为了获取某一主题的资源，资源的形式可能是文字、图片、音频、视频、程序等等。这些资源发布前通常是结构严谨的结构化数据库，标识准确，关系清晰。但当它们随着作为载体的网页发布后，就转化为杂乱的非结构化数据。这样使得资源的查找、组织、利用难度增加，效率下降。
海量数据挖掘引擎通过模式识别、文本挖掘等先进的技术手段从网页中将有用资源正确提取，标明属性，抽象特征，区分类别，使资源重新有序化，并实现跨来源、跨类别的广泛关联。搜索中，围绕用户的搜索意图，组织不同类别的资源，使用户的每一次搜索，都相当于获得一个囊括互联网所有相关资源的主题网站。
对于用户来说，如果我们把传统关键词搜索引擎看作一种有力的工具，那么海量数据挖掘引擎更像是一个训练有素的助手。他提供给用户的不再是简单的列表，他会揣测用户的意图，会将不同的结果分类，会提供搜索结果的分类目录，还会向用户推荐超出预期的关联搜索结果。
与传统的关键词搜索引擎相比，海量数据挖掘引擎突出了对数据的加工，强调对于资源的整合。网页不再是搜索引擎处理的最小颗粒，网页中的文字、图片、音频、视频、程序应该分别提取、分别评价、贴注标签、分类、建立关联，从而获得了对资源前所未有的利用能力。