数字资源整合是在各种数字资源自主性、分布性、异构性的基础上,运用各种集成技术和手段将各类数字资源集成在统一的利用环境下,实现“一步到位”的检索,让用户极其方便地利用各种数字资源,为其节省宝贵的时间和精力。数字资源的整合是图书情报界一个较新的研究课题,它的研究起始于20世纪90年代后期,是随着数字资源的剧增和在用户对数字资源的利用提出新要求的环境下提出来的,近年来逐步成为研究的热点。
国外对数字资源整合研究早在20世纪90年代中后期就开始了,并相继出现了一系列的研究论文。如早在1998年,S.Pinfield等人在“D-Lib Magzine”上发表了“Realizing the Hybrid Library”一文,提出了复合图书馆中的整合问题:复合图书馆应该要达到“无缝整合”(searnless Integration),即通过统一的用户界面来为用户提供服务,并且应该只有唯一的认证网关。同时也指出复合图书馆互操作性问题,提出了图书馆众多格式和媒体的资源要实现互操作的关键是要解决元数据互操作的问题。但由于当时的技术条件所限制,该文并没有提出具体的解决途径与方法。20世纪90年代后期,比利时Ghent大学的H.Sompel等开始立项研究参考链接问题,于1999年在“D-Lib Magzine”杂志上发表其研究成果“Reference Linking in a Hybrid Library Environment”系列报告,提出了在OpenURL框架下的数字资源参考链接解决方案,并开发出名为SFX的链接服务器软件。可以说H.Sompel是SFX参考链接的始创人。
他与其合作人以后还发表了一批相当重要的相关学术论文。2000年2月,美国Ex Libris公司从比利时Ghent大学取得了对SFX参考链接软件的独占权。目前ISI、CSA、Gale Group、UMI、EBSC0、OCLC等公司的数据库已经采用了SFX技术。全球17个国家近200个机构选择了SFx和Meta Lib的解决方案。GALE集团产品管理部副总裁J.Barnes先生赞誉“SFX是电子资源发展史上的里程碑,因为它解决了曾耗费大量精力去进行各种数据库使用方面研究的问题,但是如果他们不能将这些数据库进行有效的整合,那么数据库的使用价值将大打折扣,SFX正是全面考虑了各种数字资源的集成方案。”差不多也在20世纪90年代后期,出版界也试图推出另一种引文链接规范。1999年底,大型国际出版商同意在建立索引链接的基础上相互合作。于2000年1月,12个世界顶尖的SIM学术出版商为促进电子期刊领域中跨出版商的索引连接的合作而成立了CrossRef。成员有ACM、The Academic Press、American Institute of Physics、IEEE、kluwer、Blackwell science、Springer、Wiley、Elsevier Science等国际知名出版商。他们组成了一个称为出版商国际链接协会(Publishers Intenational Linking Association,PILA)的非营利组织,负责CrossRef的运作及提供服务。
J.Pearce提出整合检索是复合图书馆未来的发展趋势,并分出三个层次:信息地图是最低水平的整合;代理结构(Broke Architectures)属第二层次,如利用z39.50代理服务器检索其他馆的OPAC系统;整合资源提供商系统是最高层次,有两种实现方法:一是通过标准协议用代理服务来整合图书馆书目系统和数字馆藏,如Z39.50,二是建立一个中央索引集来支持资源发现。
J.walker指出开放链接框架让图书馆决定内部链接研究环境的范围及可以提供给用户的服务范畴。创造这样一种开放链接环境需要全部信息产业中的信息提供商的合作;并且其成功实现的前提是要有一种类似于openURL的标准。
A.A.Terry提出参考链接使含有引文的著作增加了新的价值,它也减轻了研究者重新检索参考资料的负担。并指出要实现参考链接的全部价值,还有很多问题要解决,如:决定要链向什么;适当复本问题;检索权限、知识产权管理和对象标识符的持续性问题等。A.A.Terry介绍了很多正在解决或已经解决了这些问题的项目或软件工具,如UIUC的数字图书馆倡导项目试图利用文献结构实现不同出版商的出版物之间的“联邦检索”;连带管理的知识环境工具(Jointly Administered Knowledge Environment)是GNu普通公共许可软件中的一个组件,它可查找、管理链接出版物。另外,A.A.Terry也对CrossRef、SIX、DOI等作了介绍和评价。
2004年2月在墨尔本召开两年一次的第12届维多利亚图书馆自动化协会会议,会议的主题就是“打破边界:整合和可互操作性”。会上Curtin技术大学图书馆的书目服务馆员A.sutherland介绍了SFX在其图书馆应用的情况,并对SFX的优点和缺点提出了自己的观点。我国上海图书馆的吴建中发表了“发展无边界复合图书馆:上海经验”,提出2003年是图书馆整合年,提出了上海图书馆2003年的目标是将所有的电子资源及其服务放到一个界面中(0ne Interface),而将来的目标是一次性搜索(0ne Search)。
我国图书情报界提出以“整合检索”为研究内容始于2000年,台湾省的陈昭珍教授著有《电子图书馆整合检索之理论与实践》一书,该书在当时技术水平基础上分析了数字资源的整合检索需求与模式。但由于当时技术发展水平的限制,它主要介绍了Z39.50协议在图书馆数字资源整合中的应用,并对电子资讯的整合检索发展趋势作一些宏观上的展望。黄学军和唐泰可也于2000年在《现代图书情报技术》上发表了《书目整合检索web网关的设计》一文,提出基于Z39.50协议基础上的书目整合检索的必要性及其实现方法。之后,我国图书情报界对“资源整合”的研究越来越关注,其成果也逐渐丰富起来。从数量上看,2001年只有2篇相关文章,赵俊玲、王文娜在《图书情报工作》杂志上刊登了《科研信息资源的整合与组织》一文。范爱红等在《现代图书情报技术》杂志上刊载了《基于知识管理的学术信息资源整合体系——对ISI Web of knowledge的评价》一文;2002年在图书情报类杂志上刊登的相关论文大约有10余篇;而2003年已经达到30篇以上。可见图书馆数字资源的整合研究已经越来越受到图书情报界的重视。从研究内容看,这些文献的研究也越来越深入。从介绍性文字到研究论文;从理论研究到系统、技术实现的实践等。
数字资源整合应立足于数字资源系统结构性优化整合。系统的结构性是指系统中各要素之间所形成的某种关系,是系统有机联系的反映。相同的要素具有不同的结构形式时,系统就会产生不同的功能和效果。数字资源体系的结构性是一种组织性的表现,是指数字资源体系中不同数据库之间所形成的某种关联性,是数字资源系统有机联系的反映。数字资源系统的结构整合包括横向纵向结构整合。 横向结构指的是数字资源学科专业上的相互关联性,横向整合即对不同的数据库中相同学科专业的数字对象进行优化整合。 纵向结构指数字资源在空间上的相互关联性,纵向整合则是将不同学科专业的数字资源整合为具有多维立体网状结构的有机知识整体。结构是功能的基础,结构决定功能。要发挥数字资源系统的整体功能,必须合理地整合结构,构建有效发挥功能的数字资源体系结构。
它包括多种类型 、多种层次 、多种方式的整合 ,目前主要有以下四个层次上整合方式 。
(1) 汇合整合方式 。
主要是基于OPAC资源系统的一种整合方式 。OPAC是图书馆重要馆藏数字资源系统 ,对OPAC 资源系统的整合是图书馆数字资源最基本的整合方式 。它的实现主要是通过执行 Z39. 50 协议 ,聚合不同平台上的异构 OPAC 数据库,建立书目整合检索系统 。用户只要通过一个 OPAC 系统界面即可检索相关图书馆的 OPAC。 如上海交通大学图书馆的“Webpac 检索系统”的“多节点数据库检索”,可在统一检索界面上通过著者 、题名 、主题 、关键词 、标准书号等途径检索上海交通大学图书馆 、华东师范大学图书馆 、复旦大学图书馆 、上海图书馆的 OPAC 书目信息,不需要在各个图书馆不同的 OPAC 界面间来回切换 。 韩国“国立图书馆整合信息统”可以一次性检索到图书 、期刊 、CD-ROM、录像 、音响等所有资料。汇合整合方式实际上是不同 OPAC 系统中数字信息量的综合与合并 ,是多个馆藏的简单相加 ,只是通过统一的查询界面 ,显示各馆 OPAC 系统符合检索条件的命中记录 ,用户还须逐一点击各馆藏记录 ,自己进行查重处理,进行二次选择 。
(2) 组合整合方式 。
即对相关数据库内的数据对象去除重复信息的整合方式 ,提供给用户的不单是统一的查询界面,而且是不重复和高质量的信息。组合方式是多个数据库系统的有机优化整合,既是不同数字资源系统中信息量的综合,也体现了数字信息质的优化。 如“Web of Knowledge 学术资源体系”不仅提供跨数据库交叉检索功能,而且对命中记录做了查重处理,节省了用户对各数据库重复内容进行去重的时间和精力 。
(3) 重组整合方式 。
重组整合方式主要是基于数字图书馆应用系统的一种资源整合方式。其主要功能是通过对数字资源的分解重组 ,按数字资源的逻辑关系组织成立体网状、相互联系的知识资源系统。 这是当前数字资源整合的一种新模式。数字图书馆应用系统是进行数字化建设及整合各类数字资源的基础平台,支持对知识和数字化资源的采集、加工、处理、存储、归档 、组织 、发布和利用等全过程,一般由数字资源建设体系 、数字资源存储与管理体系和用户服务体系三大模块组成。 如 IBM公司和中国文津信息技术研究中心开发的数字图书馆应用系统 。该整合方式的主要优势有:其一,能够整合多种媒体多种渠道的数字信息,不仅包括文字信息,还包括图像 、音频 、视频等不同载体 、不同介质的数字信息;不仅包括数字化的纸质资源,还包括网络各类学术资源 。 其二,能够实现不同类型 、不同级次 (一次和二次) 资源间的链接,建立起图书 、期刊 、会议 、机构 、人物等科学研究所需核心资源和相关资源间的整合与链接关系 。 其三 ,能够保持知识体系的整体性和关联性,通过知识因子的有序化和知识关联的网状化,沟通相互隔绝的学科领域,使之成为相互渗透 、相互作用的有机体,发挥科学知识的整体功能 。其四,能够形成具有新的组织结构和功能的资源系统 。 这种整合不是简单的“库集合”和“库链接”,而是剔除冗余、重复和劣质信息,对数字资源内容与结构进行新的类聚和重组,形成一个获取便捷 、利用率高的新数字资源体系 。 例如 ,“中国试验型数字式图书馆”,实现了资源的深层标引和分布式资源库的跨库连接,对分布在不同地点、不同单位制作的不同资源库之间,与书目资源、规范资源、百科全书资源和网上读书之间的连接与查询。
(4) 一体化综合整合方式。
以 MARC 格式描述资源对象的 OPAC 是目前图书馆馆藏主体资源系统,是用户利用数字馆藏的切入点。MARC 注重形式 、结构复杂 、制作成本高的局限,使其难以承担对大量多媒体数字资源进行编目的重任,也无法完全实现知识资源的立体化和网状化整合。数字图书馆应用系统是以 DC 格式描述资源对象,DC 虽有基于内容、简单明晰、可修饰可扩展等优点,通过 DC 可以对知识资源进行纵向和横向整合,但不可能解决所有资源的元数据描述问题,还不是十分稳定成熟的元数据标准,也不可能完全代替 MARC。这种情况下,数字图书馆的资源整合既要考虑图书馆原有的 OPAC 资源基础,又要考虑多种数字资源的建设,一体化综合整合方式便成了图书馆数字资源整合的不二选择。一体化综合整合是指在OPAC 资源整合系统和数字图书馆资源整合系统之间再建立多维度关联,以形成更为优化的数字图书馆资源整合系统 。 其中之关键是要实现 OPAC 系统和数字图书馆应用系统之间的技术兼容,实现各种元数据之间以及与其他资源对象之间的互操作 。 在这方面有许多问题需要探索。 上海数字图书馆的以DC 为核心元素集,多种元数据方法并存,并以基于XML 结构的 RDF 资源描述体系封装整合多种元数据的设想,为实现综合整合方式提供了一种思路和途径。