关于我们
书单推荐
新书推荐
看国家数字图书馆怎样跨入大数据时代
发布者:网上馆配会 发布时间:2015/3/20

  在以“数字资源揭示——海量数据环境下图书馆资源发现之路”为题的第二届2014图书馆现代技术学术研讨会上,国家图书馆副馆长魏大威分享和探讨了他对大数据环境下国家数字图书馆建设的一些思考。如果说未来不会用大数据的企业就像现在的企业不会用电,这一点对图书馆也一样。

  图书馆要重视对大数据的整理和挖掘
  由信息爆炸时代产生的海量数据即大数据、云计算、物联网等关键技术引领的信息技术变革,为处于大数据环境下数字图书馆的资源整合以及服务创新带来了机遇和挑战。
  图书馆的大数据是什么?我认为它由以下几方面构成:一是多种类型的海量资源及庞大用户群体所涵盖的用户数据;二是图书馆的生产数据和业务数据根据数字资源生命周期,在各业务系统间高速流转及由此建立的数据体系;三是通过图书馆海量数据满足用户的知识需求和个性化服务需求的价值体现。
  截至2014年12月,国家数字图书馆数字资源总量从上一年的874.5TB跃增至1024.37TB,电子图书3,671,058种,电子期刊57,943种,电子报纸15,237种,特藏专藏合计10,349,917种,外购数据库277个。在2013年底,文津搜索汇集的元数据已达2.9亿条,数据资源增长量保持迅猛态势。(见表1)
  随着服务的创新,国家数字图书馆读者服务已扩展至计算机、数字电视、手机、手持阅读器、平板电脑、电子触摸屏等多种服务终端,服务前端包括国家图书馆主站、国家图书馆读者门户、OPAC检索、文津搜索、国家图书馆手机门户、国家图书馆WAP网站、移动阅读平台、各APP应用程序。这都取得了较好的服务效果。如,国家数字图书馆网站2013年总点击量达到13.03亿次,2013年为10.36亿次。像文津搜索系统、读者门户对象数据、手机门户等月均页面访问次数都为百万余次,随着服务量的增加,各业务系统每天都会产生大量的日志数据,其中包含了大量的用户行为信息,例如,Aleph系统日均产生日志数据约20GB,文津搜索系统日均产生日志数据大于300G。读者数据,尤其是读者行为数据中包含大量有价值的信息,对这些信息的挖掘和利用,越来越得到图书馆的重视。
  图书馆的数据包括资源数据、采集数据、读者数据及管理数据等几个方面。资源数据既有传统文献的数字化,也有各种类型的原生数字资源,包含电子图书、电子期刊、数据库、音视频资源以及网络资源等多种类型,还包括其它异地存储为我所用的虚拟馆藏及大量网络资源,具有不同的数据格式和展示形式。
  综上,国家数字图书馆加强海量数据之间的关联和价值提炼,深入挖掘用户行为与数字资源间的关联关系、通过用户行为分析为图书馆数字资源整合与建设决策提供数据支撑;最终满足用户的知识需求和个性化服务需求,盘活珍贵的资产,实现保值增值,已成为必然选择。
  以大数据理念实现国家数字图书馆的资源整合
  面对完善的数据体系和高速的数据流,我们要以大数据理念实现国家数字图书馆的资源整合。国家数字图书馆资源整合原则是什么?统筹规划、分步实施;面向用户、需求牵引;突出特色、博采众长。从实现途径来说,首先,建立超大型元数据仓储,构建资源利用新格局。盘活图书馆长期建设积累的数据和知识资产,可以形成科学、高效的统一数字资源服务体系。其次,完善统一发现与服务,实现大数据环境下的资源处理。图书馆要采用新技术,实现资源的统一聚合与一站式检索,为用户提供精准化和个性化的信息和知识。再次,利用语义和关联技术,实现数字馆藏的组织和聚合。将云服务与关联数据结合起来的资源管理和服务模式,可链接并聚合图书馆数字资源,形成一个有序的知识服务体系,并有效实现区域内资源的传递和共享。以及,结合数据分析技术,实现数字资源的可持续发展。通过大数据技术对这些数据进行分析可以掌握不同用户群体的资源和服务需求,了解馆藏资源的使用水平和流转状况,并通过对图书馆用户检索、浏览、点击、下载、评论、阅读学习笔记的相关数据,构建“资源——用户”关系模型,按照用户的喜好和使用习惯向用户推荐具有针对性的O2O信息服务。最后,扩大网络信息保存规模,提升网络资源服务效力。通过对不同广度、深度的网络信息的采集、加工和管理,还可以对外界提供知识服务和决策支持。
  我国的数字图书馆体系是由国家图书馆、各级公共图书馆、行业图书馆共同组成的,需要图书馆界基于大数据环境下的新技术发展,通力协作,探索实践图书馆发展的新业态,激发生命力和活力,释放图书馆生态圈的新能量。