《情报学进展:2012-2013年度评论(第十卷)》:
网络新媒体资源在存在形式和内容方面都与传统网络资源有着很大差异。由于互动性和生活化,新媒体资源中很多信息往往只是只言片语,甚至只是一个表情符号,脱离原有语义环境,这些信息一般不具有独立意义,或者不能反映原有语义,如果独立看待将成为信息碎片。另外,尽管信息源之间的关系有强有弱,但是,他们针对某一个话题发布的信息内容之间关联度都比较高,即便是信息碎片,综合关联地看待也具有很多含义和价值。因此,不能简单地把单次发布的信息作为新媒体资源的独立采集对象,而是应该将基于关联关系的若干信息及信息碎片构成的具有独立意义的信息集合作为一个完整的采集对象。原有的采集技术和方法显然不能很好地满足新媒体资源采集需求。
5.4全文链接书目的信息存储方式无法支撑新需要
网络新媒体资源获取还面临着存储问题。如前所述,网络新媒体资源体量庞大,而结构和关系复杂对存储造成的影响和困难可能更大。从微观看,网络新媒体资源绝大多数为非结构化数据;从宏观看·网络新媒体资源之间关联关系多样,关系结构复杂。尽管新媒体资源的采集目标并不是整个新媒体资源群,但是,即便是部分资源其存储容量也不能小视,更重要的是,新媒体资源复杂的关联关系如何能够得以合理存储,以支撑后续的处理、分析和利用,是必须首先解决的问题。原有的以全文加书日的采集内容存储方式显然无法很好地解决新媒体资源的存储问题。
……
展开