乐思软件是指由深圳市乐思软件技术有限公司开发的一系列网络舆情监测系统总称。乐思软件包括:乐思舆情监测系统、乐思信息采集系统、乐思文本采集系统、乐思网络数据抽取系统和乐思新闻采集系统。
20世纪80年代,互联网第一次走进中国,出现在中国人的视线中。1987年9月20日中国首封电子邮件登上互联网。这一天,钱天白向西德卡尔斯鲁厄大学发出了中国第一封电子邮件(Email)“穿越长城,走向世界”,从而在中国首次实现与Internet的联接,使中国成为国际互联网络大家庭的一员,中国互联网的发展漫出了第一步。
进入21世纪,中国经济开始进入发展的黄金期,这一时期的中国互联网依托中国经济的快速发展也出现新面貌。截至2012年6月底,中国网民数量达到5.38亿,是15年前的867倍,互联网普及率为39.9%。手机首次超越台式电脑成为第一大上网终端。截至2012年6月底,中国拥有IPv6地址数量在全球的排名上升至第3位,仅次于巴西和美国,如此巨大的网民数量推动着我国互联网经济的腾飞。
系统架构图网络技术的创新和发展以及网民数量的不断增长,迎来了互联网的自媒体时代。在自媒体时代时期,网民可以通过发帖子、转微博、评新闻使信息、观点、态度便汇入了互联网的比特之海。由于网民文化素质的差异,互联网管理存在不完善,而互联网传播又具有周期短、传播快、影响广的特点,这些就容易造成很多的问题,特别是一些负面的信息产生的影响是不可估量的。如果政府和企业对网上的舆论监督、网络热点缺乏监控,无法及时了解舆情动态,事件处置引导不当,就会使他们的工作陷入被动,严重的甚至会造成灾难性后果,尤其是企业。
鉴于网络舆情的影响,特别是负面信息可能给企业或政府带来的灾难性后果,网络舆情监测系统的开发就有其重要的意义。在这种环境下,深圳市乐思软件技术有限公司就开发了网络舆情监测系统、网络信息采集系统和网络新闻采集系统等一些列用于舆情监测的软件。
一、乐思网络舆情监测系统
(一)、系统概述[1]
系统运作流程乐思网络舆情监测系统是针对互联网这一新兴媒体,通过对海量网络舆论信息进行实时的自动采集,分析,汇总,监视,并识别其中的关键信息,及时通知到相关人员,从而第一时间应急响应,为正确舆论导向及收集网友意见提供直接支持的一套信息化平台。
(二)、产品优势
1.采集功能强
(1)系统可处理复杂网站,如各类微博、需登录的论坛、含frame的网站。
(2)信息准确,一般自动提取文章正文,重要网站可做到100%精确
2.舆情发现快
(1)每日监测除了系统自带的基础目标网站库外还有用户自定义的重点网站群
(2)各种相关信息都可在分钟级内被整合到系统中,供集中查阅
(3)疑似负面信息被自动标记,可供单独分类查看
3.分析报表多
(1)从各个角度进行统计分析,可帮助客户发现潜在舆情趋势
(2)系统可以提供概况分析、网站分析、内容分析、专题分析、操作分析和日报周报简报等
(三)运行环境
操作系统:windowsXP/Vista/Win7/2003/2008,建议使用Windows2008Server中文版
CPU:建议双核或四核,3.0G Hz以上
内存:最低256M内存,建议4G或以上(如8G/16G/32G/64G)
硬盘:最少50M空余硬盘空间,建议500G或1000G以上
网络:宽带上网
二、乐思网络信息采集系统[2]
(一)系统概述
乐思采集系统Web是一个巨大的资源宝库,目前页面数目已超过800亿,每小时还以惊人的速度增长,里面有你需要的大量有价值的信息,例如潜在客户的列表与联系信息,竞争产品的价格列表,实时金融新闻,供求信息,论文摘要等等。可是由于关键信息都是以半结构化或自由文本形式存在于大量的HTML网页中,很难直接加以利用。
乐思软件的主要目标就是解决网络信息的采集问题,他们在这个问题上研究了8年也实践了8年,为国内外许多客户提供了几千次网络信息采集服务。在此基础上开发了乐思网络信息采集系统,目前居于国际领先水平(曾在国际招标中击败美国竞争对手)。
乐思信息采集系统为此,乐思软件还针对仅需要单独应用的客户有针对性地推出了:
乐思新闻采集系统
乐思文本采集系统
乐思论坛采集系统
乐思RSS采集系统
(以上4种系统功能皆包含在乐思网络信息采集系统的任一版本中)
乐思网络信息实时采集开发包 (COM组件,用于简单采集)
(二)产品优势
1.目标任意化:可对任意目标网站进行采集,如天涯论坛、新浪微博、Twitter、百度搜索等
2.分析智能化:可自动分析出目标数据点的节点路径,用户不需要复杂操作
3.配置可视化:以向导于示意图引导用户配置采集任务
4.处理轻松化:内置了大量数据处理方法与动作,可轻松处理各种常见操作及疑难问题
(三)应用领域
门户网站
可以做到:
每天自动采集指定网站(可达几百个,上千个)的最新内容(可以做到每天自动从上千个网络媒体采集上万条新闻信息)
每天自动采集指定购物网站产品价格信息(产品名称,说明,价格,图片等)
利益:
大大节约工作人员采集因特网信息的时间与精力,让他们有更多时间专注于业务问题
轻松实现行业信息整合
迅速提高本网站信息量与浏览量,同时提高Google排名与Alexa排名
轻松实现价格比较系统的前端采集子系统
新闻媒体
可以做到:
每天定时自动采集指定网站的新闻内容,扩大内容来源与数量
轻松整合不同地区与行业的新闻,形成专题
采集行业内的专业文章,论坛帖子,并进行整合
利益:
节约采编人员大量的时间,从而让他们可以有更多的精力来从事其他的事情
迅速提高本网站信息量与浏览量
轻松拥有海量信息输入
企业
可以做到:
实时而准确地采集国内外新闻,行业新闻,技术文章
实时而准确地采集竞争对手以及供应商的新闻,人事,产品,价格等信息数据抓取
实时而准确地采集公共信源的商业情报(同行产品价格,竞争对手的用户反馈,行业新闻)
实时而准确地采集本企业的品牌以及竞争对手的品牌在各大搜索引擎中的结果
实时而准确地采集各大行业论坛中的信息,从中了解消费者的需求与反馈,从而发现市场趋势与商业机会
准确地从网络公共信息中采集销售线索,潜在客户的资料
准确地从网络公共信息中采集本行业上万种产品的产品信息(描述,价格等),图片,技术文档。
利益:
快速而大量地获取目标商业信息,立刻提高公司的市场营销能力 数据挖掘
快速实现企业应用(ERP,CRM等)及企业门户网站对于因特网内容的整合
快速建立大容量专业知识数据库,立刻促进公司的知识管理水平
节约内部员工到各网站查阅新闻的时间
政府机关与军队
可以做到:
实时跟踪、采集与政府工作相关的国内外及地方新闻,政策法规,经济,产业等信息
解决与因特网隔离的重要部门对于因特网的信息需求问题 WA乐_思L监测SJ
解决政府主网站对各地级子网站的信息采集与整合问题
利益:
全面满足内部工作人员对外部因特网的实时信息的整合需求
迅速解决政务外网、政务内网的信息量不足,更新不及时问题
通过扩大信息量(如新闻,供求信息等)提高政务网站的用户满意度
大大节约工作人员采集因特网信息的时间与精力
广告与市场研究机构
可以做到:
快速而大量地获取公共信息中的商业名录资料网页抓取
快速而大量地获取目标网站的各种原始信息(例如Blog与BBS中的信息)到数据库中
利益:
快速形成特定群体的具有很高可信度的商业名录数据库 WA乐思采集SJ
快速形成用于分析统计与研究的用户反馈基础数据库
为品牌客户监视Blog与BBS上的相关信息
科学与技术研究单位
可以做到:
实时跟踪、采集相关的国内外科技信息与新闻
整合分布在各个网站网页上的科研数据,例如美国国家卫生研究院的生物科技信息中心公布的的大量基因相关数据
本地文本数据抽取
利益:
全面满足科研人员对于实时科技信息的整合浏览需求a网页抓取
从因特网的公开的可信来源轻松获取科学研究的相关数据WA乐_思L监测SJ
节约科研人员的极其宝贵的时间与精力
(四)运行环境
操作系统:Windows XP/NT/2000/2003/2008,建议采用Windows 2008 Server
CPU: 双核或四核CPU,3.0 G Hz以上
内存: 最低64M内存,建议2G或以上(如8G/16G/32G/64G)
硬盘: 最少20M空余硬盘空间,建议300G或500G
三、乐思网络新闻转载系统
新闻转载系统构架(一)系统概述
乐思软件新闻转载系统是针对的趋势,通过对大量目标网站(如新闻,论坛,博客,微博等)进行实时自动采集、汇总、识别其中的关键信息, 从而第一发现具有新闻价值的信息,并提供后续编辑审核功能的一套网编工作平台。
(二)软件优势
1. 各大新闻网站,纸质媒体,论坛,博客,微博,视频网站中的最新信息都自动集中呈现
2. 价值信息发现迅速,操作简单
3. 网编的更多时间可以放在深度编辑或原创上
4. 每日转载量呈几十倍几百倍提升,网站流量与排名迅速提升
(三)系统组成
新闻转载系统由两个子系统组成:自动采集子系统与结果浏览子系统。其关系如下图所示:
系统组成新闻转载系统的网络拓扑结构如下图所示,依据需要也可以分开在隔离的外网与内网中实施。演示图如下:
网络拓扑结构