声明:,,,。概况
《网络信息收集》是2007年8月1日中心播送电视大学出书社出书的图书。
《网络信息收集》是依据中心播送电视大学电子信息类计算机网络技能专业教育大纲的要求编写的理论教育与实训相结合的合一型教材。全书共分为6章,第1章是网络信酷渗犁息资源概述;第2章介绍网络信息收集技能;第3章介绍搜索引擎;第4章介绍其他信息收集东西的运用;第5章介绍多媒体资料的收集;第6章介绍网络内容原创。《网络信息收集》依据课程特色以及习惯学习者自主学习的要求,以生动性和实用性为主,并配有学习内容、学习方针、考虑与操练、实训操练等。《网络信息收集》能够作为播送电视大学、高职高专的教材,也可跨宙作为网络修改员国家职业资格的考证训练用书,以及作为从事网络修改工作的相关人员岗位训练及自学的参阅教材。
要了解网络信息收集体系?首要咱们要弄清楚什么是“信息收集”信息收集是指使用计算机软件技能,针对定制的方针数据源,实时进行信息收集、抽取、发掘、处理,从而为各种信息服务体系供给数据输入的整个进程。
要求从互联网上对特定方针数据源或不特定方针数据源进行收集与监控,并对信息进行结构化抽取保存为本地结构化数据库,然后按事务流程需求与其它模块结合,导入与使用并服务于到电子职业渠道。
互联网数据收集与发掘技能是指使用计算机软件技能,针对定制的方针数据源,实时进行信息收集、抽取、发掘、处理,从而为各种信息服务体系供给数据输入,并按事务所需,进行数据发布、剖析的整个进程。
各种网络信息收集体系的具体流程或许不太相同,可是根本的思路是共同的,下面以通用的乐思网络信息收集体系为比如,介绍一下根本的过程
第二步:针对不同的方针数据源,进行不同的收集装备,以保证能收集到数据。
对方针网站进行信息主动抓取,支撑HTML页面内各种数据的收集,如文本信息,URL,数字,日期,图片等
数据直接进入数据库而不是文件中,因而与使用这些数据的网站程序或许桌面程序之间 没有任何耦合
支撑一切干流数据库:MS SQL Server, Oracle, DB2, MySQL, Sybase, Interbase, MS Access等