大数据时代的IT架构设计

上传:webqxy 浏览: 53 推荐: 0 文件:PDF 大小:1.57MB 上传时间:2019-05-04 13:53:16 版权申诉
大数据时代的IT架构设计,你至少应该有所了解Hadoop技术在电信运营商上网日志处理中的应用架构方建国电信运营商上网日志处理的现状在移动互联网如此普及的今天,每天会产生大量的上网日忑,这些上网日志由于数据量巨大,产生后只能被保留3天,就因为存储空间等原因被丢弃。目前,电信运莹商只能基于CDR(详细通话记录)为主的客户行为分析可能缺失了大量的客户行为有效信息。例如,两个通话行为相似的人可能是完全不同类型的客户,如果将之同等对待,客户约妾受度必然很差,浪费大量资源,并目元法取得良好的效果。这种分析,由于无法知晓通话內容,两个通话行为模式类似(例如夜间长时间的长途电话),实际通话目的及生活方式(其中一个是晚上与朋友聊天,另个是加班需要的工作电话)完全不同的两个人往往在分析中被吴归为类,从血导致对客户的理解有较大偏差,营销效果不佳。用户的上网行为中蕴含着大量的客户特征和客户需求信息,这此信息至关重要,而又是传统的CDR话单分析所不能提供的。因此:这就要求用产的上网日志记录必须被保存,而且还需要进行数据分析挖掘处理,然后根据处理结果定义用户的行为习惯,为电信运营商实现精细化Hadoop技术在电信运营商上网日志处理中的应用架构运言提供重要的营销依据。随着 Hadoop技术平台系统的出现,可以实现上网日志的存储,同时提供数据挖掘处理功能。上网日志数据处理方法的流程上网日志数据处理方法的流程如下1.对二日志数据的URL地土进行提取2.对已知约URL数据,按照基准URL分类准则走行分类。3.对未知约URL地址,首先爬取网页数据,然后对爬取的网页数据按照区页分类模型,进行网页分类,不断优化模型,提高网页分类的准确性。4.根据每个人访问网址和对应网址的网页分类,利用模型统计出每个手机号码的个人喜好,为精准营销提供依据。兵体流程如下图所示。URL分类>时文网万库URL已抓圾LRL库列國③)外部数据源○核∵轵件大数据时代的T架构设计三、上网日志系统的技术架构方案基于上述处理流程,上网日志处坦系统的逻辑架焖方案如下图所示。针对每一部分的具体功能介绍如下。数据源从电信运营商系统服务器定时获取用户基本信息和上网日志信息输入到集群HDFS文件系统和 HBase数据库中。展示层用户Web访向界面数用户信息据URL源上网日志应用层用户上网行为分析网页分类管理司库营理网络爬虫接口层网央爬虫处理口功能层并行数据导入出【REsT/soAP靡程管理任务度ETL安全管理数据层URL解析引毕群协调服务网页分类引元数据管理HBaseMapReduce集群监控HDFS资源层硬件资源接囗层接口层负责与外部系统的数据进行交换,包括用户数据、上网日忑数据的采集,互联网网页内容的爬取和对外围系统提供访问接匚。数据接口可实现对关系型数据库,如 Oracle、DB2等的数据交换,包括采集和加载过,同时也支持文件类型的数据,可以通过FTP等方Hadoop技术在电信运营商上网日志处理中的应用架构式进行采集。系统对外提供统一访接口,具有开放性、高性能、可监控管理和安全性等特征。数据层数据层是分布式大数据处理平台,从数据源抽取出所罱的数据,经过数据清洗,最终按照预先定乂好的数据模型,将数据加载到分布式存储中去。通过分布式计算框架可以实现数据的清氿、转换、校验和装载等过程。资源层山于分布式架构带来的硬件部署的复杂度,需要对物理资源层和系统平台层提供进一步的抽象,以提供白动化部署和弹性的运维能力,因此资源层实现了对物理资源的自动部署和动态扩展,对分布式集群中不同角色进行灵活部酱。功能层功能层实岘了数据处理流程模块的模块化处理,湜供集群的访问控制,并负责 Hadoop集群的运行管理和系统报警志管理。数据处理能够进行任意串并联的流程调度,并且能够控制节点的优先级、超时时间、重试次数,同时具备路曰判斷能力,能够在多分支的情况下通过条件进行不同的流程流转。采用异步调度策略,能够支持大并发量的调度。应用层负责应用功能的具体算法实现。实现了网页分类索引,通过互联网注册URL及其类别的爬取,对数据讲行统一管理,并置于持久化有储中。将其中的类别讲行模块化重组,划分至对应的层次结构,如(社交-社区大数据时代的T架构设计或(社交微博),对类别进行索引。实现了词库分类管理,通过对网终热门词汇及常用词汇的爬取,根据所属类别构健分词词库。词库定期更新,不断完善。实现了用户行为统一分析,基于客户的访问行为,识别其偏好特征,艰据内容偏好特征进行客户细分,并支持目标客户群捉取,以便支撑营销活动,实现了URL地址统一管理。展示层负责将应用功能处理结果通过Wb页面展示,并且提供交互页面,熟练使用各种应用处理功能,并对处理结果讲行动态展示。网络爬虫负责从互联网系统中爬取网页的具体内容信息。具体处理流程是冲按照一定的规则,自动抓取万维网信息的程序或老脚本。程序从日忑文件中取URL地址,并进行过滤、去重操作。其中过滤操作去除图片、视频、软件等内容的URL地址;去重会把重复的URL、已经抓取的URL、匚经分类的URL地址去掉。剩下的URL地址送入爬虫的地址库中,爬虫会根据一定的规则产生要抓取的URL地址,然后通过Mapreduce的方式并发抓取产生的URL址址,最终把抓取到的URL地址的内容存储到HDFS文件系统口。由于网络爬取流程需要互联网资源支持,数据处理adoρ集群是和电信运营商内部网络互联,而且 Hadoop集群的安全处理措施不够完善,因此,它们之间的访问需要严格控制,以俣证网络部署安全。在物理架构设计上,需要设计两个完整的内部笑群网络,集群网终之闩需要用防火墙进行访问控钆。上网日志处理系统的物理网终部署拓扑如下图所小Hadoop技术在电信运营商上网日志处理中的应用架构hmasWeb server口口志接上:网日志接互联网上网巨志接carnal四、上网日志系统方案的优势上网日志系统采用 Hadoop技术解决方案的优势有如下几点。1. Hadoop技术方案是基于分布式基础架构,充分利用分布式两大核心技术——分布式文件系统与分布式计算框架,构建了一整套完整的分布式存储和分布式训算系统。分布式系统有着高容错性的特点,并且设计用来运行在采用X86架构的普通PC服务器上,大大降低了服务器和存储的成本,以及数据库License的成本,有效缓解了系统扩容带来的高成本压力。2. Hadoop技入方案采用并行处理大数据集的软件框朵。在处理大数据的时候,通过分布式计算将其任务分解并在运行的多个节点中处理。当集群中的服务器出现错误时,整个计算过程并不会终止,司时分布式大数据时代的T架构设计系统口保章在整个集群中发生故障错误时的数据冗余。这种设计方案可以使网络肥虫、观页分类和上网行为等模型快速、高效运行。目前在国内,像天云大数据、华为、亚信等多家知名的大企业者针对上网日志处理系统按照上述架构,捉出了完盛的解决方案。尤其是天云大数据公司,他们依托自主研发的BDP平台软件(包含Hadp平台的完整解决方案)和公司强大的算法支持团队,已经成功地在某省级运营商运行平台上部署了上网日志处理系统,为该公司的用户精准营销是供了强有力的支撑。作者介绍:方建国,微软三届MVP,某知名房地产公司资讯科技高级主任。多次参与大型实际生产环境的部署及维护,对服务器存储以及虛拟化架枃、解决方案(服务器整合、虛拟枭面架构)有深入的研究,尤其是基于 Windows虛拟化解决方笑。8Hadoop平台在金融银行业的应用架构薛强彦金融银行业现状随着我国金融银行业的发展和网络通信基础设施水平的提高,金融银行业信息化已经逐渐普及,但是随着互联网技术和应用的飞速发展,许多新兴的支付方式不断涌现,金融银行业的数据信息量也在快速增长相关业务数据量急剧上升,金融银行业即将进入天数据时代。由于关系型数据库先天性不,巨大的数据量会对传统的关系型数据库模式带来巨大的压力。因此,日前金融银行ψ采取的普遍应对策晔是:1.培加核心系统的机器性能和冇储交间,提高ψ务数据处瑪能力2.备价历史数据,减少咳心系统的数据存储量,减轻核心系统的压力从而提高业务数据处理能力。但是采取以上的策略会导致以下不足1.增加机器性能和在储空间,直接加大了核心系统运营维护戌入2.大量数据离线存储,导致客户无法帙速获得交易信息,降低客户满意度,导致客户流失;3.由于大量数据离线存储,银行企业无法分听全量业务数据,无法正确把握银行业发展方句,从而不利于银行企业竞争和快速发展。
上传资源
用户评论

wisher-zhang 2019-05-04 13:53:16

还不错,少了很多

含晚籁 2019-05-04 13:53:16

少了那么那么多~~~~~

qq_48201 2019-05-04 13:53:16

看起来还是不错,谢谢分享

qqconfucian1401 2019-05-04 13:53:16

虽然不全,有时间还是应该看看

kzz_68933 2019-05-04 13:53:16

里面少了一百页!

adventure98451 2019-05-04 13:53:16

还不错,只列了少许文章

plight4708 2019-05-04 13:53:16

简单看了一下,是挺好的,就是不全,还是感谢

wyqiang27163 2019-05-04 13:53:16

内容不全的啊,还是去买实体书算了。。。

cwwlx 2019-05-04 13:53:16

宏观 看起来还是不错

a95301 2019-05-04 13:53:16

少了好多,看着不过瘾