
会员
Hands-On Big Data Analytics with PySpark
更新时间:2021-06-24 15:52:53 最新章节:Leave a review - let other readers know what you think
书籍简介
ApacheSparkisanopensourceparallel-processingframeworkthathasbeenaroundforquitesometimenow.OneofthemanyusesofApacheSparkisfordataanalyticsapplicationsacrossclusteredcomputers.Inthisbook,youwillnotonlylearnhowtouseSparkandthePythonAPItocreatehigh-performanceanalyticswithbigdata,butalsodiscovertechniquesfortesting,immunizing,andparallelizingSparkjobs.Youwilllearnhowtosourcedatafromallpopulardatahostingplatforms,includingHDFS,Hive,JSON,andS3,anddealwithlargedatasetswithPySparktogainpracticalbigdataexperience.Thisbookwillhelpyouworkonprototypesonlocalmachinesandsubsequentlygoontohandlemessydatainproductionandatscale.ThisbookcoversinstallingandsettingupPySpark,RDDoperations,bigdatacleaningandwrangling,andaggregatingandsummarizingdataintousefulreports.YouwillalsolearnhowtoimplementsomepracticalandproventechniquestoimprovecertainaspectsofprogrammingandadministrationinApacheSpark.Bytheendofthebook,youwillbeabletobuildbigdataanalyticalsolutionsusingthevariousPySparkofferingsandalsooptimizethemeffectively.
品牌:中图公司
上架时间:2019-03-29 00:00:00
出版社:Packt Publishing
本书数字版权由中图公司提供,并由其授权上海阅文信息技术有限公司制作发行
最新章节
Rudy Lai Bart?omiej Potaczek
最新上架
- 会员本书较全面地介绍了MySQL数据库的基础知识及其应用。本书共11章,包括数据库基础,MySQL的安装与配置,数据库的基本操作,数据表的基本操作,表数据的增、改、删操作,数据查询,视图,索引,存储过程与触发器,事务,数据安全等内容。本书采用案例教学方式,每章以应用实例的方式阐述知识要点,再通过实训项目分析综合应用,最后辅以思考与练习巩固所学知识。应用实例、实训项目、思考与练习这3个部分分别采用3个不计算机7.8万字
- 会员这是一本站在一线开发人员的视角,从SQL的本质出发,采用理论与实践相结合、案例与分析相结合、作者经验与一线需求相结合的方式,深度解读大数据SQL优化核心技术和解决方案的工具书。本书主要面向大数据初中级技术人员,期望帮大家深度理解大数据SQL优化原理,掌握SQL优化的落地实践方法,从而真正“玩转”大数据SQL优化技术,根据实际问题和需求设计出有针对性的提升SQL性能的解决方案。计算机14万字
- 会员本书系统介绍了使用Python进行数据分析需要掌握的各项知识,涵盖了Python基础知识、网络爬虫技术、正则表达式、BeautifulSoup和JSON、词语切分、自然语言处理、使用NumPy与Pandas处理数据、数据可视化技术、MySQL、机器学习、朴素贝叶斯模型、支持向量机、随机森林、深度学习以及量化投资。本书通过结合数据分析技术的理论知识与Python的实战应用,帮助读者更好地运用Pyth计算机12.3万字
- 会员《网络科学与网络大数据结构挖掘》作为网络科学的工具性图书共分两大模块:第一模块是基础理论,包括网络基本概念、网络拓扑性质、复杂网络社团挖掘等内容,旨在让读者熟悉一些基本的建模方法和分析技巧。第二模块为应用模块,包括复杂网络在几个代表性领域中的应用研究分析及案例剖析等。全书没有过多地数学和物理推导,而是更为关注网络科学的思维习惯和研究方式,兼具理论性、资料性和实践性。可用于各学科领域的教学及研究人员计算机0字
- 会员本书本书基于业务问题,就如何搭建分析框架,厘清分析思路,按照标准分析步骤对数据进行怡当的预处理,选择合适的分析方法和分析模型,使用恰当的分析工具对数据进行分析,以及对分析结果进行可视化和符合业务要求的解读等内容展开讲解,帮助业务专家做出合适的业务判断,制定准确的业务策略。计算机13万字
- 会员本书从与数据要素关系最密切的信息、权属、价值、安全、交易等五个维度出发,汇聚不同学科背景的既有文献,整合现有观点,对数据要素的多维特性进行探讨,以丰富人们对数据要素的认知,凝聚共识,澄清数字时代的发展与治理迷思,为未来的相关创新提供起点。计算机14.5万字
- 会员本书内容分3个部分共12章。第1-4章主要介绍什么是数据分析,以及Python的编程环境和基础语法知识。第5-9章主要介绍数据处理和分析的各种方法。第10-12章介绍了如何结合Python与Excel在实际工作中进行数据处理与分析操作。计算机8.5万字
同类书籍最近更新
- 会员本书共5篇,分为14章介绍了PowerBI的基本操作、数据导入、数据整理、数据建模、数据可视化分析、数据发布等相关技能。第1篇为基础入门篇(第1-3章),主要针对初学者,从零开始,系统且全面地讲解了PowerBI的入门知识点、基本操作及数据的输入和连接操作。第2篇为数据处理篇(第4-6章),介绍了PowerBI数据的整理操作、表格中行/列数据的管理,以及PowerBI数据的高级处理、M函数的使数据库0字
- 会员数据挖掘算法为大数据与人工智能的核心,掌握数据挖掘各算法的编程实现,有助于提升大数据的实践运用能力。本书详细阐述了数据挖掘常用算法与编程实现,同时,本书以多个经典的数据挖掘赛题为案例,详细论述了数据预处理、特征选择、可视化、算法选择等全流程数据挖掘过程的编程实现,有助于提升读者面对实际数据问题时灵活运用各类算法能力。数据库4.7万字
- 会员阅读本书可以获得关于在Python下操作、处理、清洗、规整数据集的完整说明。本书第2版针对Python3.6进行了更新,并增加了实际案例向你展示如何高效地解决一系列数据分析问题。你将在阅读过程中学习到最新版本的pandas、NumPy、IPython和Jupyter。数据库15万字
- 会员本书系统、全面、循序渐进地介绍Hyperscan技术。全书共8章,主要介绍正则表达式、经典匹配算法和正则表达式匹配所依赖的自动机原理、正则表达式匹配库等,并重点介绍Hyperscan的功能特性、设计原理和性能调优技巧,以及匹配引擎的核心算法和SIMD加速技术的运用,还展示了Hyperscan多样化的应用场景。数据库12.8万字