谁说+菜鸟+不会+数据+分析

2017-09-20 11:13

wwwdozancn为方便广大网友的分享阅读特意整理出这份数据分析和专业图表方面的资料资源来自wwwdozancnbbs由Michael整理。网店地址: 当当(http:tcnzQUJJx) 卓越(http:tcnzQUM) 京东(http:tcnzHePQLJ) China‐pub(http:tcnzHECRR) 看完书的朋友还可以到豆瓣上写写书评: http:bookdoubancomsubject 谁说菜鸟不会数据分析(工具篇)-配书数据下载: http:ishareiasksinacomcnfhtml 还有菜鸟的宗最也挺有意思,写了读者与作者之间的趣事: http:wwwdozancnbbsforumphpmod=viewthreadtid=extra=pageD wwwdozancn前  言《谁说菜鸟不会数据分析(入门篇)》受到广大数据分析爱好者的认同与好评同时提出了热切的期望:能尽早推出提高一级的书。我们看到这些热心的反馈心里也暖洋洋的毕竟有读者的认可是非常幸福的事情。但是我们也很惶恐生怕出来的作品还没经过细致打磨。我们在反复思量和总结中前前后后花了年多时间创作完这部《谁说菜鸟不会数据分析(工具篇)》。常言道“工欲善其事必先利其器”数据分析也不例外在实际工作中我们会遇到大量的分析工具每款工具都有其一技之长如果在工作学习中能够挖掘工具之所长定能事半而功倍。我们将数据分析工具进行了细致梳理基于最常用的Excel精心挑选能够提高效率的常用工具。这些工具涵盖数据处理(MicrosoftAccess、Query)、数据分析(PowerPivot、Excel数据分析工具库)、数据呈现(水晶易表)和报告自动化(VBA)。本书第章由张文霖完成第章由林凤琼完成第章由狄松完成第章由任玮琳完成。整个写作过程是艰辛的但是也很有成就感。我们努力讲好数据分析的故事同时尽量把这个故事展现得美丽动人。本书仍沿用《谁说菜鸟不会数据分析(入门篇)》中师傅带徒弟的对话教学方式紧密围绕日常工作中的常见情景以丰富而实用的案例和通俗易懂的方式讲述数据分析知识。本书从解决问题的角度介绍各种常用、实用的数据处理及分析的工具与方法让大家在愉快的阅读中不知不觉就学会了各种实用的数据分析工具。如果我们以她来称呼这本与众不同的数据分析书很多人翻开这本书的时候可能会有不少疑惑但是请耐着性子慢慢读下去你将会有莫大的收获。如果你觉得她看起来很轻松千万别误以为她是一本小说她其实是一本数据分析书她抛开复杂的数学和统计学原理只和你讲必知必会的要点关注解决实际问题她不去探究科班的学术问题只和你耐心地分享职场中的实战案例她不板起脸和你讲大道理只和你娓娓道来切身的趣味故事她天生丽质图表漂亮绝伦她多姿多彩还有卡通漫画风可能你会觉得她肤浅……但是当你揭开她华丽的外衣时你会惊艳也会被她通俗而不庸俗美丽而又深刻的本质所吸引。把她珍藏起来吧因为:她会循循善诱地把你领进数据分析的大门她会让你的简历更加具有吸引力她会让老板对你刮目相看她值得在你的书架上长期逗留让你的书架也增加色彩。wwwdozancn>>谁说菜鸟不会数据分析(工具篇)她继续讲述职场三人行的故事她的故事还会让你偷着笑小白在Mr林的带领下已经学会了基本的数据分析工作。不过现在情况有一些变化:Mr林升任运营分析部经理而小白也变成名副其实的“白骨精”(白领骨干精英)。牛董关键词:私企董事、要求严格、为人苛刻。Mr林关键词:运营分析部经理小白现任上司数据分析达人、成熟男士、乐于助人、做事严谨。小白关键词:前牛董助手现任运营分析部运营分析师单身、爱臆想、白骨精(白领骨干精英)。哪些人会对她的故事有阅读兴趣呢需要提升自身竞争力的职场新人注重工作效率提升用恰当的工具解决实际问题的分析人士在市场营销、金融、财务、人力资源等管理工作中喜欢用数据说话的人士经常阅读经营分析、市场研究报告的各级管理人员从事咨询、研究、分析等工作的专业人士其实她还有效率助手她的效率助手是一些常用的插件工具可以到wwwdozancn或http:blogsinacomcnxiaowenzi下载。拥有了这些实用的插件可以让我们的数据分析如鱼得水。她自带了实用的范例数据文件可以帮助我们快速再现案例提高学习效率。她还自带了报告自动化的源代码只要稍加修改就能应用到你的工作中帮你从繁琐的“日报周报月报冤冤相报何时了”中解脱出来。致谢感谢作者的好友方骥与潘淳为本书提供相关的技术支持同时在此要衷心感谢成都道然科技有限责任公司的姚新军先生感谢他的提议和在写作过程中的支持。感谢参与本书优化的朋友:王斌、李伟、张强林、万雷、李平、王晓、景小燕、余松。非常感谢叶嘉卉精美的手绘思维导图。非常感谢本书插画师王馨的辛苦劳动你的作品也让本书增色了不少。感谢邓凯、段勇、方骥、黄成明、李双、江宇闻、刘晓霞、刘云锋、欧维平、石军、沈浩、张文彤、张立良、张志成、郑来轶、祝迎春、王雍等书评作者感谢他们在百忙之中抽空阅读书稿撰写书评并提出宝贵意见。最后感谢四位作者的家人感谢他们默默无闻的付出没有他们的理解与支持同样也没有本书。尽管我们对书稿进行了多次修改仍然不可避免地会有疏漏和不足之处敬请广大读者批评指正我们会在适当的时间进行修订以满足更多人的需要。与故事作者的联系:博客:http:blogsinacomcnxiaowenzi邮箱:xiaowenziqqcom新浪微博:小蚊子乐园与故事的策划者联系:邮箱:yaoxinjundozancn新浪微博:长颈鹿支持网站:wwwdozancnwwwdozancn业内人士的推荐(排名不分先后以姓氏拼音排序)本书将看似“浮云”的数据分析领域蕴于商业化的场景之中生动形象地让读者了解到“给力”的数据分析师是如何炼成的!本书引导非专业人士从数据的角度认识、剖析、解决商业问题对专业人士而言亦是一次对原有知识梳理和提高的学习机会。邓凯数据挖掘与数据分析博主资深数据分析师这是一本极具可操作性的书!通俗易懂不需要读者具备高深的计算机技术背景特别适合各行各业正在从事数据处理、分析和展现等工作的从业人员。作者把自己从事多年数据分析的“独门秘籍”都毫无保留地分享出来难能可贵。如果你正在为“找不到简单易用的数据分析工具不知道如何更炫地展现分析结果以及面对每天纷繁复杂的数据工作不知道如何提高效率”而烦恼我强烈推荐你阅读此书它将让你从此轻松应对数据分析工作。段勇杭州数云信息技术有限公司联合创始人兼CTO《谁说菜鸟不会数据分析(入门篇)》中小白在Mr林的循循善诱下学习了数据分析的方法论让人领悟到数据分析并非高不可及的专业技能而现在在这部工具篇中Mr林搬出百宝箱中的各种数据分析神器又让人信心倍增有了这些给力的工具数据分析还有何难?在书中我们看到的Excel不再仅仅是一个实现简单功能的表格工具它上可与SQL结缘打通数据库的奇经八脉下可与水晶易表连袂展现数据的生动华丽左手腾挪翻转有如瑞士军刀般的分析工具库右手轻挑巧拨给透视表打了强心针的PowerPivot将数据处理、分析和展现的复杂过程在谈笑间轻松化解。有了这套护体神功就算是菜鸟也能跟高手一争高下!方骥微软最有价值专家MVP(新浪微博:Excel大全)Excel是很强大的基础数据分析工具而基础数据分析在日常数据分析中占很大的比例所以数据分析师基本上都是Excel的高手。熟练掌握Excel既可以赢得领导和同事的赞许你还可以空出很多时间来刷微博交朋友。而《谁说菜鸟不会数据分析(工具篇)》这本书正好可以帮助你。黄成明数据化管理顾问及培训师零售及服装企业数据化管理咨询顾问wwwdozancn>>谁说菜鸟不会数据分析(工具篇)本书把数据分析的基本思路和方法糅合进工具的使用中实实在在地解决了很多从业者在工作中遇到的实战问题。与市面上单纯讲分析理论的书籍相比本书为读者提供了更丰富的实际操作案例而与单纯介绍工具使用的作品相比本书为读者提供了更详实的实战案例。本书非常适合数据分析的初学者或从业~年的初入门者而对于有更长工作时间的从业者而言其也是不可多得的参考手册。江宇闻暨南大学应用统计专业特聘导师中美联泰大都会人寿保险有限公司CRM助理副总裁数据分析工具对数据分析师来说就像战斗中的武器选择并合理地使用数据分析工具可以事半功倍并使数据分析的过程充满成就感。本书基于Excel结合Access和VBA等技术通过数据分析实例生动地向读者展示了使用数据分析工具处理与分析数据的全过程。本书还讲解了PowerPovit与水晶易表等高级分析与可视化的内容极力推荐广大的数据分析爱好者与新人研读。李双数据分析与挖掘交流站站长《谁说菜鸟不会数据分析(工具篇)》秉承了一贯的实用主义通过具体的案例把复杂的数据分析工作变得简单易懂是数据分析菜鸟走向大神的最佳帮手。刘晓霞资深市场调研分析师获悉《谁说菜鸟不会数据分析(入门篇)》出升级版了为作者的刻苦钻研和分享精神钦佩。工具篇在两个方面有突出的表现:一是用通俗易懂的方式讲解了大部分的数据分析工具二是用简便易操作的办公软件Excel实现了这些在专业统计软件中的高级应用。这两个方面都体现一个优秀数据分析师站在一定高度上的总结值得数据分析人员、统计分析人员和以Excel为工具的办公人士进一步学习提升。刘云锋北京简博市场咨询有限公司高级经理本书是一本操作性、实践性很强的工具书作者通过深入浅出的方式介绍了一些非常实用的工具适合从事数据分析工作但又没有掌握专业工具的人士阅读亦可作为企业内部的培训教材。欧维平广州市准诚市场咨询有限公司研究总监wwwdozancn《谁说菜鸟不会数据分析(入门篇)》作为一本畅销书深受广大读者喜爱。本书作为入门篇的进阶作者继续以诙谐、幽默的方式将“高深莫测”的数据分析技术和方法融合于对话中相信本书的受欢迎程度会超过《谁说菜鸟不会数据分析(入门篇)》创造分析类书籍的销量佳绩。石军安徽同徽信息技术有限公司总经理当谈到用数据解决问题时我经常用这样的语言去诠释:“如果你不能量化它你就不能理解它如果不理解就不能控制它不能控制也就不能改变它”。数据无处不在信息时代的最主要特征就是“数据处理”数据分析正以我们从未想象过的方式影响着日常生活。在知识经济与信息技术时代每个人都面临者如何有效地吸收、理解和利用信息的挑战。那些能够有效利用工具从数据中提炼信息、发现知识的人最终往往成为各行各业的强者!这本书清晰又轻松地介绍了数据分析方法、技巧与工具强烈推荐读一读这本书或许会给你带来更大的惊喜!沈浩中国传媒大学电视与新闻学院教授调查统计研究所副所长数据挖掘研发中心主任IPSOS公司首席技术顾问数据分析当然需要熟练使用工具而很多工具已经随同你的Office悄悄地安装在你的电脑里。读完此书你将不再是数据分析的菜鸟更不会再好奇为什么装Office时怎么装那么多似乎从来用不到的东西。张立良Excel必备工具箱开发者统计学是一门很难但是很有趣更很有用的工具学科。懂得如何使用它的人总是乐在其中而尚未入门的人则畏之如虎。国内讲述统计学理论以及讲述统计软件操作的书籍可谓汗牛充栋但是多数流于理论疏于应用和实践指导。很大一部分读者需求未被满足。近年来随着信息技术的普及各行各业的业务数据自动化趋势愈来愈明显使得数据分析的需求开始从统计专业人士向各行业人员全面扩展。在此背景之下出版一本能够深入浅出从实际应用的角度介绍统计分析基础知识的书就变得很有必要。本书在理论和实践的平衡方面做了很有价值的尝试基于最为普及的Excel、WH、PEST等wwwdozancn>>谁说菜鸟不会数据分析(工具篇)数据分析方法论深入浅出地介绍了如何满足具体工作中的常见统计分析需求对于需要应用统计分析但是又未接受过这方面系统培训的读者来说本书应当是一本非常合适的数据分析入门教材。张文彤博士英德知联恒市场咨询(上海)有限公司新事业开发部全国技术总监这是一本用讲故事的方式将枯燥的数据分析高阶内容变得深入浅出的书!如果没有对数据分析的“狂热”追求这是不可能做到的。尤其是报告自动化章节从我编写VBA的体会来说不管你之前的基础如何都能够很容易理解自动化是如何实现并且自己立刻可以做到!数据的自动化不仅仅能够节省大量时间我认为更加重要的是避免由于厌倦重复的工作而出现错误!所以请立刻开始尝试吧!记得千万不要告诉你的老板你会报告自动化你懂的!张志成http:blogsoufuncomsite选址分析师所谓“知者行之始行者知之成”。《谁说菜鸟不会数据分析(入门篇)》告诉我们数据分析是什么而本书则告诉我们怎么做!本书基于常用的Excel从数据分析工作流程出发手把手教你怎样分析思路、处理数据、分析数据、呈现数据着实是一本指导初、中级分析师的进入数据江湖、职场进阶的好书。郑来轶中国统计网创始人每日轩昂BI总监本书针对数据分析流程中的数据处理、数据分析、数据呈现、报告撰写等每个流程步骤介绍了不同专业的工具的使用而且充分应用了Excel的功能同时使得读者在专业分析技能上得到加强减少了搜寻资料和学习的时间成本也是本系列丛书不可缺少的一块拼图。祝迎春高等学校教材《SPSS统计分析高级教程》合作者每个分析师手中都应该有“三把斧”:一把用来提取自己需要的数据一把用来处理分析数据还有一把用来展示与传达数据而《谁说菜鸟不会数据分析(工具篇)》正好从以上三方面有效地将“斧头”结合起来。有多少把“斧头”不是学习目的如何将合适的斧头砍在合适的“木头”上才是根本。王雍数据元素博主资深数据分析师wwwdozancn目  录第章 高效处理千万数据最容易上手的数据库数据库那些事儿万能的SQL两招导入数据数据合并的二三式快速实现数据计算数据分组小妙招重复数据巧处理数据分析一步到位MicrosoftQuery数据导入数据处理数据分析本章小结第章 玩转数据分析Excel数据分析工具PowerPivotPowerPivot是神马确定分析思路数据分析前的准备简单数据分析多表关联分析字段计算分析数据分组分析Excel数据分析工具库分析工具库简介wwwdozancn>>谁说菜鸟不会数据分析(工具篇)描述性统计分析直方图抽样分析相关分析回归分析移动平均指数平滑本章小结Sh第章 Show出你的数据数据可视化有趣的数据可视化数据可视化的意义数据可视化工具与资源Excel的可视化伴侣水晶易表初识水晶易表水晶易表的特点水晶易表工作原理水晶易表的安装要求认识水晶易表部件水晶易表实战居民消费价格指数模型国内人口预测模型丈母娘选女婿模型本章小结第章 让报告自动化自动化神器VBA从录制宏开始VBA语法那些事儿wwwdozancn目  录进入VBA运行环境VBA调试技巧Excel报告自动化自动化原理建立数据模板数据提取自动化PPT报告自动化自动化原理建立数据模板数据提取自动化数据自动更新之VBA法数据自动更新之链接法本章小结wwwdozancn第  章高效处理千万数据wwwdozancn>>谁说菜鸟不会数据分析(工具篇)小白进入公司已经一年有余在自身的不断努力下工作表现出色获得领导及同事们的一致认可与赞扬并获得“年度优秀员工”称号。随着公司的业务规模变大业务运营数据也迅速增长。为了充分利用好这些数据公司领导决定成立运营分析部门。Mr林参加了公司内部竞聘通过层层筛选与选拔众望所归地成为了运营分析部门的经理负责部门运作及管理为公司业务运营提供有效的数据分析支撑。由于运营分析部门刚成立急需招兵买马因此小白也成为Mr林“心仪”的对象。Mr林找到小白:小白愿意加入运营分析团队吗?小白兴奋地说:当然愿意啦!梦寐以求的事情我就担心牛董不放人。Mr林:你放心!牛董那边我去说只要你愿意就行。我先找牛董要人现在领导层都很重视运营分析工作等事情定下了就通知你过来上班。小白美滋滋地说:好的。半小时后Mr林打电话给小白:小白牛董已经同意了并且已经通知HR安排其他同事跟你交接工作。你今天交接完工作明天就带上你的家当过来吧。小白很快就进入了状态:遵命领导。第二天上班一大早小白带着全部家当来到Mr林办公桌前报到。Mr林惊讶地问:小白你就这点家当啊?除了一台笔记本电脑外就一个保温杯、一个靠枕、一小瓶绿色植物、一本记事本外加一支笔!跟我见到的其他女同事完全不一样她们还有各种五花八门的小摆设、小公仔等。小白淡定地说:嘿嘿!我就喜欢简单就像做数据分析一样简单而不空洞能说明问题就好。Mr林面露喜悦之色:小白我果然没选错你对我胃口。小白向Mr林略微弯了下腰说道:Mr林请多多指教!Mr林:那我们就开始工作吧!小白先给你介绍下我们部门的主要职责。考一下你数据分析在我们日常经营分析工作中的作用体现在哪几方面呢?小白底气十足:这个难不倒我我刚进公司的第一天您就给我介绍了数据分析谈到它的作用。在我们日常经营分析工作中数据分析主要有三大作用如图所示。图 数据分析三大作用正是因为您告诉我数据分析这三大作用我才对数据分析有了更深刻的理解与认识加上您wwwdozancn第章 高效处理千万数据传授的实用数据分析方法与技巧我对牛董交办的工作才能轻松自如地处理完成。Mr林:说得一点也不错!我们运营分析部的工作正是基于数据分析这三大作用展开的。所以运营分析部的主要职责如下:负责完成公司运营日报、周报、月报等日常通报告诉公司领导及运营部门现阶段公司整体运营情况这是通过各个关键经营指标完成情况来衡量的。根据公司运营需要开展业务专题分析。比如基于日报、周报、月报的现状分析我们对公司的运营情况有了基本了解但这还不够还需要知道运营情况具体好在哪里差在哪里是什么原因引起的。这时就需要开展原因分析以进一步确定业务变动的具体原因。根据公司运营需要开展市场研究工作。如果现有数据无法满足分析需求就需要通过外部用户调研进行补充说明我们才能进一步了解用户的真实想法与需求。开展预测分析预测公司未来发展趋势为公司制订运营目标及策略提供有效的决策依据以保证公司的可持续健康发展。搭建公司经营分析体系指导公司业务运营。以上条就是我们运营分析部门现阶段的主要工作职责我会带领你和其他同事一起完成。小白:好的那我们接下来要做什么?Mr林:我要先对你进行一些培训主要是数据处理与分析的应用工具的培训。小白满脸疑惑地问道:这些工作不是用Excel就可以完成么?Mr林:嘿嘿!Excel当然是非常实用的数据分析工具不过那是有前提条件的因为Excel对数据有限制Excel版本能容纳的行与列数都是有限制的具体如图所示Excel版本最多也只有行、列。图 Excel各版本对数据的限制现在已经到了大数据时代数据量动不动就超过百万条Excel已经满足不了数据处理与分析的需求了。没等Mr林说完小白又发问了:什么是大数据呢?Mr林耐心地解释道:大数据具有大特点可以用个“V”来概括如图所示。wwwdozancn>>谁说菜鸟不会数据分析(工具篇)图 大数据大特点举个例子我们公司有多万的用户单单一个用户信息表Excel版本就无法容纳得下更别说多万用户的购买行为数据。这时候我们就要借助于数据库来实现数据的高效存储、处理、分析。最容易上手的数据库数据库那些事儿Mr林:我们先来认识下什么是数据库吧!小白迫不及待地说:非常期待快开始吧!Mr林:数据库(Database)是按照数据结构来组织、存储和管理数据的仓库。它利用数据库中的各种对象记录、处理和分析各种数据。随着现代社会进入信息时代我们每天的工作和生活都离不开各种信息。对这样的海量数据这时就需要采用数据库对其进行有效的存储与管理并运用数据库进行合理的处理与分析使其转化为有价值的数据信息。图 数据库示例wwwdozancn第章 高效处理千万数据一个通用数据库具有以下几项基本功能。向数据库中添加新数据记录例如增加用户注册信息。编辑数据库中的现有数据例如修改某个用户信息。删除数据库中信息记录例如删除失去时效性的数据以释放存储空间。以不同方式组织和查看数据例如对数据进行查询、处理与分析。常用的数据库有Oracle、MicrosoftSQLServer、MySQL、MicrosoftAccess等关系型数据库随着大数据时代的到来相关的数据库技术也快速发展如基于NoSQL技术的分布式数据库Hbase、MongoDB、Redis等。Access数据库Mr林:我们从关系型数据库Access入手因为它够友好、够简单会让我们的学习之旅更轻松。小白:好的。Mr林:Access数据库是MicrosoftOffice办公软件中一个极为重要的组成部分是一种关系数据库管理系统软件它能够帮助用户处理各种海量信息不仅能存储数据更重要的是还能够对数据进行处理和分析数据处理功能比Excel更胜一筹。由于目前Access为较为常用版本所以我们将基于Access来学习数据处理和分析(如图所示)。图 Access数据库示例在Access中数据库窗口中包含“表”、“查询”、“窗体”、“报表”、“宏”、“模块”六大对象。在数据库中“表”用来存储数据“查询”用来查找数据“窗体”、“报表”、“页面”用于获取数据而“宏”和“模块”则用来实现数据的自动化操作。Access数据库还提供了多种向导、生成器、模板把数据存储、数据查询、界面设wwwdozancn>>谁说菜鸟不会数据分析(工具篇)计、报表生成等操作规范化为建立功能完善的数据库管理系统提供了方便也使得普通用户不必编写代码就可以完成大部分数据管理的任务操作简便容易使用和掌握。Access数据库作为MicrosoftOffice办公软件包中的一员它还可以与Excel、Word、PowerPoint、Outlook等软件进行数据的交互与共享例如分析报告的自动化后面我会进一步介绍。小白:好的。Mr林:下面我们就学习用Access进行数据处理与分析用到的主要对象是:表和查询。()表作为一个数据库最基本的组成单位就是表。建立和规划数据库首先要做的就是建立各种数据表。数据表是数据库中存储数据的唯一单位数据库将各种信息分门别类地存放在各种数据表中例如用户信息表、订单表、采购表等。()查询查询是数据库中应用最多的对象之一可执行很多不同的功能最常用的功能是根据指定条件从表中检索数据。查询和表的区别在于查询中的所有数据都不是真正单独存在的。查询实际上是一个固定的筛选它根据指定条件将表中的数据筛选出来并以表的形式返回筛选结果。在Access数据库中我们就是采用查询方式进行数据处理与分析的。优势与不足小白疑惑不解地问:为什么用Access数据库而不用Oracle、MicrosoftSQLServer等数据库呢?Mr林:因为Access数据库与Oracle等其他关系型数据库相比具有以下两大优势:()操作界面友好易操作。Access与Excel、PowerPoint、Word都是微软Office产品只要熟悉Excel、PowerPoint、Word中的任一款软件即使没有数据库经验对Access也能快速上手。Access风格与Windows完全一样用户想要生成对象并应用只要使用鼠标进行拖放即可非常直观方便。并且作为Office办公软件的一部分Access可以与Office其他软件集成实现无缝连接。()Access查询处理可直接生成相应的SQL语句。通过Access查询向导设置好需要的表关联及查询条件单击“SQL视图”即可获取相应的SQL语句无须重新编写。在此基础上还可以进行简单的调整、优化即可转化为所需的SQL语句方便快捷。小白心中释然:那我就放心了你没说之前我还担心数据库比较难学呢。Mr林:不用担心有Mr林在嘛包教包会我们继续。wwwdozancn第章 高效处理千万数据有优势自然也有不足Access是小型数据库与Oracle等其他关系型数据库相比存在以下不足。数据库过大时(一般Access数据库文件百兆以上)其性能会变差。记录数过多时(一般记录数达到千万条以上)其性能会变差。Access数据库中每个数据库文件上限为GB。虽然Access数据库存在以上三大不足但并不妨碍我们使用它完成日常工作与学习任务因为用它学习SQL处理数据真的很方便不需要写SQL语句。只要数据记录不超亿条其处理速度还是可以接受的数据记录越少其处理速度就越快。万能的SQL小白:Mr林你刚才提到了好几次SQL什么是SQL呀?Mr林:SQL(StructuredQueryLanguage)是结构化查询语言它是一种通用的关系型数据库操作语言。简单来说它就是让数据库按我们的意思来实现查询操作的语言。说到这里小白灵机一动:我可不可以这样理解:SQL就好比动画片《葫芦娃兄弟》里那个女妖精手中的宝贝如意如意、如意按我心意快快显灵……Mr林忍不住捧腹大笑:哈哈!我看行还是你机灵你这个比喻既生动又形象。由于SQL功能丰富强大语言简洁易学使用方法灵活目前所有主要的关系数据库管理系统都支持SQL。虽然Access数据库大部分查询都可通过菜单完成不需要用到SQL语句但是如果想真正利用Access数据库强大的数据处理、分析能力那么掌握SQL是非常必要的。作为一名优秀的数据分析师只有亲自经历在数据库中处理与分析数据的过程才能对分析结果有更深层次的认识同时也会加深对业务的理解否则看到的只是一个个数字并不能体会其内涵。另外业内人士常说的数据挖掘很多是通过对历史数据进行建模预测生成一定的规则然后数据库工程师将生成的规则编写成相应的SQL语句并编写成数据库的存储过程可定期执行它们得到数据模型结果。最后处理大数据的Hadoop所使用的Hive语言(HQL)也是与SQL语言基本一致只不过部分语句的编写或功能存在差异。掌握了SQL再学习HQL就非常容易了。小白:那么如何编写SQL语句呢?基本语法Mr林:我们现在来了解一下SQL基本语法常用的SQL语句如图所示。wwwdozancn>>谁说菜鸟不会数据分析(工具篇)图 Access数据库常用的SQL语句我们做数据分析时在数据库中主要的操作就是数据合并、数据分组、数据去重等这些操作都是通过查询来完成的。因此数据查询是数据库的核心操作。而在SQL查询语言中有一条查询命令即SELECT语句。SELECT语句是SQL的核心语言它能完成强大的查询功能根据指定的条件规则从数据库中查询出所要的数据。SELECT语句的基本语法是:SELECT字段,字段,字段,……FROM表WHERE条件小白挠了挠头:不是太明白能否举个例子?Mr林灵机一动:那好我就给你举生活中例子:假设你爸妈催你结婚并且他们已经上婚姻中介所帮你物色对象相亲。小白红着小脸不好意思地问道:你怎么知道我爸妈在催我?Mr林:人之常情呀!老人家都希望自己儿女早点结婚等着抱孙子呢!我们继续刚才的例子。中介所工作人员从他们的会员数据库中按你爸妈的要求筛选出目标人选供他们进一步选择那么婚姻中介所的工作人员会在他的数据库命令窗口写下如下SQL语句:SELECT姓名,性别,年龄,身高,婚姻状况,教育背景,月收入,是否有房,是否有车,备注FROM会员表WHERE性别=’男’AND年龄BETWEEN(,)AND身高BETWEEN(,)AND婚姻状况=’未婚’AND教育背景IN(‘本科’,’研究生’)AND月收入>=AND是否有房=’是’AND是否有车=’是’AND备注IN(’细心’,’大方’,’浪漫’,’英俊’,’绅士’,’智慧’)ORDERBY月收入DESCwwwdozancn第章 高效处理千万数据小白:您举的这个生动例子确实很清晰直观。我爸妈的要求不对差点被您绕晕了应该是您假设我爸妈的要求:首先必须是男的年龄在至岁之间身高在米至米之间婚姻状况为未婚教育背景为本科或研究生月收入不低于元必须有房有车还要求细心、大方、浪漫、英俊、绅士、智慧。最后筛出来的名单再按月收入降序排序。Oh!MyGod!上哪找这样条件的未婚男士?如果有的话我就考虑考虑。Mr林:哈哈!小白你入戏还真快这么快就进入角色了。小白的脸瞬间又红了:Mr林您又在给我下套呀!不过这样的例子确实很生动一看就懂我大概知道SELECT语句怎么用了。注意事项Mr林:好的现在我们一起来了解下编写SQL语句时的一些注意事项。SQL语句中英文字母大写或小写均可。每个SQL语句的关键字用空格符号分隔例如:SELECT字段FROM表字段或参数之间用逗号分隔例如:SELECT姓名,性别,年龄,身高,教育背景FROM会员表WHERE教育背景IN(’本科’,’研究生’)SQL语句中如参数为字符型那么需要使用单引号数值型不使用单引号例如:SELECT姓名,性别,月收入FROM会员表WHERE性别=’男’AND月收入>=SQL语句结束时在语句结尾处添加分号。在Access数据库中用分号结束对于SQL语句不是必须的。SQL语句中如表名、字段名中出现空格、“”、“”等特殊字符时需用方括号“”将含有特殊字符的表名或字段名括起来以免得到不正确的结果或SQL语句无法运行。SQL语句中“*”代表选择选定表格中的所有字段并且按照其在数据库中的固定顺序来排序例如:SELECT*FROM表在函数参数或条件查询中如果参数或查询条件为日期和时间类型数据需要在数据值两端加上井字符号“#”以表示数据类型为日期型。SQL语句中使用的逗号、分号、单引号、括号等符号均为英文状态下输入的符号。wwwdozancn>>谁说菜鸟不会数据分析(工具篇)应尽量避免在数据库中进行全表扫描。首先应考虑用WHERE子句筛选出需要的数据其次在WHERE子句中应尽量避免使用“!=”或“<>”、“OR”等最后应尽量避免在WHERE子句中对字段进行函数操作否则将进行全表扫描。其他注意事项等介绍到具体示例时再进行讲解。小白:好的您刚才说的条注意事项我都记下了回去我再认真复习复习。两招导入数据Mr林:小白接下来我们学习如何将数据导入到数据库中。因为数据量大才采用Access数据库进行数据处理与分析而大型数据文件一般以TXT文本形式存储所以我们主要学习如何导入TXT文本数据。还记得我教你的如何将TXT文本数据导入Excel么?小白:当然记得工作中我常用呢。Mr林:很好在Access数据库中导入TXT文本数据与Excel中的操作步骤类似都是按照一定的数据分隔符号或者数据宽度将文本中的数据自动分配到数据表中。在Access数据库中主要有两种方式:一是直接导入法二是建立链接法。下面以导入“订购明细txt”数据为例一起来学习这两种数据导入方法。直接导入法STEP启动Access单击【文件】选项卡单击【新建】按钮在【可用模板】中选择【空数据库】并为新建的数据库文件命名设置好存放路径最后单击【创建】按钮如图所示。图 新建数据库文件wwwdozancn第章 高效处理千万数据STEP在创建好的数据库中单击【外部数据】选项卡在【导入并链接】组中单击【文本文件】按钮弹出如图所示的对话框浏览指定数据源并在【指定数据在当前数据库中的存储方式和存储位置】项中选中默认的【将源数据导入当前数据库的新表中】项单击【确定】按钮。图 【获取外部数据文本文件】对话框STEP在弹出的第一个【导入文本向导】对话框中选中默认的【带分隔符】作为数据分隔方式如图所示单击【下一步】按钮。图 【导入文本向导】对话框wwwdozancn>>谁说菜鸟不会数据分析(工具篇)STEP在弹出的第二个【导入文本向导】对话框中(如图所示)选择【逗号】作为分隔符并勾选【第一行包含字段名称】复选框单击【下一步】按钮。需要说明的是分隔符及第一行是否包含字段名称需根据数据本身的实际情况进行选择本例中为以逗号分隔并且第一行包含字段名称。图 【导入文本向导】对话框STEP在弹出的第三个【导入文本向导】对话框中(如图所示)可对文本数据的各个字段名称、数据类型、索引以及是否导入字段进行设置用户可根据数据本身的实际情况进行选择与设置。本例采用默认设置单击【下一步】按钮。图 【导入文本向导】对话框wwwdozancn第章 高效处理千万数据STEP在弹出的第四个【导入文本向导】对话框中(如图所示)选择【让Access添加主键】则Access数据库会将“ID”字段添加为目标表中的第一个字段并且用从开始的唯一ID自动填充它单击【完成】按钮。图 【导入文本向导】对话框STEP在弹出的【保存导入步骤】对话框中保存详细信息有助于在以后重复执行该操作而不必每次都逐步完成向导。可根据数据导入的需求选择是否保存导入步骤本例选择不保存导入步骤单击【关闭】按钮。文本数据导入Access数据库后的结果如图所示用鼠标双击左边Access对象框里的“订购明细”表即可在右边窗口显示产品订购明细。小白:Mr林刚才您说到两个新名词“索引”、“主键”这两个是什么呀?Mr林:索引相当于对指定的列进行排序它就好比是一本书的目录通过它可以快速查询到结果不需要进行全表扫描可以大大加快数据库的查询速度。主键是确定数据中每一条记录的唯一标识其实也是一个索引是一个特殊索引因为主键所在列里的每一个记录都是唯一的在同一个表里只能有一个主键。简单来说主键就是所在列不能出现相同记录的特殊索引且这个索引只能在表里出现一次。综上所述主键与索引的具体区别为以下四点。主键用于标识数据库记录的唯一性不允许记录重复且键值不能为空。主键也是一个特殊索引主键等于索引索引不一定等于主键。索引可以提高查询速度通过它可以快速查询到结果不需要进行全表扫描。wwwdozancn>>谁说菜鸟不会数据分析(工具篇)图 文本数据导入结果使用主键数据库会自动创建主索引也可以在非主键上创建索引提高查询速度。数据表中只允许有一个主键但是可以有多个索引。在Access数据库中虽然主键不是必需的但最好为每个表都设置一个主键这样可提高查询速度。小白点了点头:明白。建立链接法Mr林:现在我们来学习第二种导入方法:建立链接法。建立链接法与直接导入法步骤基本类似不同的地方就在于步骤与步骤。在步骤中对于【指定数据在当前数据库中的存储方式和存储位置】项更改为选中【通过创建链接表来链接到数据源】如图所示。因为这种方法是以链接方式建立数据库与源数据的链接关系所以只要不删除这个链接关系一直存在也就无须【保存导入步骤】所以采用链接方式就没有步骤。其余数据导入操作步骤基本一致小白你可以事后自行练习这两种文本数据导入方法。小白:好的您介绍的“直接导入法”与“建立链接法”这两种方法之间有何区别呢?wwwdozancn第章 高效处理千万数据图 【获取外部数据文本文件】对话框Mr林:你这个问题问得真好不愧是做数据分析的好苗子。直接导入法:Access数据库中的表与数据源脱离了联系对数据的更改不会影响源文本数据文件。建立链接法:链接表显示源文本文件中的数据但是它实际上并不将数据存储在数据库中对源文本文件进行的任何更改都将自动反映到链接表中即数据会随数据源的变化而自动更新。你可以根据实际需求选择“直接导入法”或“建立链接法”导入文本数据。Mr林:如果数据是以Excel格式存储的将Excel数据导入Access数据库的步骤基本与TXT文本数据导入步骤类似同样你也可事后自行练习数据导入方法。小白:好的。数据合并的二三式Mr林:小白接下来我们就要开始学习用Access数据库处理数据啦!再考一下你什么是数据处理?数据处理主要包含哪些操作?小白:这个难不倒我。数据处理就是根据数据分析的目的将采集到的数据用适当的处理方法整理和加工形成适合数据分析要求的样式也就是一维表。它是数据分析前必不可少的阶wwwdozancn>>谁说菜鸟不会数据分析(工具篇)段。数据处理包括数据合并、数据计算、数据分组、数据去重等操作。Mr林:说的没错我们先来学习数据合并。数据合并包括横向合并与纵向合并。横向合并Mr林:横向合并就是从多个表中根据各表共有的关键字段把各表所需的记录一一对应起来。这个功能也相当于Excel中的VLOOKUP精确匹配功能。例如刚才导入的“订购明细”表它只记录了用户订购单的相应信息但缺乏用户的相关背景信息如果要统计不同性别的用户的产品购买偏好就必须获得用户的性别信息。这时就需要将“订购明细”表与“用户明细”表根据关键字段“用户ID”进行关联匹配查询如图所示。图 “订购明细”表与“用户明细”表关系图现在就看看在Access数据库中如何实现数据横向合并。小白:接下来要先做什么呢?怎么做?Mr林:主要有两种方式一种是菜单操作法另一种就是SQL查询法。我们先学习菜单操作法。()菜单操作法首先建立“订购明细”与“用户明细”两表的数据库关系。STEP单击【数据库工具】选项卡在【关系】组中单击【关系】按钮。STEP在弹出的【显示表】对话框中同时选中“订购明细”与“用户明细”两表(可结合Shift键同时选中也可结合Ctrl键依次选中)如图所示。单击【添加】按钮再单击【关闭】按钮以关闭【显示表】对话框。STEP在【关系管理器】中(如图所示)将“订购明细”表中的“用户ID”字段用鼠标拖到“用户明细”表中的“用户ID”字段处松开鼠标。STEP在弹出【编辑关系】对话框中单击【联接类型】按钮默认选择第一种关系【只包含两个表中联接字段相等的行】单击【确定】按钮返回【编辑关系】对话框如图所示。wwwdozancn第章 高效处理千万数据图 【显示表】对话框图 关系管理器图 【编辑关系】与【联接属性】对话框小白这里需要注意:在本例中我们确定“订购明细”表中的“用户ID”记录信息都在“用户明细”表中所以可以用第一种关系反之则需要选择第三种关系以确保“订购明细”表信息的完整性。STEP单击【创建】按钮返回【关系管理器】可以看到在【关系】窗口中两个表的“用户ID”字段之间出现了一条关系连接线如图所示。图 两表关系连接示例wwwdozancn>>谁说菜鸟不会数据分析(工具篇)STEP单击【保存】按钮并关闭【关系管理器】。Mr林:小白这样这两张表的关系就建立好了。接下来就要执行查询步骤从“订购明细”表中选取“产品”字段从“用户明细”表中选取“性别”字段就能取出我们需要的不同用户性别与所购买产品一一对应的明细数据以方便统计不同性别的用户的产品购买偏好。可利用Access数据库中“简单查询”功能来实现具体查询操作步骤如下。STEP单击【创建】选项卡在【查询】组中单击【查询向导】按钮。STEP在弹出的【新建查询】对话框中默认选择【简单查询向导】如图所示单击【确定】按钮。图 【新建查询】对话框STEP在弹出的【简单查询向导】第一个对话框【表查询】项中选择“订购明细”表并把“用户ID”、“产品”两个字段移至【选定字段】框中如图所示。图 【简单查询向导】对话框wwwdozancn第章 高效处理千万数据STEP在【简单查询向导】第二个对话框【表查询】项中选择“用户明细”表并把“性别”字段移至【选定字段】框中如图所示单击【完成】按钮在弹出的对话框中单击【保存】按钮。图 【简单查询向导】对话框Mr林:“订购明细”和“用户明细”两表联合查询的结果如图所示。图 简单查询结果示例还没等Mr林说完小白就抢着说:哇!结果出来啦确实比Excel方便!如果用VLOOKUP匹配这么大量的数据至少也要好几分钟要是匹配的字段较多速度还会更慢。Mr林:没错这就是数据库具备的Excel所不具备的优势。在Access数据库左侧对象栏中可以发现比查询前新增了一个查询对象“订购明细查询”这就是我们刚才新建的查询。只要双击它Access数据库就会按指定的条件重新执行查询如果数据量非

    上一篇:aso刷榜技术 微信头像女动漫唯美 下一篇:新上线的电商类网站SEO诊断分析及优化方案干货知识分享
    分享到:
    收藏
    相关阅读