杂谈数据分析

 

推断性统计学有4个理论组成部分:概率论,抽样理论,估计理论和假设检验理论

1、研究生硕士及以上学历,统计学,数学与应用数学,信息与计算科学专业;
2
3年以上数据分析/挖掘相关工作经验,熟悉数据分析挖掘相关软件(SAS/SPSS/R/Python/Mahout/Eviews),能对海量数据进行分析处理;
3
、熟悉数据结构、数据挖掘和机器学习算法等常用算法,
4
、熟悉Hadoop或其他分布式数据开发技术,对MapReduce编程模式了解,熟练掌握数据库技术;
5
、熟悉常用的数据挖掘建模方法,如Logistic回归、决策树、神经网络、聚类、关联等,并能通过数据挖掘软件实现;
6
、有基于大数据技术(HIVEPIGMahoutR)下的模型开发设计经验的人才优先

1、 大学本科或以上学历,统计、数学、计算机软件、管理信息系统等相关专业,2年以上数据分析/数据挖掘经验者优先;

2、 具有数据挖掘/数学建模相关经验,且有深厚的统计学、数学、数据挖掘知识基础,具备数量统计理论基础,熟悉几种常见的模型算法,如回归分析、聚类分析、决策树、支持向量机、神经网络模型等,并且具有丰富的模型算法应用者优先;

3、 熟练掌握至少一种以下数据分析/数据挖掘软件,如RSPSS ClementinePythonSAS等,熟悉数据分析的体系架构与方法; 

4、 至少掌握一种数据库,如OracleSQL ServerMySQL等,精通SQL语言,以及数据的备份与还原。

5、 优秀的分析问题解决问题能力,良好的自学及新技术研究探索能力,以及良好的团队沟通能力。

数据科学家是最紧缺的人才,这也是行业内比较紧缺的,这方面的人才要求比较高,一般会要具备如下几个条件:

第一,精通统计、机器学习原理。只有清楚算法原理,模型设计和调优才能更有针对性;

第二,具备工程能力,要能在hadoop等生产环境中开发、部署算法,否则很多算法是无法在实际环境中产生价值的;

第三,具备业务、产品思维,最好有商业sense,能敏锐捕获商业机会。只有这样才能挖掘更多的机会,利用数据驱动、支持业务,进而创造价值。

-------------------、

一个合格的数据分析应该具备统计学基础知识、数据分析方法、数据获取、数据解读和业务理解、数据分析思想几个方面能力,即将成为数据分析师的亲们,你们准备好了吗?

语言就像 原材料   
IDE
就像  生产工具(锤子 螺丝刀 焊枪 ...)
代码就像 零件 (螺丝螺母 钢板...)
框架就像 生产线+生产线上的标准
软件就像 生产工具的成品 (挖土机 吊车 重卡 ...)

开发就像 1 使用原材料做零件   
              2
使用零件+生产线做成品   
              (
三流企业做产品 , 二流企业做服务)
              3
使用原材料+零件做生产线+生产线上的标准   
              (
一流企业做标准)

架构就像 评估并决定使用"多少" "什么样"的产品  如何完成项目

               
原材料 -> 产品 (软件架构)
               
硬件 -> 部署环境 ( 系统架构)
               
软件产品 + 硬件 -> 企业具体需求 (解决方案架构  , 企业架构)

在大数据项目建设过程中,往往需要三个层次的知识。第一个层次是关于大数据是什么,能做什么等理念方面的知识;第二个层次是端到端的大数据方案设计与系统架构;第三个层次是大数据相关的基础技术知识,例如,对HDFSMRSPARK等技术点的掌握。
当前业界第一个层次与第三个的书籍比较多,读者不难获得相关的学习材料。但第二个层次的书籍非常少,大数据相关的从业者,往往只能通过各类交流活动才能获取这方面的零碎知识。

数据分析师(数据科学家)、BI等:这部分一般是精进统计学,熟悉业务,机器学习会使用(调参+选模型+优化),取数、ETL、可视化啥的都是基本姿态。

1. EXCELPPT(必须精通)

数据工作者的基本姿态,话说本人技术并不是很好,但是起码会操作;要会大胆秀自己,和业务部门交流需求,展示分析结果。技术上回VBA和数据透视就到顶了。

2. 数据库类(必须学)

初级只要会RDBMS就行了,看公司用哪个,用哪个学哪个。没进公司就学MySQL吧。

NoSQL可以在之后和统计学啥的一起学。基本的NoSQLMongoDBRedis(缓存,严格意义上不算数据库),然后(选学)可以了解各类NoSQL,基于图的数据库Neo4j,基于Column的数据库BigTable,基于key-value的数据库redis/cassendra,基于collection的数据库MongoDB

3. 统计学(必须学)

如果要学统计学,重要概念是会描述性统计、假设检验、贝叶斯、极大似然法、回归(特别是广义线性回归)、主成分分析。这些个用的比较多。也有学时间序列、bootstrap、非参之类的,这个看自己的意愿。

其他数学知识:线性代数常用(是很多后面的基础),微积分不常用,动力系统、傅里叶分析看自己想进的行业了。

4. 机器学习(数据分析师要求会选、用、调)

常用的是几个线性分类器、聚类、回归、随机森林、贝叶斯;不常用的也稍微了解一下;深度学习视情况学习。

5. 大数据(选学,有公司要求的话会用即可,不要求会搭环境)

hadoop基础,包括hdfsmap-reducehive之类;后面接触sparkstorm再说了。

6. 文本类(选学,有公司要求的话会用即可)

这部分不熟,基本要知道次感化、分词、情感分析啥的。

1、花1个月学习数据库知识。

2、花1-2个月学习基础的统计学知识。

3、花1个月学习点linux的知识。

4、花1个月去学习最基础的数据挖掘模型:

5、花1个月掌握一门基础的挖掘软件的操作。

第一步是用大概三个月的时间了解数据挖掘的几个常用技术:分类、聚类、预测、关联分析、孤立点分析等等。

这种了解是比较粗的,目标是明白这些技术是用来干什么的,典型的算法大致是怎样的,以及在什么情况下应该选用什么样的技术和算法。

1.找出几种整理数据的方法

2.了解两种数据中心值的概念,中位数、平均数

3.用两种不同的方法计理围绕中心值的数据分布

4.接触了呈正态分布的直方图和Z比值,Z是变量,表示数据点到平均数据的标准离差的个数

第三,一

数据挖掘方法、传统统计方法和数据可视化

统计推断:参数估值和参数的假设检验及非参数的假设检验

1.数据结构:向量,数组,矩阵,数据筐,列表,时间序列

2.概率及分布(离散泊松与连续正态)

3. 数据的统计分析分为描述性统计分析(探索性统计分析)和统计推断两部分

相关分析与回归分析:散点图是最有效的相关分析的工具

对回归分析进一步研究就是回归诊断(残值分析,影响分析,共线性诊断)

多元统计分析:多变量统计分析 主成份及因子分析,判别分析,聚类分析

机器学习三条主线:

第一条主线:从第一代神经网络(线性分类器)、

第二代神经网络(非线性)及其在预测领域的应用,到支持向量机,最后是深度学习。

第二条主线是贝叶斯理论,从朴素贝叶斯算法到贝叶斯网,最后是隐马尔科夫模型,这部分属于智能推理的范畴。最后矩阵降维,奇异值分解(svd)和PCA算法,构成第三条主线

P2P  -- 民间借贷、、、、众筹-- 线下集资    金融网销-- 理财产品销售    

第三方支付--- 支付结算  供应链金融-- 预付款代付及存货融资

http://www.chinacloud.cn

统计方法:

描述统计,推断统计

理论统计,应统计

数据分析(收集,整理,分析),概率,统计推断

现代数学有三个重要的基石:概率论、数值分析、线性代数。

概率论说明了事物可能会是什么样;

数值分析揭示了它们为什么这样,以及如何变成这样;

线性代数则告诉我们事物从来不只有一个样子,使我们能从多个角度来观察事物

1. 数学、统计学等相关专业,本科以上学历,2年以上工作经验
2.
对常用的数据挖掘算法(聚类/关联规则/回归分析/SVM/LR/决策树等)有深入的理解,有实际业务应用优先
3.
至少熟悉一门通用编程语言和一种数据分析工具,熟悉R,python,matlab者优先
4.
熟练使用SQL,对Hadoop/Spark/hive等分布式计算平台有一定的了解。
5.
优秀的数据建模能力,精益求精的工作态度,头脑灵活富有创新者优先

主线:数据挖掘。步骤:Hadoop、相关算法、R语言
辅助:设计模式、深度学习、Linux

一本是Tom M.Mitchhell所著的机器学习,一本是数据挖掘导论,这两本书皆分别是机器学习 & 数据挖掘领域的开山 or 杠鼎之作

概率定义

随机变量

数据特征

抽样分析

参数估计

假设检验

--

关联规则

决策树

贝叶斯

聚类分析

神经网络

线性回归

逻辑回归 预测也叫回归分析

时间序列

因子分析

信度分析

效度分析

层次分析

日立咨询

1. 大专以上学历
2.
7年以上工作经验,其中有5+年数据分析及挖掘经验:熟悉SAS BaseSAS/STATEnterprise Miner
3.
对数据挖掘算法有较深入了解,能够根据业务需求进行定制开发。
4. 对时间序列分析(ETS)有一定实施经验;
5.
了解一种或多种数据库:MySQLOracleNoSQLMongoDB/Redis);

1 商业理解/数据理解/数据准备/模型建立和评估/模型发布

数据挖掘的过程可以分为6个步骤:

 

·        1) 理解业务:从商业的角度理解项目目标和需求,将其转换成一种数据挖掘的问题定义,设计出达到目标的一个初步计划。

·        2) 理解数据:收集初步的数据,进行各种熟悉数据的活动。包括数据描述,数据探索和数据质量验证等。

·        3) 准备数据:将最初的原始数据构造成最终适合建模工具处理的数据集。包括表、记录和属性的选择,数据转换和数据清理等。

·        4) 建模:选择和应用各种建模技术,并对其参数进行优化。

·        5) 模型评估:对模型进行较为彻底的评价,并检查构建模型的每个步骤,确认其是否真正实现了预定的商业目的。

·        6) 模型部署:创建完模型并不意味着项目的结束,即使模型的目的是为了增进对数据的了解,所获得的知识也要用一种用户可以使用的方式来组织和表示。通常要将活动模型应用到决策制订的过程中去。该阶段可以简单到只生成一份报告,也可以复杂到在企业内实施一个可重复的数据挖掘过程。控制得到普遍承认

那么这些指标又有什么意义呢?

1、销额与销额占比都是体现品类的大,是量的象征,即销额越大,销额占比越高,就说明这个品类是一个大品类;

2、毛利、毛利率与毛利贡献率,则体现品类的强,这个是质的象征,即毛利高,毛利率高,且毛利贡献率高,就说明这个品类优质;

3、库存与周转率,则体现该品类的资金利用效率,如果库存高,周转慢,则说明资金利用率低,此时,对于零售企业来说,就意味着高成本。

其中,我们重点讲下库存周转率和动销率。库存周转率一般关系着职业经理人的年终奖,是企业中高层的核心指标,他们是有动力冒着缺货的风险少下单的,目的就是提高库存周转率指标值。动销率从某种意义来说,反映商品畅销程度,那是不是动销率越高越好呢?答案是否定的,实际工作中不能仅仅被百分比所迷惑,只看数据的表面,不透过表面找到问题的实质。动销率代表商品的销售状态,该状态不是决定销售业绩,而是决定销售层面的价值。畅销的商品大家都能卖,把滞销的商品卖好才是销售人员价值所在。

1. 概述 4
1.1. 
系统介绍 4
1.2. 
系统架构 4
1.3. 
体系结构 5
1.4. 
数据仓库管理系统(DWMS) 5
1.4.1. 
数据采集模块 6
1.4.2. 
数据转换模块 6
1.4.3. 
增量计算模块 6
1.4.4. 
调度模块 6
1.4.5. 
配置模块 6
1.5. OLAP
逻辑模型 7
1.5.1. 
分析角度 7
1.5.1.1. 
公共维 7
1.5.2. 
分析主题 8
1.6. 
银行业数据仓库E-R模型 (Data Model) 10
1.6.1. 
贷款客户分析(Data Model) 10
1.6.2. 
存款客户分析(Data Model) 11
1.6.3. 
内部账号分析(Data Model) 12
1.6.4. 
业务及流动性分析(Data Model) 13
1.6.5. 
资产负债财务分析(Data Model) 14
1.6.6. 
风险控制分析(Data Model) 15
1.6.7. 
现金配钞分析(Data Model) 16
1.7. 
例外处理 16
1.8. 
准确性 16
1.9. 
性能 17
1.10. 
数据容量 17
1.11. 
备份/恢复 17
1.12. 
运行环境 17
1.12.1. 
数据仓库平台 17
1.12.2. 
数据仓库硬件平台 17
1.12.3. 
控制台平台 17
1.13. 
安全性 18
2. 
报表系统 18
2.1. 
业务分析 18
2.2. 
财务分析报表系统 18
2.2.1. 
资产业务分析(月) 18
2.2.1.1. 
资产规模增长情况分析 19
2.2.1.2. 
资产增量变化情况分析 19
2.2.1.3. 
资产结构变化情况分析 19
2.2.1.4. 
贷款资产专项统计 20
2.2.2. 
负债业务分析 20
2.2.2.1. 
负债规模增长情况分析表 20
2.2.2.2. 
负债增量变动情况分析表 20
2.2.2.3. 
负债结构变化情况分析表 21
2.2.2.4. 
存款负债专项统计 21
2.2.3. 
所有者权益分析 21
2.2.3.1. 
所有者权益增长情况分析 21
2.2.3.2. 
所有者权益增量变动情况分析 22
2.2.3.3. 
所有者权益结构变化情况分析 22
2.2.4. 
财务收支分析 22
2.2.4.1. 
收支规模增长情况分析 22
2.2.4.2. 
收支增量变动情况分析 22
2.2.4.3. 
当期收支情况分析 23
2.2.4.4. 
财务收支结构变动情况分析 23
2.2.4.5. 
财务收支计划完成情况分析 23
2.2.5. 
财务比率分析 24
2.2.5.1. 
各项财务比率分析表 24
2.3. 
资金计划业务需求 25
2.3.1. 
资金头寸统计 25
2.3.2. 
资金负债管理指标 25
2.3.3. 
现金管理 25
2.3.3.1. 
结算备付金统计 25
2.3.3.2. 
库存现金统计 26
2.3.3.2.1. 
即时余额统计 26
2.3.3.2.2. 
日均余额统计 26
2.3.3.3. 
业务量统计 26
2.3.4. 
票据贴现业务统计 26
2.4. 
综合统计分析 27
2.4.1. 
存款统计 27
2.4.1.1. 
存款结构统计 27
2.4.1.1.1. 
日均存款统计 27
2.4.1.1.2. 
存款即时余额统计 27
2.4.1.1.3. 
储蓄业务统计 27
2.4.1.2. 
存款明细统计 28
2.4.2. 
贷款统计 28
2.4.2.1. 
贷款结构统计 28
2.4.2.1.1. 
贷款日均统计 28
2.4.2.1.2. 
贷款即时余额统计 28
2.4.2.2. 
贷款明细统计 29
2.4.3. 
业务量统计 29
2.4.3.1. 
会计综合业务量统计 29
2.4.3.2. 
现金收付量统计 29
2.5. 
安全性 30
2.5.1. 
安全控制逻辑 30
3. 
客户经理服务系统(ASS) 30
3.1. 
总体分析 30
3.1.1. 
分析角度 30
3.1.2. 
分析指标 30
3.2. 
安全性 30
4. 
附录 31
4.1. 
定义 31
4.2. 
资金头寸项目说明和计算公式 31
4.3. 
资金负债管理指标 32
4.4. 
术语说明 34
4.4.1. 
Data warehouse 34
4.4.2. Data mart 34
4.4.3. OLAP 34
4.4.4. ROLAP 35
4.4.5. MOLAP 35
4.4.6. Client OLAP 35
4.4.7. DSS 35
4.4.8. ETL 35
4.4.9. Ad hoc query 36
4.4.10. EIS 36
4.4.11. BPR 36
4.4.12. BI 36
4.4.13. Data mining 36
4.4.14. CRM 36
4.4.15. Meta Data 36

智扬信达、索信达

例子

1. 某社会机构,收集了大量的学生考大学的数据。该机构希望找出一些规律,以推动更多的学生考大学。该机构委托你来做这个分析工作,给出具体的可以推动更多学生考大学的建议

分类

某银行每天收到很多信用卡办理的申请,为提高效率和准确性,想应用数据挖掘技术来改善工作,你会怎样考虑呢

聚类

某公司收集了很多客户的资料,记录了客户的年龄和收入。该公司相对这些数据进行分析,找出可以重点营销的客户对象。我们可指定输入列为年龄和收入,经过聚类数据挖掘后,发现客户群可以划分为三个群体:低收入年轻客户、高收入中年客户、收入相对低的年老客户。根据这样的分析结果,公司可采取决策,重点针对高收入中年客户进行营销活动

关联尿布和啤酒

数据分析:产品——数据——结论

「道」是指价值观。要想做好数据分析,首先就要认同数据的意义和价值。一个不认同数据分析、对数据分析的意义缺乏理解的人是很难做好这个工作的。

「术」是指正确的方法论。现在新兴的「Growth Hacker」(增长黑客)概念,从 AARRR 框架 ( 获取、激活、留存、变现与推荐五个环节)入手进行产品分析,这是一个非常好的分析方法。

「器」则是指数据分析工具。一个好的数据分析工具应该能帮助大家进行数据采集、数据分析、数据可视化等工作,节省时间和精力,帮助更好理解用户、更好优化产品。

数据分析的方法

流量分析转化分析留存分析

数据分析的三大作用,主要是:现状分析、原因分析和预测分析

明确分析目的和思路-数据收集-数据处理-数据分析-数据展现-报告编写

用户购买行为分析:WHY用户投资目的什么,WHAT公司可以为用户提供什么,WHO谁是我们的客户,WHEN什么时候购买,WHERE使用场景,HOW如何购买,如何支付,HOWMUCH购买多少

公司业务分析,产品价格,渠道,促销

用户行为:认知,熟悉,试用,使用,忠诚,

明确数据分析方法论的主要作用:

·         理顺分析思路,确保数据分析结构体系化。

·         把问题分解成相关联的部分,并显示它们之间的关系。

·         为后续数据分析的开展指引方向。

·         确保分析结果的有效性及正确性

·         1. 明确数据分析的目的

·         2. 收集数据的方法

·         3. 产品的基本数据指标

·         4. 常见的数据分析法和模型 漏斗分析法和AARRR分析模型 分析从用户进入网站到最终购买商品的变化趋势

AARRRAcquisitionActivationRetentionRevenueRefer交叉分析法。

·        

请使用浏览器的分享功能分享到微信等