数据科学导论(一.绪论)

(一)学科应用与问题

1.数据特征属性


2.大数据行业推动力:
 数据源
 模型和计算能力:深度学习、GPU、分布式系统
 广泛的应用场景:生物信息、计算社会、天体信息、金融经济、电子工程…
3.数据处理模型

类型模型
点集随机分布
时间序列随机过程(隐式马氏过程)
图像随机场(吉布斯随机场)
网络图模型、贝叶斯模型

4.数据分析的主要困难
 a.数据量大
 b.维数高(核心困难)——维数灾难
 克服方法:1)限制模型 2)利用特殊结构进行正则化和降维
 c.类型复杂:表格、图像、文本、视频
 d.噪音大
5.算法:
 降低复杂度——随机梯度下降
 分布式计算——MapReduce框架
6.操作要点:
 预测、异常值检测、分类、聚类、关联规则
7.机器学习:
 有监督学习:回归和分类
 无监督学习:聚类、降维、排序、密度估计、关联规则、挖掘
 强化学习:过程模拟、观察

(二)机器学习过程

1.训练模型过程


模型选择:
 1.正则化(典型方法):在误差函数上加上正则项,正则项常为参数向量的范数;正则是训练误差和模型复杂度的均衡。
 2.交差验证——K折交叉模型。
2.非结构化数据处理
(1)自然语言处理和文本分析(NLP)
 主要问题:分词与词性标注,命名实体识别,句法分析,语义消歧,文本分类和聚类,主题分类和情感分析等;
 应用场景:(1)互联网舆情分析,商品评论,投诉数据分析,法院判决文本
 (2)新闻摘要、分类;
 (3)自动翻译
(2)图与社交网络分析
 主要问题:中心度,链接分析,社区发现,影响力分析
 应用场景:1.节点重要性评估;2.舆论领袖挖掘;3.欺诈检测
(3)分布式计算:
 主要问题:1.单机环境下大规模数据处理;2.集群环境下大规模数据处理;3.大规模数据下的建模分析(大数据分布式机器学习)
 应用场景:1.大数据处理:并行计算;Hadoop/MapReduce平台;
 2.大规模数据下的模型构建:并行算法,硬件加速(GPU和深度学习),Spark等分布式架构
 3.算法并行化,数据并行化;

(三)数据特征和分析基础

1.特征观察:连续型VS离散型
2.基本信息统计:算术平均数、中值、最大值、最小值、分位数、方差
3.度量数据散布图:盒图(箱线图)
(二)距离
1.目的:测试计算样本距离(相似度)
2.距离函数d(·)需要满足的条件:
d(x,y)≥0;d(x,x)=0;d(x,y)=d(y,x)
3.数值型数据距离函数(更多参考https://blog.csdn.net/eric41050808/article/details/24365765)
 1.闵可夫斯基距离函数/Lp范式:


 曼哈顿距离(p=1)
 欧氏距离(p=2)
 极大距离(p=∞,取极限)
 2.余弦相似度:

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注