行业知识
序号 | 名词 | 解释 | 含义 |
1 | Scatter Diagram (Plot) | 散点图(图) | 确定X Y 之前的关系 如果排列有规律,就是有关系,排列没规律证明没有关系,这俩值选择的不对,重选 |
2 | Gantt Chart | 甘特图 | 甘特图示在做项目管理时,是最常用的一种图表。它可以直观地表明任务计划在什么时候进行,及实际进展与计划要求的对比。管理者也可以根据甘特图快速、清晰的弄清楚每个项目还剩下哪些工作要做,并对项目重新进行评估,以此来判断整个项目计划是否继续正常进行,亦或是提前和之后。在甘特图中横轴一般表示的是时间,纵轴则表示项目。线条表示在整个期间上计划和实际的活动完成情况。 |
3 | Brainstorming | 头脑风暴 |
适用场合 ·渴望得到大范围的选择时; ·渴望得到创见时;·希望全组人员参与时。 |
4 | Nominal Group Technique | 名义群技术 | 适用情况: 在集体决策中,如对问题的性质不完全了解且意见分歧严重,则可采用名义小组法。在这种方法下,小组成员互不通气,也不在一起讨论、协商,小组只是名义上的。这种名义上的小组可以有效地激发个人的创造力和想像力。 |
5 | Check Sheet | 检查表 | 检查表是为收集和分析数据提前准备的结构表格。它是可以用于多种目的的门类工具。适用场合同一个人或在同一个地点重复观察和收集数据时;·当收集有关事件、问题、缺陷、缺陷部位、缺陷原因等情况的频数或特征的数据时;收集生产过程数据时。 |
6 | Control Charts | 控制图表 | 运用控制图的目的之一就是,通过观察控制图上产品质量特性值的分布状况,分析和判断生产过程是否发生了异常,一旦发现异常就要及时采取必要的措施加以消除,使生产过程恢复稳定状态。也可以应用控制图来使生产过程达到统计控制的状态。产品质量特性值的分布是一种统计分布.因此,绘制控制图需要应用概率论的相关理论和知识。 |
7 | Data Points | 数据点 | 每个数据 |
8 | Flow Chart | 流程图 |
以特定的图形符号加上说明,表示算法的图,称为流程图或框图。 流程图是流经一个系统的信息流、观点流或部件流的图形代表。在企业中,流程图主要用来说明某一过程。这种过程既可以是生产线上的工艺流程,也可以是完成一项任务必需的管理过程。 流程图是揭示和掌握封闭系统运动状况的有效方式。作为诊断工具,它能够辅助决策制定,让管理者清楚地知道,问题可能出在什么地方,从而确定出可供选择的行动方案。 流程图有时也称作输入-输出图。该图直观地描述一个工作过程的具体步骤。流程图对准确了解事情是如何进行的,以及决定应如何改进过程极有帮助。这一方法可以用于整个企业,以便直观地跟踪和图解企业的运作方式。 流程图使用一些标准符号代表某些类型的动作,如决策用菱形框表示,具体活动用方框表示。但比这些符号规定更重要的,是必须清楚地描述工作过程的顺序。流程图也可用于设计改进工作过程,具体做法是先画出事情应该怎么做,再将其与实际情况进行比较。 |
9 | Tree Diagram | 树状图 | 为了用图表示亲缘关系,把分类单位摆在图上树枝顶部,根据分枝可以表示其相互关系,具有二次元和三次元。在数量分类学上用于表型分类的树状图,称为表型树状图(phenogram),掺入系统的推论的称为系统树状图(cladogram)以资区别。表型树状图是根据群析描绘的,系统树状图是根据一种模拟的假定的性状进化方向即用电子计算机描绘的。 |
10 | Process Performance | 流程性能 |
过程性能反映的是当前过程的状态。其基本特征是: (1) 可以随时反映实时过程的性能; (2) 当前的过程状态不一定很清晣或受控; (3) 过程变差包括了普通和特殊两种原因所造成的变差,可采用样本标准σ来估算。 |
11 | PPB | 过程能力基线 | PPB的建立首先要要确定组织的目标,找出影响组织目标的关键子过程,然后收集子过程的数据进行分析。而PPB的作用仅仅是理解过去和控制现在,为了预测未来我们必须要建立PPM过程性能模型 |
12 | PPM | 过程能力模型 | 有了PPM我们就可以根据项目的基础信息和模型来预测项目的进度,成本和质量情况 |
13 | GRR - Gauge Repeatability and Reproducibility | 测量数据可重复性和再现性 | 需要在相同的归零条件下,在短时间内取得数据。GRR的目的就是要降低量测误差,使量测值之 尽量接近 (真值之标准差)。 |
14 | Linear Regression ** | 线性回归 | 线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法;回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。 |
15 | Design of Experiments | 实验设计 | 实验设计的主要功能是对变量的控制,首先是在控制条件下有效地操纵或改变自变量,使因变量(即反应变量)的变化得到观察。 |
16 | General Linear Models | 一般线性模型 | 使用一般线性模型可确定两个或多个组的均值是否存在差异。可以包括随机因子、协变量或交叉因子与嵌套因子的组合。还可以使用逐步回归来帮助确定模型。然后可以使用模型来预测新观测值的值、标识预测值的组合(这些值一起优化一个或多个拟合值),以及创建曲面图、等值线图和因子图。 |
17 | Radar Chart | 雷达图表 |
作用 1、综合分析和评价企业经营状况。 2、寻找企业的优势和弱势。 3、在经理人的日常管理中,也可以用这个图来分析你所在部门的工作业绩处于什么水平上。 |
18 | Affinity Diagram | 亲和关系图 |
用于掌握各种问题重点,想出改善对策; 用于市场调查和预测; 用于企业方针,目标的判定及推展; 用于研究开发,效率的提高; 用于全面质量管理的推行; |
19 | Interrelationship Diagram | 相互关系图 |
关联因法的应用范围十分广泛,它的应用范围主要有: ①推行TQC工作、从何处入手、怎样深入 ②制订和实施质量保证的方针、目标 ③研究解决如何提高产品质量和减少不良品的措施; ④促进质量管理小组活动的深入开展: ⑤从大量的质量问题中,找出主要问题和重点项目; ⑥研究满足用户的质量、交货期、价格及减少索赔的要求和措施 ⑦研究解决如何用工作质量来保证产品质量问题。 |
20 | Matrix Diagram | 矩阵图 |
矩阵图法的用途十分广泛,在质量管理中,常用矩阵图法解决以下问题: ①把系列产品的硬件功能和软件功能相对应,并要从中找出研制新产品或改进老产品的切入点; ②明确应保证的产品质量特性及其与管理机构或保证部门的关系,使质量保证体制更可靠; ③明确产品的质量特性与试验测定项目、试验测定仪器之间的关系,力求强化质量评价体制或使之提高效率; ④当生产工序中存在多种不良现象,且它们具有若干个共同的原因时,希望搞清这些不良现象及其产生原因的相互关系,进而把这些不良现象一举消除; ⑤在进行多变量分析、研究从何处入手以及以什么方式收集数据。 |
21 | Histogram | 直方图 |
直方图的常见作用有以下三点: (1)显示质量波 直方图与标准的对照 直方图与标准的对照 动的状态; (2)较直观地传递有关过程质量状况的信息; (3)通过研究质量波动状况之后,就能掌握过程的状况,从而确定在什么地方集中力量进行质量改进工作。 |
22 | Non Parametric Regressions | 非参数回归 | |
23 | Logistic Regression - Logit | 逻辑回归-逻辑 |
Logistic回归模型的适用条件 1 因变量为二分类的分类变量或某事件的发生率,并且是数值型变量。但是需要注意,重复计数现象指标不适用于Logistic回归。 2 残差和因变量都要服从二项分布。二项分布对应的是分类变量,所以不是正态分布,进而不是用最小二乘法,而是最大似然法来解决方程估计和检验问题。 3 自变量和Logistic概率是线性关系 4 各观测对象间相互独立。 |
24 | Dummy Variable - Regression | 假变量-回归 | |
25 | Bayesian Inference | 贝叶斯推论 | 贝叶斯统计推断是允许调查者在评估统计假说时以逻辑一致的方式既使用样本信息又使用先验信息的一种方法。在经济学中,贝叶斯推断被用来协助评价不同的经济假说和模型,估计经济参数的数值,对有待观测的经济变量做出预测。贝叶斯推断的结论是关于所要探究的那些参数的概率值,是关于一些假说的相对置信度的概率值,或者是对未来观测量可能的预测区间。 |
26 | Likelihood Ratio Test | 似然比率测试 |
它是根据两种假设(原假设及备选假设)提出的一种统计检验方法.设I (X_x005f_x005f_x001e_X2,""",XN; B)是似然函数(B可以是参数、参数向量或参数矩阵),把参数空间门划分成两个互不相交的非空子集} - }o U }} , }o门门,一曰.提出两种假设:H}(原假设):BE}o;H,(备选假设):B E },.这时,两个机大似然估计之比 称为似然比统计量.用统计量班XX2,""",X词进行的假设检验,即p{班X},XZ,"..,X司镇}1a}=a,其中a是显著性水平,几。为临界值.当几镇几。时,否定Ho(原假设),当几>几。时,接受Ho(原假设),这种检验方法称为似然比检验法. |
27 | Bayesian Belief Network | 贝叶斯信仰网络 |
分析了贝叶斯信念网络和数理统计方法在数据挖掘中的作用,提出了一种贝叶斯信念网络 和基于数理统计的数据挖掘模型,并用实例证明该数据挖掘模型有效性 |
28 | Mean time between failures (MTBF) | 平均故障间隔时间 | 是衡量一个产品(尤其是电器产品)的可靠性指标,单位为“小时” |
29 | Software Reliability Growth Models | 软件可靠性增长模型 |
是目前建模可靠性及其过程提高的重要数学工具,对可靠性的评测、 保证以及测试资源管控和最优发布研究具有重要作用 |
30 | Pareto Chart | 帕累托图 | 又叫排列图、主次图,是按照发生频率的高低顺序绘制的直方图 ,一种特殊的柱状图,为了组织和优化从最高到最低的数据,我们可以借助 excel 自动生成图表,再修改相关参数,得到帕累托图 |
31 | Box Plot | 箱线图 |
又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图。 因形状如箱子而得名。在各种领域也经常被使用,常见于品质管理。它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较。 |
32 | Time Series - and Analysis | 时间序列分析 |
时间序列分析的主要目的是根据已有的历史数据对未来进行预测。 经济数据中大多数以时间序列的形式给出。根据观察时间的不同,时间序列中的时间可以是年份、季度、月份或其他任何时间形式。 |
33 |
Chi-Square distribution and test Chi-平方分布和测试 |
卡方分布与检验 |
卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要 是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。 |
34 | Cluster Analysis | 聚类分析 |
聚类分析是一类将数据所研究的对象,进行分类的统计方法。这类方法有一共同特点: 事先不知道类别的个数与结构,以分析数据对象之间的相似性(similarity)或相异性(dissimilarity),而相似(相异)性看成对象之间“距离”远近的一种度量,将距离近的对象归入一类,不同类之间的对象距离较远。这就是“聚类分析方法”的共同思路。 |
35 | Stratification | 层次分析 |
层次分析法,简称AHP,是指将与决策总是有关的元素分解成目标、准则、方案等层次, 在此基础之上进行定性和定量分析的决策方法。该方法是美国运筹学家匹茨堡大学教授萨蒂于20世纪70年代初,在为美国国防部研究"根据各个工业部门对国家福利的贡献大小而进行电力分配"课题时,应用网络系统理论和多目标综合评价方法,提出的一种层次权重决策分析方法。 |
36 | Segmentation | 分割分析 | 分割是把图像分割成具特性的区域,并提取出感兴趣目标的技术和过程。 |
37 | central limit theorem | 中心极限定理 | 中心极限定理(central limit theorem)是概率论中讨论随机变量序列部分和分布渐近于正态分布的一类定理 |
38 | Design of Experiments Designed Experiments Optimization |
DOE全因子实验 设计性实验优化 |
DOE:是一种安排实验和分析实验数据的数理统计方法; 实验设计主要对实验进行合理安排,以较小的实验规模( 实验次数)、较短的实验周期和较低的实验成本,获得理想的实验结果以及得出科学的结论。 所谓最优化,简单地说,就是高效率地找出问题在一定条件下的最优解。试验优化就是在这种最优化思想指导下,通过广义试验(包括实物试验与非实物试验)进行最优设计的一种优化方法,也是应用数学的一个新兴分支。 |
39 | Discrete Event Simulation | 离散事件模拟 | 通常的步骤首先是分析系统的工作流程,用数量和逻辑的关系描述临时实体在系统中流动,并被永久实体处理、加工和服务的过程,建立实体流程图。然后将实体流程图转化为适于计算机处理的模拟模型,在计算机上进行模拟实验。这一过程一般通过专用的计算机模拟软件进行。仿真软件中一般还包括一套对模拟结果进行统计、分析的报告子程序。 |
40 | Predictive modelling, Predicting Process Performance |
预测建模 过程性能预测 |
预测模型是在采用定量预测法进行预测时,最重要的工作是建立预测数学模型。预测模型是指用于预测的,用数学语言或公式所描述的事物间的数量关系。它在一定程度上揭示了事物间的内在规律性,预测时把它作为计算预测值的直接依据。因此,它对预测准确度有极大的影响。任何一种具体的预测方法都是以其特定的数学模型为特征。预测方法的种类很多,各有相应的预测模型。 过程性能预测 : 通俗的讲就是通过过程的输入及属性预测过程的输出,表达的是量化的过程输入、过程属性与过程输出之间的因果关系。在判断某模型y=f(x1,x2,…,xn)是否是一个过程性能模型时要注意如下几点: (1)定量模型:是定量模型而不是定性模型;Y可以是一个定比数据,定距数据。如果相对定序或定类数据做预测,需要转换为求解其等于某个值的概率。 (2)实用性 :是基于本组织的历史数据分析得到,而不是业内的标杆组织的模型,是本组织过程性能的因果规律,而不是其他公司,本行业的规律。 (3)可控性:过程性能模型中的x必须含有可控因子,即该x是可以由我们指定的,想让其等于某个数值就可以等于某个数值; (4)区间预测:PPM对Y值的预测是一个区间而非单点值,可以是回归方程、模拟的结果区间、或达成的概率等; (5)因果规律:Y与x之间一定存在因果规律,即x决定Y,改变x可以改变Y。 |
41 | Likelihood, Maximum likelihood | 可能性,最大可能性 |
似然函数在推断统计学(Statistical inference)中扮演重要角色,尤其是在参数估计方法中。在教科书中,似然常常被用作“概率”的同义词。但是在统计学中,二者有截然不同的用法。概率描述了已知参数时的随机变量的输出结果;似然则用来描述已知随机变量输出结果时,未知参数的可能取值。例如,对于“一枚正反对称的硬币上抛十次”这种事件,我们可以问硬币落地时十次都是正面向上的“概率”是多少;而对于“一枚硬币上抛十次”,我们则可以问,这枚硬币正反面对称的“似然”程度是多少。 极大似然估计只是一种粗略的数学期望,要知道它的误差大小还要做区间估计。 |
42 | Run Charts | 趋势图 |
趋势图,也可称为统计图或统计图表,是以统计图的呈现方式,如1柱型图,2横柱型图,3曲线图,4饼图,5点图,6面积图,7雷达图等,来呈现某事物或某信息数据的发展趋势的图形。 目前一般的办公软件中都带有统计图表功能,如Microsoft Office, Kingsoft WPS系列;在中间件领域主要有WFsoft wfChart等,也有一些专业方向的统计图软件.。 走向图有时也叫趋势图。它用来显示一定时间间隔(例如一天、一周或一个月)内所得到的测量结果。以测得的数量为纵轴,以时间为横轴绘成图形。 |
43 | Six Sigma | 六西格玛 | 六西格玛是一种改善企业质量流程管理的技术,以“零缺陷”的完美商业追求,带动质量成本的大幅度降低,最终实现财务成效的提升与企业竞争力的突破。 |
44 | QFD – Quality Function Deployment | QFD-质量功能展开 |
是一种形象直观的二元矩阵展开图表 从技术角度,为满足上述顾客需求,提出对产品的设计要求(工程措施),明确产品应具备的质量特性,整理后填入质量屋的天花板; |
45 | FMEA - Failure mode and effect analysis | 质量功能展开 |
工序分解优化-提供决策参考-软件自带说明书 本文来自: 人大经济论坛 经济类软件下载专区 版,详细出处参考: |
46 | Sensitivity Analysis (in Crystal Ball Tool) ** | 灵敏度分析(水晶球工具) | 敏感度分析,得到关键子过程,拿这个关键子过程的PPB预测目标达成率,低于90的,调整这个PPB值,使达成率超90,这个新的值就是规格上下限。 |
47 | Goodness of Fit | 拟合优度 | 主要是运用判定系数和回归标准差,检验模型对样本观测值的拟合程度。当解释变量为多元时,要使用调整的拟合优度,以解决变量元素增加对拟合优度的影响。 |
48 | Control chart | 管制图 | 管制图指用来判断流程是否稳定,有无机会或特殊变异原因的统计分析管理工具,主要是藉由实际品质特性与根据过去经验的管制界限来作比较,按时间先后顺序来判别产品品质是否安定的一种图形,并研究其变异来源以监视、控制和改善流程。 |
49 | Special Causes of Variation | 变异的特殊原因 | 特殊原因(项目上特有的)例如 某个数据异常 |
50 | Common Causes of Variation | 变异的常见原因 | 公共原因(大家都遇到的) 例如能力不足 |
51 | How to test for process stability in the control chart | 如何测试控制图中的过程稳定性 | 标准差越小,证明越稳定 |
52 | Monte Carlo method | 蒙特·卡罗方法 | 也称统计模拟方法,是二十世纪四十年代中期由于科学技术的发展和电子计算机的发明,而被提出的一种以概率统计理论为指导的一类非常重要的数值计算方法。 |
53 | Monte Carlo Simulation | 蒙特卡罗模拟 | 蒙特卡罗模拟因摩纳哥著名的赌场而得名。它能够帮助人们从数学上表述物理、化学、工程、经济学以及环境动力学中一些非常复杂的相互作用。 |
54 | Probability Distributions(Discrete and Continuos) | 概率分布(离散和连续) | 数学、气候学 |
55 | Normal | 正态分布 | 生物现象中有许多变量是服从或近似服从正态分布的,如家畜的体长、体重、产奶量、产毛量、血红蛋白含量、血糖含量等 |
56 | Rayleigh distribution | 瑞利分布 | 瑞利分布(Rayleigh Distribution):当一个随机二维向量的两个分量呈独立的、有着相同的方差的正态分布时,这个向量的模呈瑞利分布。应用:通信,无线网络 |
57 | Binomial | 二项分布 | 大气科学;气候学;计算机科学 |
58 | Poisson | 泊松分布 | 泊松分布适合于描述单位时间(或空间)内随机事件发生的次数。如某一服务设施在一定时间内到达的人数,电话交换机接到呼叫的次数,汽车站台的候客人数,机器出现的故障数,自然灾害发生的次数,一块产品上的缺陷数,显微镜下单位分区内的细菌分布数等等 |
59 | Process Capability | 过程能力 |
在管理状态的制程上,该过程具有达成品质的能力,称为过程能力 , UCL, LCL 是规格上下线, USL, LSL 是控制上下线 Cp 表示产品过程的精密程度,不考虑中心值的位置., cpk表示产品满足规格的能力,考虑中心值的位置. 通常情况下,CP和CPK一起使用. CP和CPK要求都比较好. |
60 | Dependent Variables | 因变量 | 因变量是因为自变量的变化而产生的现象变化或结果。 因此自变量和因变量的相互依存的,没有自变量就无所谓因变量,没有因变量也无所谓自变量。 |
61 | Independent Variables | 自变量 | 在实验中,自变量是由实验者操纵、掌握的变量 |
62 | Probability Density Functions |
概率密度函数 |
随机变量X的n阶矩是X的n次方的数学期望 |
63 | ANOVA – Analysis of Variance | 又称“变异数分析” | 用于两个及两个以上样本均数差别的显著性检验。 由于各种因素的影响,研究所得的数据呈现波动状。造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。 |
64 | Hypothesis Testing | 假设检验 | 是数理统计学中根据一定假设条件由样本推断总体的一种方法;根据问题的需要对所研究的总体作某种假设,记作H0;选取合适的统计量,这个统计量的选取要使得在假设H0成立时,其分布为已知;由实测的样本,计算出统计量的值,并根据预先给定的显著性水平进行检验,作出拒绝或接受假设H0的判断。常用的假设检验方法有u—检验法、t检验法、χ2检验法(卡方检验)、F—检验法,秩和检验等。 |
65 | T-Test, Z-Test, F-Test | T检验、Z检验、F检验 | T检验,亦称student t检验(Student's t test),主要用于样本含量较小(例如n<30),总体标准差σ未知的正态分布;Z检验(Z Test)是一般用于大样本(即样本容量大于30)平均值差异性检验的方法。它是用标准正态分布的理论来推断差异发生的概率,从而比较两个平均数的差异是否显著。在国内也被称作u检验。F检验(F-test),最常用的别名叫做联合假设检验(英语:joint hypotheses test),此外也称方差比率检验、方差齐性检验。它是一种在零假设(null hypothesis, H0)之下,统计值服从F-分布的检验。其通常是用来分析用了超过一个参数的统计模型,以判断该模型中的全部或一部分参数是否适合用来估计母体。 |
66 | P-&#118alue | 假定值、假设机率 | 统计学根据显著性检验方法所得到的P 值,一般以P < 0.05 为显著, P <0.01 为非常显著;我们MINITAB演示过,P要<0.05 |
67 | Correlation | 相关关系 | 相关关系是客观现象存在的一种非确定的相互依存关系,即自变量的每一个取值,因变量由于受随机因素影响,与其所对应的数值是非确定性的。相关分析中的自变量和因变量没有严格的区别,可以互换。 |
68 | Cause and effect diagrams | 设计方法-因果图 | 用图解的方法表示输入的各种组合关系,写出判定表,从而设计相应的测试用例 |
69 | Ishikawa diagram (Fishbone Diagram) | 鱼骨图 | 鱼骨图(又名因果图、石川图),指的是一种发现问题“根本原因”的分析方法,现代工商管理教育将其划分为问题型、原因型及对策型鱼骨图等几类。 |
70 | Data transformation | 数据转换 | 数据转换 data transfer,是将数据从一种表示形式变为另一种表现形式的过程。 |
71 | Continuous or discrete variable (and see next two pages) | 连续变量或离散变量 | 离散变f与连续变符号x如果能够表示对象集合S中的任意元素,就是变量。如果变量的域(即对象的集合5)是离散的,该变量就是离散变量;如果它的域是连续的,它就是连续变量。 |
72 | Bar chart | 条线图 | 线图是线路图的一种特殊的表示形式,是按比例绘制的平面布置图或模型。在图上,用线条表示并衡量工人、物料或设备等在规定的活动中所走的路线。 |
73 |
Activity Network Diagram (Project Network) |
活动网络图(项目网络) | 项目网络图是项目所有活动及其之间逻辑关系(依赖关系)的一个图解表示,并从左到右来表示项目的时间顺序。可手工编制也可用计算机实现。可包括整个项目的全部细节,也可包含一个或多个概括性活动,还相应伴有一个简洁说明以描述基本排序方法,但对任何特殊的排序应充分加以说明。编制项目网络图的方法通常有:前导图法、箭线图法、条件图法等 |
74 | Confidence interval | 置信区间 | 置信区间是指由样本统计量所构造的总体参数的估计区间,在统计学中,一个概率样本的置信区间(Confidence interval)是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。置信区间给出的是被测量参数的测量值的可信程度,即前面所要求的“一个概率 |
75 | Prediction Interval | 预测数的变化范围; | 均值加三个标准差这个范围 |
76 | Power transform Box–Cox Transformation | Box–Cox变换 | Box-Cox变换是Box和Cox在1964年提出的一种广义幂变换方法,是统计建模中常用的一种数据变换,用于连续的响应变量不满足正态分布的情况。Box-Cox变换之后,可以一定程度上减小不可观测的误差和预测变量的相关性。Box-Cox变换的主要特点是引入一个参数,通过数据本身估计该参数进而确定应采取的数据变换形式,Box-Cox变换可以明显地改善数据的正态性、对称性和方差相等性,对许多实际数据都是行之有效的 [1] 。 |