数据中心化和标准化-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

数据中心化和标准化

阅读量：4284 次

发布时间：2019-05-27

本文共 742 字，大约阅读时间需要 2 分钟。

简介：

意义：数据中心化和标准化在回归分析中是取消由于量纲不同、自身变异或者数值相差较大所引起的误差。

原理：数据标准化：是指数值减去均值，再除以标准差；

数据中心化：是指变量减去它的均值。

目的：通过中心化和标准化处理，得到均值为0，标准差为1的服从标准正态分布的数据。

在回归问题和一些机器学习算法中，以及训练神经网络的过程中，还有PCA等通常需要对原始数据进行中心化（Zero-centered或者Mean-subtraction）处理和标准化（Standardization或Normalization）处理。

目的：通过中心化和标准化处理，得到均值为0，标准差为1的服从标准正态分布的数据(即下面x’的数据分布~N(0,1))。计算过程由下式表示：

原因：在一些实际问题中，我们得到的样本数据都是多个维度的，即一个样本是用多个特征来表征的。很显然，这些特征的量纲和数值得量级都是不一样的，而通过标准化处理，可以使得不同的特征具有相同的尺度（Scale）。这样，在学习参数的时候，不同特征对参数的影响程度就一样了。简言之，当原始数据不同维度上的特征的尺度（单位）不一致时，需要标准化步骤对数据进行预处理。

下图是二维的示例：

这里写图片描述

左图表示的是原始数据

中间的是中心化后的数据，可以看出就是一个平移的过程，平移后中心点是（0，0）。同时中心化后的数据对向量也容易描述，因为是以原点为基准的。(做了一次分布的空间转换)

右图将中心化后的数据除以标准差，得到为标准化的数据，可以看出每个维度上的尺度是一致的（红色线段的长度表示尺度），而没有处理之前的数据是不同的尺度标准。原始数据经过数据标准化处理后，各指标处于同一数量级，适合进行综合对比评价。(做了一次分布的空间转换)

参考：

附：

你可能感兴趣的文章

聊聊性能：全链路压测 overview

Java+Maven+selenium+testng+reportng自动化测试框架（简易搭建说明）

WEB模糊查询注意的问题（排除%等通配符并支持不连续关键字查询）

PostgreSQL中表的阶层数据取得方法

如何用产品思维迭代项目管理流程？（创业有感）

Linux ALSA 声卡驱动之一：ALSA架构简介

Linux ALSA 声卡驱动之二：声卡的创建

Linux ALSA 声卡驱动之三：PCM设备的创建

Linux ALSA 声卡驱动之四：Control设备的创建

Linux ALSA 声卡驱动之五：移动设备中的ALSA(ASoc)

Linux ALSA 声卡驱动之六：ASoc架构中的Machine

Linux ALSA 声卡驱动之七：ASoc中的Codec

android电池系统

android4.x 耳机插拔检测机制

Android 4.x耳机插拔检测实现方法

android修改开机动画和铃声

android audio音量控制流程

解密回声消除技术之一（理论篇）

Speex编解码在Android上实现

speex回音消除

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2024-10-04 20:34:36 当前IP: 3.144.100.237 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我