数据分析是一种研究数据的方法,它涉及到从数据中提取有用信息从而支持决策见解的过程。它包括*
数据收集、数据清洗、数据分析、数据可视化和结果报告*。
所有这些不同的方法主要基于两个核心思路:定量和定性分析。
数据分析的重要性
明智的决策:从管理的角度来看,可以从分析数据中受益,因为它可以根据事实而不是简单的直觉做出决策。例如,您可以了解在哪里投资资金,检测增长机会,预测收入或在不常见的情况成为问题之前解决它们。
降本增效:
借助预测分析等先进技术,企业可以发现数据中的改进机会、趋势和模式,并相应地规划策略。随着时间的推移,这将节省实施错误策略的资金和资源。不仅如此,通过预测销售和需求等不同场景,可以预测生产和供应。
更好的解决问题的方法:明智的决策更有可能成为成功的决策。数据为企业提供信息。可以看到这种进展正在走向何方。数据分析可帮助企业做出正确的选择并避免代价高昂的陷阱。
更准确的数据:如果您想做出明智的决策,需要数据,但还有更多。相关数据必须准确。数据分析可帮助企业获取相关、准确的信息,适合制定未来的营销策略、业务计划以及重新调整公司的愿景或使命。
数据分析的对象
按照数据的类型划分:文字、图片、音频、视频、元数据
按照数据的体量划分:大数据与小数据
按照数据的时间划分:实时数据与离线数据
按照数据的来源划分:机器数据与生物数据
数据分析的类型
诊断分析
诊断分析回答“为什么会发生这种情况?”
利用从统计分析中获得的见解,分析师使用诊断分析来识别数据中的模式。理想情况下,分析师会发现过去存在的类似模式,因此,使用这些解决方案有望解决当前的挑战。
预测分析
预测分析回答“最有可能发生什么?”
通过使用在旧数据和当前事件中发现的模式,分析师可以预测未来事件。虽然没有100%准确的预测,但如果分析师拥有大量详细信息和彻底研究它的纪律,那么几率就会提高。
统计分析
统计分析回答“发生了什么?”
此分析涵盖使用仪表板的数据收集、分析、建模、解释和演示。统计分析分为两个子类别:
- 描述性:描述性统计分析适用于汇总数值数据的完整或精选。它说明了连续数据中的均值和偏差以及分类数据中的百分比和频率。
- 推理:推理分析适用于从完整数据派生的样本。分析师只需选择不同的抽样,就可以从相同的综合数据集中得
- 出不同的结论
文本分析
它将原始数据转换为有用的业务信息。文本分析可以说是最直接、最直接的数据分析方法。
规范性分析
混合从其他数据分析类型中获得的所有见解,即可进行规范性分析。有时,仅使用一种分析类型无法解决问题,而是需要多个见解。
数据分析的过程
提出与界限问题
问问自己为什么要进行此分析,要使用到的数据种类以及计划分析的数据。
在数据分析之始,首先需要确定为什么需要它,需要它做什么。例如,客户对我们品牌的看法如何?或者哪种类型的包装对我们的潜在客户更具吸引力?概述问题后,您就可以进行下一步了。
收集与采集数据
这里需要注意的是,在定量和定性方案中,您收集信息的方式会有所不同。
收集来源包括案例研究、调查、访谈、问卷、直接观察和焦点小组。确保组织收集的数据进行分析。
数据分析
使用数据分析软件和其他工具来帮助您解释和理解数据并得出结论
- 分析数据与验证数据
- 提出假设与验证假设
- 提出结论
结论
解析数据分析结果,并提出最佳行动方案
数据分析方法
尽管有许多可用的数据分析方法,但它们都属于两种主要类型之一:定性分析与定量分析
定性数据分析
通过文字、符号、图片和观察来获取数据。此方法不使用统计信息。最常见的定性方法包括:
- 内容分析,用于分析行为和语言数据。
- 叙事分析,用于处理从访谈、日记、调查中挑选的数据。
- 扎根理论,通过研究和推断一个或多个过去的案例来发展给定事件的因果解释。
演绎法。这种分析方法被已经对样本总体的可能输入有理论或预定想法的工程师师使用。演绎方法旨在收集能够有条不紊地准确地支持理论或假设的数据。
归纳方法。在这种方法中,对样本总体结果知之甚少的工程师师收集有关感兴趣主题的适当和适当数量的数据。然后调查数据以寻找模式。目的是发展一种理论来解释数据中发现的模式。
定量数据分析
统计数据分析方法收集原始数据并将其处理成数值数据。定量分析方法包括:
- 假设检验,用于评估数据集或人口统计的给定假设或理论的真实性。
- 平均值或平均值通过将数字列表的总和除以列表中的项目数来确定主题的整体趋势。
- 样本量测定使用从较大人群中抽取并进行分析的小样本。所获得的结果被认为代表了整个机构。
常用数据分析方法
聚类分析、同期群分析、回归分析、因子分析、神经网络
数据挖掘、文本分析、时间序列分析、决策树、联合分析
数据分析质量标准
如何衡量结果的质量和有效性呢?
内部有效性
如果调查结果衡量了他们应该衡量的内容,从而提供可信的结果,那么调查结果在内部是有效的。换句话说,内部有效性衡量结果的可信度,以及它们如何受到研究设计、操作定义、变量测量方式等因素的影响。例如,假设您正在接受采访,询问人们是否每天刷牙两次。虽然他们中的大多数人会回答是肯定的,但您仍然可以注意到他们的答案与社会可接受的答案相对应,即每天至少刷牙两次。在这种情况下,你不能100%确定受访者是否真的每天刷牙两次,或者他们只是说他们刷牙,因此,这次采访的内部有效性非常低。
外部有效性
从本质上讲,外部有效性是指研究结果可以应用于更广泛背景的程度。它基本上旨在证明研究结果可以应用于现实世界。如果研究可以应用于其他环境、个人和时代,那么外部有效性就很高。
可靠性
如果研究是可靠的,这意味着它可以被复制。如果在相同条件下重复测量,则会产生类似的结果。这意味着测量仪器始终如一地产生可靠的结果。
例如,假设医生构建了一份症状问卷来检测患者的特定疾病。然后,其他各种医生使用此问卷,但最终诊断出患有不同病情的同一患者。这意味着问卷对于检测初始疾病并不可靠。这里另一个重要的注意事项是,为了使您的研究可靠,它还需要客观。如果研究结果相同,与评估或解释它们的人无关,该研究可以被认为是可靠的。现在让我们更详细地了解客观性标准。
客观性
在数据科学中,客观性意味着研究人员在分析时需要保持完全客观。研究结果需要受到客观标准的影响,而不是受研究人员的信仰、个性或价值观的影响。当您收集数据时,需要确保客观性
例如,在采访个人时,需要以不影响结果的方式提出问题。除此之外,在解释数据时还需要考虑客观性。如果不同的研究人员得出相同的结论,那么这项研究是客观的。对于最后一点,您可以设置预定义的标准来解释结果,以确保所有研究人员都遵循相同的步骤。
小结
质量标准主要涵盖定量背景下的潜在影响。定性研究中的分析默认具有额外的主观影响,必须以不同的方式进行控制。因此,这类研究还有其他质量标准,例如可信度、可转移性、可靠性和可确认性。
数据分析的限制与障碍
分析数据并非易事。需要应用许多步骤和技术才能从研究中提取有用的信息。虽然执行良好的分析可以为您的组织带来各种好处,但它并非没有限制。
客观性
在研究中进行数据分析的最大障碍之一是保持客观。当试图证明一个假设时,研究人员可能会发现自己有意或无意地将结果引向他们想要的结果。为避免这种情况,请始终质疑假设,避免将事实与观点混淆。还可以向研究合作伙伴或外部人员展示您的发现,以确认结果是客观的
有缺陷的相关性
误导性的统计数据会严重损害研究。当两个变量看起来彼此相关但事实并非如此时,就会发生有缺陷的相关性。将相关性与因果关系混淆会导致对结果的错误解释,从而导致制定错误的策略和资源损失,因此,识别不同的解释错误并避免它们非常重要。
隐私问题
在某些情况下,数据收集可能受到隐私法规的约束。企业从客户那里收集各种信息,从购买行为到地址和电话号码。如果由于违规行为而落入坏人之手,则可能会影响客户的安全性和机密性。为避免此问题,只需收集研究所需的数据,如果您使用的是敏感事实,请将其匿名,以便保护客户。滥用客户数据会严重损害企业的声誉,因此密切关注隐私非常重要。
团队之间缺乏沟通
在业务层面进行数据分析时,每个部门和团队很可能会有不同的目标和策略。但是,他们都在为同一个共同目标而努力,即帮助业务顺利运行并保持增长。当团队没有联系和相互沟通时,它会直接影响一般策略的构建方式。为了避免这些问题,数据仪表板等工具使团队能够以视觉上吸引人的方式通过数据保持联系。
附录:数据分析工具
Excel、Python、R、Spark、SAS、SPSS、Sequentum
Enterprise、Datapine、Looker、KNIME、Lexalytics、RapidMiner、OpenRefine、Talend、NodeXL
未说但重要,数据提取工具,譬如SQL
Refer
- What is Data Analysis? Methods, Process and Types Explained
- Your Modern Business Guide To Data Analysis Methods And Techniques