如何看待数据挖掘中的个人隐私泄露问题

#一、数据挖掘的定义

|什么是数据挖掘?

  • 数据挖掘是一个用数据发现问题、解决问题的学科。
  • 通常通过对数据的探索、处理、分析或建模实现。

|数据挖掘学习路线

  • 大学里并没有数据挖掘这么一个专业,现有的数据挖掘工程师大都来自工科或统计学等专业。
  • 目前的数据挖掘工程师大都来自不同背景,计算机科学、数学甚至是机械工程。要想成功胜任,其诀窍是热情、好奇心,不断学习新的工具的能力,以及对数据清洗和分析的耐心。

|给新人的建议

  • 最重要的三个品质:好奇心、是非观以及批判性思考。这三个品质,放在其他领域同样适用。
  • 专业领域的三种能力:编程能力、统计基础、商业思维。编程和统计在大学较为容易学到,商业思维需要多实践总结。

#二、数据挖掘在做什么

|数据挖掘工程师的一天

  • 检查日常报表数据是否异常,寻求数据波动的合理解释。
  • 针对新业务,设计指标,搭建数据模型。
  • 搭建商品推荐系统、价格预测系统、文本分类系统或是聊天机器人。

|数据挖掘的算法

  • 使用复杂的机器学习算法并不能保证效果。一般来讲,最好的解决办法,通常很简单。
  • 生产环境使用简单的算法,并不意味着要放弃前沿算法。每一套新的方法,其目的都在解决前面的薄弱之处。

|数据挖掘与服务器

  • 本地 PC 由于硬件与系统限制,工程师常在服务器进行大规模数据的运算、脚本部署与接口部署。

#三、商业中的数据挖掘

|作为公司,该如何开展数据挖掘

  • 评估可能的收益与需要的投入
  • 开始收集数据
  • 招募数据挖掘团队

|招聘数据挖掘团队

  • 好奇心应该是数据挖掘从业者的最重要品质。
  • 招聘时,应确保候选人对工作内容感兴趣。
  • 候选人应具备一定的成果意识。商业更重成果,而不是过程。

|数据挖掘应用

  • 广告位点击预估
  • 信用卡风控评估
  • 用户流失干预

#四、数据挖掘工具

|数据挖掘工具与大数据

  • 掌握以下工具:Python、Linux、Pandas 及 Jupyter、关系型和非关系型数据库。
  • 大数据通常指传统数据系统无法处理的数据。体量和增速都相当大。处理工具以 Hadoop 为代表。

#五、数据挖掘进阶

|神经网络和深度学习

  • 神经网络出现已数十年,但由于条件限制,这一方向搁置了数十年。目前随着新的优化方法的出现和算力的提升,这一方向的工业化逐渐成为可能。

|如何更上一层楼

  • 掌握基本的编程知识,更多地去理解背后的原理。
  • 流程化意识,及时复盘总结,规范流程(复用)。
  • 成果导向,将知识转化为行动和成果,给他人带来价值,服务更多人。

数据挖掘是指这个过程:

在庞大数据集当中发现模式,将它转换成有效的信息。该技术利用特定的算法、统计分析、人工智能和数据库系统,从庞大数据集中提取信息,并转换成易于理解的形式。

数据挖掘定义有广义和狭义之分:

从广义的观点,数据挖掘是从大型数据集(可能是不完全的、有噪声的、不确定性的、各种存储形式的)中,挖掘隐含在其中的、人们事先不知道的、对决策有用的知识的过程。

从这种狭义的观点上,我们可以定义数据挖掘是从特定形式的数据集中提炼知识的过程。

数据挖掘主要的相关技术:

数据库等信息技术的发展

统计学深入应用

人工智能技术的研究和应用

如何看待数据挖掘中的个人隐私泄露问题图1

相关:

零基础学习大数据挖掘的33个知识点整理

***/i6600587385979798030/

大数据学习:数据统计分析和数据挖掘有何区别?

***/i6600223255661904388/

本文来自投稿,不代表天一生活立场,如若转载,请注明出处:http://tiyigo.com/baike/40527.html

(0)
上一篇 2023-08-25 11:25
下一篇 2023-08-25 11:46

相关推荐