游戏数据挖掘中的一些核心问题

2013-12-18 21:10

抛开在博客当中被广泛关注的一些方法论之外，关于如何收集游戏数据以及挖掘此类数据，还有一些比较重要的问题需要考虑。用户数据的保密，以及有效的预处理方法是非常重要的。下面我们就简单介绍其中几点：

透明(Transparency )

只有一种情况下数据挖掘工具所发现的模式是有用的，那就是这些模式对于目标用户来说是有趣的并且是可以理解的。任何数据挖掘的结果(模型)必须是尽可能的显而易见，例如，挖掘结果应该是描述一个直观可解释的模式并附带针对利益相关者或者用户的解释说明。这里比如决策树就其结果而言就是一个直观而且不言自明的, 而神经网络相对于非专业人事来说相对不够透明(因为总体上而言他是一个非线性模型)。

比如，对于一个游戏设计者、开发者而言，他并非是一个统计学专家，因此需要提供给他一个基于标准统计报表的方差分析结果，否则开发者以及设计者将很难理解这个结果就更谈不上付诸实践了。透明性对于用户来说至关重要，可以让用户更好的去理解并且将结果付诸于实践。可视化的另一个问题是屏幕，包括信息的呈现以及用户交互模式。与原始数据以及数据挖掘结果互动也是非常重要的，因为他为用户提供了聚焦、完善挖掘任务的方式。

数据清洗(Data Cleaning)

数据挖掘分析的样本数据应该比原始数据更为准确。绝对大多数的挖掘算法都假定了被分析的数据是无噪音的。这是一个极其重要的假设。取决于技术后端，游戏中收集的数据或多或少的背负着不同类型的问题。(GRG注：比如在移动端游戏数据收集过程中，时间的准确性问题就是一个很普遍的噪音问题)。数据清洗其实就是一个检测以及消除数据不一致性，进一步改善、确保数据质量的过程。

原始数据的质量问题多种多样，例如在数据输入过程中的拼写错误，丢失信息或者无效数据的存在。当多个数据源集成的时候(例如在一个数据仓库或者跨越多个数据源进行分析的时候), 为了应对因多个数据集合并而产生上文提及的一些潜在问题就更需要数据清洗。

在低质量数据(脏数据，比如不完整的数据，重复的数据)上的数据挖掘会直接降低最终分析结果的有效性以及准确性，甚至更糟，可能会导致完全错误的结论(数据挖掘当中的一个原则——垃圾进，垃圾出原则)。因此数据清洗，数据转换(我们通常称之为预处理)是至关重要的，但往往重视不够。让人沮丧的是，他却是知识发现过程中非常重要的一环。数据清洗是个很复杂的课题，不幸的是它不能提供一个简单的准则来解决这个课题，尽管它很重要但目前这个领域还缺乏研究。

性能以及采样(Performance and sampling)

许多数据分析以及解释的方法刚开始并不是专为当今的这种大规模数据集而设计的。在游戏中，比如一些成千上万甚至百万在线的社交游戏或者大型商业游戏，他们所收集的数据很容易达到TB级大小。除了数据大小之外，还存在数据纬度问题(数据集中变量的数量，比如在游戏中针对一个玩家存在任务完成时间，等级，级别等等)，这是选择数据挖掘技术的关键所在。一般而言，在一个数据集中伴随分析纬度的，增加需要搜索的数据空间呈指数级增长。这个效果非常显著，已经称为数据挖掘的重要课题之一。在大尺度以及多纬度的这种大数据集下，许多数据挖掘技术在扩展性以及效率方面是存在不足的，特别是针对那些较大的数据集以及复杂的指数和多项式算法。抽样是一个可行的解决方案，比如挖掘部分数据集而不是整体，结果是从部分到整体进行推断。采样也存在自己的复杂性和挑战性，例如如何确保样本具有足够的代表性以至可以捕捉整个数据集的特征。另一个方案是并行编程，整个数据集被切割成各个子集，对子集的计算结果再进行汇总合并。

安全(Security )

对于游戏数据的收集工作来说，数据安全是一个重要的问题，究竟是适用于低层次的工作还是高层次的决策工作。游戏的数据在业内被认为是机密信息，需要被安全保护的。其中就包括如何处理数据访问，数据转移和成果转化方面的考虑。

社会与隐私问题(Social and privacy issues )

数据挖掘中一个关键的问题是关于个人隐私的问题。对于关于个人的巨大数据集以及收集其他信息的大量机会，结合数据挖掘技术使得获取更多更隐私的数据成为可能。比如日常的商业交易信息，个人或者商业上的习惯以及偏好。另外当数据被收集用于玩家个人，行为，以及其他相关性信息的分析，那么敏感和私人信息将被收集、存储下来。这就给这些具有私密性的数据带来了争议，并且存在非法访问的潜在风险。另一个问题是这些数据该如何被使用，因为此类数据是存在价值的，它可能被用来交易。因此重要的一点就是意识到正在分发的是什么数据，以及什么分析结果，比如，玩家的电子邮件地址。（译/yustar）

转自：GRG游戏研究组

Ben

线上线下专访、稿件发布合作请联系QQ或微信：328624956

游戏数据挖掘中的一些核心问题

Ben

相关资讯

运营笔记更多

推广笔记更多

游戏数据挖掘中的一些核心问题

打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮

Ben

相关资讯

运营笔记更多

推广笔记更多

最多人看