数据蒋堂 | 内置的数据无法实现高性能

创业点子 阅读(560)

5c6c24678ee34c91eaca655e5df383b4.jpeg

作者:江步星

数据江唐

本文共有1400字,建议阅读7分钟。

获得数据库的便利性将无法实现高性能,数据外部性的高性能将牺牲便利性。

5f0f1a908bc413f820cb9bc460b4396d.jpeg

这里使用的术语“内部”指的是数据库。

当数据量变大时,我们常常感到数据库的性能下降。但是,无论如何优化SQL(存储过程),它仍然远离基于数据量和计算复杂度计算的理论性能。这主要是由以下原因引起的:

SQL限制和优化困难

我们已多次说过,由于关系代数和SQL语法的限制,有许多有效的算法无法实现,例如上面提到的遍历多路复用技术和去年讨论的JOIN优化方法。使用SQL实现此类操作时,您只能使用更复杂的方法,冗余数据访问和计算复杂性,并且很难将多个CPU用于并行计算。

语句的几个子部分执行得非常快,结果集不大,但是一起写入SQL会很慢。

存储过程性能不佳

当你拿出它时,你不能保证这种表现。

在存储过程中,为了利用上面计算的中间结果,通常使用临时表,只要它涉及集合数据即可。创建表的操作也非常慢。数据库具有太多的绑定要求,并且通常需要将临时表放入外部存储。

直接外部计算是不现实的

如果我们不使用SQL,但是读取数据并在库外计算它,我们可以提高性能吗?

大部分时间它仍然是不可能的。一方面,原因是数据库IO的性能非常差。从数据库中获取数字比从文件系统读取的性能更差。经常发生的是,获取时间远远超出计算时间。

此外,一些有效的算法需要特殊的存储格式。例如,需要预先对数据进行排序和存储,以便可以使用分段定位来查找或实现有序合并算法。无法在理论上支持基于无序集合的SQL。首先排序可以保证提取数据的顺序,排序时间将超过计算本身。例如,选择行存储或列存储,一般数据库将只使用一个(支持OLTP行存储而不是压缩,用于OLAP列存储和压缩),但使用行存储或库存需要由计算目标,使用遍历计算进行列存储更合适,并且在使用索引定位时更适合行存储。有时可以存储相同数据的冗余副本以用于不同的性能目的,并且很难在数据库中使用这种灵活的方法。

解决方案是数据是外部的,特别是将数据移出数据库。利用合理的存储方案和合适的算法,对于数十万行存储过程,在这种转换之后,性能通常会增加几倍。

当然,这会带来新的问题。主要有三个方面:

首先,可管理性,数据库中有统一的数据视图和绑定检查,外部文件系统没有这些东西;二,安全性,数据库是一个封闭的系统,获取数据的界面非常简单,总有帐户认证的过程,而文件系统没有这些东西;第三是更新数据的能力,数据不断变化,数据库具有完整的数据更新功能,文件系统在这方面较弱,一般只能添加,难以保证过程中的额外一致性(在错误中恢复)。

在这个阶段,这个问题仍然需要权衡。如果获得数据库的便利性,将无法获得高性能,并且数据外部化的高性能将牺牲便利性。但是,随着技术的进步,可以在文件系统上强制实施可管理性,安全性和可更新功能,而不会牺牲或很少牺牲性能。数据库关闭总是被打破。

专栏作家简介

ca931304ce65c953f497305fb5ff758c.jpeg

Rungan Software的创始人兼首席科学家

清华大学计算机科学硕士,中国大数据产业生态联盟专家,《非线性报表模型原理》等,1989年,中国首届国际奥林匹克数学竞赛团队冠军,个人金牌; 2000年,成立了Rungan公司; 2004年,第一次在Run-dry报告中提出了非线性报告模型,这完美地解决了中国式复杂报告制表问题。目前,该模型已成为报告行业的标准。 2014年,经过7年的发展,Rungan软件发布并不依赖于关系代数模型。计算引擎esProc有效地提高了复杂结构化大数据计算的开发和计算效率; 2015年,Rungan Software被福布斯中文网站评为“2015福布斯中国非上市潜力企业100强”; 2016年,2017年被中国电子信息产业发展研究院评为“中国软件与信息服务业十佳领导者”; 2017中国数据工匠和数据技术专业技术大厅《数据蒋堂》的创始人。

数据江唐

《数据蒋堂》作者蒋步兴,从事信息系统建设和数据处理已有20多年。他丰富的工程经验和深刻的理论整合,创新思想与传统观念的碰撞,虚拟与现实的交织,产生了一片血。该系列内容涵盖了从数据表示和采集到处理和计算再到存储和挖掘的所有内容。伟大的数据世界观,技术难点的细节。针对数据领域的一些技术难点,从研发人员的角度来看,从浅到深,进行全方位,360度深度分析,无死角;对于一些行业观点,从技术人员的角度来解释自己的思考和理解。蒋步兴还将从行业专家的角度对大数据的发展进行预测和推论。如果你冷静下来仔细研究,你会发现《数据蒋堂》文章,有些会让用户避免重复前辈们走过的弯路,有些人会让围攻狮子面对心脏的烦恼,有些会是首先,行业读者提供了解锁数据世界的关键,有些甚至让行业专家惊呆了,并制造了意识形态对抗。

- 结束 -

关注清华 - 青岛数据科学研究所官方微信公众平台“THU数据学校”和姐妹“数据学校THU”,以获得更多讲座的好处和质量内容。