脑课堂编程教育

大数据未来——超级人工智能?

人工智能 4年前
72 0 0
脑课堂编程培训

一、理解大数据

1、当前大数据的四大特征:规模大、变化快、种类杂、价值密度低。

其实这理解起来很简单,我们来看新浪微博的大数据,为什么变现那么困难就知道了,新浪微博拥有庞大海量的用户大数据,但用这些行为数据变现却步履维艰,原因就在于微博上所产生的数据不够垂直,涉及面极广,而能够与商业相关的价值就更加难以挖掘了。

2、产业成果

熟悉用户浏览行为,进而提供个性化的搜索。熟悉用户购物习惯,可以为用户提供精准的喜好物品。了解用户思维习惯和社会认知,可以为国家和企业提供民众情绪等系列数据。

二、大数据到大数据计算

1、大数据膨胀,如何处理算法以及数据的问题?上面提到的是通过改变算法来达到遍历数据的目的,但是在真正处理数据时依然是无法做到高效的,毕竟机器CPU的运算瓶颈摆在那里,算法工程师本质上在做的事情就是在现有的运算条件下,设计出最优方案,来求得最好的结果。

2、大数据膨胀,如何解决搜索问题?传统的算法在搜索数据时完全没有问题,因为数据量很小,但是当数据海量增长时问题就会凸显出来,用原来的算法去计算肯定是不行的,按照当前最快的硬盘检索速度(60GPS),线性扫描完1PB(10TB的15次方)的数据需要1.9天的时间,所以当数据海量膨胀时,必须重构算法策略来做数据的处理。百度目前的处理量是一天处理10PB的网页数据,这其中包括了运算和读取,算是目前最好的算法了。

在大数据的膨胀后,不仅要将原来的算法更换为近似算法,同样还要将数据更换为近似数据,只有二者合力改变才有可能在现有机器运算能力的情况下抵达最优的结果。

同样是说起来容易做起来难,在这样的近似算法以及近似数据的改变下,到底该近似到何种程度,才能够最接近原算法的结果?要知道,在计算机世界里,差之毫厘失之千里,改变的量也许很小,但是如果一旦改错,就会造成巨大的错误结果,稍懂程序的人都知道,几行简短的代码就能让无论CPU运算能力多强的电脑彻底死机,而搜索引擎则更是一个更加庞大的试错工程。

最后,两个学术前沿发展,第一,是定义易解类问题,从现实应用中找到这类易搜索问题,将之归类并应用于其他实践当中。第二,是将大数据进行小数据处理,寻找转化的精度度量,也就是他之前所说的寻找数据的近似值。

此外在大数据计算中,大数据运算的三大基础,表示,度量和理解。因为太过专业,解释每一个词都足够用一篇文章来解释,而且还不一定说得清,所以在此略过。

收藏

本文标题:大数据未来——超级人工智能?

本文链接:https://naoketang.com/p/xm07912g5prk

评论区

推荐课程