百度做这个AI Studio到底是用来干嘛的
首先,我得先感谢百度做了这么一个既奢侈又免费的平台。
但是从商业角度看,百度花了这么多一笔钱来到底意欲何为?
一方面,感觉很像是在给各种穷的AI爱好者一个平台,追寻他们的AI梦想,纯属捐献。(bytheway,这个的确应该被appreciated,再次感谢百度)
另一方面,感觉又在hardsale他们的PaddlePaddle,建立影响力。
但不管那个方面,效率都很低。
例如如果是捐献,那么应该做的更开放,允许大家用各种其他的package和框架,这样对于真正的AI爱好者能产生更大的价值。我不介意每天免费的运算卡的点数低一点,然后以此来换取更大的开放性。
如果是用于增加PaddlePaddle的影响力,那也应该把平台做的更powerful一点,让用户更容易在更广阔的场景下使用。以当前AIStudio的设计,很不适合工业级的探索。大部分的例子都还很像是toy,稍微大一点的实验都无法做,门槛极高。就我所知,大厂都有自己深厚的架构积累,基本上不会看得上PaddlePaddle,而且大厂的数量也很少,做的起大实验的企业其实很少。
于是我猜,PaddlePaddle本来的初衷是帮助小型企业快速试错,让AI相关技术尽快渗透各行各业(当然,如果平台只能用paddlepaddle,就会让这些小企业强绑定百度,增加百度的用户基础,也改善百度在政府端的形象),但讲真的,AIStudio的设计,离企业级还有一些距离。
例如这些限制,
后台任务无法用API或者命令行启动后台任务无法通过**版本**加载超过1G的数据,加载超过1G的数据必须先创建静态的数据集。这对于大量的动态实验非常麻烦。无法用命令行来创建静态数据集,也无法在自己的项目中自动生成能被其他项目挂载的数据集。对于一个有很多数据的工程,在CPU和GPU切换的时候,会因为数据太大而无法切换。这样会强迫用户用GPU的计算资源来做数据传输或者压缩、解压这种CPU就能做的事情,浪费GPU资源。对于数据比较大的工程,在启动和停止的时候,都占用大量的『数据保存中』,或者『数据加载中』,『数据解压中』等时间,甚至有些时候会加载失败,这样使得调试非常困难。如果有百度内部员工看到这个帖子,请传达我的感激之情和对这种设计的不解。本人使用这个平台不长,可能还存在大量不了解或误解的地方,若有,请多多指正。