Bootstrap

AI学习环境 没有更好的替代 - (Google)Drive + Colab

在开始正题前,请容许我做一番回顾,并夹带一点点私货(谷歌扛旗的开源精神还没有死,并且会是未来的举足轻重的力量)

卧龙凤雏,一时瑜亮。一切的缘起应该是世纪初的门户网站乱战。

彼时,谷歌是从业者心中圣地,是白嫖党的小甜甜,别人家免费邮箱推出是为了让你用的不爽转vip,他家直接容量1G,可以anti-spam,可以发超大附件,可以永久保存,可以聊天(g+)。这也是后来他家推出drive,以及各家跟进网盘的铺垫。

但是随着一系列拉扯和2010退出大陆市场,drive的定位就非常尴尬了,容量吧够用,但是比起来国内市场的狗大户就完全不够看,最重要的网速和访问得不到保证,所以尬吹党不少,但体验就是如人饮水冷暖自知,要不然这块市场也轮不到微软的onedrive,onenote这些小字辈后来居上了。

这段期间谷歌的操作就很迷,开新案子的速度和关停老项目的速度一样快,主打一个目不暇接。我在早点的博文中有致敬过,这里就不展开了。

Google Graveyard - Killed by Google

The Google Cemetery - Dead Google products

互联网总有各种热闹,永恒的主题是剩者为王,意外(比如关停google lab等一大批生态服务)又不那么意外的(颇有波折但谷歌一直执着于成为云大厂),并且通过开源项目的导入,慢慢的找到了自己的定位(RL),这本应是一个浪子回头重回巅峰的剧本,如果没有openAI横空出世的话。

大模型非常惊艳,多模态一骑绝尘,把刚露了个雏形的AI工业革命迅速加热。资本的宣传口径是,有了LLM,传统的人工智能算法都可以退休了(圣杯已经找到,其他的杯子就都可以叫杯具了)。这是个有争议的做法,因为两个问题没有解决,一个是大模型AI一路都非常非常非常花钱,而且还将继续非常非常非常花钱,整个玩法是普通人,普通公司高攀不起的,形成事实上的寡头(这种做法真的很微软);另一个是已经在工业和商业领域盈利的AI,都有自己扎实的技术栈,跟进即可,也犯不着All in大模型。未来如何,要看天;只是怎么看,openAI的玩法都会让人觉得脊背一寒,充满了浓浓的废土风。(《黑客帝国》,《银翼杀手》,《少数派报告》,《辐射》... ...)

扯远了,回到Google Drive和Colab本身。上来先送Xeon(R) 双核CPU @ 2.20GHz,呃,有点寒碜,好在有GPU么,(免费个人套餐)Tesla T4/16G,看看香不香 - 不求豪华,至少有个自行车了,略大于在线版的某派 - 

因为连续运行最大时间是12h,所以有必要挂载自己的google drive,只要按上图操作即可,这样就可以把自己的训练好的模型保存起来日后使用,或者用上传的私有数据集训练模型。

总之,现在你有一个用于学习实践的基础环境了,至于需要跑什么模型,可以github上拉,也可以从系统欢迎界面自带的例程开始 - 

我看b站的up主有把第二个做成视频教程的,那么咱们也选这个来说道说道。

jupiter notebook的界面,既有说明,又有脚本执行,用来做教程简直完美,几乎一路next下去就好,中间会碰到一些依赖库变化导致的error,一般只要重新安装指定版本的库也就搞定。如果发现不顺利也没关系,谷歌还有提供Gemini助手,帮助诊断问题和提供代码建议 -

需要注意的是,中断运行或者重启运行以后,中间结果和输出就都没了,必须从头再来。以及,用完了记得清理,一直放着不动谷歌可能会扣机时。

好了,临渊羡鱼不如自己织网,注册一下google账号,亲手实践一下吧。

也希望能把您关于AI上的认识多多分享!

至于能运行,乃至开发,调教大模型的环境,呃,如果您在校,可以问问学校的数据中心,估计会拍的很满,毕竟是一个A100卖到20万,万卡集群,用电约等于一座城市这样量级的投入,折算下来,每分钟上千+刀。

;