刚看完Snowflake的新品发布,感觉挺有料的。
他们推的这个,专门给大模型用,看起来是想让企业把自己的数据管好、用好,而不是全扔给大模型公司。还有那个,也是这个思路,帮你把数据治理、安全这些都整明白。
我之前就感觉,大模型再牛,它也得吃数据。数据从哪来、怎么管、怎么保证不出问题,这些脏活累活总得有人干。Snowflake这波操作,等于是把“喂数据”这个环节的工具链又加固了一遍。
所以我觉得吧,大模型再发展,底层的数据平台、数据工程这块,它还是替代不了。至少短期内,搞数据的同学饭碗还挺稳的。
刚看完Snowflake的新品发布,感觉挺有料的。
他们推的这个,专门给大模型用,看起来是想让企业把自己的数据管好、用好,而不是全扔给大模型公司。还有那个,也是这个思路,帮你把数据治理、安全这些都整明白。
我之前就感觉,大模型再牛,它也得吃数据。数据从哪来、怎么管、怎么保证不出问题,这些脏活累活总得有人干。Snowflake这波操作,等于是把“喂数据”这个环节的工具链又加固了一遍。
所以我觉得吧,大模型再发展,底层的数据平台、数据工程这块,它还是替代不了。至少短期内,搞数据的同学饭碗还挺稳的。
Snowflake这波确实踩准了点,我们公司最近也在折腾数据治理,自己搭了一套类似的东西但成本高得多,早知道直接用他们的方案了。
有点没看懂……所以以后做数据分析是不是更依赖这类平台了?我不太确定这样对中小企业友不友好。
mark一下,回头细看
又来这种帖子了,每次都说饭碗稳,过两年说不定全自动化了,该失业还不是得失业?
楼主提到的那个“专门给大模型用”的产品具体叫啥名字啊?有没有详细的技术文档或者试用入口?想看看它支持的模型种类和接入流程。
其实核心就是数据质量和治理。我们团队之前用大模型处理客户数据,没清洗直接喂,结果产出全是垃圾。后来老老实实做了半年数据标准化,现在效果好多了。工具再好,也得人先理清楚业务逻辑。
我们内部也在评估类似方案。大致步骤是:1. 盘点现有数据源和格式;2. 定义敏感字段和脱敏规则;3. 用Snowflake(或同类工具)建立管道,做统一接入和监控;4. 在输出端加审计日志。目前看至少能省30%的运维人力。
话说最近显卡是不是又涨价了?感觉讨论技术话题到最后都绕不开硬件成本……
没清洗的数据喂进去产出全是垃圾,这半年标准化没白做
没清洗就喂模型产出全是垃圾,这半年做标准化算是没白干
中小企业其实更省事,自己搭数据治理那套成本根本扛不住
大厂都盯着数据层,模型反而越来越像消耗品
自建数据治理成本是真高,光维护就够喝一壶,买现成的省心多了
自建那套维护成本真不是小团队扛得住的,外包更划算