看到最近好多会都在聊数据比模型重要,说实话我有点没跟上。大佬们总说“模型是引擎,数据是燃料”,但对我们刚入行的人来说,引擎(模型)好歹还知道是咋回事,API一调结果就出来了。可这个“燃料”到底指啥?是原始的业务日志?还是清洗好的结构化表格?
我自己的体会是,调模型API好像挺容易的,但一说到要把公司里那些七零八落的数据整明白,头就大了。是不是说,以后咱们搞AI的,重点得从调参调prompt,变成去搞数据仓库、ETL管道这些了?感觉技能树要点歪了啊……
所以想请教一下,你们平时说的“高质量燃料”,到底长啥样?是有个专门的数据团队准备好喂给你,还是咱们自己也得从头学怎么清洗、打标签?