自从雷达上次收录了 Google BigQuery ML 之后,通过连接到 TensorFlow 和 Vertex AI 作为后台,BigQuery ML 添加了如深度神经网络以及 AutoML Tables等更复杂的模型。BigQuery 还引入了对时间序列预测的支持。之前我们关注一个问题是模型的可解释性。今年早些时候,BigQuery Explainable AI 被宣布为公众开放使用,在解决上述问题上迈出了一步。我们还可以将 BigQuery ML 模型作为 Tensorflow SavedModel 导出到 Cloud Storage,并将它们用于在线预测。但仍有一些需要权衡的事情,例如是否需要降低"机器学习持续交付"的难易程度以使其低门槛好上手,BigQuery ML 仍然是一个有吸引力的选择,特别是当数据已经存储在 BigQuery 中的时候。
通常需要先编写代码将数据带入机器学习模型,才能得出训练和预测结果。而 Google BigQuery ML能将模型带入数据,从而反转了这一模式。 Google BigQuery是一个数据仓库,能针对数据分析场景,使用 SQL 进行大规模查询。Google BigQuery ML 扩展了此功能及其 SQL 接口,通过利用 BigQuery 数据集,来创建、训练和评估机器学习模型,并最终运行模型预测,以创建新的 BigQuery 数据集。Google BigQuery ML 默认支持部分模型,例如用于预测的线性回归(linear regression),或用于分类的二元和多类回归(binary and multiclass regression)。另外,它还能导入已经训练好的TensorFlow模型(但功能有限)。尽管 BigQuery ML 及其基于 SQL 的方式,降低了使用机器学习做出预测和推荐的门槛(尤其针对一些需要快速探索的场景),但导致需要作出艰难的权衡——这种方式不利于模型训练的其他方面,例如道德偏差测试 (ethical-bias-testing),可解释性和机器学习的持续交付。