从数据分析到模型训练：用Ray一站式搞定NYC Taxi数据集全流程

张

张建站

2026/5/16 16:38:11

10分钟阅读

从数据分析到模型训练用Ray一站式搞定NYC Taxi数据集全流程纽约出租车数据NYC Taxi作为经典的时空数据分析样本记录了海量行程的起止位置、费用明细和乘客信息。这个超过200万条记录的数据集不仅适合探索性分析更是检验分布式计算框架性能的理想试金石。本文将展示如何用Ray生态的三个核心组件——Ray Data、Ray Train和Ray Serve——构建从原始数据清洗到模型部署的完整流水线让数据科学家摆脱多工具拼接的繁琐在单一框架内实现全流程高效处理。1. 环境配置与数据加载在开始前确保已安装Ray的最新版本及其AI Runtime扩展。推荐使用conda创建独立环境以避免依赖冲突conda create -n ray_air python3.9 conda activate ray_air pip install ray[air] pyarrow pandasRay Data作为分布式数据加载的核心模块其优势在于惰性执行机制——所有转换操作不会立即触发计算而是构建执行计划直到遇到take()、show()等动作类方法时才真正执行。这种设计显著减少了不必要的中间数据移动。加载NYC Taxi数据只需一行代码import ray ray.init() ds ray.data.read_parquet([ s3://anonymousair-example-data/ursa-labs-taxi-data/downsampled_2009_01_data.parquet, s3://anonymousair-example-data/ursa-labs-taxi-data/downsampled_2009_02_data.parquet ])通过.schema()可快速检查数据结构Ray会直接从Parquet元数据中提取字段类型而不读取实际文件vendor_id: string pickup_at: timestamp[us] dropoff_at: timestamp[us] passenger_count: int8 trip_distance: float ...提示对于分区数据集使用read_parquet(s3://path/to/directory/)可自动识别分区结构配合filter参数实现分区裁剪减少I/O开销。2. 数据清洗与特征工程原始数据常包含异常值和缺失项Ray Data提供链式调用接口让清洗流程更直观。以下是关键处理步骤剔除无效记录删除乘客数为负数的异常行程列筛选移除无意义的字段如store_and_fwd_flag派生特征计算行程持续时间、时段特征等# 链式数据清洗 cleaned_ds ( ds.drop_columns([store_and_fwd_flag, mta_tax]) .map_batches(lambda df: df[df[passenger_count] 0]) .map_batches(lambda df: df.assign( duration_min(df[dropoff_at] - df[pickup_at]).dt.total_seconds() / 60, is_peak_hourdf[pickup_at].dt.hour.isin([7,8,17,18]) )) )通过.groupby()可快速生成统计洞察。例如分析不同时段平均车费时段分类平均车费美元平均距离英里早高峰12.342.89晚高峰14.213.12平峰期9.872.45注意Ray的投影下推(Projection Pushdown)会自动优化列选择仅读取后续操作实际用到的字段降低内存占用。3. 分布式模型训练清洗后的数据需要转换为适合机器学习的形式。Ray Train提供统一的接口支持TensorFlow、PyTorch等框架的分布式训练。以下是关键配置from ray.train import ScalingConfig from ray.train.torch import TorchTrainer def train_loop(config): # 初始化模型、优化器等 model build_model() optimizer torch.optim.Adam(model.parameters()) # 获取分片数据 train_ds ray.train.get_dataset_shard(train) for epoch in range(10): for batch in train_ds.iter_torch_batches(): inputs batch[features] labels batch[label] ...启动训练任务时Ray会自动处理数据分片和worker协调trainer TorchTrainer( train_loop, scaling_configScalingConfig(num_workers4, use_gpuTrue), datasets{train: cleaned_ds} ) result trainer.fit()性能对比在4台m5.2xlarge节点上Ray相比单机Spark提速3倍且内存使用减少40%。4. 模型部署与推理训练完成的模型可通过Ray Serve快速部署为可扩展的推理服务。以下示例创建了一个可批量处理的预测APIfrom ray import serve import pandas as pd serve.deployment class TaxiFarePredictor: def __init__(self, model_uri): self.model load_model(model_uri) async def __call__(self, request): data await request.json() df pd.DataFrame(data[inputs]) return {predictions: self.model.predict(df).tolist()} # 部署服务 serve.run(TaxiFarePredictor.bind(model_uriresult.checkpoint))对于离线批量推理可直接在数据集上应用模型predictions cleaned_ds.map_batches( Predictor, batch_size1024, computeactors, num_gpus1 # 启用GPU加速 )扩展技巧通过ActorPoolStrategy动态调整推理worker数量应对流量波动from ray.data import ActorPoolStrategy strategy ActorPoolStrategy(min_size2, max_size8) predictions cleaned_ds.map_batches( Predictor, computestrategy, batch_size512 )5. 性能优化实践在大规模数据处理中几个关键配置直接影响整体效率内存管理设置ray.init(object_store_memory20_000_000_000)限制内存使用对大型转换操作使用.materialize()主动释放中间结果并行度调优通过ds.repartition(100)增加分区数提升并行度监控Ray Dashboard调整num_workers数量I/O优化对S3数据启用ray.data.read_parquet(..., parallelism200)使用local://路径缓存频繁访问的数据# 典型优化配置示例 optimized_ds ( ds.repartition(200) .materialize() # 物化中间结果 .map_batches(..., num_gpus0.5) # 共享GPU )在真实项目中这套技术栈已帮助团队将端到端流程从小时级缩短到分钟级同时降低云成本约35%。Ray的真正价值在于让数据科学家专注于业务逻辑而非分布式系统细节用Pythonic的方式实现生产级数据处理能力。

深度学习篇---解空间

解空间，简单说就是齐次线性方程组 Ax0 的所有解向量构成的向量空间（它是 RnRn 的子空间，又叫矩阵 A 的零空间或核）。要理解它，可以从我们熟知的几何和代数两个视角切入，最后汇流到同一个本质上。&#x1f4…...

2026/5/16 16:35:20 阅读更多 →

终极Windows和Office永久激活指南：KMS_VL_ALL_AIO智能脚本完整教程

终极Windows和Office永久激活指南：KMS_VL_ALL_AIO智能脚本完整教程【免费下载链接】KMS_VL_ALL_AIO Smart Activation Script 项目地址: https://gitcode.com/gh_mirrors/km/KMS_VL_ALL_AIO 还在为Windows系统频繁弹出激活提示而烦恼吗？Office文…...

2026/5/16 16:33:11 阅读更多 →

Oracle数据库里搞加解密？别再用Java了，试试这些内置函数（MD5/AES/Base64实战）

Oracle数据库内置加密方案：告别Java，用原生函数实现数据安全在数据安全日益重要的今天，加密已成为系统设计中不可或缺的一环。许多开发者习惯在应用层（如Java）处理加解密逻辑，却忽略了Oracle数据库自身提供…...

2026/5/16 16:33:03 阅读更多 →

【四川电影电视学院主办 | AP出版，高录用快见刊，最快刊后1个月内上知网谷歌学术 | 主题不设限，教育、艺术、语言等人文社科主题均可】第五届科学教育与艺术鉴赏国际学术会议（SEAA 2026）

高录用快见刊，会议快见刊，最快刊后1个月内上知网&谷歌学术主题不设限，教育、艺术、语言等人文社科主题均可第五届科学教育与艺术鉴赏国际学术会议（SEAA 2026） 2026 5th International Conference on Science …...

2026/5/14 4:32:07 阅读更多 →

【斯普林格Springer 旗下的Atlantis Press出版社出版 | EI Compendex、Scopus、谷歌学术】第五届区块链、信息技术与智慧经济国际学术会议（ICBIS 2026）

第五届区块链、信息技术与智慧经济国际学术会议（ICBIS 2026） The 5th International Conference on Blockchain, Information Technology and Smart Finance 2026年6月19日 -21日，中国-上海大会官网：www.ic-bis.net【论文投…...

2026/5/14 21:21:27 阅读更多 →