当前位置:主页 > 新闻热点 >正文

大数据预测打车费用的方法论:数据分析和机器学习,一个没落下!

作者: 丈哥 分类: 新闻热点 发布时间: 2019-01-11 18:53

美国纽约的出租车,因为统一、显眼的黄色车身,被老美们戏称为“小黄车”。纽约小黄车是纽约客日常出行的主要交通工具之一,但对于大部分乘客而言,一定很想在上车之前就知道到达目的地的打车车费是多少。于是,Emanuel Kamali就通过数据分析与建模,对纽约出租车车费做出预测,并且还发现了一些有趣的现象,快来一起看看吧。

大数据预测打车费用的方法论:数据分析和机器学习,一个没落下!

项目简介

随着科技发展不断推动各行业的信息化进程,纽约标志性的出租车小黄车们却拖了后腿。在Uber、Lyft等共享出行平台的竞争下,小黄车也开始和Google合作,让自己的服务变得更加以数据为中心。小黄车希望Google可以通过它们提供的数据,设计出一些新的功能从而进行出租车价格的预测。这些数据信息包括:

上车时间/日期
上车地点(经纬度)
下车地点(经纬度)
乘客人数
费用

项目目标

纽约市出租车小黄车、Google和美国大数据竞赛平台Kaggle合作,设置了一个数据应用竞赛,让想要“把玩”这些数据的玩家们可以尝试通过这些数据集来设计一个机器学习算法,用以预测车费。我们的目标就是,通过分析这些数据集,设计出一些新的功能,让新的数据可以在我们的算法和代码中运转,并最终得出预测车价。

探索数据

为了设计一个有效的机器学习模型,我们需要先做一些事情来保证模型是精确的。首先就需要对小黄车有更多的了解,所以我先做了一些研究,弄明白它的计费模式。

起步价:5美金
每公里价格:每1/5英里40美分
等待时的收费:每120秒40美分
去/从JFK机场打车的固定费用:45美元
去/从Newark机场打车的额外收费:15美元(周中下午4到8点)

于是我进一步探索数据,研究不同的时间点打车是否影响价格。在对数据进行处理前,我先研究了一下打车价格数据的分布情况。

大数据预测打车费用的方法论:数据分析和机器学习,一个没落下!

可以看到,这组数据是十分分散的,也就是说我们的数据集里有很多异常值。我把这些异常值去除,可以更直观地看到价格的分布情况。

大数据预测打车费用的方法论:数据分析和机器学习,一个没落下!

上图显示,这组数据里的价格区间在2.5美元到40美元之间。

大数据预测打车费用的方法论:数据分析和机器学习,一个没落下!

在对上下车地点的数据进行清理后,我们仔细研究一下不同时间对价格的影响。

大数据预测打车费用的方法论:数据分析和机器学习,一个没落下!

从上图可以看出,周五周六和周四的乘车次数最多。这可以理解,,因为在美国人们周末通常会更多的使用出租车。如下图,当我们研究某一个给定日期内不同时间点的平均价格时,会发现并没有太大的区别。

大数据预测打车费用的方法论:数据分析和机器学习,一个没落下!

下图是一天24小时的平均价格分布。横轴代表了24小时。

大数据预测打车费用的方法论:数据分析和机器学习,一个没落下!

接下来,我的研究了一下打车人数数据,发现有些蹊跷的地方。一辆小黄车可以最多搭载7名乘客,但是在数据中我们只找到非常少的7人满载搭车的情况。另外,还有一些数据显示搭载人数为0,这也不合常理。于是这些数据可以被筛选清理掉。

大数据预测打车费用的方法论:数据分析和机器学习,一个没落下!

去除掉0名乘客和大于6名乘客的数据后,我们得到一个更加真实的图像。

大数据预测打车费用的方法论:数据分析和机器学习,一个没落下!

从下图可以看到,乘车人数和对应的价格的区别并不是很大。

大数据预测打车费用的方法论:数据分析和机器学习,一个没落下!

有趣的发现

研究完了小黄车一天不同时间的不同价格,我开始研究为什么这几年打车价格不断上升。我把指标改为年-月的计量单位。这样我可以看到不同年份的价格变化。

大数据预测打车费用的方法论:数据分析和机器学习,一个没落下!

从上图可以看到,2012-13年期间价格有一个高点。下图是每个月的价格情况。

大数据预测打车费用的方法论:数据分析和机器学习,一个没落下!


本文链接地址:https://www.0471seo.com/news/1683.html
  • 上一篇:<<从A到Z,26个实用Python模块/函数速览

  • 下一篇:手把手用Python教你分析运筹学薪资状况>>
  • 如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!