本文将展示如何从汽车销售商网站Cars24上抓取所有的搜索结果,并建立一个包含所有找到的列表的数据库。
(相关资料图)
这个项目主要是研究二手车市场上车辆定价的决定因素,本文将展示如何从汽车销售商网站Cars24上抓取所有的搜索结果,并建立一个包含所有找到的列表的数据库。
现在,可以看到有一个名为Unnamed:0的列。这一列一定是在抓取数据并将其保存到CSV文件中时添加的。因此,下一步就是删除数据。
现在将删除Unnamed:0列,然后再次清洗,使数据可视化。
DataFrame.info()将为项目提供有关数据类型和每一列中非空值的数量的信息。
最后我们得到了560行和9列,并且在Year、Brand、Car name、kilometer、owner、fuel、Emi、location和price等列中没有空值。
a[‘Brand’].value_counts().plot(kind=’bar’)plt.xlabel(‘Brand’)plt.ylabel(‘Highest selling’)plt.show()
从上面的图表中可以看到Tata是最畅销的汽车。sns.histplot(a[‘price(in_lk)’],kde=True)
平均价格约为60k,二手车的中位数为50k。价格分布更像是一个长尾分布和右偏度。这在价格分布上是非常正常的。px.bar(a[‘fuel’].value_counts())
人们拥有的大多数汽车是汽油类型的。人们购买最多的是汽油车,然后是柴油车和压缩天然气车。不同数量的前车主的车辆列表 :
sns.barplot(x=a[‘owner’],y=a[‘price(in_lk)’],errorbar=None)
从上面的图中可以看出,第一任车主的平均驾驶里程较少。从第一任车主那里买车更好。a.groupby([‘Location’])[‘year’].count().sort_values(ascending=False).plot(kind=’bar’, figsize=(10,6))plt.ylabel(‘Number of listings per state’, fnotallow=12)plt.xlabel(‘State’, fnotallow=12)plt.title(‘Listings per State’, fnotallow=18)plt.show()
Hyderabad、Mumbai、Pune是二手车上市数量最多的三个州,这三个州占印度汽车市场的32%。sns.lineplot(x=a[“year”],y=a[“price(in_lk)”],errorbar=None)
我们可以看到,当年份增加时,价格也在增加。sns.boxplot(x=a[“fuel”],y=a[“price(in_lk)”])
从上图中可以注意到,大多数燃料类型的柴油车价格高于其他汽油和压缩天然气。这就是为什么大多数人想购买汽油车的原因。sns.barplot(x=a[“year”],y=a[“price(in_lk)”],errorbar=None,hue=a[“owner”])
在大多数年份里,第一任车主的汽车现价都很高。当汽车以高价出售时,第一任车主的售价比第二任和第三任车主的售价高。可以使用corr()函数找到各种特征之间的相关性。
sns.heatmap(a.corr(),annot=True)
Price和Emi的相关度为0.61。Price一栏与Emi高度相关,因此我们可以使用任何一个变量进行分析。plt.figure(figsize=(18,7))sns.barplot(x=a[“Location”],y=a[“price(in_lk)”],hue=a[“Location”],errorbar=None)plt.xticks(rotation = 90)plt.show()
从上图可以看出,Gurgaon地区的汽车价格高于其他地区。从可视化中,我们发现了以下结论:
Hyderabad,Mumbai,Pune是排名前三的二手车市场。在大多数年份里,第一任车主的汽车现价都很高。当汽车出售时,第一任车主的售价比第二任和第三任车主的售价高。我们可以看到,在Gurgaon地区的汽车价格高于其他地区。在印度最畅销的汽车制造商是Tata、Maruti。当二手车定价时,最重要的特征包括里程数、车主和车型年份。从可视化中,我们看到里程数越高,价格越低。车型价格也与Emi相关,车龄越长,价格越低。Copyright 2015-2022 海峡晨报网 版权所有 备案号:皖ICP备2022009963号-10 联系邮箱:396 029 142 @qq.com