1.选题背景分析
1.1选题的目的和意义
互联网发展日新月异,产生的影响已经渗透到产业发展、经济结构和社会生 活的各层各面。当前互联网科技发展跃升到全行业渗透、新模式融合的阶段,数 字技术深度创新生产模式并不断创造新业态,为各行各业带来新的发展机遇。 伴随着互联网的飞速发展,我国网络用户数量持续上升,网络信息量呈现了 指数式爆炸增长,社会也早已成为充斥着海量信息的数据时代。这些海量数据价 值实现的重点在于发掘分析其有效信息,随着数据挖掘、大数据分析技术的飞速 发展,数据信息分析应用已经渗透到各行业的发展产业链,他们目标是分析出有 效的数据信息,进行数据处理以及信息分析来做出更合理有效的决策方案,不断 尝试新模式。销售服务行业通过获取用户的个性化交易信息,利用大数据分析技 术,可以进行客户个性化定位,为客户制定服务自画像,从而可以精准广告投放 和人性化服务;网络通讯行业通过消费者的交易信息,进行客户等级分析,明确 消费者服务选择以及忠诚度,及时针对性的对客户进行服务调整;医药通过了解 相关生物医药信息,了解患者关心点和着重点,实现针对性的药物以及医疗器械 研发、医学临床应用、医疗应用,有效提升诊断治疗效率,高效地推动了社会稳 定和发展。
近几年来,不同地区房价的上涨水平也不同,众多购房者困扰于飞速上涨的 房价,无法确定合适的买房时机和合理的买房价格。为了应对高房价问题,政府 频繁地针对房地产市场出台政策调整房价,调控房价的上涨速度,例如限购、调 息、增加税收等方案。其中二手房买卖交易也是房地产交易市场的重要组成部分 之一,是许多房产销售公司的重点之一,但是不乏许多黑心中介通过低买高卖等 不良行为获取高额利润,打乱市场秩序,对于购买住房的消费者本身而言,了解 和知晓住房合理价格非常重要。除此之外,二手房价格也是市场监督管理机构的 重要监督管理方向。因此,二手房价格预测的研究极具社会意义。
1.2数据来源
1.获取方式 本文基于 Python 工具通过网络爬虫[36]爬取链家网站长湘潭市在线出租房源数 据,进一步进行分析处理建模。Python 是一种简洁通用的编程语言,语法清晰, 更重要的是它拥有超级丰富的开源函数库。Python 语言的简洁性和脚本特点非 常适合实现网络爬虫和数据处理分析。 网络爬虫应用获取信息一般分为四个步骤:
(1) 发送请求
利用 HTTP 库向目标网络连接发起 Request 请求,requests 库是一个操作简单易上手的 HTTP 请求的第三方库,最常用的方法是 post 和 get。 从直译意思来看,get 可以从网络链接获得所需要的信息内容,post 用于发送请 求内容,请求可以包含额外的 data、headers 等。本文采用请求方式 get()爬 取信息。
(2) 获取相应内容
在服务器接收到我们的请求并且正常响应的情况下,会 返回一个 Response,Response 包含:html,json,图片,视频等。
(3) 解析内容
对于获取 HTML 数据,可以使用正则表达式、xpath、bs4 等 解析文本内容。xpath 是最广泛且高效的一种解析方式。这一步相当于浏览器把 服务器端的文件获取到本地,再进行解释并且展现出来。本文使用 bs4 库进行数 据解析。
(4) 保存数据
存储数据到本地的方式多种多样,使用数据库保存到本地, 也可以存为特定格式的文件。本次爬取的二手房数据保存为 csv 文件。
图3-1抓取流程
本文爬取链家网站长湘潭市在售二手房数据。链家网站成立于 2010 年,房源 信息覆盖范围较广,业务涵盖范围广。作为全国房产交易市场的头部之一,链家 15 网的真实房源数据库在全国名列前茅,涵盖全国经济发展一线以及新一线几十个 城市的千万套房源信息。 本文共爬取长湘潭市在售二手房 34765 条数据,采集时间为 2023年 12 月,共 十六个类别,包括名称、链接、户型等信息。部分数据信息如图 3-2 所示:
图 3-2 爬取数据示例
2.数据采集
2.1数据采集的分析
本文根据爬取到的二手房房源信息,分析样本集中每个数据变量对房屋价格的影响,初步分析单个变量与房屋价格的相关性,确定房屋价格预测模型的影响变量。
2.1.1.户型
户型表示的是房间中卧室和客厅的数量。通常是购房者较为看重的因素之一。本次爬取的数据一共有超过 30 多种,户型对于房价的定价有一定参考性。
2.1.2.面积
房屋总面积与户型联系较为密切,一般房屋面积和空间成正比,不同的房屋面积也决定着房屋的定价,也是购房者考虑的重要因素之一。
2.1.3.朝向
房屋朝向对于采光和通风至关重要,房屋的朝向大都决定于房屋的最大采光面。有阳台的房子,房子的朝向取决于客厅或者主卧的阳台方向;没有阳台的,房子的朝向取决于最大的采光窗户方向。
2.1.4.楼层
楼层的高低关系着房间逃生速度、采光面积、噪音大小、生活便利性等。因此对不同楼层高度的住房,通常价格也不一样。
2.1.5.装修情况
装修程度一般也会影响房屋的价格,因为它涉及交易之前卖房者对房屋投入的时间和金钱成本,也关系着交易以后买家入住后后续需要投入的金钱成本。
2.1.6.区域
由于不同区域经济发展状况、交通、医疗和周边交通基础设施不同,生活居住的便利性不同,因此所属行政区域一般发展越好房价越高,影响着房价。
2.1.7.建成时间
房屋建成时间关系着房屋的老化程度和房间建构的合理性,一般越老的房屋房子比较破旧,后期可能需要业主花费更多金钱成本去维护,因此建成时间也影响着房价。
2.1.8.周边交通
周边交通情况对于本文来说主要指是否靠近地铁,地铁作为出行的重要的交通方式之一,对于房屋的周边交通影响非常大,因此是否靠近地铁是影响房屋价格的因素之一。
2.1.9.建筑形态
目前国内住宅建筑建设最普遍的的三种类别就是板楼、塔楼和板塔结合。从居住舒适度以及体验感上来说,从高到低的顺序,第一是是板楼,第二是板塔结合,最后是塔楼。同理,按照价位从高到低的顺序也是板楼、板塔结合、塔楼。
3.数据清洗
3.1数据清洗分析
我们获得的原始数据,由于数据本身或者获得方法的原因,使得数据本身产生缺失值、无效值,噪声点以及离群点等问题,由于存在这些问题有时并不能直接用于计算、建模等后续操作。数据清洗是数据预处理的第一步,是对数据错误进行识别纠正的一个过程,处理重复值,进行有效的数据清洗工作,提升数据质量,是保证后续结果正确性的重要一环,主要包括不完整的数据、异常数据、重复数据的处理。
3.2数据清洗的实现
特征量化是指原始数据经过数据量化处理变成机器学习算法可用的数值型数据变量。在数据特征量化过程中,不同类型的特征量化方式也不相同。本次爬取链家网所获得的原始数据包含定量数据和定性数据两种都有,在使用机器学习和深度学习模型训练数据之前,需要把分类数据和顺序数据进行量化处理转变成数值型数据。接下来对本文的定量数据和定性数据的处理方式分别介绍。
3.2.1.定量数据
本文中的定量数据特征总楼层高度,该数值型数据可以直接使用,不作处理。关于户型也可以看做定量数据,将数据进行拆分成为两个变量,例如 3 室 1 厅可以拆分成(室:3)、(厅:1)两个数值型变量[47]。建成时间是时间型数据,可以不做处理,将时间直接看成数值。面积和单价作为数值型数据不作处理,直接使用。
3.2.2.定性数据
定性数据可以划分为分类数据和顺序数据,分类数据只有类别差距无大小和递进层级的差别,而顺序数据除了代表不同的类别之外,通常还有大小和层级的差别。定性数据特征量化的处理方式通常有两种,独热编码和标签编码。其中,独热编码是将每个类别映射到多维向量,有多少个类别就有多少维向量,且只有一个向量为 1,其他全为 0 的发散方式。独热编码扩充特征空间,所以当数据本身类别较多时,不适合使用独热编码[48]。标签编码是对每个类别直接进行编号量化,即赋予不同类别不同数字标号,不能表示出大小。由于本文数据变量不是特别多,所以对楼层高度、装修、结构使用独热编码进行特征量化,对朝向使用分类编码表示。
经过数据量化后的数据作为本文建模的输入数据,特征变量由原来的 10 个变为 17 个,所有数据特征的具体量化方式见下表::
表3-3数据量化表
原始数据 | 变量性质 | 量化方式 |
单价 | 定量数据 | 不处理 |
户型 | 定量数据 | 定量量化 |
面积 | 定量数据 | 不处理 |
朝向 | 定性数据 | 标签编码 |
楼层高度 | 定性数据 | 独热编码 |
总楼层 | 定量数据 | 不处理 |
装修 | 定性数据 | 独热编码 |
建成时间 | 定量数据 | 不处理 |
结构 | 定性数据 | 独热编码 |
地铁 | 定性数据 | 独热编码 |
4数据分析和可视化
4.1数据分析过程
数据可视化技术就是把数据以图形图表的方式呈现出来,它的目的是帮助人们更加方便地分析总结出数据背后隐藏的规律,为决策提供好的依据。可视化技术越来越受大众欢迎,由于它的直观性,这项技术发展迅速并成功取得相应的成就。本文主要对二手房房源信息进行分析,例如房源面积、户型、总价、单价、所在区域等。主要步骤有数据加载、数据转换、数据可视化呈现、数据规律总结等。
4.2数据可视化过程与所用技术
数据准备需要做很多工作,其中大部分来自于数据分析和数据建模,包括转换、清理、加载等。经过数据清洗后,完整的数据依然还保存在 CSV 文件中,这时候要将这些数据按照一定的要求加载到内存里。为了加载处理清洗过滤后的数据,可以使用 Pandas所提供的 DataFrame 对象,Pandas 主动将表格型的数据转换为DataFrame可以读取的函数。数据加载的过程中需要注意关于数据项的行列索引处理,还有对缺失值的处理,以及数据类型的推断和数据转换的问题。。
4.3实施数据分析与可视化
4.3.1 区域分布分析
从二手房的分布区域来看,长株潭二手房主要集中在长湘潭泉塘、开元路、金星北、武广新城,雨花亭和含浦一带,在售房源均达到 400 套以上,其中泉塘区域在售的二手房源最多达到 745 套,此外,开元路、金星北、武广新城和雨花亭,二手房房源数量仅次之,在售的二手房源达到 500 套以上。
图4-1 沙区域二手房数量 TOP10
4.3.2 小区分布
从长湘潭二手房的小区分布来看,中南汽车世界的二手房源最多达到 149 套,其次,国铁建国际城的二手房源房源数量仅此之,出售的二手房源达到 97 套。图4-2长湘潭二手房户型分布从二手房的户型分布来看,3 室 2 厅是最普遍的二手房户型,房源达到 4593套,2 室 2 厅是第二多的二手房房源,中南汽车世界的二手房源最多达到 149 套,其次,国铁建国际城的二手房房源数量仅次之,出售的二手房源达到 97 套。
图4-2 长湘潭二手房楼层分布
从二手房的楼层分布来看,30 层以上的二手房楼盘较多,占全部房源的 40%左右,其次主要是 15-20 层的楼盘,达到 20%左右,10-15 层的楼盘最少,仅占3.84%。
图4-3 长湘潭二手房价格分布
从二手房的价格分布来看,大多数在售二手房的单价为8000-11000元/𝑚2,占二手房房源总数量的 45.79%,其次,价格为 11000-14000 元/𝑚2占总数量的24.82%,高出 14000 元/𝑚2的二手房房源数量不多,因此,长湘潭二手房的房价较为合理。
图4-4 长湘潭二手房面积分布
从二手房的面积分布来看,总面积为 100-130𝑚2和 80-100𝑚2的二手房源数量最多,分别占到 32.43%和 24.32%,35𝑚2 以下的房源数量最少,仅占 0.84%。
4.3.3 相关性分析
图4-5 长湘潭二手房户型与单价关系
从图4-5可以看出,长湘潭二手房 3 室 2 厅和 4 室 2 厅的户型价格比较集中且相对较高,3 室 1 厅、3 室 2 厅和 2 室 1 厅的户型价格相对处于中等位置且数量较多,4 室 1 厅户型价格较为分散,1 室 1 厅和 1 室 2 厅的户型价格相对低一点。
图4-6长湘潭二手房面积与单价关系
从图4-6可以看出,长湘潭二手房面积主要集中在 90𝑚2和 130𝑚2左右,单。
4.3.4 二手房朝向分析
图4-7二手房朝向分布情况
近几年来,不同地区房价的上涨水平也不同,众多购房者困扰于飞速上涨的房价,无法确定合适的买房时机和合理的买房价格。为了应对高房价问题,政府频繁地针对房地产市场出台政策调整房价,调控房价的上涨速度,例如限购、调息、增加税收等方案。其中二手房买卖交易也是房地产交易市场的重要组成部分之一,是许多房产销售公司的重点之一,但是不乏许多黑心中介通过低买高卖等不良行为获取高额利润,打乱市场秩序,对于购买住房的消费者本身而言,了解和知晓住房合理价格非常重要。除此之外,二手房价格也是市场监督管理机构的重要监督管理方向。因此,二手房价格预测的研究极具社会意义。
4.3.5 长湘潭二手房户型与单价关系
图4-8 长湘潭二手房户型与单价关系
长湘潭二手房房子朝向主要集中在朝南,考虑到中国大多数房子为了采光通风,都会将房子建成坐北朝南的方向,所以二手房的朝向以朝南的方向占据大多数,朝向为西南方向的房子最为分散,朝向为北和西方向的二手房相对较少。
4.3.6 二手房建成时间与单价关系
图4-9 长湘潭二手房装修与单价关系
从图4-9可以看出,长湘潭二手房建成时间与单价存在明显的线性相关关系,建成时间越近二手房的价格越高,考虑到建成时间越早房子相对陈旧设施落后,所以房子的价格会相对较低。
4.3.7 二手房结构与单价关系
图4-10长湘潭二手房结构与单价关系
从图4-10可以看出,长湘潭二手房结构为板楼和板塔结合的相对集中,且价格较高,塔楼结构的二手房价格相对低一点,考虑到实际生活中板楼结构住房多为坐北朝南,南北通透、户型合理、结构有效利用空间,居住舒适度好,而塔楼建筑密度较高,套内建筑面积使用率也不高,并且采光和通风也较为一般但是房屋可改造性大,也有部分住房采用板塔结合结构,综合两者优势,因此不同结构的住宅在价格上也呈现出不同,板楼的价格相对较高一点。
4.3.8房屋面积价格对比分析
图4-10 双时段微博签到数量对比分析
图4-10使用随机森林计算出的房屋各特征变量与房屋价格相关得分中,房屋面积对价格影响最大,为 0.267896。从现实角度分析,面积越大的房屋价格越高,因此,房屋面积与价格存在紧密关系。其次是总楼层与室建成时间的个数,房屋室的个数和是否进地铁也具有较高的相关性,而毛坯和简装的相关性最低,只有0.014000和0.009175,对房屋价格的影响最小。
5.结 论
随着数据挖掘技术的快速发展,数据分析挖掘信息的有效价值成为了各个行业发展过程中不可忽视的一个环节。住房一直是社会民生持续关注的话题,一直都是地方经济的关注热点和话题热点。近两年,由于疫情影响,在疫情防控常态化的影响下,企业扩大再生产动力不足,投资气氛不高涨,就业问题带动影响了个人经济收入水平。这时候为了解决住房问题,二手房可以为买房消费者提供参考,根据二手房价格,选择合适的买房时机,理性消费。本文通过网络爬虫技术爬取长湘潭二手房交易数据,利用数据挖掘技术对长湘潭二手房价格进行预测分析,
本文主要任务内容如下:
1.查阅近些年关于房地产市场分析建模的国内外相关资料,进行分析总结,获取研究思路,深入学习数据挖掘的知识概论,了解机器学习以及深度学习的理论和算法思想,初步确定本文房价分析预测的数学模型。
2.数据爬取与预处理。从链家网站爬取了长湘潭在售二手房的交易数据与基本信息,对爬取的数据进行数据预处理,包括数据变换、数据标准化、处理缺失值以及离群点等。
3.可视化分析。对数据信息利用统计图表进行描述性统计分析和可视化分析,对二手房住宅的销售价格有一个初步的分析了解,初步探讨二手房特征变量对房价的影响。
参考资料
[1]关菲,张晗. 基于数据挖掘的郑州市二手房价格预测 [J]. 信息技术与信息化, 2021, (11): 43-47.
[2]陈棋. 基于集成算法的贵阳市二手房房价预测[D]. 重庆大学, 2021.
[3]戴瑗,郑传行. 基于Python的南京二手房数据爬取及分析 [J]. 计算机时代, 2021, (01): 37-40+45.
[4]赵凯,杨云帆,宋卓远,等. 数据挖掘视角下二手房市场与调控政策研究 [J]. 情报探索, 2020, (04): 87-93.
[5]王玉芳,陶金梅,冯春. 基于空间数据挖掘的南京市二手房价格分析预测[C]// 江苏省测绘地理信息学会. 2019年江苏省测绘地理信息学会学术年会论文集. 江苏省测绘工程院;江苏海事职业技术学院;, 2019: 5.
[6]郑源,陈品祥,冯学兵,等. 北京房地产新政下的房地产市场特点研究——基于不动产登记的用户画像 [J]. 测绘通报, 2019, (S2): 176-180. DOI:10.13474/j.cnki.11-2246.2019.0618.
[7]毛凤华. 基于聚类分析的二手房推荐研究——以北京市为例 [J]. 科技创业月刊, 2018, 31 (05): 149-153.
[8]袁乖宁. 数据挖掘技术在二手房市场评估中的应用研究 [J]. 电脑迷, 2018, (05): 232-233..