基于大数据和ALS算法实现房源智能推荐系统
基于大数据和 S ALS 算法实现的房源智能推荐系统
Intelligent recommendation system based on big data and ALS algorithm
成绩评定
成绩项 论文成 绩 ( 百分制 )
折合 比例 实得成绩(折合 分)
)
指导教师成绩
30%
评阅教师成绩
20%
答辩成绩
50%
总评 成绩
注 :毕业设计(论文)成绩 按 百分制评定。答辩 成绩不及格 的 (评分 低于 0 60 分的)
,则该毕业设计( 论文 )
总评成绩为答辩 成绩。
内容摘要
目前,现有的房源信息不够透明化大多中介混淆市场,内含不为人知的商业链。有经验的租客们会通过周边房价走势和走访周边房源对比调研、筛选适合自己的房源。
同时,对于用户工作地点需求和各种人群类型如大学生群体,年轻小资,或者中年人,他们希望居住的环境要求各不相同各类型条件限制这也加大了用户租房的难度。当今的租房市场并不够透,传统的实体中介已经跟不上需求。文章将介绍传统的租房信息与移动互联相结合,运用大数据收集各类房源信息聚合数据,跨平台整合信息,最后通过计算机软件开发相关技术开发出一款智能房源推荐平台推荐给用户。整个推荐系统目的就是为了解决 item 和 user 的匹配问题,本项目采用最经典的就是 CF 的方法,本质上是构建 user 和 item 的特征表达,你可以想办法用抽取特征的网络结构来提取这个表达形式,也就是常说的 embedding 方法。然后就可以直接用 user 的 emb和所有 item 的 emb 计算相似度,按照相似度高低返回推荐结果。想办法构造巧妙的或者新颖的方式抽取特征,最后选用现代化 web 框架 SpringBoot+Vue 完成平台搭建
关键词:房源推荐系统
ALS 算法
大数据
数据采集
Abstract
At present, the existing housing information is not transparent enough. Most intermediaries confuse the market and contain unknown commercial chains. Experienced tenants will use the surrounding housing price trends and visit the surrounding houses for comparative research to screen for suitable houses. At the same time, for the user"s work place needs and various types of people such as college students, young petty bourgeoisie, or middle-aged people, they want to live in different environmental requirements. Various types of conditions and restrictions have also increased the difficulty of users renting houses. Today"s rental market is not transparent enough, and traditional physical intermediaries can no longer keep up with demand. The article will introduce the combination of traditional rental information and mobile internet, use big data to collect various types of housing information aggregation data, integrate information across platforms, and finally develop a smart housing recommendation platform recommended to users through computer software development related technologies. The purpose of the entire recommendation system is to solve the matching problem between item and user. The most classic method used in this project is the CF method. Essentially, it is to construct the feature expression of user and item. You can find a way to extract this expression using the network structure of extracted features. Form, which is often referred to as the embedding method. Then you can directly use the emb of the user and the emb of all items to calculate the similarity, and return the recommendation results according to the similarity. Find a way to construct ingenious or novel ways to extract features, and finally choose the modern web framework SpringBoot + Vue to complete the platform construction. Keywords:
House recommendation system
ALS algorithm
Big data house platform
目录 第一章
绪论 ..................................... 1 1.1 项目的开发背景 .................................... 1 1.2 项目的开发目的 .................................... 1 1.3 项目的开发意义 .................................... 1 1.4 国内的研究现状和发展趋势 .......................... 1 5 1.5 项目的设计思路..................................... 2 第二章
平台综述及相关技术选型介绍 ............... 3 2.1 Python 简介 ....................................... 3 2.2 Scrapy 爬虫框架简介 ................................ 3 2.3 JAVA 语言简介 ..................................... 4 2.4 Hbase 简介 ........................................ 5 2.5 本章小结 .......................................... 6 第三章
推荐算法 介绍与平台推荐引擎实现 ........... 7 3.1 主流推荐算法介绍 .................................. 7 3.2 协同过滤算法 ...................................... 7 3.2.1 基于模型的协同过滤 ........................... 7 3.2.2 基于内存的协调过滤算法 ....................... 7 3.3 系统中的推荐算法 .................................. 8 3 3. .4 4 系统中的推荐引擎架构介绍 .......................... 9 3.4.1 架构模块介绍 ................................ 10 3.4.2 基于房源用户画像的用户相似度计算方法 ........ 10 3 3. .5 5 本章小结 ......................................... 11 第四章
租房推荐平台实现 ........................ 12 4 4 .1 系统功能模块的设计与实现 ......................... 12 4.1.1 前台首页设计与实现 .......................... 12 4.1.2 分享小组设计与实现 .......................... 13
4.1.3 大数据个性化条件筛选房源功能 ................ 15 4.1.4 智能推荐房源功能 ............................ 17 4.2 后台的设计与实现 ................................. 18 4.2.1 后台登录页面 ................................ 18 4.2.2 用户管理模块 ................................ 18 4.2.3 房源列表信息 ................................ 19 4.2.4 城市分类列表信息 ............................. 19 4 4 .3 本章小结 ......................................... 20 第 五 章
结论 .................................... 21 参
考
文
献 .................................... 22 致
谢 .......................................... 23
广东东软学院本科毕业设计(论文)
1 第一章
绪论
1.1 项目的开发背景
目前,现有的房源信息不够透明化大多中介混淆市场,内含不为人知的商业链。有经验的租客们会通过周边房价走势和走访周边房源对比调研、筛选适合自己的房源。
同时,对于用户工作地点需求和各种人群类型如大学生群体,年轻小资,或者中年人 他们希望居住的环境要求各不相同各类型条件我限制这也加大了用户租房的难度。随着城市化建设,经济发展,就业人群流动,相较市场的庞大需求,当今的租房市场并不够透,传统的实体中介已经跟不上需求。文章将介绍传统的租房信息与移动互联相结合,运用大数据收集查阅信息,跨平台整合信息,最后推荐给用户。
1.2 项目的开发目的
对于所有人来说衣食住行是我们在社会上生活的必需品,在房价频频高涨的现在,对于所有社会上打拼的人或者说所有踏入社会的年轻人来说,都会参与到租房市场。
研究数据展示现在我国的租房人口数量约为 2 亿,主要由流动人口和大学毕业生组成,住房租赁市场为 1.3 万亿。
随着城市化进程的发展,流动人口规模的不断增加为租住人口提供了基础。到 2030 年,国内有需要租房的需求将达到 2.9 亿人口,市场规模将超过 4 亿人口
1.3 项目的开发意义
(1)基于用户协同过滤算法进行探索,通过数据挖掘等前沿技术,研究在Web 端和移动端相关系统的设计与实现。
(2)为平台用户提供一个拥有多项功能的,且具有良好数据可视化和友好交互的系统。
(3)对房源进行数据采集,标记分析处理,通过用户协同过滤 相似度处理,让房源推荐平台更加智能,更懂用户。
(4)给缺乏房源信息和需要租房的用户带来便利。
1.4 国内的研究现状和发展趋势
回顾国内外相关领域研究,学者们在丰富用户兴趣特征、构建协同过滤个性化推荐方面已经做了很多研究工作,协同过滤算法是当前推荐系统中应用最广泛的推荐算法,从社交网络数据再到情景融入数据,基于此,本文在协同过滤方法的
广东东软学院本科毕业设计(论文)
2 基础上加上从不同网站爬取的数据进行系统设计,通过爬取不同网站数据弥补协同过滤算法数据缺失问题。获取足够多的房源信息提取有效历史租赁成功信息和租房房源真实评价做出基本的房源地理位置区分(商圈,地铁主要核心公交站等),房价价格排序,房类型排序等,并且通过预测模型,适合每一位独一无二的用户的优质房源,推荐给用户选择,同时记录下用户的选择信息,不断补充数据中心的用户数据反复进行 ALS 运算这样就能在后期给所有用户推送出更优更符合用户群体的准确租房房源信息。
5 1.5 项目的设计思路
协同过滤算法是当前推荐系统中应用最广泛的推荐算法,在互联网各个领域都有实际的应用价值,如电影推荐,短视频推荐,电商商品推荐等等。这些场景大都可以通过一种基于用户的协同过滤算法去实现,主要采集用户对这些Item 的用户 History 与 Action,去计算用户之间相似度通过邻 K 算法去找到最近邻居,通过设定参数比重预测对 item 的分值,然后将分值最高的前 x 个项目返回给用户就完成了推荐行为。
一般来说,用户对项目的评分能够较精准的反映用户对项目的喜爱程度,而标签标注作为一种用户行为,蕴含了用户对项目内容和属性的深入理解[4] 。文献[5] 通过对项目的标签进行简单的计数统计来求得用户对项目标签的偏好向量,但是这种方法在计算用户对标签兴趣偏好时会出现热门标签权重较大的问题,这样就导致了被用户选择过的稀缺标签很难给用户进行推荐造成权重偏差,降低了推荐结果的准确性并且未能充分反映用户的兴趣偏好。针对以上问题,本文引入TF-IDF 的思想对用户的项目标签偏好进行计算。
TF-IDF 是一种加权技术,采用一种统计方法来评估某一个特征词在一个语料库中的重要程度[6] 。将其思想应用到用户偏好计算上,若用户选择某个标签越频繁,这个标签被选择的人数又越少并且这个标签在整个标签集中的占比越小,则我们认为用户对这个标签的偏好程度越高。公式如下:
由公式能够推出,若一个标签选择人数较多且在整个标签集中的自身占比较高,即热门标签,则计算结果偏低;若用户选择冷门标签,相较于其他用户而言,用户更关注此标签且该标签对于该用户的重要程度更高,这样就能在一定程度上很好的区分和明确用户的偏好,提高推荐准确率。
广东东软学院本科毕业设计(论文)
3
第二章
平台综述及相关技术选型介绍
n 2.1 Python 简介
Python 是由 Guidovan Rusum 于 1991 年创建的一种广泛使用的解释性高级通用编程语言。
Python 的设计理念强调可读性和简洁的语法(尤其是通过使用空间缩进而不是花括号和关键字来分解代码块)。允许开发人员用比 C, J ava和 Python 更少的代码来表达他们的想法。
Python 编程语言的特性是一种更加完全地面向对象语言,无论是代码里面的定义的函数,数字和字符串都是对象,面向对象的三大特性也就是对继承,重载,派生和多重继承的 P ython 也是全面支持,您可以促进源代码的重构建复用。但是,Python 的运行速度比静态语言(如 C 和 Visual Basic)慢。应用范围:网络应用程序:Python 通常用于创建服务器软件和 Web 搜寻器,因为它支持多种网络协议。丰富的第三方 Web 框架集使开发和管理复杂 Web 流程的科学计算变得容易。像 NumPy,SciPy,Matplotlib 一样,您可以轻松创建科学的计算程序,而无需重复 API。您需要一个库:Python 具有强大庞大的标准库。
提供了系统管理,文本处理,网络通信,,图形系统和其他附加功能。此外,第三方库也非常强大 它们的功能涵盖科学计算,Web 开发,数据库界面和图形系统的许多领域。最受欢迎的库包括 Flask,Django,PIL,Matplotlib,QT,WxPython,TensorFlow。
y 2.2 Scrapy 爬虫框架简介
Scrapy 是 Python 下一款数据挖掘的框架主要是从网页的内容和提取各种图像,并且打开源网络爬虫框架的结构化数据,正在进行数据挖掘、信息处理或数据存储等一系列的工作。Srapy 框架主要通过采用了高效的 Twisted 库异步处理网络通信,可以多线程异步保证高效下载。给下载速率提供一系列高效、强大的组件,并提供各种插件或接口允许开发者快速构建网络程序。框架主要是由主引擎、调度器和下载器(D...
相关热词搜索: 算法 房源 智能