“智慧政务”中的文本挖掘

原题：2020第八届泰迪杯数据挖掘挑战赛 C题 https://www.tipdm.org/bdrace/tzbstysj/20200228/1637.html

任务（任务要求参见上方的题目链接）

任务一：群众留言分类

本例代码参见notebook文件src/issue1_more_clfs.ipynb

采用了两种特征抽取方法TF-IDF和Word2Vec，三种分类模型Naive Bayes、kNN和SVM，形成五种实验方案，实验结果如下图所示

任务二：热点问题挖掘

本例代码参见src/issue2.py

使用均值漂移模型完成文本聚类，另含热度评价模块，详见代码注释

项目依赖

基于pyhton3.7.3平台
需要openpyxl，gensim，sklearn，jieba，pandas，bayes_opt，numpy库以及它们的依赖包

最后

受时间和精力所限，代码组织并不十分合理，也没有为所有模块编写文档，如有想要深入了解的地方，欢迎在issue区开贴讨论

Name		Name	Last commit message	Last commit date
Latest commit History 91 Commits
README.assets		README.assets
resources		resources
src		src
tests		tests
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

“智慧政务”中的文本挖掘

任务（任务要求参见上方的题目链接）

任务一：群众留言分类

任务二：热点问题挖掘

项目依赖

最后

About

Uh oh!

Releases

Packages

Languages

Rollbear-bot/HelloNLP-TopicC-in-TipDMCup2020

Folders and files

Latest commit

History

Repository files navigation

“智慧政务”中的文本挖掘

任务（任务要求参见上方的题目链接）

任务一：群众留言分类

任务二：热点问题挖掘

项目依赖

最后

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages