CMPT-732---Big-Data-Project

Movie Data Analysis and Success Pediction

Raw Datasets Contains unprocessed datasets (input files for data cleaning jobs) in .csv format:

Processed Data Contains cleaned, tranasformed and aggregated data as parquet files.

Commands:

ETL_movie_metadata.py: spark-submit ETL_movie_metadata.py movies_metadata.csv <output_directory> overwrite

Eg: spark-submit Data_Cleaning/ETL_movie_metadata.py Raw_Datasets/movies_metadata.csv Processed_Data overwrite

ETL_movieid_links.py: spark-submit ETL_movieid_links.py links.csv <output_directory> overwrite

3.ETL_user_ratings.py spark-submit ETL_user_ratings.py ratings.csv <output_directory> overwrite

ETL_keywords.py spark-submit ETL_keywords.py keywords.csv <output_directory> overwrite
ETL_credits.py spark-submit ETL_credits.py credits.csv <output_directory> overwrite

Prediction: feature_engineering.py /spark-submit feature_engineering.py <processed_data_directory> <training_data_directory>

Dash App (UI)

1. Change current directory to web_dev folder from the root of git folder

$cd web_dev

2. Install necessary packages in Python

$pip install pandas
$pip install dash
$pip install pyarrow
$pip install dash-bootstrap-components
$pip install Pillow
$pip install iso3166

3. Run Dash App

$spark-submit app.py

Notes

Tested with python==3.6.0 in Anaconda virtual environment.
Images files are in web_dev/img folder.
web_dev/apps folder contain dash code of different pages.
web_dev/apps/analysis_data contain processed data from spark which divide into corresponding task folder.

Name		Name	Last commit message	Last commit date
Latest commit History 117 Commits
Data_Cleaning		Data_Cleaning
Predictor		Predictor
Processed_Data		Processed_Data
data_analysis_spark		data_analysis_spark
web_dev		web_dev
.DS_Store		.DS_Store
LICENSE		LICENSE
README.md		README.md
YouTube.py		YouTube.py
ml-youtube.csv		ml-youtube.csv
running.txt		running.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

CMPT-732---Big-Data-Project

Dash App (UI)

1. Change current directory to web_dev folder from the root of git folder

2. Install necessary packages in Python

3. Run Dash App

Notes

About

Uh oh!

Releases

Packages

Contributors 3

Uh oh!

Languages

License

tssahota/CMPT-732---Big-Data-Project

Folders and files

Latest commit

History

Repository files navigation

CMPT-732---Big-Data-Project

Dash App (UI)

1. Change current directory to web_dev folder from the root of git folder

2. Install necessary packages in Python

3. Run Dash App

Notes

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Contributors 3

Uh oh!

Languages

Packages