import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
# import spacy

from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split, cross_val_score, StratifiedKFold


df = pd.read_csv('data/df_clean.csv')
numerics = pd.read_csv('data/numerics_clean.csv')


ymed = df.num_comments.median()
y = pd.Series([1 if val > ymed else 0 for val in df.num_comments])
df.drop('num_comments',axis=1,inplace=True) # get rid of this immediately


# # Lemmatize and filter out ' ' tokens
# nlp = spacy.load('en_core_web_sm')
# df['title'] = [' '.join([word.lemma_ for word in nlp(title) if word.lemma_ != ' '])\
#                          for title in df.title] # This should be optimized


tf = TfidfVectorizer(stop_words='english',max_features=500)
tfvec = tf.fit(df.title)
X = pd.DataFrame(tfvec.transform(df.title).todense(),columns=tfvec.get_feature_names_out())


df = df.join(numerics)
del numerics # done with numerics


def make_dummies(df):
    for col_name in df.columns:
        if (df[col_name].dtype == 'O') or (df[col_name].dtype == 'bool'):
            dums = pd.get_dummies(df[col_name],prefix=col_name,dtype=int,drop_first=True)
            df = df.drop(labels=[col_name],axis=1)
            df = df.join(dums)
    return df

dums = make_dummies(df[df.columns[1:]]) # [1:] excludes first column, 'title'
del df # done with df


X = X.join(dums)
del dums # done with dums


# Do a split
X_train, X_test, y_train, y_test = train_test_split(X,y)
del X
del y


print('Create Random Forest...')
rf = RandomForestClassifier(n_jobs=-1)
print('Create Logistic Regression...')
# knn = KNeighborsClassifier(n_jobs=-1)
print('fit RF...')
model_rf = rf.fit(X_train,y_train)

print('fit KNN...')
# model_knn = knn.fit(X_train,y_train)

# Model Scores
def score(model,X,y):
    cv=StratifiedKFold(n_splits=3,shuffle=True)
    s = cross_val_score(model,X,y,cv=cv) # n_jobs=-1 actually makes it slower here
    print("Score:\t{:0.2} ± {:0.2}".format(s.mean(), 2 * s.std()))

print('Scoring...')
score(model_rf,X_train,y_train)
score(model_rf,X_test,y_test)
# score(model_knn,X_train,y_train)
# score(model_knn,X_test,y_test)

Create Random Forest...
Create Logistic Regression...
fit RF...
fit KNN...
Scoring...
Score:	0.62 ± 0.0056
Score:	0.6 ± 0.0052


pd.DataFrame({'Variable':X_train.columns,
              'Importance':rf.feature_importances_}).sort_values('Importance', ascending=False).head(25)

	Variable	Importance
500	post_age	0.080172
502	norm_score	0.077290
501	upvote_ratio	0.047547
5545	is_self_True	0.020376
232	like	0.003663
212	just	0.003490
4518	subreddit_memes	0.003337
428	time	0.003296
287	new	0.003230
293	oc	0.002981
198	im	0.002539
85	day	0.002455
157	got	0.002369
99	dont	0.002164
431	today	0.002146
247	love	0.002137
253	man	0.002102
156	good	0.002101
5546	spoiler_True	0.002013
5544	is_original_content_True	0.002012
141	game	0.001961
5027	subreddit_shitposting	0.001955
11	art	0.001921
5543	over_18_True	0.001905
311	people	0.001879

Process/Model¶

Load Files¶

Create target column (y)¶

Lemmatise¶

Create X¶

Join X with numeric columns¶

Create dummies from columns that are objects or booleans¶

Now join dummies with X¶

Now model it!¶

Comparing Models¶