├── src
    ├── engine.py
    ├── loss.py
    ├── utils.py
    ├── __init__.py
    ├── dataset.py
    ├── metrics.py
    ├── feature_generator.py
    ├── dispatcher.py
    ├── create_folds.py
    ├── predict.py
    └── train.py
├── run.sh
└── .gitignore


/src/engine.py:
--------------------------------------------------------------------------------
1 | 


--------------------------------------------------------------------------------
/src/loss.py:
--------------------------------------------------------------------------------
1 | 


--------------------------------------------------------------------------------
/src/utils.py:
--------------------------------------------------------------------------------
1 | 


--------------------------------------------------------------------------------
/src/__init__.py:
--------------------------------------------------------------------------------
1 | 


--------------------------------------------------------------------------------
/src/dataset.py:
--------------------------------------------------------------------------------
1 | 


--------------------------------------------------------------------------------
/src/metrics.py:
--------------------------------------------------------------------------------
1 | 


--------------------------------------------------------------------------------
/src/feature_generator.py:
--------------------------------------------------------------------------------
1 | 


--------------------------------------------------------------------------------
/src/dispatcher.py:
--------------------------------------------------------------------------------
1 | from sklearn import ensemble
2 | 0.75091
3 | MODELS = {
4 |     "randomforest": ensemble.RandomForestClassifier(n_estimators=200, n_jobs=-1, verbose=2),
5 |     "extratrees": ensemble.ExtraTreesClassifier(n_estimators=200, n_jobs=-1, verbose=2),
6 | }


--------------------------------------------------------------------------------
/run.sh:
--------------------------------------------------------------------------------
 1 | export TRAINING_DATA=input/train_folds.csv
 2 | export TEST_DATA=input/test.csv
 3 | 
 4 | export MODEL=$1
 5 | 
 6 | #FOLD=0 python -m src.train
 7 | #FOLD=1 python -m src.train
 8 | #FOLD=2 python -m src.train
 9 | #FOLD=3 python -m src.train
10 | #FOLD=4 python -m src.train
11 | python -m src.predict


--------------------------------------------------------------------------------
/src/create_folds.py:
--------------------------------------------------------------------------------
 1 | import pandas as pd
 2 | from sklearn import model_selection
 3 | 
 4 | if __name__ == "__main__":
 5 |     df = pd.read_csv("input/train.csv")
 6 |     df["kfold"] = -1
 7 | 
 8 |     df = df.sample(frac=1).reset_index(drop=True)
 9 | 
10 |     kf = model_selection.StratifiedKFold(n_splits=5, shuffle=False, random_state=42)
11 | 
12 | 
13 |     for fold, (train_idx, val_idx) in enumerate(kf.split(X=df, y=df.target.values)):
14 |         print(len(train_idx), len(val_idx))
15 |         df.loc[val_idx, 'kfold'] = fold
16 |     
17 | 
18 |     df.to_csv("input/train_folds.csv", index=False)
19 | 


--------------------------------------------------------------------------------
/src/predict.py:
--------------------------------------------------------------------------------
 1 | import os
 2 | import pandas as pd
 3 | from sklearn import ensemble
 4 | from sklearn import preprocessing
 5 | from sklearn import metrics
 6 | import joblib
 7 | import numpy as np
 8 | 
 9 | from . import dispatcher
10 | 
11 | TEST_DATA = os.environ.get("TEST_DATA")
12 | MODEL = os.environ.get("MODEL")
13 | 
14 | def predict():
15 |     df = pd.read_csv(TEST_DATA)
16 |     test_idx = df["id"].values
17 |     predictions = None
18 | 
19 |     for FOLD in range(5):
20 |         print(FOLD)
21 |         df = pd.read_csv(TEST_DATA)
22 |         encoders = joblib.load(os.path.join("models", f"{MODEL}_{FOLD}_label_encoder.pkl"))
23 |         cols = joblib.load(os.path.join("models", f"{MODEL}_{FOLD}_columns.pkl"))
24 |         for c in encoders:
25 |             print(c)
26 |             lbl = encoders[c]
27 |             df.loc[:, c] = lbl.transform(df[c].values.tolist())
28 |         
29 |         # data is ready to train
30 |         clf = joblib.load(os.path.join("models", f"{MODEL}_{FOLD}.pkl"))
31 |         
32 |         df = df[cols]
33 |         preds = clf.predict_proba(df)[:, 1]
34 | 
35 |         if FOLD == 0:
36 |             predictions = preds
37 |         else:
38 |             predictions += preds
39 |     
40 |     predictions /= 5
41 | 
42 |     sub = pd.DataFrame(np.column_stack((test_idx, predictions)), columns=["id", "target"])
43 |     return sub
44 |     
45 | 
46 | if __name__ == "__main__":
47 |     submission = predict()
48 |     submission.to_csv(f"models/{MODEL}.csv", index=False)
49 | 


--------------------------------------------------------------------------------
/src/train.py:
--------------------------------------------------------------------------------
 1 | import os
 2 | import pandas as pd
 3 | from sklearn import ensemble
 4 | from sklearn import preprocessing
 5 | from sklearn import metrics
 6 | import joblib
 7 | 
 8 | from . import dispatcher
 9 | 
10 | TRAINING_DATA = os.environ.get("TRAINING_DATA")
11 | TEST_DATA = os.environ.get("TEST_DATA")
12 | FOLD = int(os.environ.get("FOLD"))
13 | MODEL = os.environ.get("MODEL")
14 | 
15 | FOLD_MAPPPING = {
16 |     0: [1, 2, 3, 4],
17 |     1: [0, 2, 3, 4],
18 |     2: [0, 1, 3, 4],
19 |     3: [0, 1, 2, 4],
20 |     4: [0, 1, 2, 3]
21 | }
22 | 
23 | if __name__ == "__main__":
24 |     df = pd.read_csv(TRAINING_DATA)
25 |     df_test = pd.read_csv(TEST_DATA)
26 |     train_df = df[df.kfold.isin(FOLD_MAPPPING.get(FOLD))].reset_index(drop=True)
27 |     valid_df = df[df.kfold==FOLD].reset_index(drop=True)
28 | 
29 |     ytrain = train_df.target.values
30 |     yvalid = valid_df.target.values
31 | 
32 |     train_df = train_df.drop(["id", "target", "kfold"], axis=1)
33 |     valid_df = valid_df.drop(["id", "target", "kfold"], axis=1)
34 | 
35 |     valid_df = valid_df[train_df.columns]
36 | 
37 |     label_encoders = {}
38 |     for c in train_df.columns:
39 |         lbl = preprocessing.LabelEncoder()
40 |         lbl.fit(train_df[c].values.tolist() + valid_df[c].values.tolist() + df_test[c].values.tolist())
41 |         train_df.loc[:, c] = lbl.transform(train_df[c].values.tolist())
42 |         valid_df.loc[:, c] = lbl.transform(valid_df[c].values.tolist())
43 |         label_encoders[c] = lbl
44 |     
45 |     # data is ready to train
46 |     clf = dispatcher.MODELS[MODEL]
47 |     clf.fit(train_df, ytrain)
48 |     preds = clf.predict_proba(valid_df)[:, 1]
49 |     print(metrics.roc_auc_score(yvalid, preds))
50 | 
51 |     joblib.dump(label_encoders, f"models/{MODEL}_{FOLD}_label_encoder.pkl")
52 |     joblib.dump(clf, f"models/{MODEL}_{FOLD}.pkl")
53 |     joblib.dump(train_df.columns, f"models/{MODEL}_{FOLD}_columns.pkl")
54 | 


--------------------------------------------------------------------------------
/.gitignore:
--------------------------------------------------------------------------------
  1 | # Byte-compiled / optimized / DLL files
  2 | __pycache__/
  3 | *.py[cod]
  4 | *$py.class
  5 | 
  6 | # C extensions
  7 | *.so
  8 | 
  9 | # Distribution / packaging
 10 | .Python
 11 | build/
 12 | develop-eggs/
 13 | dist/
 14 | downloads/
 15 | eggs/
 16 | .eggs/
 17 | lib/
 18 | lib64/
 19 | parts/
 20 | sdist/
 21 | var/
 22 | wheels/
 23 | pip-wheel-metadata/
 24 | share/python-wheels/
 25 | *.egg-info/
 26 | .installed.cfg
 27 | *.egg
 28 | MANIFEST
 29 | 
 30 | # PyInstaller
 31 | #  Usually these files are written by a python script from a template
 32 | #  before PyInstaller builds the exe, so as to inject date/other infos into it.
 33 | *.manifest
 34 | *.spec
 35 | 
 36 | # Installer logs
 37 | pip-log.txt
 38 | pip-delete-this-directory.txt
 39 | 
 40 | # Unit test / coverage reports
 41 | htmlcov/
 42 | .tox/
 43 | .nox/
 44 | .coverage
 45 | .coverage.*
 46 | .cache
 47 | nosetests.xml
 48 | coverage.xml
 49 | *.cover
 50 | *.py,cover
 51 | .hypothesis/
 52 | .pytest_cache/
 53 | 
 54 | # Translations
 55 | *.mo
 56 | *.pot
 57 | 
 58 | # Django stuff:
 59 | *.log
 60 | local_settings.py
 61 | db.sqlite3
 62 | db.sqlite3-journal
 63 | 
 64 | # Flask stuff:
 65 | instance/
 66 | .webassets-cache
 67 | 
 68 | # Scrapy stuff:
 69 | .scrapy
 70 | 
 71 | # Sphinx documentation
 72 | docs/_build/
 73 | 
 74 | # PyBuilder
 75 | target/
 76 | 
 77 | # Jupyter Notebook
 78 | .ipynb_checkpoints
 79 | 
 80 | # IPython
 81 | profile_default/
 82 | ipython_config.py
 83 | 
 84 | # pyenv
 85 | .python-version
 86 | 
 87 | # pipenv
 88 | #   According to pypa/pipenv#598, it is recommended to include Pipfile.lock in version control.
 89 | #   However, in case of collaboration, if having platform-specific dependencies or dependencies
 90 | #   having no cross-platform support, pipenv may install dependencies that don't work, or not
 91 | #   install all needed dependencies.
 92 | #Pipfile.lock
 93 | 
 94 | # PEP 582; used by e.g. github.com/David-OConnor/pyflow
 95 | __pypackages__/
 96 | 
 97 | # Celery stuff
 98 | celerybeat-schedule
 99 | celerybeat.pid
100 | 
101 | # SageMath parsed files
102 | *.sage.py
103 | 
104 | # Environments
105 | .env
106 | .venv
107 | env/
108 | venv/
109 | ENV/
110 | env.bak/
111 | venv.bak/
112 | 
113 | # Spyder project settings
114 | .spyderproject
115 | .spyproject
116 | 
117 | # Rope project settings
118 | .ropeproject
119 | 
120 | # mkdocs documentation
121 | /site
122 | 
123 | # mypy
124 | .mypy_cache/
125 | .dmypy.json
126 | dmypy.json
127 | 
128 | # Pyre type checker
129 | .pyre/
130 | 
131 | 
132 | # input data and models
133 | input/
134 | models/
135 | 
136 | 
137 | # data files
138 | *.csv
139 | *.h5
140 | *.pkl
141 | *.pth
142 | 


--------------------------------------------------------------------------------