├── .gitignore ├── BCQ ├── .gitignore ├── BCQ.py ├── DDPG.py ├── configs │ ├── ant-dir.py │ ├── ant-goal.py │ ├── halfcheetah-vel.py │ ├── humanoid-dir.py │ ├── humanoid-ndone-goal.py │ ├── humanoid-openai-dir.py │ ├── maze-medium.py │ ├── maze-umaze.py │ └── walker-param.py ├── env │ ├── ant_dir.py │ ├── ant_goal.py │ ├── half_cheetah.py │ ├── hopper.py │ ├── humanoid_dir.py │ ├── humanoid_dir_openai.py │ ├── humanoid_goal_ndone.py │ ├── maze2d.py │ └── walker_param.py ├── env_utils.py ├── generate_goals.py ├── goals │ ├── ant-dir-normal-goals.pkl │ ├── ant-goal-normal-goals.pkl │ ├── halfcheetah-vel-hard-goals.pkl │ ├── humanoid-dir-normal-goals.pkl │ ├── humanoid-goal-normal-goals.pkl │ ├── humanoid-ndone-goal-normal-goals.pkl │ ├── humanoid-openai-dir-normal-goals.pkl │ ├── maze-medium-normal-goals.pkl │ ├── maze-umaze-normal-goals.pkl │ └── walker-param-normal-goals.pkl ├── hyperparams_BCQ_default.pkl ├── main.py ├── pointmaze │ ├── __init__.py │ ├── dynamic_mjc.py │ ├── gridcraft │ │ ├── __init__.py │ │ ├── grid_env.py │ │ ├── grid_spec.py │ │ ├── utils.py │ │ └── wrappers.py │ ├── maze_model.py │ └── q_iteration.py ├── rand_param_envs │ ├── .gitignore │ ├── README.md │ ├── __init__.py │ ├── base.py │ ├── gym │ │ ├── __init__.py │ │ ├── benchmarks │ │ │ ├── __init__.py │ │ │ ├── registration.py │ │ │ ├── scoring.py │ │ │ └── tests │ │ │ │ ├── __init__.py │ │ │ │ └── test_benchmark.py │ │ ├── configuration.py │ │ ├── core.py │ │ ├── envs │ │ │ ├── README.md │ │ │ ├── __init__.py │ │ │ ├── algorithmic │ │ │ │ ├── __init__.py │ │ │ │ ├── algorithmic_env.py │ │ │ │ ├── copy_.py │ │ │ │ ├── duplicated_input.py │ │ │ │ ├── repeat_copy.py │ │ │ │ ├── reverse.py │ │ │ │ ├── reversed_addition.py │ │ │ │ └── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── test_algorithmic.py │ │ │ ├── atari │ │ │ │ ├── __init__.py │ │ │ │ └── atari_env.py │ │ │ ├── board_game │ │ │ │ ├── __init__.py │ │ │ │ ├── go.py │ │ │ │ └── hex.py │ │ │ ├── box2d │ │ │ │ ├── __init__.py │ │ │ │ ├── bipedal_walker.py │ │ │ │ ├── car_dynamics.py │ │ │ │ ├── car_racing.py │ │ │ │ └── lunar_lander.py │ │ │ ├── classic_control │ │ │ │ ├── __init__.py │ │ │ │ ├── acrobot.py │ │ │ │ ├── assets │ │ │ │ │ └── clockwise.png │ │ │ │ ├── cartpole.py │ │ │ │ ├── continuous_mountain_car.py │ │ │ │ ├── mountain_car.py │ │ │ │ ├── pendulum.py │ │ │ │ └── rendering.py │ │ │ ├── debugging │ │ │ │ ├── __init__.py │ │ │ │ ├── one_round_deterministic_reward.py │ │ │ │ ├── one_round_nondeterministic_reward.py │ │ │ │ ├── two_round_deterministic_reward.py │ │ │ │ └── two_round_nondeterministic_reward.py │ │ │ ├── mujoco │ │ │ │ ├── __init__.py │ │ │ │ ├── ant.py │ │ │ │ ├── assets │ │ │ │ │ ├── ant.xml │ │ │ │ │ ├── half_cheetah.xml │ │ │ │ │ ├── hopper.xml │ │ │ │ │ ├── humanoid.xml │ │ │ │ │ ├── humanoidstandup.xml │ │ │ │ │ ├── inverted_double_pendulum.xml │ │ │ │ │ ├── inverted_pendulum.xml │ │ │ │ │ ├── meshes │ │ │ │ │ │ ├── base.stl │ │ │ │ │ │ ├── base_L.stl │ │ │ │ │ │ ├── caster.stl │ │ │ │ │ │ ├── caster_L.stl │ │ │ │ │ │ ├── coffe_mate.stl │ │ │ │ │ │ ├── elbow_flex.stl │ │ │ │ │ │ ├── finger_tip_l.stl │ │ │ │ │ │ ├── finger_tip_pad2_l.stl │ │ │ │ │ │ ├── finger_tip_pad2_r.stl │ │ │ │ │ │ ├── finger_tip_r.stl │ │ │ │ │ │ ├── forearm.stl │ │ │ │ │ │ ├── forearm_roll.stl │ │ │ │ │ │ ├── forearm_roll_L.stl │ │ │ │ │ │ ├── gripper_palm.stl │ │ │ │ │ │ ├── head_pan.stl │ │ │ │ │ │ ├── head_pan_L.stl │ │ │ │ │ │ ├── head_tilt.stl │ │ │ │ │ │ ├── head_tilt_L.stl │ │ │ │ │ │ ├── hok_tilt.stl │ │ │ │ │ │ ├── l_finger.stl │ │ │ │ │ │ ├── l_finger_tip.stl │ │ │ │ │ │ ├── l_floating.stl │ │ │ │ │ │ ├── noddlesoup.stl │ │ │ │ │ │ ├── pr2_wheel.stl │ │ │ │ │ │ ├── shoulder_lift.stl │ │ │ │ │ │ ├── shoulder_pan.stl │ │ │ │ │ │ ├── shoulder_yaw.stl │ │ │ │ │ │ ├── tilting_hokuyo.stl │ │ │ │ │ │ ├── tilting_hokuyo_L.stl │ │ │ │ │ │ ├── torso.stl │ │ │ │ │ │ ├── torso_lift.stl │ │ │ │ │ │ ├── torso_lift_L.stl │ │ │ │ │ │ ├── upper_arm.stl │ │ │ │ │ │ ├── upper_arm_roll.stl │ │ │ │ │ │ ├── upper_arm_roll_L.stl │ │ │ │ │ │ ├── upper_finger_l.stl │ │ │ │ │ │ ├── upper_finger_r.stl │ │ │ │ │ │ ├── wheel.stl │ │ │ │ │ │ ├── white_rain.stl │ │ │ │ │ │ ├── windex.stl │ │ │ │ │ │ ├── wrist_flex.stl │ │ │ │ │ │ ├── wrist_roll.stl │ │ │ │ │ │ └── wrist_roll_L.stl │ │ │ │ │ ├── point.xml │ │ │ │ │ ├── pr2.xml │ │ │ │ │ ├── reacher.xml │ │ │ │ │ ├── swimmer.xml │ │ │ │ │ └── walker2d.xml │ │ │ │ ├── half_cheetah.py │ │ │ │ ├── hopper.py │ │ │ │ ├── humanoid.py │ │ │ │ ├── humanoidstandup.py │ │ │ │ ├── inverted_double_pendulum.py │ │ │ │ ├── inverted_pendulum.py │ │ │ │ ├── mujoco_env.py │ │ │ │ ├── reacher.py │ │ │ │ ├── swimmer.py │ │ │ │ └── walker2d.py │ │ │ ├── parameter_tuning │ │ │ │ ├── __init__.py │ │ │ │ ├── convergence.py │ │ │ │ └── train_deep_cnn.py │ │ │ ├── registration.py │ │ │ ├── safety │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── offswitch_cartpole.py │ │ │ │ ├── offswitch_cartpole_prob.py │ │ │ │ ├── predict_actions_cartpole.py │ │ │ │ ├── predict_obs_cartpole.py │ │ │ │ └── semisuper.py │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ ├── rollout.json │ │ │ │ ├── spec_list.py │ │ │ │ ├── test_determinism.py │ │ │ │ ├── test_envs.py │ │ │ │ ├── test_envs_semantics.py │ │ │ │ ├── test_registration.py │ │ │ │ └── test_safety_envs.py │ │ │ └── toy_text │ │ │ │ ├── __init__.py │ │ │ │ ├── blackjack.py │ │ │ │ ├── discrete.py │ │ │ │ ├── frozen_lake.py │ │ │ │ ├── guessing_game.py │ │ │ │ ├── hotter_colder.py │ │ │ │ ├── nchain.py │ │ │ │ ├── roulette.py │ │ │ │ └── taxi.py │ │ ├── error.py │ │ ├── monitoring │ │ │ ├── __init__.py │ │ │ ├── stats_recorder.py │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ ├── helpers.py │ │ │ │ ├── test_monitor.py │ │ │ │ └── test_video_recorder.py │ │ │ └── video_recorder.py │ │ ├── scoreboard │ │ │ ├── __init__.py │ │ │ ├── api.py │ │ │ ├── client │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── api_requestor.py │ │ │ │ ├── http_client.py │ │ │ │ ├── resource.py │ │ │ │ ├── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── helper.py │ │ │ │ │ ├── test_evaluation.py │ │ │ │ │ └── test_file_upload.py │ │ │ │ └── util.py │ │ │ ├── registration.py │ │ │ ├── scoring.py │ │ │ └── tests │ │ │ │ ├── __init__.py │ │ │ │ ├── test_registration.py │ │ │ │ └── test_scoring.py │ │ ├── spaces │ │ │ ├── __init__.py │ │ │ ├── box.py │ │ │ ├── discrete.py │ │ │ ├── multi_binary.py │ │ │ ├── multi_discrete.py │ │ │ ├── prng.py │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ └── test_spaces.py │ │ │ └── tuple_space.py │ │ ├── tests │ │ │ └── test_core.py │ │ ├── utils │ │ │ ├── __init__.py │ │ │ ├── atomic_write.py │ │ │ ├── closer.py │ │ │ ├── colorize.py │ │ │ ├── ezpickle.py │ │ │ ├── json_utils.py │ │ │ ├── play.py │ │ │ ├── reraise.py │ │ │ ├── reraise_impl_py2.py │ │ │ ├── reraise_impl_py3.py │ │ │ ├── seeding.py │ │ │ └── tests │ │ │ │ ├── test_atexit.py │ │ │ │ └── test_seeding.py │ │ ├── version.py │ │ └── wrappers │ │ │ ├── README.md │ │ │ ├── __init__.py │ │ │ ├── frame_skipping.py │ │ │ ├── monitoring.py │ │ │ ├── tests │ │ │ ├── __init__.py │ │ │ └── test_wrappers.py │ │ │ └── time_limit.py │ ├── hopper_rand_params.py │ ├── mujoco_py │ │ ├── .ruby-version │ │ ├── Gemfile │ │ ├── Gemfile.lock │ │ ├── __init__.py │ │ ├── codegen.rb │ │ ├── config.py │ │ ├── error.py │ │ ├── gen_binding.sh │ │ ├── glfw.py │ │ ├── mjconstants.py │ │ ├── mjcore.py │ │ ├── mjextra.py │ │ ├── mjlib.py │ │ ├── mjtypes.py │ │ ├── mjviewer.py │ │ ├── platname_targdir.py │ │ ├── util.py │ │ └── vendor │ │ │ └── osx │ │ │ └── mujoco │ │ │ └── mujoco.h │ ├── pr2_env_reach.py │ ├── rand_param_envs │ │ ├── __init__.py │ │ ├── base.py │ │ ├── gym │ │ │ ├── __init__.py │ │ │ ├── benchmarks │ │ │ │ ├── __init__.py │ │ │ │ ├── registration.py │ │ │ │ ├── scoring.py │ │ │ │ └── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── test_benchmark.py │ │ │ ├── configuration.py │ │ │ ├── core.py │ │ │ ├── envs │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── algorithmic │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── algorithmic_env.py │ │ │ │ │ ├── copy_.py │ │ │ │ │ ├── duplicated_input.py │ │ │ │ │ ├── repeat_copy.py │ │ │ │ │ ├── reverse.py │ │ │ │ │ ├── reversed_addition.py │ │ │ │ │ └── tests │ │ │ │ │ │ ├── __init__.py │ │ │ │ │ │ └── test_algorithmic.py │ │ │ │ ├── atari │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── atari_env.py │ │ │ │ ├── board_game │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── go.py │ │ │ │ │ └── hex.py │ │ │ │ ├── box2d │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── bipedal_walker.py │ │ │ │ │ ├── car_dynamics.py │ │ │ │ │ ├── car_racing.py │ │ │ │ │ └── lunar_lander.py │ │ │ │ ├── classic_control │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── acrobot.py │ │ │ │ │ ├── assets │ │ │ │ │ │ └── clockwise.png │ │ │ │ │ ├── cartpole.py │ │ │ │ │ ├── continuous_mountain_car.py │ │ │ │ │ ├── mountain_car.py │ │ │ │ │ ├── pendulum.py │ │ │ │ │ └── rendering.py │ │ │ │ ├── debugging │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── one_round_deterministic_reward.py │ │ │ │ │ ├── one_round_nondeterministic_reward.py │ │ │ │ │ ├── two_round_deterministic_reward.py │ │ │ │ │ └── two_round_nondeterministic_reward.py │ │ │ │ ├── mujoco │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── ant.py │ │ │ │ │ ├── assets │ │ │ │ │ │ ├── ant.xml │ │ │ │ │ │ ├── half_cheetah.xml │ │ │ │ │ │ ├── hopper.xml │ │ │ │ │ │ ├── humanoid.xml │ │ │ │ │ │ ├── humanoidstandup.xml │ │ │ │ │ │ ├── inverted_double_pendulum.xml │ │ │ │ │ │ ├── inverted_pendulum.xml │ │ │ │ │ │ ├── meshes │ │ │ │ │ │ │ ├── base.stl │ │ │ │ │ │ │ ├── base_L.stl │ │ │ │ │ │ │ ├── caster.stl │ │ │ │ │ │ │ ├── caster_L.stl │ │ │ │ │ │ │ ├── coffe_mate.stl │ │ │ │ │ │ │ ├── elbow_flex.stl │ │ │ │ │ │ │ ├── finger_tip_l.stl │ │ │ │ │ │ │ ├── finger_tip_pad2_l.stl │ │ │ │ │ │ │ ├── finger_tip_pad2_r.stl │ │ │ │ │ │ │ ├── finger_tip_r.stl │ │ │ │ │ │ │ ├── forearm.stl │ │ │ │ │ │ │ ├── forearm_roll.stl │ │ │ │ │ │ │ ├── forearm_roll_L.stl │ │ │ │ │ │ │ ├── gripper_palm.stl │ │ │ │ │ │ │ ├── head_pan.stl │ │ │ │ │ │ │ ├── head_pan_L.stl │ │ │ │ │ │ │ ├── head_tilt.stl │ │ │ │ │ │ │ ├── head_tilt_L.stl │ │ │ │ │ │ │ ├── hok_tilt.stl │ │ │ │ │ │ │ ├── l_finger.stl │ │ │ │ │ │ │ ├── l_finger_tip.stl │ │ │ │ │ │ │ ├── l_floating.stl │ │ │ │ │ │ │ ├── noddlesoup.stl │ │ │ │ │ │ │ ├── pr2_wheel.stl │ │ │ │ │ │ │ ├── shoulder_lift.stl │ │ │ │ │ │ │ ├── shoulder_pan.stl │ │ │ │ │ │ │ ├── shoulder_yaw.stl │ │ │ │ │ │ │ ├── tilting_hokuyo.stl │ │ │ │ │ │ │ ├── tilting_hokuyo_L.stl │ │ │ │ │ │ │ ├── torso.stl │ │ │ │ │ │ │ ├── torso_lift.stl │ │ │ │ │ │ │ ├── torso_lift_L.stl │ │ │ │ │ │ │ ├── upper_arm.stl │ │ │ │ │ │ │ ├── upper_arm_roll.stl │ │ │ │ │ │ │ ├── upper_arm_roll_L.stl │ │ │ │ │ │ │ ├── upper_finger_l.stl │ │ │ │ │ │ │ ├── upper_finger_r.stl │ │ │ │ │ │ │ ├── wheel.stl │ │ │ │ │ │ │ ├── white_rain.stl │ │ │ │ │ │ │ ├── windex.stl │ │ │ │ │ │ │ ├── wrist_flex.stl │ │ │ │ │ │ │ ├── wrist_roll.stl │ │ │ │ │ │ │ └── wrist_roll_L.stl │ │ │ │ │ │ ├── point.xml │ │ │ │ │ │ ├── pr2.xml │ │ │ │ │ │ ├── reacher.xml │ │ │ │ │ │ ├── swimmer.xml │ │ │ │ │ │ └── walker2d.xml │ │ │ │ │ ├── half_cheetah.py │ │ │ │ │ ├── hopper.py │ │ │ │ │ ├── humanoid.py │ │ │ │ │ ├── humanoidstandup.py │ │ │ │ │ ├── inverted_double_pendulum.py │ │ │ │ │ ├── inverted_pendulum.py │ │ │ │ │ ├── mujoco_env.py │ │ │ │ │ ├── reacher.py │ │ │ │ │ ├── swimmer.py │ │ │ │ │ └── walker2d.py │ │ │ │ ├── parameter_tuning │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── convergence.py │ │ │ │ │ └── train_deep_cnn.py │ │ │ │ ├── registration.py │ │ │ │ ├── safety │ │ │ │ │ ├── README.md │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── offswitch_cartpole.py │ │ │ │ │ ├── offswitch_cartpole_prob.py │ │ │ │ │ ├── predict_actions_cartpole.py │ │ │ │ │ ├── predict_obs_cartpole.py │ │ │ │ │ └── semisuper.py │ │ │ │ ├── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── rollout.json │ │ │ │ │ ├── spec_list.py │ │ │ │ │ ├── test_determinism.py │ │ │ │ │ ├── test_envs.py │ │ │ │ │ ├── test_envs_semantics.py │ │ │ │ │ ├── test_registration.py │ │ │ │ │ └── test_safety_envs.py │ │ │ │ └── toy_text │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── blackjack.py │ │ │ │ │ ├── discrete.py │ │ │ │ │ ├── frozen_lake.py │ │ │ │ │ ├── guessing_game.py │ │ │ │ │ ├── hotter_colder.py │ │ │ │ │ ├── nchain.py │ │ │ │ │ ├── roulette.py │ │ │ │ │ └── taxi.py │ │ │ ├── error.py │ │ │ ├── monitoring │ │ │ │ ├── __init__.py │ │ │ │ ├── stats_recorder.py │ │ │ │ ├── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── helpers.py │ │ │ │ │ ├── test_monitor.py │ │ │ │ │ └── test_video_recorder.py │ │ │ │ └── video_recorder.py │ │ │ ├── scoreboard │ │ │ │ ├── __init__.py │ │ │ │ ├── api.py │ │ │ │ ├── client │ │ │ │ │ ├── README.md │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── api_requestor.py │ │ │ │ │ ├── http_client.py │ │ │ │ │ ├── resource.py │ │ │ │ │ ├── tests │ │ │ │ │ │ ├── __init__.py │ │ │ │ │ │ ├── helper.py │ │ │ │ │ │ ├── test_evaluation.py │ │ │ │ │ │ └── test_file_upload.py │ │ │ │ │ └── util.py │ │ │ │ ├── registration.py │ │ │ │ ├── scoring.py │ │ │ │ └── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── test_registration.py │ │ │ │ │ └── test_scoring.py │ │ │ ├── spaces │ │ │ │ ├── __init__.py │ │ │ │ ├── box.py │ │ │ │ ├── discrete.py │ │ │ │ ├── multi_binary.py │ │ │ │ ├── multi_discrete.py │ │ │ │ ├── prng.py │ │ │ │ ├── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── test_spaces.py │ │ │ │ └── tuple_space.py │ │ │ ├── tests │ │ │ │ └── test_core.py │ │ │ ├── utils │ │ │ │ ├── __init__.py │ │ │ │ ├── atomic_write.py │ │ │ │ ├── closer.py │ │ │ │ ├── colorize.py │ │ │ │ ├── ezpickle.py │ │ │ │ ├── json_utils.py │ │ │ │ ├── play.py │ │ │ │ ├── reraise.py │ │ │ │ ├── reraise_impl_py2.py │ │ │ │ ├── reraise_impl_py3.py │ │ │ │ ├── seeding.py │ │ │ │ └── tests │ │ │ │ │ ├── test_atexit.py │ │ │ │ │ └── test_seeding.py │ │ │ ├── version.py │ │ │ └── wrappers │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── frame_skipping.py │ │ │ │ ├── monitoring.py │ │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ └── test_wrappers.py │ │ │ │ └── time_limit.py │ │ ├── hopper_rand_params.py │ │ ├── mujoco_py │ │ │ ├── .ruby-version │ │ │ ├── Gemfile │ │ │ ├── Gemfile.lock │ │ │ ├── __init__.py │ │ │ ├── codegen.rb │ │ │ ├── config.py │ │ │ ├── error.py │ │ │ ├── gen_binding.sh │ │ │ ├── glfw.py │ │ │ ├── mjconstants.py │ │ │ ├── mjcore.py │ │ │ ├── mjextra.py │ │ │ ├── mjlib.py │ │ │ ├── mjtypes.py │ │ │ ├── mjviewer.py │ │ │ ├── platname_targdir.py │ │ │ ├── util.py │ │ │ └── vendor │ │ │ │ └── osx │ │ │ │ └── mujoco │ │ │ │ └── mujoco.h │ │ ├── pr2_env_reach.py │ │ └── walker2d_rand_params.py │ ├── setup.py │ └── walker2d_rand_params.py └── utils.py ├── README.md ├── batch_pearl ├── .gitignore ├── .gitmodules ├── configs │ ├── ant-dir.json │ ├── ant-goal.json │ ├── default.py │ ├── halfcheetah-vel.json │ ├── humanoid-ndone-goal.json │ ├── humanoid-openai-dir.json │ ├── maze-medium.json │ ├── maze-umaze.json │ └── walker-param.json ├── env │ ├── ant_dir.py │ ├── ant_goal.py │ ├── half_cheetah.py │ ├── hopper.py │ ├── humanoid_dir.py │ ├── humanoid_dir_openai.py │ ├── humanoid_goal_ndone.py │ ├── maze2d.py │ └── walker_param.py ├── generate_goals.py ├── goals │ ├── ant-dir-normal-goals.pkl │ ├── ant-goal-normal-goals.pkl │ ├── halfcheetah-vel-hard-goals.pkl │ ├── humanoid-dir-normal-goals.pkl │ ├── humanoid-goal-normal-goals.pkl │ ├── humanoid-ndone-goal-normal-goals.pkl │ ├── humanoid-openai-dir-normal-goals.pkl │ ├── maze-medium-normal-goals.pkl │ ├── maze-umaze-normal-goals.pkl │ └── walker-param-normal-goals.pkl ├── launch.py ├── launch_experiment.py ├── path_collector.py ├── pointmaze │ ├── __init__.py │ ├── dynamic_mjc.py │ ├── gridcraft │ │ ├── __init__.py │ │ ├── grid_env.py │ │ ├── grid_spec.py │ │ ├── utils.py │ │ └── wrappers.py │ ├── maze_model.py │ └── q_iteration.py ├── rand_param_envs │ ├── .gitignore │ ├── README.md │ ├── __init__.py │ ├── base.py │ ├── gym │ │ ├── __init__.py │ │ ├── benchmarks │ │ │ ├── __init__.py │ │ │ ├── registration.py │ │ │ ├── scoring.py │ │ │ └── tests │ │ │ │ ├── __init__.py │ │ │ │ └── test_benchmark.py │ │ ├── configuration.py │ │ ├── core.py │ │ ├── envs │ │ │ ├── README.md │ │ │ ├── __init__.py │ │ │ ├── algorithmic │ │ │ │ ├── __init__.py │ │ │ │ ├── algorithmic_env.py │ │ │ │ ├── copy_.py │ │ │ │ ├── duplicated_input.py │ │ │ │ ├── repeat_copy.py │ │ │ │ ├── reverse.py │ │ │ │ ├── reversed_addition.py │ │ │ │ └── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── test_algorithmic.py │ │ │ ├── atari │ │ │ │ ├── __init__.py │ │ │ │ └── atari_env.py │ │ │ ├── board_game │ │ │ │ ├── __init__.py │ │ │ │ ├── go.py │ │ │ │ └── hex.py │ │ │ ├── box2d │ │ │ │ ├── __init__.py │ │ │ │ ├── bipedal_walker.py │ │ │ │ ├── car_dynamics.py │ │ │ │ ├── car_racing.py │ │ │ │ └── lunar_lander.py │ │ │ ├── classic_control │ │ │ │ ├── __init__.py │ │ │ │ ├── acrobot.py │ │ │ │ ├── assets │ │ │ │ │ └── clockwise.png │ │ │ │ ├── cartpole.py │ │ │ │ ├── continuous_mountain_car.py │ │ │ │ ├── mountain_car.py │ │ │ │ ├── pendulum.py │ │ │ │ └── rendering.py │ │ │ ├── debugging │ │ │ │ ├── __init__.py │ │ │ │ ├── one_round_deterministic_reward.py │ │ │ │ ├── one_round_nondeterministic_reward.py │ │ │ │ ├── two_round_deterministic_reward.py │ │ │ │ └── two_round_nondeterministic_reward.py │ │ │ ├── mujoco │ │ │ │ ├── __init__.py │ │ │ │ ├── ant.py │ │ │ │ ├── assets │ │ │ │ │ ├── ant.xml │ │ │ │ │ ├── half_cheetah.xml │ │ │ │ │ ├── hopper.xml │ │ │ │ │ ├── humanoid.xml │ │ │ │ │ ├── humanoidstandup.xml │ │ │ │ │ ├── inverted_double_pendulum.xml │ │ │ │ │ ├── inverted_pendulum.xml │ │ │ │ │ ├── meshes │ │ │ │ │ │ ├── base.stl │ │ │ │ │ │ ├── base_L.stl │ │ │ │ │ │ ├── caster.stl │ │ │ │ │ │ ├── caster_L.stl │ │ │ │ │ │ ├── coffe_mate.stl │ │ │ │ │ │ ├── elbow_flex.stl │ │ │ │ │ │ ├── finger_tip_l.stl │ │ │ │ │ │ ├── finger_tip_pad2_l.stl │ │ │ │ │ │ ├── finger_tip_pad2_r.stl │ │ │ │ │ │ ├── finger_tip_r.stl │ │ │ │ │ │ ├── forearm.stl │ │ │ │ │ │ ├── forearm_roll.stl │ │ │ │ │ │ ├── forearm_roll_L.stl │ │ │ │ │ │ ├── gripper_palm.stl │ │ │ │ │ │ ├── head_pan.stl │ │ │ │ │ │ ├── head_pan_L.stl │ │ │ │ │ │ ├── head_tilt.stl │ │ │ │ │ │ ├── head_tilt_L.stl │ │ │ │ │ │ ├── hok_tilt.stl │ │ │ │ │ │ ├── l_finger.stl │ │ │ │ │ │ ├── l_finger_tip.stl │ │ │ │ │ │ ├── l_floating.stl │ │ │ │ │ │ ├── noddlesoup.stl │ │ │ │ │ │ ├── pr2_wheel.stl │ │ │ │ │ │ ├── shoulder_lift.stl │ │ │ │ │ │ ├── shoulder_pan.stl │ │ │ │ │ │ ├── shoulder_yaw.stl │ │ │ │ │ │ ├── tilting_hokuyo.stl │ │ │ │ │ │ ├── tilting_hokuyo_L.stl │ │ │ │ │ │ ├── torso.stl │ │ │ │ │ │ ├── torso_lift.stl │ │ │ │ │ │ ├── torso_lift_L.stl │ │ │ │ │ │ ├── upper_arm.stl │ │ │ │ │ │ ├── upper_arm_roll.stl │ │ │ │ │ │ ├── upper_arm_roll_L.stl │ │ │ │ │ │ ├── upper_finger_l.stl │ │ │ │ │ │ ├── upper_finger_r.stl │ │ │ │ │ │ ├── wheel.stl │ │ │ │ │ │ ├── white_rain.stl │ │ │ │ │ │ ├── windex.stl │ │ │ │ │ │ ├── wrist_flex.stl │ │ │ │ │ │ ├── wrist_roll.stl │ │ │ │ │ │ └── wrist_roll_L.stl │ │ │ │ │ ├── point.xml │ │ │ │ │ ├── pr2.xml │ │ │ │ │ ├── reacher.xml │ │ │ │ │ ├── swimmer.xml │ │ │ │ │ └── walker2d.xml │ │ │ │ ├── half_cheetah.py │ │ │ │ ├── hopper.py │ │ │ │ ├── humanoid.py │ │ │ │ ├── humanoidstandup.py │ │ │ │ ├── inverted_double_pendulum.py │ │ │ │ ├── inverted_pendulum.py │ │ │ │ ├── mujoco_env.py │ │ │ │ ├── reacher.py │ │ │ │ ├── swimmer.py │ │ │ │ └── walker2d.py │ │ │ ├── parameter_tuning │ │ │ │ ├── __init__.py │ │ │ │ ├── convergence.py │ │ │ │ └── train_deep_cnn.py │ │ │ ├── registration.py │ │ │ ├── safety │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── offswitch_cartpole.py │ │ │ │ ├── offswitch_cartpole_prob.py │ │ │ │ ├── predict_actions_cartpole.py │ │ │ │ ├── predict_obs_cartpole.py │ │ │ │ └── semisuper.py │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ ├── rollout.json │ │ │ │ ├── spec_list.py │ │ │ │ ├── test_determinism.py │ │ │ │ ├── test_envs.py │ │ │ │ ├── test_envs_semantics.py │ │ │ │ ├── test_registration.py │ │ │ │ └── test_safety_envs.py │ │ │ └── toy_text │ │ │ │ ├── __init__.py │ │ │ │ ├── blackjack.py │ │ │ │ ├── discrete.py │ │ │ │ ├── frozen_lake.py │ │ │ │ ├── guessing_game.py │ │ │ │ ├── hotter_colder.py │ │ │ │ ├── nchain.py │ │ │ │ ├── roulette.py │ │ │ │ └── taxi.py │ │ ├── error.py │ │ ├── monitoring │ │ │ ├── __init__.py │ │ │ ├── stats_recorder.py │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ ├── helpers.py │ │ │ │ ├── test_monitor.py │ │ │ │ └── test_video_recorder.py │ │ │ └── video_recorder.py │ │ ├── scoreboard │ │ │ ├── __init__.py │ │ │ ├── api.py │ │ │ ├── client │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── api_requestor.py │ │ │ │ ├── http_client.py │ │ │ │ ├── resource.py │ │ │ │ ├── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── helper.py │ │ │ │ │ ├── test_evaluation.py │ │ │ │ │ └── test_file_upload.py │ │ │ │ └── util.py │ │ │ ├── registration.py │ │ │ ├── scoring.py │ │ │ └── tests │ │ │ │ ├── __init__.py │ │ │ │ ├── test_registration.py │ │ │ │ └── test_scoring.py │ │ ├── spaces │ │ │ ├── __init__.py │ │ │ ├── box.py │ │ │ ├── discrete.py │ │ │ ├── multi_binary.py │ │ │ ├── multi_discrete.py │ │ │ ├── prng.py │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ └── test_spaces.py │ │ │ └── tuple_space.py │ │ ├── tests │ │ │ └── test_core.py │ │ ├── utils │ │ │ ├── __init__.py │ │ │ ├── atomic_write.py │ │ │ ├── closer.py │ │ │ ├── colorize.py │ │ │ ├── ezpickle.py │ │ │ ├── json_utils.py │ │ │ ├── play.py │ │ │ ├── reraise.py │ │ │ ├── reraise_impl_py2.py │ │ │ ├── reraise_impl_py3.py │ │ │ ├── seeding.py │ │ │ └── tests │ │ │ │ ├── test_atexit.py │ │ │ │ └── test_seeding.py │ │ ├── version.py │ │ └── wrappers │ │ │ ├── README.md │ │ │ ├── __init__.py │ │ │ ├── frame_skipping.py │ │ │ ├── monitoring.py │ │ │ ├── tests │ │ │ ├── __init__.py │ │ │ └── test_wrappers.py │ │ │ └── time_limit.py │ ├── hopper_rand_params.py │ ├── mujoco_py │ │ ├── .ruby-version │ │ ├── Gemfile │ │ ├── Gemfile.lock │ │ ├── __init__.py │ │ ├── codegen.rb │ │ ├── config.py │ │ ├── error.py │ │ ├── gen_binding.sh │ │ ├── glfw.py │ │ ├── mjconstants.py │ │ ├── mjcore.py │ │ ├── mjextra.py │ │ ├── mjlib.py │ │ ├── mjtypes.py │ │ ├── mjviewer.py │ │ ├── platname_targdir.py │ │ ├── util.py │ │ └── vendor │ │ │ └── osx │ │ │ └── mujoco │ │ │ └── mujoco.h │ ├── pr2_env_reach.py │ ├── rand_param_envs │ │ ├── __init__.py │ │ ├── base.py │ │ ├── gym │ │ │ ├── __init__.py │ │ │ ├── benchmarks │ │ │ │ ├── __init__.py │ │ │ │ ├── registration.py │ │ │ │ ├── scoring.py │ │ │ │ └── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── test_benchmark.py │ │ │ ├── configuration.py │ │ │ ├── core.py │ │ │ ├── envs │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── algorithmic │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── algorithmic_env.py │ │ │ │ │ ├── copy_.py │ │ │ │ │ ├── duplicated_input.py │ │ │ │ │ ├── repeat_copy.py │ │ │ │ │ ├── reverse.py │ │ │ │ │ ├── reversed_addition.py │ │ │ │ │ └── tests │ │ │ │ │ │ ├── __init__.py │ │ │ │ │ │ └── test_algorithmic.py │ │ │ │ ├── atari │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── atari_env.py │ │ │ │ ├── board_game │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── go.py │ │ │ │ │ └── hex.py │ │ │ │ ├── box2d │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── bipedal_walker.py │ │ │ │ │ ├── car_dynamics.py │ │ │ │ │ ├── car_racing.py │ │ │ │ │ └── lunar_lander.py │ │ │ │ ├── classic_control │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── acrobot.py │ │ │ │ │ ├── assets │ │ │ │ │ │ └── clockwise.png │ │ │ │ │ ├── cartpole.py │ │ │ │ │ ├── continuous_mountain_car.py │ │ │ │ │ ├── mountain_car.py │ │ │ │ │ ├── pendulum.py │ │ │ │ │ └── rendering.py │ │ │ │ ├── debugging │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── one_round_deterministic_reward.py │ │ │ │ │ ├── one_round_nondeterministic_reward.py │ │ │ │ │ ├── two_round_deterministic_reward.py │ │ │ │ │ └── two_round_nondeterministic_reward.py │ │ │ │ ├── mujoco │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── ant.py │ │ │ │ │ ├── assets │ │ │ │ │ │ ├── ant.xml │ │ │ │ │ │ ├── half_cheetah.xml │ │ │ │ │ │ ├── hopper.xml │ │ │ │ │ │ ├── humanoid.xml │ │ │ │ │ │ ├── humanoidstandup.xml │ │ │ │ │ │ ├── inverted_double_pendulum.xml │ │ │ │ │ │ ├── inverted_pendulum.xml │ │ │ │ │ │ ├── meshes │ │ │ │ │ │ │ ├── base.stl │ │ │ │ │ │ │ ├── base_L.stl │ │ │ │ │ │ │ ├── caster.stl │ │ │ │ │ │ │ ├── caster_L.stl │ │ │ │ │ │ │ ├── coffe_mate.stl │ │ │ │ │ │ │ ├── elbow_flex.stl │ │ │ │ │ │ │ ├── finger_tip_l.stl │ │ │ │ │ │ │ ├── finger_tip_pad2_l.stl │ │ │ │ │ │ │ ├── finger_tip_pad2_r.stl │ │ │ │ │ │ │ ├── finger_tip_r.stl │ │ │ │ │ │ │ ├── forearm.stl │ │ │ │ │ │ │ ├── forearm_roll.stl │ │ │ │ │ │ │ ├── forearm_roll_L.stl │ │ │ │ │ │ │ ├── gripper_palm.stl │ │ │ │ │ │ │ ├── head_pan.stl │ │ │ │ │ │ │ ├── head_pan_L.stl │ │ │ │ │ │ │ ├── head_tilt.stl │ │ │ │ │ │ │ ├── head_tilt_L.stl │ │ │ │ │ │ │ ├── hok_tilt.stl │ │ │ │ │ │ │ ├── l_finger.stl │ │ │ │ │ │ │ ├── l_finger_tip.stl │ │ │ │ │ │ │ ├── l_floating.stl │ │ │ │ │ │ │ ├── noddlesoup.stl │ │ │ │ │ │ │ ├── pr2_wheel.stl │ │ │ │ │ │ │ ├── shoulder_lift.stl │ │ │ │ │ │ │ ├── shoulder_pan.stl │ │ │ │ │ │ │ ├── shoulder_yaw.stl │ │ │ │ │ │ │ ├── tilting_hokuyo.stl │ │ │ │ │ │ │ ├── tilting_hokuyo_L.stl │ │ │ │ │ │ │ ├── torso.stl │ │ │ │ │ │ │ ├── torso_lift.stl │ │ │ │ │ │ │ ├── torso_lift_L.stl │ │ │ │ │ │ │ ├── upper_arm.stl │ │ │ │ │ │ │ ├── upper_arm_roll.stl │ │ │ │ │ │ │ ├── upper_arm_roll_L.stl │ │ │ │ │ │ │ ├── upper_finger_l.stl │ │ │ │ │ │ │ ├── upper_finger_r.stl │ │ │ │ │ │ │ ├── wheel.stl │ │ │ │ │ │ │ ├── white_rain.stl │ │ │ │ │ │ │ ├── windex.stl │ │ │ │ │ │ │ ├── wrist_flex.stl │ │ │ │ │ │ │ ├── wrist_roll.stl │ │ │ │ │ │ │ └── wrist_roll_L.stl │ │ │ │ │ │ ├── point.xml │ │ │ │ │ │ ├── pr2.xml │ │ │ │ │ │ ├── reacher.xml │ │ │ │ │ │ ├── swimmer.xml │ │ │ │ │ │ └── walker2d.xml │ │ │ │ │ ├── half_cheetah.py │ │ │ │ │ ├── hopper.py │ │ │ │ │ ├── humanoid.py │ │ │ │ │ ├── humanoidstandup.py │ │ │ │ │ ├── inverted_double_pendulum.py │ │ │ │ │ ├── inverted_pendulum.py │ │ │ │ │ ├── mujoco_env.py │ │ │ │ │ ├── reacher.py │ │ │ │ │ ├── swimmer.py │ │ │ │ │ └── walker2d.py │ │ │ │ ├── parameter_tuning │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── convergence.py │ │ │ │ │ └── train_deep_cnn.py │ │ │ │ ├── registration.py │ │ │ │ ├── safety │ │ │ │ │ ├── README.md │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── offswitch_cartpole.py │ │ │ │ │ ├── offswitch_cartpole_prob.py │ │ │ │ │ ├── predict_actions_cartpole.py │ │ │ │ │ ├── predict_obs_cartpole.py │ │ │ │ │ └── semisuper.py │ │ │ │ ├── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── rollout.json │ │ │ │ │ ├── spec_list.py │ │ │ │ │ ├── test_determinism.py │ │ │ │ │ ├── test_envs.py │ │ │ │ │ ├── test_envs_semantics.py │ │ │ │ │ ├── test_registration.py │ │ │ │ │ └── test_safety_envs.py │ │ │ │ └── toy_text │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── blackjack.py │ │ │ │ │ ├── discrete.py │ │ │ │ │ ├── frozen_lake.py │ │ │ │ │ ├── guessing_game.py │ │ │ │ │ ├── hotter_colder.py │ │ │ │ │ ├── nchain.py │ │ │ │ │ ├── roulette.py │ │ │ │ │ └── taxi.py │ │ │ ├── error.py │ │ │ ├── monitoring │ │ │ │ ├── __init__.py │ │ │ │ ├── stats_recorder.py │ │ │ │ ├── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── helpers.py │ │ │ │ │ ├── test_monitor.py │ │ │ │ │ └── test_video_recorder.py │ │ │ │ └── video_recorder.py │ │ │ ├── scoreboard │ │ │ │ ├── __init__.py │ │ │ │ ├── api.py │ │ │ │ ├── client │ │ │ │ │ ├── README.md │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── api_requestor.py │ │ │ │ │ ├── http_client.py │ │ │ │ │ ├── resource.py │ │ │ │ │ ├── tests │ │ │ │ │ │ ├── __init__.py │ │ │ │ │ │ ├── helper.py │ │ │ │ │ │ ├── test_evaluation.py │ │ │ │ │ │ └── test_file_upload.py │ │ │ │ │ └── util.py │ │ │ │ ├── registration.py │ │ │ │ ├── scoring.py │ │ │ │ └── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── test_registration.py │ │ │ │ │ └── test_scoring.py │ │ │ ├── spaces │ │ │ │ ├── __init__.py │ │ │ │ ├── box.py │ │ │ │ ├── discrete.py │ │ │ │ ├── multi_binary.py │ │ │ │ ├── multi_discrete.py │ │ │ │ ├── prng.py │ │ │ │ ├── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── test_spaces.py │ │ │ │ └── tuple_space.py │ │ │ ├── tests │ │ │ │ └── test_core.py │ │ │ ├── utils │ │ │ │ ├── __init__.py │ │ │ │ ├── atomic_write.py │ │ │ │ ├── closer.py │ │ │ │ ├── colorize.py │ │ │ │ ├── ezpickle.py │ │ │ │ ├── json_utils.py │ │ │ │ ├── play.py │ │ │ │ ├── reraise.py │ │ │ │ ├── reraise_impl_py2.py │ │ │ │ ├── reraise_impl_py3.py │ │ │ │ ├── seeding.py │ │ │ │ └── tests │ │ │ │ │ ├── test_atexit.py │ │ │ │ │ └── test_seeding.py │ │ │ ├── version.py │ │ │ └── wrappers │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── frame_skipping.py │ │ │ │ ├── monitoring.py │ │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ └── test_wrappers.py │ │ │ │ └── time_limit.py │ │ ├── hopper_rand_params.py │ │ ├── mujoco_py │ │ │ ├── .ruby-version │ │ │ ├── Gemfile │ │ │ ├── Gemfile.lock │ │ │ ├── __init__.py │ │ │ ├── codegen.rb │ │ │ ├── config.py │ │ │ ├── error.py │ │ │ ├── gen_binding.sh │ │ │ ├── glfw.py │ │ │ ├── mjconstants.py │ │ │ ├── mjcore.py │ │ │ ├── mjextra.py │ │ │ ├── mjlib.py │ │ │ ├── mjtypes.py │ │ │ ├── mjviewer.py │ │ │ ├── platname_targdir.py │ │ │ ├── util.py │ │ │ └── vendor │ │ │ │ └── osx │ │ │ │ └── mujoco │ │ │ │ └── mujoco.h │ │ ├── pr2_env_reach.py │ │ └── walker2d_rand_params.py │ ├── setup.py │ └── walker2d_rand_params.py ├── replay_buffer.py ├── rlkit │ ├── __init__.py │ ├── core │ │ ├── __init__.py │ │ ├── eval_util.py │ │ ├── logger.py │ │ ├── rl_algorithm.py │ │ ├── serializable.py │ │ ├── tabulate.py │ │ └── util.py │ ├── data_management │ │ ├── __init__.py │ │ ├── env_replay_buffer.py │ │ ├── normalizer.py │ │ ├── path_builder.py │ │ ├── replay_buffer.py │ │ └── simple_replay_buffer.py │ ├── envs │ │ ├── __init__.py │ │ ├── ant.py │ │ ├── ant_dir.py │ │ ├── ant_goal.py │ │ ├── ant_multitask_base.py │ │ ├── assets │ │ │ ├── ant.xml │ │ │ └── low_gear_ratio_ant.xml │ │ ├── half_cheetah.py │ │ ├── half_cheetah_dir.py │ │ ├── half_cheetah_vel.py │ │ ├── humanoid_dir.py │ │ ├── mujoco_env.py │ │ ├── point_robot.py │ │ ├── walker_rand_params_wrapper.py │ │ └── wrappers.py │ ├── launchers │ │ ├── __init__.py │ │ ├── config.py │ │ └── launcher_util.py │ ├── policies │ │ ├── __init__.py │ │ ├── argmax.py │ │ ├── base.py │ │ └── simple.py │ ├── samplers │ │ ├── __init__.py │ │ ├── in_place.py │ │ └── util.py │ └── torch │ │ ├── __init__.py │ │ ├── core.py │ │ ├── data_management │ │ ├── __init__.py │ │ └── normalizer.py │ │ ├── distributions.py │ │ ├── modules.py │ │ ├── networks.py │ │ ├── pytorch_util.py │ │ └── sac │ │ ├── __init__.py │ │ ├── agent.py │ │ ├── policies.py │ │ └── sac.py └── utils │ ├── core.py │ ├── env_utils.py │ ├── eval_util.py │ ├── logging.py │ ├── pythonplusplus.py │ ├── pytorch_util.py │ ├── rng.py │ └── tabulate.py ├── contextual_bcq ├── .gitignore ├── BCQ.py ├── BCQ_plus_encoder.py ├── compare.py ├── configs │ ├── ant-dir.py │ ├── ant-goal.py │ ├── halfcheetah-vel.py │ ├── humanoid-ndone-goal.py │ ├── humanoid-openai-dir.py │ ├── maze-medium.py │ ├── maze-umaze.py │ └── walker-param.py ├── env │ ├── ant_dir.py │ ├── ant_goal.py │ ├── half_cheetah.py │ ├── hopper.py │ ├── humanoid_dir.py │ ├── humanoid_dir_openai.py │ ├── humanoid_goal_ndone.py │ ├── maze2d.py │ └── walker_param.py ├── env_utils.py ├── generate_goals.py ├── generate_params.py ├── goals │ ├── ant-dir-normal-goals.pkl │ ├── ant-goal-normal-goals.pkl │ ├── halfcheetah-vel-hard-goals.pkl │ ├── humanoid-dir-normal-goals.pkl │ ├── humanoid-goal-normal-goals.pkl │ ├── humanoid-ndone-goal-normal-goals.pkl │ ├── humanoid-openai-dir-normal-goals.pkl │ ├── maze-medium-normal-goals.pkl │ ├── maze-umaze-normal-goals.pkl │ └── walker-param-normal-goals.pkl ├── main.py ├── networks.py ├── path_collector.py ├── pointmaze │ ├── __init__.py │ ├── dynamic_mjc.py │ ├── gridcraft │ │ ├── __init__.py │ │ ├── grid_env.py │ │ ├── grid_spec.py │ │ ├── utils.py │ │ └── wrappers.py │ ├── maze_model.py │ └── q_iteration.py ├── prob_context_encoder.py ├── rand_param_envs │ ├── .gitignore │ ├── README.md │ ├── __init__.py │ ├── base.py │ ├── gym │ │ ├── __init__.py │ │ ├── benchmarks │ │ │ ├── __init__.py │ │ │ ├── registration.py │ │ │ ├── scoring.py │ │ │ └── tests │ │ │ │ ├── __init__.py │ │ │ │ └── test_benchmark.py │ │ ├── configuration.py │ │ ├── core.py │ │ ├── envs │ │ │ ├── README.md │ │ │ ├── __init__.py │ │ │ ├── algorithmic │ │ │ │ ├── __init__.py │ │ │ │ ├── algorithmic_env.py │ │ │ │ ├── copy_.py │ │ │ │ ├── duplicated_input.py │ │ │ │ ├── repeat_copy.py │ │ │ │ ├── reverse.py │ │ │ │ ├── reversed_addition.py │ │ │ │ └── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── test_algorithmic.py │ │ │ ├── atari │ │ │ │ ├── __init__.py │ │ │ │ └── atari_env.py │ │ │ ├── board_game │ │ │ │ ├── __init__.py │ │ │ │ ├── go.py │ │ │ │ └── hex.py │ │ │ ├── box2d │ │ │ │ ├── __init__.py │ │ │ │ ├── bipedal_walker.py │ │ │ │ ├── car_dynamics.py │ │ │ │ ├── car_racing.py │ │ │ │ └── lunar_lander.py │ │ │ ├── classic_control │ │ │ │ ├── __init__.py │ │ │ │ ├── acrobot.py │ │ │ │ ├── assets │ │ │ │ │ └── clockwise.png │ │ │ │ ├── cartpole.py │ │ │ │ ├── continuous_mountain_car.py │ │ │ │ ├── mountain_car.py │ │ │ │ ├── pendulum.py │ │ │ │ └── rendering.py │ │ │ ├── debugging │ │ │ │ ├── __init__.py │ │ │ │ ├── one_round_deterministic_reward.py │ │ │ │ ├── one_round_nondeterministic_reward.py │ │ │ │ ├── two_round_deterministic_reward.py │ │ │ │ └── two_round_nondeterministic_reward.py │ │ │ ├── mujoco │ │ │ │ ├── __init__.py │ │ │ │ ├── ant.py │ │ │ │ ├── assets │ │ │ │ │ ├── ant.xml │ │ │ │ │ ├── half_cheetah.xml │ │ │ │ │ ├── hopper.xml │ │ │ │ │ ├── humanoid.xml │ │ │ │ │ ├── humanoidstandup.xml │ │ │ │ │ ├── inverted_double_pendulum.xml │ │ │ │ │ ├── inverted_pendulum.xml │ │ │ │ │ ├── meshes │ │ │ │ │ │ ├── base.stl │ │ │ │ │ │ ├── base_L.stl │ │ │ │ │ │ ├── caster.stl │ │ │ │ │ │ ├── caster_L.stl │ │ │ │ │ │ ├── coffe_mate.stl │ │ │ │ │ │ ├── elbow_flex.stl │ │ │ │ │ │ ├── finger_tip_l.stl │ │ │ │ │ │ ├── finger_tip_pad2_l.stl │ │ │ │ │ │ ├── finger_tip_pad2_r.stl │ │ │ │ │ │ ├── finger_tip_r.stl │ │ │ │ │ │ ├── forearm.stl │ │ │ │ │ │ ├── forearm_roll.stl │ │ │ │ │ │ ├── forearm_roll_L.stl │ │ │ │ │ │ ├── gripper_palm.stl │ │ │ │ │ │ ├── head_pan.stl │ │ │ │ │ │ ├── head_pan_L.stl │ │ │ │ │ │ ├── head_tilt.stl │ │ │ │ │ │ ├── head_tilt_L.stl │ │ │ │ │ │ ├── hok_tilt.stl │ │ │ │ │ │ ├── l_finger.stl │ │ │ │ │ │ ├── l_finger_tip.stl │ │ │ │ │ │ ├── l_floating.stl │ │ │ │ │ │ ├── noddlesoup.stl │ │ │ │ │ │ ├── pr2_wheel.stl │ │ │ │ │ │ ├── shoulder_lift.stl │ │ │ │ │ │ ├── shoulder_pan.stl │ │ │ │ │ │ ├── shoulder_yaw.stl │ │ │ │ │ │ ├── tilting_hokuyo.stl │ │ │ │ │ │ ├── tilting_hokuyo_L.stl │ │ │ │ │ │ ├── torso.stl │ │ │ │ │ │ ├── torso_lift.stl │ │ │ │ │ │ ├── torso_lift_L.stl │ │ │ │ │ │ ├── upper_arm.stl │ │ │ │ │ │ ├── upper_arm_roll.stl │ │ │ │ │ │ ├── upper_arm_roll_L.stl │ │ │ │ │ │ ├── upper_finger_l.stl │ │ │ │ │ │ ├── upper_finger_r.stl │ │ │ │ │ │ ├── wheel.stl │ │ │ │ │ │ ├── white_rain.stl │ │ │ │ │ │ ├── windex.stl │ │ │ │ │ │ ├── wrist_flex.stl │ │ │ │ │ │ ├── wrist_roll.stl │ │ │ │ │ │ └── wrist_roll_L.stl │ │ │ │ │ ├── point.xml │ │ │ │ │ ├── pr2.xml │ │ │ │ │ ├── reacher.xml │ │ │ │ │ ├── swimmer.xml │ │ │ │ │ └── walker2d.xml │ │ │ │ ├── half_cheetah.py │ │ │ │ ├── hopper.py │ │ │ │ ├── humanoid.py │ │ │ │ ├── humanoidstandup.py │ │ │ │ ├── inverted_double_pendulum.py │ │ │ │ ├── inverted_pendulum.py │ │ │ │ ├── mujoco_env.py │ │ │ │ ├── reacher.py │ │ │ │ ├── swimmer.py │ │ │ │ └── walker2d.py │ │ │ ├── parameter_tuning │ │ │ │ ├── __init__.py │ │ │ │ ├── convergence.py │ │ │ │ └── train_deep_cnn.py │ │ │ ├── registration.py │ │ │ ├── safety │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── offswitch_cartpole.py │ │ │ │ ├── offswitch_cartpole_prob.py │ │ │ │ ├── predict_actions_cartpole.py │ │ │ │ ├── predict_obs_cartpole.py │ │ │ │ └── semisuper.py │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ ├── rollout.json │ │ │ │ ├── spec_list.py │ │ │ │ ├── test_determinism.py │ │ │ │ ├── test_envs.py │ │ │ │ ├── test_envs_semantics.py │ │ │ │ ├── test_registration.py │ │ │ │ └── test_safety_envs.py │ │ │ └── toy_text │ │ │ │ ├── __init__.py │ │ │ │ ├── blackjack.py │ │ │ │ ├── discrete.py │ │ │ │ ├── frozen_lake.py │ │ │ │ ├── guessing_game.py │ │ │ │ ├── hotter_colder.py │ │ │ │ ├── nchain.py │ │ │ │ ├── roulette.py │ │ │ │ └── taxi.py │ │ ├── error.py │ │ ├── monitoring │ │ │ ├── __init__.py │ │ │ ├── stats_recorder.py │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ ├── helpers.py │ │ │ │ ├── test_monitor.py │ │ │ │ └── test_video_recorder.py │ │ │ └── video_recorder.py │ │ ├── scoreboard │ │ │ ├── __init__.py │ │ │ ├── api.py │ │ │ ├── client │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── api_requestor.py │ │ │ │ ├── http_client.py │ │ │ │ ├── resource.py │ │ │ │ ├── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── helper.py │ │ │ │ │ ├── test_evaluation.py │ │ │ │ │ └── test_file_upload.py │ │ │ │ └── util.py │ │ │ ├── registration.py │ │ │ ├── scoring.py │ │ │ └── tests │ │ │ │ ├── __init__.py │ │ │ │ ├── test_registration.py │ │ │ │ └── test_scoring.py │ │ ├── spaces │ │ │ ├── __init__.py │ │ │ ├── box.py │ │ │ ├── discrete.py │ │ │ ├── multi_binary.py │ │ │ ├── multi_discrete.py │ │ │ ├── prng.py │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ └── test_spaces.py │ │ │ └── tuple_space.py │ │ ├── tests │ │ │ └── test_core.py │ │ ├── utils │ │ │ ├── __init__.py │ │ │ ├── atomic_write.py │ │ │ ├── closer.py │ │ │ ├── colorize.py │ │ │ ├── ezpickle.py │ │ │ ├── json_utils.py │ │ │ ├── play.py │ │ │ ├── reraise.py │ │ │ ├── reraise_impl_py2.py │ │ │ ├── reraise_impl_py3.py │ │ │ ├── seeding.py │ │ │ └── tests │ │ │ │ ├── test_atexit.py │ │ │ │ └── test_seeding.py │ │ ├── version.py │ │ └── wrappers │ │ │ ├── README.md │ │ │ ├── __init__.py │ │ │ ├── frame_skipping.py │ │ │ ├── monitoring.py │ │ │ ├── tests │ │ │ ├── __init__.py │ │ │ └── test_wrappers.py │ │ │ └── time_limit.py │ ├── hopper_rand_params.py │ ├── mujoco_py │ │ ├── .ruby-version │ │ ├── Gemfile │ │ ├── Gemfile.lock │ │ ├── __init__.py │ │ ├── codegen.rb │ │ ├── config.py │ │ ├── error.py │ │ ├── gen_binding.sh │ │ ├── glfw.py │ │ ├── mjconstants.py │ │ ├── mjcore.py │ │ ├── mjextra.py │ │ ├── mjlib.py │ │ ├── mjtypes.py │ │ ├── mjviewer.py │ │ ├── platname_targdir.py │ │ ├── util.py │ │ └── vendor │ │ │ └── osx │ │ │ └── mujoco │ │ │ └── mujoco.h │ ├── pr2_env_reach.py │ ├── rand_param_envs │ │ ├── __init__.py │ │ ├── base.py │ │ ├── gym │ │ │ ├── __init__.py │ │ │ ├── benchmarks │ │ │ │ ├── __init__.py │ │ │ │ ├── registration.py │ │ │ │ ├── scoring.py │ │ │ │ └── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── test_benchmark.py │ │ │ ├── configuration.py │ │ │ ├── core.py │ │ │ ├── envs │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── algorithmic │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── algorithmic_env.py │ │ │ │ │ ├── copy_.py │ │ │ │ │ ├── duplicated_input.py │ │ │ │ │ ├── repeat_copy.py │ │ │ │ │ ├── reverse.py │ │ │ │ │ ├── reversed_addition.py │ │ │ │ │ └── tests │ │ │ │ │ │ ├── __init__.py │ │ │ │ │ │ └── test_algorithmic.py │ │ │ │ ├── atari │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── atari_env.py │ │ │ │ ├── board_game │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── go.py │ │ │ │ │ └── hex.py │ │ │ │ ├── box2d │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── bipedal_walker.py │ │ │ │ │ ├── car_dynamics.py │ │ │ │ │ ├── car_racing.py │ │ │ │ │ └── lunar_lander.py │ │ │ │ ├── classic_control │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── acrobot.py │ │ │ │ │ ├── assets │ │ │ │ │ │ └── clockwise.png │ │ │ │ │ ├── cartpole.py │ │ │ │ │ ├── continuous_mountain_car.py │ │ │ │ │ ├── mountain_car.py │ │ │ │ │ ├── pendulum.py │ │ │ │ │ └── rendering.py │ │ │ │ ├── debugging │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── one_round_deterministic_reward.py │ │ │ │ │ ├── one_round_nondeterministic_reward.py │ │ │ │ │ ├── two_round_deterministic_reward.py │ │ │ │ │ └── two_round_nondeterministic_reward.py │ │ │ │ ├── mujoco │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── ant.py │ │ │ │ │ ├── assets │ │ │ │ │ │ ├── ant.xml │ │ │ │ │ │ ├── half_cheetah.xml │ │ │ │ │ │ ├── hopper.xml │ │ │ │ │ │ ├── humanoid.xml │ │ │ │ │ │ ├── humanoidstandup.xml │ │ │ │ │ │ ├── inverted_double_pendulum.xml │ │ │ │ │ │ ├── inverted_pendulum.xml │ │ │ │ │ │ ├── meshes │ │ │ │ │ │ │ ├── base.stl │ │ │ │ │ │ │ ├── base_L.stl │ │ │ │ │ │ │ ├── caster.stl │ │ │ │ │ │ │ ├── caster_L.stl │ │ │ │ │ │ │ ├── coffe_mate.stl │ │ │ │ │ │ │ ├── elbow_flex.stl │ │ │ │ │ │ │ ├── finger_tip_l.stl │ │ │ │ │ │ │ ├── finger_tip_pad2_l.stl │ │ │ │ │ │ │ ├── finger_tip_pad2_r.stl │ │ │ │ │ │ │ ├── finger_tip_r.stl │ │ │ │ │ │ │ ├── forearm.stl │ │ │ │ │ │ │ ├── forearm_roll.stl │ │ │ │ │ │ │ ├── forearm_roll_L.stl │ │ │ │ │ │ │ ├── gripper_palm.stl │ │ │ │ │ │ │ ├── head_pan.stl │ │ │ │ │ │ │ ├── head_pan_L.stl │ │ │ │ │ │ │ ├── head_tilt.stl │ │ │ │ │ │ │ ├── head_tilt_L.stl │ │ │ │ │ │ │ ├── hok_tilt.stl │ │ │ │ │ │ │ ├── l_finger.stl │ │ │ │ │ │ │ ├── l_finger_tip.stl │ │ │ │ │ │ │ ├── l_floating.stl │ │ │ │ │ │ │ ├── noddlesoup.stl │ │ │ │ │ │ │ ├── pr2_wheel.stl │ │ │ │ │ │ │ ├── shoulder_lift.stl │ │ │ │ │ │ │ ├── shoulder_pan.stl │ │ │ │ │ │ │ ├── shoulder_yaw.stl │ │ │ │ │ │ │ ├── tilting_hokuyo.stl │ │ │ │ │ │ │ ├── tilting_hokuyo_L.stl │ │ │ │ │ │ │ ├── torso.stl │ │ │ │ │ │ │ ├── torso_lift.stl │ │ │ │ │ │ │ ├── torso_lift_L.stl │ │ │ │ │ │ │ ├── upper_arm.stl │ │ │ │ │ │ │ ├── upper_arm_roll.stl │ │ │ │ │ │ │ ├── upper_arm_roll_L.stl │ │ │ │ │ │ │ ├── upper_finger_l.stl │ │ │ │ │ │ │ ├── upper_finger_r.stl │ │ │ │ │ │ │ ├── wheel.stl │ │ │ │ │ │ │ ├── white_rain.stl │ │ │ │ │ │ │ ├── windex.stl │ │ │ │ │ │ │ ├── wrist_flex.stl │ │ │ │ │ │ │ ├── wrist_roll.stl │ │ │ │ │ │ │ └── wrist_roll_L.stl │ │ │ │ │ │ ├── point.xml │ │ │ │ │ │ ├── pr2.xml │ │ │ │ │ │ ├── reacher.xml │ │ │ │ │ │ ├── swimmer.xml │ │ │ │ │ │ └── walker2d.xml │ │ │ │ │ ├── half_cheetah.py │ │ │ │ │ ├── hopper.py │ │ │ │ │ ├── humanoid.py │ │ │ │ │ ├── humanoidstandup.py │ │ │ │ │ ├── inverted_double_pendulum.py │ │ │ │ │ ├── inverted_pendulum.py │ │ │ │ │ ├── mujoco_env.py │ │ │ │ │ ├── reacher.py │ │ │ │ │ ├── swimmer.py │ │ │ │ │ └── walker2d.py │ │ │ │ ├── parameter_tuning │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── convergence.py │ │ │ │ │ └── train_deep_cnn.py │ │ │ │ ├── registration.py │ │ │ │ ├── safety │ │ │ │ │ ├── README.md │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── offswitch_cartpole.py │ │ │ │ │ ├── offswitch_cartpole_prob.py │ │ │ │ │ ├── predict_actions_cartpole.py │ │ │ │ │ ├── predict_obs_cartpole.py │ │ │ │ │ └── semisuper.py │ │ │ │ ├── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── rollout.json │ │ │ │ │ ├── spec_list.py │ │ │ │ │ ├── test_determinism.py │ │ │ │ │ ├── test_envs.py │ │ │ │ │ ├── test_envs_semantics.py │ │ │ │ │ ├── test_registration.py │ │ │ │ │ └── test_safety_envs.py │ │ │ │ └── toy_text │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── blackjack.py │ │ │ │ │ ├── discrete.py │ │ │ │ │ ├── frozen_lake.py │ │ │ │ │ ├── guessing_game.py │ │ │ │ │ ├── hotter_colder.py │ │ │ │ │ ├── nchain.py │ │ │ │ │ ├── roulette.py │ │ │ │ │ └── taxi.py │ │ │ ├── error.py │ │ │ ├── monitoring │ │ │ │ ├── __init__.py │ │ │ │ ├── stats_recorder.py │ │ │ │ ├── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── helpers.py │ │ │ │ │ ├── test_monitor.py │ │ │ │ │ └── test_video_recorder.py │ │ │ │ └── video_recorder.py │ │ │ ├── scoreboard │ │ │ │ ├── __init__.py │ │ │ │ ├── api.py │ │ │ │ ├── client │ │ │ │ │ ├── README.md │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── api_requestor.py │ │ │ │ │ ├── http_client.py │ │ │ │ │ ├── resource.py │ │ │ │ │ ├── tests │ │ │ │ │ │ ├── __init__.py │ │ │ │ │ │ ├── helper.py │ │ │ │ │ │ ├── test_evaluation.py │ │ │ │ │ │ └── test_file_upload.py │ │ │ │ │ └── util.py │ │ │ │ ├── registration.py │ │ │ │ ├── scoring.py │ │ │ │ └── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── test_registration.py │ │ │ │ │ └── test_scoring.py │ │ │ ├── spaces │ │ │ │ ├── __init__.py │ │ │ │ ├── box.py │ │ │ │ ├── discrete.py │ │ │ │ ├── multi_binary.py │ │ │ │ ├── multi_discrete.py │ │ │ │ ├── prng.py │ │ │ │ ├── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── test_spaces.py │ │ │ │ └── tuple_space.py │ │ │ ├── tests │ │ │ │ └── test_core.py │ │ │ ├── utils │ │ │ │ ├── __init__.py │ │ │ │ ├── atomic_write.py │ │ │ │ ├── closer.py │ │ │ │ ├── colorize.py │ │ │ │ ├── ezpickle.py │ │ │ │ ├── json_utils.py │ │ │ │ ├── play.py │ │ │ │ ├── reraise.py │ │ │ │ ├── reraise_impl_py2.py │ │ │ │ ├── reraise_impl_py3.py │ │ │ │ ├── seeding.py │ │ │ │ └── tests │ │ │ │ │ ├── test_atexit.py │ │ │ │ │ └── test_seeding.py │ │ │ ├── version.py │ │ │ └── wrappers │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── frame_skipping.py │ │ │ │ ├── monitoring.py │ │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ └── test_wrappers.py │ │ │ │ └── time_limit.py │ │ ├── hopper_rand_params.py │ │ ├── mujoco_py │ │ │ ├── .ruby-version │ │ │ ├── Gemfile │ │ │ ├── Gemfile.lock │ │ │ ├── __init__.py │ │ │ ├── codegen.rb │ │ │ ├── config.py │ │ │ ├── error.py │ │ │ ├── gen_binding.sh │ │ │ ├── glfw.py │ │ │ ├── mjconstants.py │ │ │ ├── mjcore.py │ │ │ ├── mjextra.py │ │ │ ├── mjlib.py │ │ │ ├── mjtypes.py │ │ │ ├── mjviewer.py │ │ │ ├── platname_targdir.py │ │ │ ├── util.py │ │ │ └── vendor │ │ │ │ └── osx │ │ │ │ └── mujoco │ │ │ │ └── mujoco.h │ │ ├── pr2_env_reach.py │ │ └── walker2d_rand_params.py │ ├── setup.py │ └── walker2d_rand_params.py ├── replay_buffer.py ├── rl_alogrithm.py ├── utils │ ├── core.py │ ├── env_utils.py │ ├── eval_util.py │ ├── logging.py │ ├── pythonplusplus.py │ ├── pytorch_util.py │ ├── rng.py │ └── tabulate.py └── utils_replay_buffer.py ├── data_and_trained_models └── test.txt ├── environment ├── environment.yml └── install_mujoco.py ├── full_model ├── .gitignore ├── BCQ.py ├── configs │ ├── ant-dir-triplet-margin-0p0.py │ ├── ant-dir-triplet-margin-2p0.py │ ├── ant-dir-triplet-margin-4p0.py │ ├── ant-dir-triplet-margin-8p0.py │ ├── ant-dir.py │ ├── ant-goal-triplet-margin-0p0.py │ ├── ant-goal-triplet-margin-2p0.py │ ├── ant-goal-triplet-margin-4p0.py │ ├── ant-goal-triplet-margin-8p0.py │ ├── ant-goal.py │ ├── halfcheetah-vel-triplet-margin-0p0.py │ ├── halfcheetah-vel-triplet-margin-2p0.py │ ├── halfcheetah-vel-triplet-margin-4p0.py │ ├── halfcheetah-vel-triplet-margin-8p0.py │ ├── halfcheetah-vel.py │ ├── humanoid-ndone-goal-triplet-margin-0p0.py │ ├── humanoid-ndone-goal-triplet-margin-2p0.py │ ├── humanoid-ndone-goal-triplet-margin-4p0.py │ ├── humanoid-ndone-goal-triplet-margin-8p0.py │ ├── humanoid-ndone-goal.py │ ├── humanoid-openai-dir-triplet-margin-0p0.py │ ├── humanoid-openai-dir-triplet-margin-2p0.py │ ├── humanoid-openai-dir-triplet-margin-4p0.py │ ├── humanoid-openai-dir-triplet-margin-8p0.py │ ├── humanoid-openai-dir.py │ ├── maze-medium.py │ └── maze-umaze.py ├── ensemble.py ├── env │ ├── ant_dir.py │ ├── ant_goal.py │ ├── half_cheetah.py │ ├── hopper.py │ ├── humanoid_dir.py │ ├── humanoid_dir_openai.py │ ├── humanoid_goal_ndone.py │ ├── maze2d.py │ └── walker_param.py ├── generate_goals.py ├── goals │ ├── ant-dir-normal-goals.pkl │ ├── ant-goal-normal-goals.pkl │ ├── halfcheetah-vel-hard-goals.pkl │ ├── humanoid-dir-normal-goals.pkl │ ├── humanoid-goal-normal-goals.pkl │ ├── humanoid-ndone-goal-normal-goals.pkl │ ├── humanoid-openai-dir-normal-goals.pkl │ ├── maze-medium-normal-goals.pkl │ ├── maze-umaze-normal-goals.pkl │ └── walker-param-normal-goals.pkl ├── main.py ├── networks.py ├── path_collector.py ├── pointmaze │ ├── __init__.py │ ├── dynamic_mjc.py │ ├── gridcraft │ │ ├── __init__.py │ │ ├── grid_env.py │ │ ├── grid_spec.py │ │ ├── utils.py │ │ └── wrappers.py │ ├── maze_model.py │ └── q_iteration.py ├── prob_context_encoder.py ├── rand_param_envs │ ├── .gitignore │ ├── README.md │ ├── __init__.py │ ├── base.py │ ├── gym │ │ ├── __init__.py │ │ ├── benchmarks │ │ │ ├── __init__.py │ │ │ ├── registration.py │ │ │ ├── scoring.py │ │ │ └── tests │ │ │ │ ├── __init__.py │ │ │ │ └── test_benchmark.py │ │ ├── configuration.py │ │ ├── core.py │ │ ├── envs │ │ │ ├── README.md │ │ │ ├── __init__.py │ │ │ ├── algorithmic │ │ │ │ ├── __init__.py │ │ │ │ ├── algorithmic_env.py │ │ │ │ ├── copy_.py │ │ │ │ ├── duplicated_input.py │ │ │ │ ├── repeat_copy.py │ │ │ │ ├── reverse.py │ │ │ │ ├── reversed_addition.py │ │ │ │ └── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── test_algorithmic.py │ │ │ ├── atari │ │ │ │ ├── __init__.py │ │ │ │ └── atari_env.py │ │ │ ├── board_game │ │ │ │ ├── __init__.py │ │ │ │ ├── go.py │ │ │ │ └── hex.py │ │ │ ├── box2d │ │ │ │ ├── __init__.py │ │ │ │ ├── bipedal_walker.py │ │ │ │ ├── car_dynamics.py │ │ │ │ ├── car_racing.py │ │ │ │ └── lunar_lander.py │ │ │ ├── classic_control │ │ │ │ ├── __init__.py │ │ │ │ ├── acrobot.py │ │ │ │ ├── assets │ │ │ │ │ └── clockwise.png │ │ │ │ ├── cartpole.py │ │ │ │ ├── continuous_mountain_car.py │ │ │ │ ├── mountain_car.py │ │ │ │ ├── pendulum.py │ │ │ │ └── rendering.py │ │ │ ├── debugging │ │ │ │ ├── __init__.py │ │ │ │ ├── one_round_deterministic_reward.py │ │ │ │ ├── one_round_nondeterministic_reward.py │ │ │ │ ├── two_round_deterministic_reward.py │ │ │ │ └── two_round_nondeterministic_reward.py │ │ │ ├── mujoco │ │ │ │ ├── __init__.py │ │ │ │ ├── ant.py │ │ │ │ ├── assets │ │ │ │ │ ├── ant.xml │ │ │ │ │ ├── half_cheetah.xml │ │ │ │ │ ├── hopper.xml │ │ │ │ │ ├── humanoid.xml │ │ │ │ │ ├── humanoidstandup.xml │ │ │ │ │ ├── inverted_double_pendulum.xml │ │ │ │ │ ├── inverted_pendulum.xml │ │ │ │ │ ├── meshes │ │ │ │ │ │ ├── base.stl │ │ │ │ │ │ ├── base_L.stl │ │ │ │ │ │ ├── caster.stl │ │ │ │ │ │ ├── caster_L.stl │ │ │ │ │ │ ├── coffe_mate.stl │ │ │ │ │ │ ├── elbow_flex.stl │ │ │ │ │ │ ├── finger_tip_l.stl │ │ │ │ │ │ ├── finger_tip_pad2_l.stl │ │ │ │ │ │ ├── finger_tip_pad2_r.stl │ │ │ │ │ │ ├── finger_tip_r.stl │ │ │ │ │ │ ├── forearm.stl │ │ │ │ │ │ ├── forearm_roll.stl │ │ │ │ │ │ ├── forearm_roll_L.stl │ │ │ │ │ │ ├── gripper_palm.stl │ │ │ │ │ │ ├── head_pan.stl │ │ │ │ │ │ ├── head_pan_L.stl │ │ │ │ │ │ ├── head_tilt.stl │ │ │ │ │ │ ├── head_tilt_L.stl │ │ │ │ │ │ ├── hok_tilt.stl │ │ │ │ │ │ ├── l_finger.stl │ │ │ │ │ │ ├── l_finger_tip.stl │ │ │ │ │ │ ├── l_floating.stl │ │ │ │ │ │ ├── noddlesoup.stl │ │ │ │ │ │ ├── pr2_wheel.stl │ │ │ │ │ │ ├── shoulder_lift.stl │ │ │ │ │ │ ├── shoulder_pan.stl │ │ │ │ │ │ ├── shoulder_yaw.stl │ │ │ │ │ │ ├── tilting_hokuyo.stl │ │ │ │ │ │ ├── tilting_hokuyo_L.stl │ │ │ │ │ │ ├── torso.stl │ │ │ │ │ │ ├── torso_lift.stl │ │ │ │ │ │ ├── torso_lift_L.stl │ │ │ │ │ │ ├── upper_arm.stl │ │ │ │ │ │ ├── upper_arm_roll.stl │ │ │ │ │ │ ├── upper_arm_roll_L.stl │ │ │ │ │ │ ├── upper_finger_l.stl │ │ │ │ │ │ ├── upper_finger_r.stl │ │ │ │ │ │ ├── wheel.stl │ │ │ │ │ │ ├── white_rain.stl │ │ │ │ │ │ ├── windex.stl │ │ │ │ │ │ ├── wrist_flex.stl │ │ │ │ │ │ ├── wrist_roll.stl │ │ │ │ │ │ └── wrist_roll_L.stl │ │ │ │ │ ├── point.xml │ │ │ │ │ ├── pr2.xml │ │ │ │ │ ├── reacher.xml │ │ │ │ │ ├── swimmer.xml │ │ │ │ │ └── walker2d.xml │ │ │ │ ├── half_cheetah.py │ │ │ │ ├── hopper.py │ │ │ │ ├── humanoid.py │ │ │ │ ├── humanoidstandup.py │ │ │ │ ├── inverted_double_pendulum.py │ │ │ │ ├── inverted_pendulum.py │ │ │ │ ├── mujoco_env.py │ │ │ │ ├── reacher.py │ │ │ │ ├── swimmer.py │ │ │ │ └── walker2d.py │ │ │ ├── parameter_tuning │ │ │ │ ├── __init__.py │ │ │ │ ├── convergence.py │ │ │ │ └── train_deep_cnn.py │ │ │ ├── registration.py │ │ │ ├── safety │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── offswitch_cartpole.py │ │ │ │ ├── offswitch_cartpole_prob.py │ │ │ │ ├── predict_actions_cartpole.py │ │ │ │ ├── predict_obs_cartpole.py │ │ │ │ └── semisuper.py │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ ├── rollout.json │ │ │ │ ├── spec_list.py │ │ │ │ ├── test_determinism.py │ │ │ │ ├── test_envs.py │ │ │ │ ├── test_envs_semantics.py │ │ │ │ ├── test_registration.py │ │ │ │ └── test_safety_envs.py │ │ │ └── toy_text │ │ │ │ ├── __init__.py │ │ │ │ ├── blackjack.py │ │ │ │ ├── discrete.py │ │ │ │ ├── frozen_lake.py │ │ │ │ ├── guessing_game.py │ │ │ │ ├── hotter_colder.py │ │ │ │ ├── nchain.py │ │ │ │ ├── roulette.py │ │ │ │ └── taxi.py │ │ ├── error.py │ │ ├── monitoring │ │ │ ├── __init__.py │ │ │ ├── stats_recorder.py │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ ├── helpers.py │ │ │ │ ├── test_monitor.py │ │ │ │ └── test_video_recorder.py │ │ │ └── video_recorder.py │ │ ├── scoreboard │ │ │ ├── __init__.py │ │ │ ├── api.py │ │ │ ├── client │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── api_requestor.py │ │ │ │ ├── http_client.py │ │ │ │ ├── resource.py │ │ │ │ ├── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── helper.py │ │ │ │ │ ├── test_evaluation.py │ │ │ │ │ └── test_file_upload.py │ │ │ │ └── util.py │ │ │ ├── registration.py │ │ │ ├── scoring.py │ │ │ └── tests │ │ │ │ ├── __init__.py │ │ │ │ ├── test_registration.py │ │ │ │ └── test_scoring.py │ │ ├── spaces │ │ │ ├── __init__.py │ │ │ ├── box.py │ │ │ ├── discrete.py │ │ │ ├── multi_binary.py │ │ │ ├── multi_discrete.py │ │ │ ├── prng.py │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ └── test_spaces.py │ │ │ └── tuple_space.py │ │ ├── tests │ │ │ └── test_core.py │ │ ├── utils │ │ │ ├── __init__.py │ │ │ ├── atomic_write.py │ │ │ ├── closer.py │ │ │ ├── colorize.py │ │ │ ├── ezpickle.py │ │ │ ├── json_utils.py │ │ │ ├── play.py │ │ │ ├── reraise.py │ │ │ ├── reraise_impl_py2.py │ │ │ ├── reraise_impl_py3.py │ │ │ ├── seeding.py │ │ │ └── tests │ │ │ │ ├── test_atexit.py │ │ │ │ └── test_seeding.py │ │ ├── version.py │ │ └── wrappers │ │ │ ├── README.md │ │ │ ├── __init__.py │ │ │ ├── frame_skipping.py │ │ │ ├── monitoring.py │ │ │ ├── tests │ │ │ ├── __init__.py │ │ │ └── test_wrappers.py │ │ │ └── time_limit.py │ ├── hopper_rand_params.py │ ├── mujoco_py │ │ ├── .ruby-version │ │ ├── Gemfile │ │ ├── Gemfile.lock │ │ ├── __init__.py │ │ ├── codegen.rb │ │ ├── config.py │ │ ├── error.py │ │ ├── gen_binding.sh │ │ ├── glfw.py │ │ ├── mjconstants.py │ │ ├── mjcore.py │ │ ├── mjextra.py │ │ ├── mjlib.py │ │ ├── mjtypes.py │ │ ├── mjviewer.py │ │ ├── platname_targdir.py │ │ ├── util.py │ │ └── vendor │ │ │ └── osx │ │ │ └── mujoco │ │ │ └── mujoco.h │ ├── pr2_env_reach.py │ ├── rand_param_envs │ │ ├── __init__.py │ │ ├── base.py │ │ ├── gym │ │ │ ├── __init__.py │ │ │ ├── benchmarks │ │ │ │ ├── __init__.py │ │ │ │ ├── registration.py │ │ │ │ ├── scoring.py │ │ │ │ └── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── test_benchmark.py │ │ │ ├── configuration.py │ │ │ ├── core.py │ │ │ ├── envs │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── algorithmic │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── algorithmic_env.py │ │ │ │ │ ├── copy_.py │ │ │ │ │ ├── duplicated_input.py │ │ │ │ │ ├── repeat_copy.py │ │ │ │ │ ├── reverse.py │ │ │ │ │ ├── reversed_addition.py │ │ │ │ │ └── tests │ │ │ │ │ │ ├── __init__.py │ │ │ │ │ │ └── test_algorithmic.py │ │ │ │ ├── atari │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── atari_env.py │ │ │ │ ├── board_game │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── go.py │ │ │ │ │ └── hex.py │ │ │ │ ├── box2d │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── bipedal_walker.py │ │ │ │ │ ├── car_dynamics.py │ │ │ │ │ ├── car_racing.py │ │ │ │ │ └── lunar_lander.py │ │ │ │ ├── classic_control │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── acrobot.py │ │ │ │ │ ├── assets │ │ │ │ │ │ └── clockwise.png │ │ │ │ │ ├── cartpole.py │ │ │ │ │ ├── continuous_mountain_car.py │ │ │ │ │ ├── mountain_car.py │ │ │ │ │ ├── pendulum.py │ │ │ │ │ └── rendering.py │ │ │ │ ├── debugging │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── one_round_deterministic_reward.py │ │ │ │ │ ├── one_round_nondeterministic_reward.py │ │ │ │ │ ├── two_round_deterministic_reward.py │ │ │ │ │ └── two_round_nondeterministic_reward.py │ │ │ │ ├── mujoco │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── ant.py │ │ │ │ │ ├── assets │ │ │ │ │ │ ├── ant.xml │ │ │ │ │ │ ├── half_cheetah.xml │ │ │ │ │ │ ├── hopper.xml │ │ │ │ │ │ ├── humanoid.xml │ │ │ │ │ │ ├── humanoidstandup.xml │ │ │ │ │ │ ├── inverted_double_pendulum.xml │ │ │ │ │ │ ├── inverted_pendulum.xml │ │ │ │ │ │ ├── meshes │ │ │ │ │ │ │ ├── base.stl │ │ │ │ │ │ │ ├── base_L.stl │ │ │ │ │ │ │ ├── caster.stl │ │ │ │ │ │ │ ├── caster_L.stl │ │ │ │ │ │ │ ├── coffe_mate.stl │ │ │ │ │ │ │ ├── elbow_flex.stl │ │ │ │ │ │ │ ├── finger_tip_l.stl │ │ │ │ │ │ │ ├── finger_tip_pad2_l.stl │ │ │ │ │ │ │ ├── finger_tip_pad2_r.stl │ │ │ │ │ │ │ ├── finger_tip_r.stl │ │ │ │ │ │ │ ├── forearm.stl │ │ │ │ │ │ │ ├── forearm_roll.stl │ │ │ │ │ │ │ ├── forearm_roll_L.stl │ │ │ │ │ │ │ ├── gripper_palm.stl │ │ │ │ │ │ │ ├── head_pan.stl │ │ │ │ │ │ │ ├── head_pan_L.stl │ │ │ │ │ │ │ ├── head_tilt.stl │ │ │ │ │ │ │ ├── head_tilt_L.stl │ │ │ │ │ │ │ ├── hok_tilt.stl │ │ │ │ │ │ │ ├── l_finger.stl │ │ │ │ │ │ │ ├── l_finger_tip.stl │ │ │ │ │ │ │ ├── l_floating.stl │ │ │ │ │ │ │ ├── noddlesoup.stl │ │ │ │ │ │ │ ├── pr2_wheel.stl │ │ │ │ │ │ │ ├── shoulder_lift.stl │ │ │ │ │ │ │ ├── shoulder_pan.stl │ │ │ │ │ │ │ ├── shoulder_yaw.stl │ │ │ │ │ │ │ ├── tilting_hokuyo.stl │ │ │ │ │ │ │ ├── tilting_hokuyo_L.stl │ │ │ │ │ │ │ ├── torso.stl │ │ │ │ │ │ │ ├── torso_lift.stl │ │ │ │ │ │ │ ├── torso_lift_L.stl │ │ │ │ │ │ │ ├── upper_arm.stl │ │ │ │ │ │ │ ├── upper_arm_roll.stl │ │ │ │ │ │ │ ├── upper_arm_roll_L.stl │ │ │ │ │ │ │ ├── upper_finger_l.stl │ │ │ │ │ │ │ ├── upper_finger_r.stl │ │ │ │ │ │ │ ├── wheel.stl │ │ │ │ │ │ │ ├── white_rain.stl │ │ │ │ │ │ │ ├── windex.stl │ │ │ │ │ │ │ ├── wrist_flex.stl │ │ │ │ │ │ │ ├── wrist_roll.stl │ │ │ │ │ │ │ └── wrist_roll_L.stl │ │ │ │ │ │ ├── point.xml │ │ │ │ │ │ ├── pr2.xml │ │ │ │ │ │ ├── reacher.xml │ │ │ │ │ │ ├── swimmer.xml │ │ │ │ │ │ └── walker2d.xml │ │ │ │ │ ├── half_cheetah.py │ │ │ │ │ ├── hopper.py │ │ │ │ │ ├── humanoid.py │ │ │ │ │ ├── humanoidstandup.py │ │ │ │ │ ├── inverted_double_pendulum.py │ │ │ │ │ ├── inverted_pendulum.py │ │ │ │ │ ├── mujoco_env.py │ │ │ │ │ ├── reacher.py │ │ │ │ │ ├── swimmer.py │ │ │ │ │ └── walker2d.py │ │ │ │ ├── parameter_tuning │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── convergence.py │ │ │ │ │ └── train_deep_cnn.py │ │ │ │ ├── registration.py │ │ │ │ ├── safety │ │ │ │ │ ├── README.md │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── offswitch_cartpole.py │ │ │ │ │ ├── offswitch_cartpole_prob.py │ │ │ │ │ ├── predict_actions_cartpole.py │ │ │ │ │ ├── predict_obs_cartpole.py │ │ │ │ │ └── semisuper.py │ │ │ │ ├── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── rollout.json │ │ │ │ │ ├── spec_list.py │ │ │ │ │ ├── test_determinism.py │ │ │ │ │ ├── test_envs.py │ │ │ │ │ ├── test_envs_semantics.py │ │ │ │ │ ├── test_registration.py │ │ │ │ │ └── test_safety_envs.py │ │ │ │ └── toy_text │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── blackjack.py │ │ │ │ │ ├── discrete.py │ │ │ │ │ ├── frozen_lake.py │ │ │ │ │ ├── guessing_game.py │ │ │ │ │ ├── hotter_colder.py │ │ │ │ │ ├── nchain.py │ │ │ │ │ ├── roulette.py │ │ │ │ │ └── taxi.py │ │ │ ├── error.py │ │ │ ├── monitoring │ │ │ │ ├── __init__.py │ │ │ │ ├── stats_recorder.py │ │ │ │ ├── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── helpers.py │ │ │ │ │ ├── test_monitor.py │ │ │ │ │ └── test_video_recorder.py │ │ │ │ └── video_recorder.py │ │ │ ├── scoreboard │ │ │ │ ├── __init__.py │ │ │ │ ├── api.py │ │ │ │ ├── client │ │ │ │ │ ├── README.md │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── api_requestor.py │ │ │ │ │ ├── http_client.py │ │ │ │ │ ├── resource.py │ │ │ │ │ ├── tests │ │ │ │ │ │ ├── __init__.py │ │ │ │ │ │ ├── helper.py │ │ │ │ │ │ ├── test_evaluation.py │ │ │ │ │ │ └── test_file_upload.py │ │ │ │ │ └── util.py │ │ │ │ ├── registration.py │ │ │ │ ├── scoring.py │ │ │ │ └── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── test_registration.py │ │ │ │ │ └── test_scoring.py │ │ │ ├── spaces │ │ │ │ ├── __init__.py │ │ │ │ ├── box.py │ │ │ │ ├── discrete.py │ │ │ │ ├── multi_binary.py │ │ │ │ ├── multi_discrete.py │ │ │ │ ├── prng.py │ │ │ │ ├── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── test_spaces.py │ │ │ │ └── tuple_space.py │ │ │ ├── tests │ │ │ │ └── test_core.py │ │ │ ├── utils │ │ │ │ ├── __init__.py │ │ │ │ ├── atomic_write.py │ │ │ │ ├── closer.py │ │ │ │ ├── colorize.py │ │ │ │ ├── ezpickle.py │ │ │ │ ├── json_utils.py │ │ │ │ ├── play.py │ │ │ │ ├── reraise.py │ │ │ │ ├── reraise_impl_py2.py │ │ │ │ ├── reraise_impl_py3.py │ │ │ │ ├── seeding.py │ │ │ │ └── tests │ │ │ │ │ ├── test_atexit.py │ │ │ │ │ └── test_seeding.py │ │ │ ├── version.py │ │ │ └── wrappers │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── frame_skipping.py │ │ │ │ ├── monitoring.py │ │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ └── test_wrappers.py │ │ │ │ └── time_limit.py │ │ ├── hopper_rand_params.py │ │ ├── mujoco_py │ │ │ ├── .ruby-version │ │ │ ├── Gemfile │ │ │ ├── Gemfile.lock │ │ │ ├── __init__.py │ │ │ ├── codegen.rb │ │ │ ├── config.py │ │ │ ├── error.py │ │ │ ├── gen_binding.sh │ │ │ ├── glfw.py │ │ │ ├── mjconstants.py │ │ │ ├── mjcore.py │ │ │ ├── mjextra.py │ │ │ ├── mjlib.py │ │ │ ├── mjtypes.py │ │ │ ├── mjviewer.py │ │ │ ├── platname_targdir.py │ │ │ ├── util.py │ │ │ └── vendor │ │ │ │ └── osx │ │ │ │ └── mujoco │ │ │ │ └── mujoco.h │ │ ├── pr2_env_reach.py │ │ └── walker2d_rand_params.py │ ├── setup.py │ └── walker2d_rand_params.py ├── replay_buffer.py ├── rl_algorithm.py ├── trainer.py └── utils │ ├── core.py │ ├── env_utils.py │ ├── eval_util.py │ ├── logging.py │ ├── pythonplusplus.py │ ├── pytorch_util.py │ ├── rng.py │ └── tabulate.py ├── full_model_ground_truth_label ├── .gitignore ├── BCQ.py ├── configs │ └── maze-umaze.py ├── ensemble.py ├── env │ ├── ant_dir.py │ ├── ant_goal.py │ ├── half_cheetah.py │ ├── hopper.py │ ├── humanoid_dir.py │ ├── humanoid_dir_openai.py │ ├── humanoid_goal_ndone.py │ ├── maze2d.py │ └── walker_param.py ├── generate_goals.py ├── goals │ ├── ant-dir-normal-goals.pkl │ ├── ant-goal-normal-goals.pkl │ ├── halfcheetah-vel-hard-goals.pkl │ ├── humanoid-dir-normal-goals.pkl │ ├── humanoid-goal-normal-goals.pkl │ ├── humanoid-ndone-goal-normal-goals.pkl │ ├── humanoid-openai-dir-normal-goals.pkl │ ├── maze-medium-normal-goals.pkl │ ├── maze-umaze-normal-goals.pkl │ └── walker-param-normal-goals.pkl ├── main.py ├── networks.py ├── path_collector.py ├── pointmaze │ ├── __init__.py │ ├── dynamic_mjc.py │ ├── gridcraft │ │ ├── __init__.py │ │ ├── grid_env.py │ │ ├── grid_spec.py │ │ ├── utils.py │ │ └── wrappers.py │ ├── maze_model.py │ └── q_iteration.py ├── prob_context_encoder.py ├── rand_param_envs │ ├── .gitignore │ ├── README.md │ ├── __init__.py │ ├── base.py │ ├── gym │ │ ├── __init__.py │ │ ├── benchmarks │ │ │ ├── __init__.py │ │ │ ├── registration.py │ │ │ ├── scoring.py │ │ │ └── tests │ │ │ │ ├── __init__.py │ │ │ │ └── test_benchmark.py │ │ ├── configuration.py │ │ ├── core.py │ │ ├── envs │ │ │ ├── README.md │ │ │ ├── __init__.py │ │ │ ├── algorithmic │ │ │ │ ├── __init__.py │ │ │ │ ├── algorithmic_env.py │ │ │ │ ├── copy_.py │ │ │ │ ├── duplicated_input.py │ │ │ │ ├── repeat_copy.py │ │ │ │ ├── reverse.py │ │ │ │ ├── reversed_addition.py │ │ │ │ └── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── test_algorithmic.py │ │ │ ├── atari │ │ │ │ ├── __init__.py │ │ │ │ └── atari_env.py │ │ │ ├── board_game │ │ │ │ ├── __init__.py │ │ │ │ ├── go.py │ │ │ │ └── hex.py │ │ │ ├── box2d │ │ │ │ ├── __init__.py │ │ │ │ ├── bipedal_walker.py │ │ │ │ ├── car_dynamics.py │ │ │ │ ├── car_racing.py │ │ │ │ └── lunar_lander.py │ │ │ ├── classic_control │ │ │ │ ├── __init__.py │ │ │ │ ├── acrobot.py │ │ │ │ ├── assets │ │ │ │ │ └── clockwise.png │ │ │ │ ├── cartpole.py │ │ │ │ ├── continuous_mountain_car.py │ │ │ │ ├── mountain_car.py │ │ │ │ ├── pendulum.py │ │ │ │ └── rendering.py │ │ │ ├── debugging │ │ │ │ ├── __init__.py │ │ │ │ ├── one_round_deterministic_reward.py │ │ │ │ ├── one_round_nondeterministic_reward.py │ │ │ │ ├── two_round_deterministic_reward.py │ │ │ │ └── two_round_nondeterministic_reward.py │ │ │ ├── mujoco │ │ │ │ ├── __init__.py │ │ │ │ ├── ant.py │ │ │ │ ├── assets │ │ │ │ │ ├── ant.xml │ │ │ │ │ ├── half_cheetah.xml │ │ │ │ │ ├── hopper.xml │ │ │ │ │ ├── humanoid.xml │ │ │ │ │ ├── humanoidstandup.xml │ │ │ │ │ ├── inverted_double_pendulum.xml │ │ │ │ │ ├── inverted_pendulum.xml │ │ │ │ │ ├── meshes │ │ │ │ │ │ ├── base.stl │ │ │ │ │ │ ├── base_L.stl │ │ │ │ │ │ ├── caster.stl │ │ │ │ │ │ ├── caster_L.stl │ │ │ │ │ │ ├── coffe_mate.stl │ │ │ │ │ │ ├── elbow_flex.stl │ │ │ │ │ │ ├── finger_tip_l.stl │ │ │ │ │ │ ├── finger_tip_pad2_l.stl │ │ │ │ │ │ ├── finger_tip_pad2_r.stl │ │ │ │ │ │ ├── finger_tip_r.stl │ │ │ │ │ │ ├── forearm.stl │ │ │ │ │ │ ├── forearm_roll.stl │ │ │ │ │ │ ├── forearm_roll_L.stl │ │ │ │ │ │ ├── gripper_palm.stl │ │ │ │ │ │ ├── head_pan.stl │ │ │ │ │ │ ├── head_pan_L.stl │ │ │ │ │ │ ├── head_tilt.stl │ │ │ │ │ │ ├── head_tilt_L.stl │ │ │ │ │ │ ├── hok_tilt.stl │ │ │ │ │ │ ├── l_finger.stl │ │ │ │ │ │ ├── l_finger_tip.stl │ │ │ │ │ │ ├── l_floating.stl │ │ │ │ │ │ ├── noddlesoup.stl │ │ │ │ │ │ ├── pr2_wheel.stl │ │ │ │ │ │ ├── shoulder_lift.stl │ │ │ │ │ │ ├── shoulder_pan.stl │ │ │ │ │ │ ├── shoulder_yaw.stl │ │ │ │ │ │ ├── tilting_hokuyo.stl │ │ │ │ │ │ ├── tilting_hokuyo_L.stl │ │ │ │ │ │ ├── torso.stl │ │ │ │ │ │ ├── torso_lift.stl │ │ │ │ │ │ ├── torso_lift_L.stl │ │ │ │ │ │ ├── upper_arm.stl │ │ │ │ │ │ ├── upper_arm_roll.stl │ │ │ │ │ │ ├── upper_arm_roll_L.stl │ │ │ │ │ │ ├── upper_finger_l.stl │ │ │ │ │ │ ├── upper_finger_r.stl │ │ │ │ │ │ ├── wheel.stl │ │ │ │ │ │ ├── white_rain.stl │ │ │ │ │ │ ├── windex.stl │ │ │ │ │ │ ├── wrist_flex.stl │ │ │ │ │ │ ├── wrist_roll.stl │ │ │ │ │ │ └── wrist_roll_L.stl │ │ │ │ │ ├── point.xml │ │ │ │ │ ├── pr2.xml │ │ │ │ │ ├── reacher.xml │ │ │ │ │ ├── swimmer.xml │ │ │ │ │ └── walker2d.xml │ │ │ │ ├── half_cheetah.py │ │ │ │ ├── hopper.py │ │ │ │ ├── humanoid.py │ │ │ │ ├── humanoidstandup.py │ │ │ │ ├── inverted_double_pendulum.py │ │ │ │ ├── inverted_pendulum.py │ │ │ │ ├── mujoco_env.py │ │ │ │ ├── reacher.py │ │ │ │ ├── swimmer.py │ │ │ │ └── walker2d.py │ │ │ ├── parameter_tuning │ │ │ │ ├── __init__.py │ │ │ │ ├── convergence.py │ │ │ │ └── train_deep_cnn.py │ │ │ ├── registration.py │ │ │ ├── safety │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── offswitch_cartpole.py │ │ │ │ ├── offswitch_cartpole_prob.py │ │ │ │ ├── predict_actions_cartpole.py │ │ │ │ ├── predict_obs_cartpole.py │ │ │ │ └── semisuper.py │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ ├── rollout.json │ │ │ │ ├── spec_list.py │ │ │ │ ├── test_determinism.py │ │ │ │ ├── test_envs.py │ │ │ │ ├── test_envs_semantics.py │ │ │ │ ├── test_registration.py │ │ │ │ └── test_safety_envs.py │ │ │ └── toy_text │ │ │ │ ├── __init__.py │ │ │ │ ├── blackjack.py │ │ │ │ ├── discrete.py │ │ │ │ ├── frozen_lake.py │ │ │ │ ├── guessing_game.py │ │ │ │ ├── hotter_colder.py │ │ │ │ ├── nchain.py │ │ │ │ ├── roulette.py │ │ │ │ └── taxi.py │ │ ├── error.py │ │ ├── monitoring │ │ │ ├── __init__.py │ │ │ ├── stats_recorder.py │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ ├── helpers.py │ │ │ │ ├── test_monitor.py │ │ │ │ └── test_video_recorder.py │ │ │ └── video_recorder.py │ │ ├── scoreboard │ │ │ ├── __init__.py │ │ │ ├── api.py │ │ │ ├── client │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── api_requestor.py │ │ │ │ ├── http_client.py │ │ │ │ ├── resource.py │ │ │ │ ├── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── helper.py │ │ │ │ │ ├── test_evaluation.py │ │ │ │ │ └── test_file_upload.py │ │ │ │ └── util.py │ │ │ ├── registration.py │ │ │ ├── scoring.py │ │ │ └── tests │ │ │ │ ├── __init__.py │ │ │ │ ├── test_registration.py │ │ │ │ └── test_scoring.py │ │ ├── spaces │ │ │ ├── __init__.py │ │ │ ├── box.py │ │ │ ├── discrete.py │ │ │ ├── multi_binary.py │ │ │ ├── multi_discrete.py │ │ │ ├── prng.py │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ └── test_spaces.py │ │ │ └── tuple_space.py │ │ ├── tests │ │ │ └── test_core.py │ │ ├── utils │ │ │ ├── __init__.py │ │ │ ├── atomic_write.py │ │ │ ├── closer.py │ │ │ ├── colorize.py │ │ │ ├── ezpickle.py │ │ │ ├── json_utils.py │ │ │ ├── play.py │ │ │ ├── reraise.py │ │ │ ├── reraise_impl_py2.py │ │ │ ├── reraise_impl_py3.py │ │ │ ├── seeding.py │ │ │ └── tests │ │ │ │ ├── test_atexit.py │ │ │ │ └── test_seeding.py │ │ ├── version.py │ │ └── wrappers │ │ │ ├── README.md │ │ │ ├── __init__.py │ │ │ ├── frame_skipping.py │ │ │ ├── monitoring.py │ │ │ ├── tests │ │ │ ├── __init__.py │ │ │ └── test_wrappers.py │ │ │ └── time_limit.py │ ├── hopper_rand_params.py │ ├── mujoco_py │ │ ├── .ruby-version │ │ ├── Gemfile │ │ ├── Gemfile.lock │ │ ├── __init__.py │ │ ├── codegen.rb │ │ ├── config.py │ │ ├── error.py │ │ ├── gen_binding.sh │ │ ├── glfw.py │ │ ├── mjconstants.py │ │ ├── mjcore.py │ │ ├── mjextra.py │ │ ├── mjlib.py │ │ ├── mjtypes.py │ │ ├── mjviewer.py │ │ ├── platname_targdir.py │ │ ├── util.py │ │ └── vendor │ │ │ └── osx │ │ │ └── mujoco │ │ │ └── mujoco.h │ ├── pr2_env_reach.py │ ├── rand_param_envs │ │ ├── __init__.py │ │ ├── base.py │ │ ├── gym │ │ │ ├── __init__.py │ │ │ ├── benchmarks │ │ │ │ ├── __init__.py │ │ │ │ ├── registration.py │ │ │ │ ├── scoring.py │ │ │ │ └── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── test_benchmark.py │ │ │ ├── configuration.py │ │ │ ├── core.py │ │ │ ├── envs │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── algorithmic │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── algorithmic_env.py │ │ │ │ │ ├── copy_.py │ │ │ │ │ ├── duplicated_input.py │ │ │ │ │ ├── repeat_copy.py │ │ │ │ │ ├── reverse.py │ │ │ │ │ ├── reversed_addition.py │ │ │ │ │ └── tests │ │ │ │ │ │ ├── __init__.py │ │ │ │ │ │ └── test_algorithmic.py │ │ │ │ ├── atari │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── atari_env.py │ │ │ │ ├── board_game │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── go.py │ │ │ │ │ └── hex.py │ │ │ │ ├── box2d │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── bipedal_walker.py │ │ │ │ │ ├── car_dynamics.py │ │ │ │ │ ├── car_racing.py │ │ │ │ │ └── lunar_lander.py │ │ │ │ ├── classic_control │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── acrobot.py │ │ │ │ │ ├── assets │ │ │ │ │ │ └── clockwise.png │ │ │ │ │ ├── cartpole.py │ │ │ │ │ ├── continuous_mountain_car.py │ │ │ │ │ ├── mountain_car.py │ │ │ │ │ ├── pendulum.py │ │ │ │ │ └── rendering.py │ │ │ │ ├── debugging │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── one_round_deterministic_reward.py │ │ │ │ │ ├── one_round_nondeterministic_reward.py │ │ │ │ │ ├── two_round_deterministic_reward.py │ │ │ │ │ └── two_round_nondeterministic_reward.py │ │ │ │ ├── mujoco │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── ant.py │ │ │ │ │ ├── assets │ │ │ │ │ │ ├── ant.xml │ │ │ │ │ │ ├── half_cheetah.xml │ │ │ │ │ │ ├── hopper.xml │ │ │ │ │ │ ├── humanoid.xml │ │ │ │ │ │ ├── humanoidstandup.xml │ │ │ │ │ │ ├── inverted_double_pendulum.xml │ │ │ │ │ │ ├── inverted_pendulum.xml │ │ │ │ │ │ ├── meshes │ │ │ │ │ │ │ ├── base.stl │ │ │ │ │ │ │ ├── base_L.stl │ │ │ │ │ │ │ ├── caster.stl │ │ │ │ │ │ │ ├── caster_L.stl │ │ │ │ │ │ │ ├── coffe_mate.stl │ │ │ │ │ │ │ ├── elbow_flex.stl │ │ │ │ │ │ │ ├── finger_tip_l.stl │ │ │ │ │ │ │ ├── finger_tip_pad2_l.stl │ │ │ │ │ │ │ ├── finger_tip_pad2_r.stl │ │ │ │ │ │ │ ├── finger_tip_r.stl │ │ │ │ │ │ │ ├── forearm.stl │ │ │ │ │ │ │ ├── forearm_roll.stl │ │ │ │ │ │ │ ├── forearm_roll_L.stl │ │ │ │ │ │ │ ├── gripper_palm.stl │ │ │ │ │ │ │ ├── head_pan.stl │ │ │ │ │ │ │ ├── head_pan_L.stl │ │ │ │ │ │ │ ├── head_tilt.stl │ │ │ │ │ │ │ ├── head_tilt_L.stl │ │ │ │ │ │ │ ├── hok_tilt.stl │ │ │ │ │ │ │ ├── l_finger.stl │ │ │ │ │ │ │ ├── l_finger_tip.stl │ │ │ │ │ │ │ ├── l_floating.stl │ │ │ │ │ │ │ ├── noddlesoup.stl │ │ │ │ │ │ │ ├── pr2_wheel.stl │ │ │ │ │ │ │ ├── shoulder_lift.stl │ │ │ │ │ │ │ ├── shoulder_pan.stl │ │ │ │ │ │ │ ├── shoulder_yaw.stl │ │ │ │ │ │ │ ├── tilting_hokuyo.stl │ │ │ │ │ │ │ ├── tilting_hokuyo_L.stl │ │ │ │ │ │ │ ├── torso.stl │ │ │ │ │ │ │ ├── torso_lift.stl │ │ │ │ │ │ │ ├── torso_lift_L.stl │ │ │ │ │ │ │ ├── upper_arm.stl │ │ │ │ │ │ │ ├── upper_arm_roll.stl │ │ │ │ │ │ │ ├── upper_arm_roll_L.stl │ │ │ │ │ │ │ ├── upper_finger_l.stl │ │ │ │ │ │ │ ├── upper_finger_r.stl │ │ │ │ │ │ │ ├── wheel.stl │ │ │ │ │ │ │ ├── white_rain.stl │ │ │ │ │ │ │ ├── windex.stl │ │ │ │ │ │ │ ├── wrist_flex.stl │ │ │ │ │ │ │ ├── wrist_roll.stl │ │ │ │ │ │ │ └── wrist_roll_L.stl │ │ │ │ │ │ ├── point.xml │ │ │ │ │ │ ├── pr2.xml │ │ │ │ │ │ ├── reacher.xml │ │ │ │ │ │ ├── swimmer.xml │ │ │ │ │ │ └── walker2d.xml │ │ │ │ │ ├── half_cheetah.py │ │ │ │ │ ├── hopper.py │ │ │ │ │ ├── humanoid.py │ │ │ │ │ ├── humanoidstandup.py │ │ │ │ │ ├── inverted_double_pendulum.py │ │ │ │ │ ├── inverted_pendulum.py │ │ │ │ │ ├── mujoco_env.py │ │ │ │ │ ├── reacher.py │ │ │ │ │ ├── swimmer.py │ │ │ │ │ └── walker2d.py │ │ │ │ ├── parameter_tuning │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── convergence.py │ │ │ │ │ └── train_deep_cnn.py │ │ │ │ ├── registration.py │ │ │ │ ├── safety │ │ │ │ │ ├── README.md │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── offswitch_cartpole.py │ │ │ │ │ ├── offswitch_cartpole_prob.py │ │ │ │ │ ├── predict_actions_cartpole.py │ │ │ │ │ ├── predict_obs_cartpole.py │ │ │ │ │ └── semisuper.py │ │ │ │ ├── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── rollout.json │ │ │ │ │ ├── spec_list.py │ │ │ │ │ ├── test_determinism.py │ │ │ │ │ ├── test_envs.py │ │ │ │ │ ├── test_envs_semantics.py │ │ │ │ │ ├── test_registration.py │ │ │ │ │ └── test_safety_envs.py │ │ │ │ └── toy_text │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── blackjack.py │ │ │ │ │ ├── discrete.py │ │ │ │ │ ├── frozen_lake.py │ │ │ │ │ ├── guessing_game.py │ │ │ │ │ ├── hotter_colder.py │ │ │ │ │ ├── nchain.py │ │ │ │ │ ├── roulette.py │ │ │ │ │ └── taxi.py │ │ │ ├── error.py │ │ │ ├── monitoring │ │ │ │ ├── __init__.py │ │ │ │ ├── stats_recorder.py │ │ │ │ ├── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── helpers.py │ │ │ │ │ ├── test_monitor.py │ │ │ │ │ └── test_video_recorder.py │ │ │ │ └── video_recorder.py │ │ │ ├── scoreboard │ │ │ │ ├── __init__.py │ │ │ │ ├── api.py │ │ │ │ ├── client │ │ │ │ │ ├── README.md │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── api_requestor.py │ │ │ │ │ ├── http_client.py │ │ │ │ │ ├── resource.py │ │ │ │ │ ├── tests │ │ │ │ │ │ ├── __init__.py │ │ │ │ │ │ ├── helper.py │ │ │ │ │ │ ├── test_evaluation.py │ │ │ │ │ │ └── test_file_upload.py │ │ │ │ │ └── util.py │ │ │ │ ├── registration.py │ │ │ │ ├── scoring.py │ │ │ │ └── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── test_registration.py │ │ │ │ │ └── test_scoring.py │ │ │ ├── spaces │ │ │ │ ├── __init__.py │ │ │ │ ├── box.py │ │ │ │ ├── discrete.py │ │ │ │ ├── multi_binary.py │ │ │ │ ├── multi_discrete.py │ │ │ │ ├── prng.py │ │ │ │ ├── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── test_spaces.py │ │ │ │ └── tuple_space.py │ │ │ ├── tests │ │ │ │ └── test_core.py │ │ │ ├── utils │ │ │ │ ├── __init__.py │ │ │ │ ├── atomic_write.py │ │ │ │ ├── closer.py │ │ │ │ ├── colorize.py │ │ │ │ ├── ezpickle.py │ │ │ │ ├── json_utils.py │ │ │ │ ├── play.py │ │ │ │ ├── reraise.py │ │ │ │ ├── reraise_impl_py2.py │ │ │ │ ├── reraise_impl_py3.py │ │ │ │ ├── seeding.py │ │ │ │ └── tests │ │ │ │ │ ├── test_atexit.py │ │ │ │ │ └── test_seeding.py │ │ │ ├── version.py │ │ │ └── wrappers │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── frame_skipping.py │ │ │ │ ├── monitoring.py │ │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ └── test_wrappers.py │ │ │ │ └── time_limit.py │ │ ├── hopper_rand_params.py │ │ ├── mujoco_py │ │ │ ├── .ruby-version │ │ │ ├── Gemfile │ │ │ ├── Gemfile.lock │ │ │ ├── __init__.py │ │ │ ├── codegen.rb │ │ │ ├── config.py │ │ │ ├── error.py │ │ │ ├── gen_binding.sh │ │ │ ├── glfw.py │ │ │ ├── mjconstants.py │ │ │ ├── mjcore.py │ │ │ ├── mjextra.py │ │ │ ├── mjlib.py │ │ │ ├── mjtypes.py │ │ │ ├── mjviewer.py │ │ │ ├── platname_targdir.py │ │ │ ├── util.py │ │ │ └── vendor │ │ │ │ └── osx │ │ │ │ └── mujoco │ │ │ │ └── mujoco.h │ │ ├── pr2_env_reach.py │ │ └── walker2d_rand_params.py │ ├── setup.py │ └── walker2d_rand_params.py ├── replay_buffer.py ├── rl_algorithm.py ├── trainer.py └── utils │ ├── core.py │ ├── env_utils.py │ ├── eval_util.py │ ├── logging.py │ ├── pythonplusplus.py │ ├── pytorch_util.py │ ├── rng.py │ └── tabulate.py ├── full_model_walker_param ├── .gitignore ├── BCQ.py ├── configs │ ├── walker-param-triplet-margin-0p0.py │ ├── walker-param-triplet-margin-2p0.py │ ├── walker-param-triplet-margin-4p0.py │ ├── walker-param-triplet-margin-8p0.py │ └── walker-param.py ├── env │ ├── ant_dir.py │ ├── ant_goal.py │ ├── half_cheetah.py │ ├── hopper.py │ ├── humanoid_dir.py │ ├── humanoid_dir_openai.py │ ├── humanoid_goal_ndone.py │ └── walker_param.py ├── generate_goals.py ├── goals │ ├── ant-dir-normal-goals.pkl │ ├── ant-goal-normal-goals.pkl │ ├── halfcheetah-vel-hard-goals.pkl │ ├── humanoid-dir-normal-goals.pkl │ ├── humanoid-goal-normal-goals.pkl │ ├── humanoid-ndone-goal-normal-goals.pkl │ ├── humanoid-openai-dir-normal-goals.pkl │ └── walker-param-normal-goals.pkl ├── main.py ├── networks.py ├── path_collector.py ├── prob_context_encoder.py ├── rand_param_envs │ ├── .gitignore │ ├── README.md │ ├── __init__.py │ ├── base.py │ ├── gym │ │ ├── __init__.py │ │ ├── benchmarks │ │ │ ├── __init__.py │ │ │ ├── registration.py │ │ │ ├── scoring.py │ │ │ └── tests │ │ │ │ ├── __init__.py │ │ │ │ └── test_benchmark.py │ │ ├── configuration.py │ │ ├── core.py │ │ ├── envs │ │ │ ├── README.md │ │ │ ├── __init__.py │ │ │ ├── algorithmic │ │ │ │ ├── __init__.py │ │ │ │ ├── algorithmic_env.py │ │ │ │ ├── copy_.py │ │ │ │ ├── duplicated_input.py │ │ │ │ ├── repeat_copy.py │ │ │ │ ├── reverse.py │ │ │ │ ├── reversed_addition.py │ │ │ │ └── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── test_algorithmic.py │ │ │ ├── atari │ │ │ │ ├── __init__.py │ │ │ │ └── atari_env.py │ │ │ ├── board_game │ │ │ │ ├── __init__.py │ │ │ │ ├── go.py │ │ │ │ └── hex.py │ │ │ ├── box2d │ │ │ │ ├── __init__.py │ │ │ │ ├── bipedal_walker.py │ │ │ │ ├── car_dynamics.py │ │ │ │ ├── car_racing.py │ │ │ │ └── lunar_lander.py │ │ │ ├── classic_control │ │ │ │ ├── __init__.py │ │ │ │ ├── acrobot.py │ │ │ │ ├── assets │ │ │ │ │ └── clockwise.png │ │ │ │ ├── cartpole.py │ │ │ │ ├── continuous_mountain_car.py │ │ │ │ ├── mountain_car.py │ │ │ │ ├── pendulum.py │ │ │ │ └── rendering.py │ │ │ ├── debugging │ │ │ │ ├── __init__.py │ │ │ │ ├── one_round_deterministic_reward.py │ │ │ │ ├── one_round_nondeterministic_reward.py │ │ │ │ ├── two_round_deterministic_reward.py │ │ │ │ └── two_round_nondeterministic_reward.py │ │ │ ├── mujoco │ │ │ │ ├── __init__.py │ │ │ │ ├── ant.py │ │ │ │ ├── assets │ │ │ │ │ ├── ant.xml │ │ │ │ │ ├── half_cheetah.xml │ │ │ │ │ ├── hopper.xml │ │ │ │ │ ├── humanoid.xml │ │ │ │ │ ├── humanoidstandup.xml │ │ │ │ │ ├── inverted_double_pendulum.xml │ │ │ │ │ ├── inverted_pendulum.xml │ │ │ │ │ ├── meshes │ │ │ │ │ │ ├── base.stl │ │ │ │ │ │ ├── base_L.stl │ │ │ │ │ │ ├── caster.stl │ │ │ │ │ │ ├── caster_L.stl │ │ │ │ │ │ ├── coffe_mate.stl │ │ │ │ │ │ ├── elbow_flex.stl │ │ │ │ │ │ ├── finger_tip_l.stl │ │ │ │ │ │ ├── finger_tip_pad2_l.stl │ │ │ │ │ │ ├── finger_tip_pad2_r.stl │ │ │ │ │ │ ├── finger_tip_r.stl │ │ │ │ │ │ ├── forearm.stl │ │ │ │ │ │ ├── forearm_roll.stl │ │ │ │ │ │ ├── forearm_roll_L.stl │ │ │ │ │ │ ├── gripper_palm.stl │ │ │ │ │ │ ├── head_pan.stl │ │ │ │ │ │ ├── head_pan_L.stl │ │ │ │ │ │ ├── head_tilt.stl │ │ │ │ │ │ ├── head_tilt_L.stl │ │ │ │ │ │ ├── hok_tilt.stl │ │ │ │ │ │ ├── l_finger.stl │ │ │ │ │ │ ├── l_finger_tip.stl │ │ │ │ │ │ ├── l_floating.stl │ │ │ │ │ │ ├── noddlesoup.stl │ │ │ │ │ │ ├── pr2_wheel.stl │ │ │ │ │ │ ├── shoulder_lift.stl │ │ │ │ │ │ ├── shoulder_pan.stl │ │ │ │ │ │ ├── shoulder_yaw.stl │ │ │ │ │ │ ├── tilting_hokuyo.stl │ │ │ │ │ │ ├── tilting_hokuyo_L.stl │ │ │ │ │ │ ├── torso.stl │ │ │ │ │ │ ├── torso_lift.stl │ │ │ │ │ │ ├── torso_lift_L.stl │ │ │ │ │ │ ├── upper_arm.stl │ │ │ │ │ │ ├── upper_arm_roll.stl │ │ │ │ │ │ ├── upper_arm_roll_L.stl │ │ │ │ │ │ ├── upper_finger_l.stl │ │ │ │ │ │ ├── upper_finger_r.stl │ │ │ │ │ │ ├── wheel.stl │ │ │ │ │ │ ├── white_rain.stl │ │ │ │ │ │ ├── windex.stl │ │ │ │ │ │ ├── wrist_flex.stl │ │ │ │ │ │ ├── wrist_roll.stl │ │ │ │ │ │ └── wrist_roll_L.stl │ │ │ │ │ ├── point.xml │ │ │ │ │ ├── pr2.xml │ │ │ │ │ ├── reacher.xml │ │ │ │ │ ├── swimmer.xml │ │ │ │ │ └── walker2d.xml │ │ │ │ ├── half_cheetah.py │ │ │ │ ├── hopper.py │ │ │ │ ├── humanoid.py │ │ │ │ ├── humanoidstandup.py │ │ │ │ ├── inverted_double_pendulum.py │ │ │ │ ├── inverted_pendulum.py │ │ │ │ ├── mujoco_env.py │ │ │ │ ├── reacher.py │ │ │ │ ├── swimmer.py │ │ │ │ └── walker2d.py │ │ │ ├── parameter_tuning │ │ │ │ ├── __init__.py │ │ │ │ ├── convergence.py │ │ │ │ └── train_deep_cnn.py │ │ │ ├── registration.py │ │ │ ├── safety │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── offswitch_cartpole.py │ │ │ │ ├── offswitch_cartpole_prob.py │ │ │ │ ├── predict_actions_cartpole.py │ │ │ │ ├── predict_obs_cartpole.py │ │ │ │ └── semisuper.py │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ ├── rollout.json │ │ │ │ ├── spec_list.py │ │ │ │ ├── test_determinism.py │ │ │ │ ├── test_envs.py │ │ │ │ ├── test_envs_semantics.py │ │ │ │ ├── test_registration.py │ │ │ │ └── test_safety_envs.py │ │ │ └── toy_text │ │ │ │ ├── __init__.py │ │ │ │ ├── blackjack.py │ │ │ │ ├── discrete.py │ │ │ │ ├── frozen_lake.py │ │ │ │ ├── guessing_game.py │ │ │ │ ├── hotter_colder.py │ │ │ │ ├── nchain.py │ │ │ │ ├── roulette.py │ │ │ │ └── taxi.py │ │ ├── error.py │ │ ├── monitoring │ │ │ ├── __init__.py │ │ │ ├── stats_recorder.py │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ ├── helpers.py │ │ │ │ ├── test_monitor.py │ │ │ │ └── test_video_recorder.py │ │ │ └── video_recorder.py │ │ ├── scoreboard │ │ │ ├── __init__.py │ │ │ ├── api.py │ │ │ ├── client │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── api_requestor.py │ │ │ │ ├── http_client.py │ │ │ │ ├── resource.py │ │ │ │ ├── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── helper.py │ │ │ │ │ ├── test_evaluation.py │ │ │ │ │ └── test_file_upload.py │ │ │ │ └── util.py │ │ │ ├── registration.py │ │ │ ├── scoring.py │ │ │ └── tests │ │ │ │ ├── __init__.py │ │ │ │ ├── test_registration.py │ │ │ │ └── test_scoring.py │ │ ├── spaces │ │ │ ├── __init__.py │ │ │ ├── box.py │ │ │ ├── discrete.py │ │ │ ├── multi_binary.py │ │ │ ├── multi_discrete.py │ │ │ ├── prng.py │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ └── test_spaces.py │ │ │ └── tuple_space.py │ │ ├── tests │ │ │ └── test_core.py │ │ ├── utils │ │ │ ├── __init__.py │ │ │ ├── atomic_write.py │ │ │ ├── closer.py │ │ │ ├── colorize.py │ │ │ ├── ezpickle.py │ │ │ ├── json_utils.py │ │ │ ├── play.py │ │ │ ├── reraise.py │ │ │ ├── reraise_impl_py2.py │ │ │ ├── reraise_impl_py3.py │ │ │ ├── seeding.py │ │ │ └── tests │ │ │ │ ├── test_atexit.py │ │ │ │ └── test_seeding.py │ │ ├── version.py │ │ └── wrappers │ │ │ ├── README.md │ │ │ ├── __init__.py │ │ │ ├── frame_skipping.py │ │ │ ├── monitoring.py │ │ │ ├── tests │ │ │ ├── __init__.py │ │ │ └── test_wrappers.py │ │ │ └── time_limit.py │ ├── hopper_rand_params.py │ ├── mujoco_py │ │ ├── .ruby-version │ │ ├── Gemfile │ │ ├── Gemfile.lock │ │ ├── __init__.py │ │ ├── codegen.rb │ │ ├── config.py │ │ ├── error.py │ │ ├── gen_binding.sh │ │ ├── glfw.py │ │ ├── mjconstants.py │ │ ├── mjcore.py │ │ ├── mjextra.py │ │ ├── mjlib.py │ │ ├── mjtypes.py │ │ ├── mjviewer.py │ │ ├── platname_targdir.py │ │ ├── util.py │ │ └── vendor │ │ │ └── osx │ │ │ └── mujoco │ │ │ └── mujoco.h │ ├── pr2_env_reach.py │ ├── rand_param_envs │ │ ├── __init__.py │ │ ├── base.py │ │ ├── gym │ │ │ ├── __init__.py │ │ │ ├── benchmarks │ │ │ │ ├── __init__.py │ │ │ │ ├── registration.py │ │ │ │ ├── scoring.py │ │ │ │ └── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── test_benchmark.py │ │ │ ├── configuration.py │ │ │ ├── core.py │ │ │ ├── envs │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── algorithmic │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── algorithmic_env.py │ │ │ │ │ ├── copy_.py │ │ │ │ │ ├── duplicated_input.py │ │ │ │ │ ├── repeat_copy.py │ │ │ │ │ ├── reverse.py │ │ │ │ │ ├── reversed_addition.py │ │ │ │ │ └── tests │ │ │ │ │ │ ├── __init__.py │ │ │ │ │ │ └── test_algorithmic.py │ │ │ │ ├── atari │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── atari_env.py │ │ │ │ ├── board_game │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── go.py │ │ │ │ │ └── hex.py │ │ │ │ ├── box2d │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── bipedal_walker.py │ │ │ │ │ ├── car_dynamics.py │ │ │ │ │ ├── car_racing.py │ │ │ │ │ └── lunar_lander.py │ │ │ │ ├── classic_control │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── acrobot.py │ │ │ │ │ ├── assets │ │ │ │ │ │ └── clockwise.png │ │ │ │ │ ├── cartpole.py │ │ │ │ │ ├── continuous_mountain_car.py │ │ │ │ │ ├── mountain_car.py │ │ │ │ │ ├── pendulum.py │ │ │ │ │ └── rendering.py │ │ │ │ ├── debugging │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── one_round_deterministic_reward.py │ │ │ │ │ ├── one_round_nondeterministic_reward.py │ │ │ │ │ ├── two_round_deterministic_reward.py │ │ │ │ │ └── two_round_nondeterministic_reward.py │ │ │ │ ├── mujoco │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── ant.py │ │ │ │ │ ├── assets │ │ │ │ │ │ ├── ant.xml │ │ │ │ │ │ ├── half_cheetah.xml │ │ │ │ │ │ ├── hopper.xml │ │ │ │ │ │ ├── humanoid.xml │ │ │ │ │ │ ├── humanoidstandup.xml │ │ │ │ │ │ ├── inverted_double_pendulum.xml │ │ │ │ │ │ ├── inverted_pendulum.xml │ │ │ │ │ │ ├── meshes │ │ │ │ │ │ │ ├── base.stl │ │ │ │ │ │ │ ├── base_L.stl │ │ │ │ │ │ │ ├── caster.stl │ │ │ │ │ │ │ ├── caster_L.stl │ │ │ │ │ │ │ ├── coffe_mate.stl │ │ │ │ │ │ │ ├── elbow_flex.stl │ │ │ │ │ │ │ ├── finger_tip_l.stl │ │ │ │ │ │ │ ├── finger_tip_pad2_l.stl │ │ │ │ │ │ │ ├── finger_tip_pad2_r.stl │ │ │ │ │ │ │ ├── finger_tip_r.stl │ │ │ │ │ │ │ ├── forearm.stl │ │ │ │ │ │ │ ├── forearm_roll.stl │ │ │ │ │ │ │ ├── forearm_roll_L.stl │ │ │ │ │ │ │ ├── gripper_palm.stl │ │ │ │ │ │ │ ├── head_pan.stl │ │ │ │ │ │ │ ├── head_pan_L.stl │ │ │ │ │ │ │ ├── head_tilt.stl │ │ │ │ │ │ │ ├── head_tilt_L.stl │ │ │ │ │ │ │ ├── hok_tilt.stl │ │ │ │ │ │ │ ├── l_finger.stl │ │ │ │ │ │ │ ├── l_finger_tip.stl │ │ │ │ │ │ │ ├── l_floating.stl │ │ │ │ │ │ │ ├── noddlesoup.stl │ │ │ │ │ │ │ ├── pr2_wheel.stl │ │ │ │ │ │ │ ├── shoulder_lift.stl │ │ │ │ │ │ │ ├── shoulder_pan.stl │ │ │ │ │ │ │ ├── shoulder_yaw.stl │ │ │ │ │ │ │ ├── tilting_hokuyo.stl │ │ │ │ │ │ │ ├── tilting_hokuyo_L.stl │ │ │ │ │ │ │ ├── torso.stl │ │ │ │ │ │ │ ├── torso_lift.stl │ │ │ │ │ │ │ ├── torso_lift_L.stl │ │ │ │ │ │ │ ├── upper_arm.stl │ │ │ │ │ │ │ ├── upper_arm_roll.stl │ │ │ │ │ │ │ ├── upper_arm_roll_L.stl │ │ │ │ │ │ │ ├── upper_finger_l.stl │ │ │ │ │ │ │ ├── upper_finger_r.stl │ │ │ │ │ │ │ ├── wheel.stl │ │ │ │ │ │ │ ├── white_rain.stl │ │ │ │ │ │ │ ├── windex.stl │ │ │ │ │ │ │ ├── wrist_flex.stl │ │ │ │ │ │ │ ├── wrist_roll.stl │ │ │ │ │ │ │ └── wrist_roll_L.stl │ │ │ │ │ │ ├── point.xml │ │ │ │ │ │ ├── pr2.xml │ │ │ │ │ │ ├── reacher.xml │ │ │ │ │ │ ├── swimmer.xml │ │ │ │ │ │ └── walker2d.xml │ │ │ │ │ ├── half_cheetah.py │ │ │ │ │ ├── hopper.py │ │ │ │ │ ├── humanoid.py │ │ │ │ │ ├── humanoidstandup.py │ │ │ │ │ ├── inverted_double_pendulum.py │ │ │ │ │ ├── inverted_pendulum.py │ │ │ │ │ ├── mujoco_env.py │ │ │ │ │ ├── reacher.py │ │ │ │ │ ├── swimmer.py │ │ │ │ │ └── walker2d.py │ │ │ │ ├── parameter_tuning │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── convergence.py │ │ │ │ │ └── train_deep_cnn.py │ │ │ │ ├── registration.py │ │ │ │ ├── safety │ │ │ │ │ ├── README.md │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── offswitch_cartpole.py │ │ │ │ │ ├── offswitch_cartpole_prob.py │ │ │ │ │ ├── predict_actions_cartpole.py │ │ │ │ │ ├── predict_obs_cartpole.py │ │ │ │ │ └── semisuper.py │ │ │ │ ├── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── rollout.json │ │ │ │ │ ├── spec_list.py │ │ │ │ │ ├── test_determinism.py │ │ │ │ │ ├── test_envs.py │ │ │ │ │ ├── test_envs_semantics.py │ │ │ │ │ ├── test_registration.py │ │ │ │ │ └── test_safety_envs.py │ │ │ │ └── toy_text │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── blackjack.py │ │ │ │ │ ├── discrete.py │ │ │ │ │ ├── frozen_lake.py │ │ │ │ │ ├── guessing_game.py │ │ │ │ │ ├── hotter_colder.py │ │ │ │ │ ├── nchain.py │ │ │ │ │ ├── roulette.py │ │ │ │ │ └── taxi.py │ │ │ ├── error.py │ │ │ ├── monitoring │ │ │ │ ├── __init__.py │ │ │ │ ├── stats_recorder.py │ │ │ │ ├── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── helpers.py │ │ │ │ │ ├── test_monitor.py │ │ │ │ │ └── test_video_recorder.py │ │ │ │ └── video_recorder.py │ │ │ ├── scoreboard │ │ │ │ ├── __init__.py │ │ │ │ ├── api.py │ │ │ │ ├── client │ │ │ │ │ ├── README.md │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── api_requestor.py │ │ │ │ │ ├── http_client.py │ │ │ │ │ ├── resource.py │ │ │ │ │ ├── tests │ │ │ │ │ │ ├── __init__.py │ │ │ │ │ │ ├── helper.py │ │ │ │ │ │ ├── test_evaluation.py │ │ │ │ │ │ └── test_file_upload.py │ │ │ │ │ └── util.py │ │ │ │ ├── registration.py │ │ │ │ ├── scoring.py │ │ │ │ └── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── test_registration.py │ │ │ │ │ └── test_scoring.py │ │ │ ├── spaces │ │ │ │ ├── __init__.py │ │ │ │ ├── box.py │ │ │ │ ├── discrete.py │ │ │ │ ├── multi_binary.py │ │ │ │ ├── multi_discrete.py │ │ │ │ ├── prng.py │ │ │ │ ├── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── test_spaces.py │ │ │ │ └── tuple_space.py │ │ │ ├── tests │ │ │ │ └── test_core.py │ │ │ ├── utils │ │ │ │ ├── __init__.py │ │ │ │ ├── atomic_write.py │ │ │ │ ├── closer.py │ │ │ │ ├── colorize.py │ │ │ │ ├── ezpickle.py │ │ │ │ ├── json_utils.py │ │ │ │ ├── play.py │ │ │ │ ├── reraise.py │ │ │ │ ├── reraise_impl_py2.py │ │ │ │ ├── reraise_impl_py3.py │ │ │ │ ├── seeding.py │ │ │ │ └── tests │ │ │ │ │ ├── test_atexit.py │ │ │ │ │ └── test_seeding.py │ │ │ ├── version.py │ │ │ └── wrappers │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── frame_skipping.py │ │ │ │ ├── monitoring.py │ │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ └── test_wrappers.py │ │ │ │ └── time_limit.py │ │ ├── hopper_rand_params.py │ │ ├── mujoco_py │ │ │ ├── .ruby-version │ │ │ ├── Gemfile │ │ │ ├── Gemfile.lock │ │ │ ├── __init__.py │ │ │ ├── codegen.rb │ │ │ ├── config.py │ │ │ ├── error.py │ │ │ ├── gen_binding.sh │ │ │ ├── glfw.py │ │ │ ├── mjconstants.py │ │ │ ├── mjcore.py │ │ │ ├── mjextra.py │ │ │ ├── mjlib.py │ │ │ ├── mjtypes.py │ │ │ ├── mjviewer.py │ │ │ ├── platname_targdir.py │ │ │ ├── util.py │ │ │ └── vendor │ │ │ │ └── osx │ │ │ │ └── mujoco │ │ │ │ └── mujoco.h │ │ ├── pr2_env_reach.py │ │ └── walker2d_rand_params.py │ ├── setup.py │ └── walker2d_rand_params.py ├── replay_buffer.py ├── reward_ensemble.py ├── rl_algorithm.py ├── trainer.py ├── transition_ensemble.py └── utils │ ├── core.py │ ├── env_utils.py │ ├── eval_util.py │ ├── logging.py │ ├── pythonplusplus.py │ ├── pytorch_util.py │ ├── rng.py │ └── tabulate.py ├── metagenrl ├── .gitignore ├── README.md ├── env │ ├── ant_dir.py │ ├── ant_goal.py │ ├── half_cheetah.py │ ├── hopper.py │ ├── humanoid_dir.py │ ├── humanoid_dir_openai.py │ ├── humanoid_goal_ndone.py │ ├── maze2d.py │ └── walker_param.py ├── env_utils.py ├── goals │ ├── ant-dir-normal-goals.pkl │ ├── ant-goal-normal-goals.pkl │ ├── halfcheetah-vel-hard-goals.pkl │ ├── humanoid-dir-normal-goals.pkl │ ├── humanoid-goal-normal-goals.pkl │ ├── humanoid-ndone-goal-normal-goals.pkl │ ├── humanoid-openai-dir-normal-goals.pkl │ ├── maze-medium-normal-goals.pkl │ ├── maze-umaze-normal-goals.pkl │ └── walker-param-normal-goals.pkl ├── model.py ├── ray_configs.py ├── ray_experiments.py ├── ray_extensions.py ├── ray_workers.py ├── test_agentWorker.py ├── test_experiment.py ├── tflog_utils.py └── utils.py ├── neither ├── .gitignore ├── BCQ.py ├── configs │ ├── ant-dir.py │ ├── ant-goal.py │ ├── halfcheetah-vel.py │ ├── humanoid-ndone-goal.py │ ├── humanoid-openai-dir.py │ ├── maze-umaze.py │ └── walker-param.py ├── ensemble.py ├── env │ ├── ant_dir.py │ ├── ant_goal.py │ ├── half_cheetah.py │ ├── hopper.py │ ├── humanoid_dir.py │ ├── humanoid_dir_openai.py │ ├── humanoid_goal_ndone.py │ ├── maze2d.py │ └── walker_param.py ├── generate_goals.py ├── goals │ ├── ant-dir-normal-goals.pkl │ ├── ant-goal-normal-goals.pkl │ ├── halfcheetah-vel-hard-goals.pkl │ ├── humanoid-dir-normal-goals.pkl │ ├── humanoid-goal-normal-goals.pkl │ ├── humanoid-ndone-goal-normal-goals.pkl │ ├── humanoid-openai-dir-normal-goals.pkl │ ├── maze-medium-normal-goals.pkl │ ├── maze-umaze-normal-goals.pkl │ └── walker-param-normal-goals.pkl ├── main.py ├── networks.py ├── path_collector.py ├── pointmaze │ ├── __init__.py │ ├── dynamic_mjc.py │ ├── gridcraft │ │ ├── __init__.py │ │ ├── grid_env.py │ │ ├── grid_spec.py │ │ ├── utils.py │ │ └── wrappers.py │ ├── maze_model.py │ └── q_iteration.py ├── prob_context_encoder.py ├── rand_param_envs │ ├── .gitignore │ ├── README.md │ ├── __init__.py │ ├── base.py │ ├── gym │ │ ├── __init__.py │ │ ├── benchmarks │ │ │ ├── __init__.py │ │ │ ├── registration.py │ │ │ ├── scoring.py │ │ │ └── tests │ │ │ │ ├── __init__.py │ │ │ │ └── test_benchmark.py │ │ ├── configuration.py │ │ ├── core.py │ │ ├── envs │ │ │ ├── README.md │ │ │ ├── __init__.py │ │ │ ├── algorithmic │ │ │ │ ├── __init__.py │ │ │ │ ├── algorithmic_env.py │ │ │ │ ├── copy_.py │ │ │ │ ├── duplicated_input.py │ │ │ │ ├── repeat_copy.py │ │ │ │ ├── reverse.py │ │ │ │ ├── reversed_addition.py │ │ │ │ └── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── test_algorithmic.py │ │ │ ├── atari │ │ │ │ ├── __init__.py │ │ │ │ └── atari_env.py │ │ │ ├── board_game │ │ │ │ ├── __init__.py │ │ │ │ ├── go.py │ │ │ │ └── hex.py │ │ │ ├── box2d │ │ │ │ ├── __init__.py │ │ │ │ ├── bipedal_walker.py │ │ │ │ ├── car_dynamics.py │ │ │ │ ├── car_racing.py │ │ │ │ └── lunar_lander.py │ │ │ ├── classic_control │ │ │ │ ├── __init__.py │ │ │ │ ├── acrobot.py │ │ │ │ ├── assets │ │ │ │ │ └── clockwise.png │ │ │ │ ├── cartpole.py │ │ │ │ ├── continuous_mountain_car.py │ │ │ │ ├── mountain_car.py │ │ │ │ ├── pendulum.py │ │ │ │ └── rendering.py │ │ │ ├── debugging │ │ │ │ ├── __init__.py │ │ │ │ ├── one_round_deterministic_reward.py │ │ │ │ ├── one_round_nondeterministic_reward.py │ │ │ │ ├── two_round_deterministic_reward.py │ │ │ │ └── two_round_nondeterministic_reward.py │ │ │ ├── mujoco │ │ │ │ ├── __init__.py │ │ │ │ ├── ant.py │ │ │ │ ├── assets │ │ │ │ │ ├── ant.xml │ │ │ │ │ ├── half_cheetah.xml │ │ │ │ │ ├── hopper.xml │ │ │ │ │ ├── humanoid.xml │ │ │ │ │ ├── humanoidstandup.xml │ │ │ │ │ ├── inverted_double_pendulum.xml │ │ │ │ │ ├── inverted_pendulum.xml │ │ │ │ │ ├── meshes │ │ │ │ │ │ ├── base.stl │ │ │ │ │ │ ├── base_L.stl │ │ │ │ │ │ ├── caster.stl │ │ │ │ │ │ ├── caster_L.stl │ │ │ │ │ │ ├── coffe_mate.stl │ │ │ │ │ │ ├── elbow_flex.stl │ │ │ │ │ │ ├── finger_tip_l.stl │ │ │ │ │ │ ├── finger_tip_pad2_l.stl │ │ │ │ │ │ ├── finger_tip_pad2_r.stl │ │ │ │ │ │ ├── finger_tip_r.stl │ │ │ │ │ │ ├── forearm.stl │ │ │ │ │ │ ├── forearm_roll.stl │ │ │ │ │ │ ├── forearm_roll_L.stl │ │ │ │ │ │ ├── gripper_palm.stl │ │ │ │ │ │ ├── head_pan.stl │ │ │ │ │ │ ├── head_pan_L.stl │ │ │ │ │ │ ├── head_tilt.stl │ │ │ │ │ │ ├── head_tilt_L.stl │ │ │ │ │ │ ├── hok_tilt.stl │ │ │ │ │ │ ├── l_finger.stl │ │ │ │ │ │ ├── l_finger_tip.stl │ │ │ │ │ │ ├── l_floating.stl │ │ │ │ │ │ ├── noddlesoup.stl │ │ │ │ │ │ ├── pr2_wheel.stl │ │ │ │ │ │ ├── shoulder_lift.stl │ │ │ │ │ │ ├── shoulder_pan.stl │ │ │ │ │ │ ├── shoulder_yaw.stl │ │ │ │ │ │ ├── tilting_hokuyo.stl │ │ │ │ │ │ ├── tilting_hokuyo_L.stl │ │ │ │ │ │ ├── torso.stl │ │ │ │ │ │ ├── torso_lift.stl │ │ │ │ │ │ ├── torso_lift_L.stl │ │ │ │ │ │ ├── upper_arm.stl │ │ │ │ │ │ ├── upper_arm_roll.stl │ │ │ │ │ │ ├── upper_arm_roll_L.stl │ │ │ │ │ │ ├── upper_finger_l.stl │ │ │ │ │ │ ├── upper_finger_r.stl │ │ │ │ │ │ ├── wheel.stl │ │ │ │ │ │ ├── white_rain.stl │ │ │ │ │ │ ├── windex.stl │ │ │ │ │ │ ├── wrist_flex.stl │ │ │ │ │ │ ├── wrist_roll.stl │ │ │ │ │ │ └── wrist_roll_L.stl │ │ │ │ │ ├── point.xml │ │ │ │ │ ├── pr2.xml │ │ │ │ │ ├── reacher.xml │ │ │ │ │ ├── swimmer.xml │ │ │ │ │ └── walker2d.xml │ │ │ │ ├── half_cheetah.py │ │ │ │ ├── hopper.py │ │ │ │ ├── humanoid.py │ │ │ │ ├── humanoidstandup.py │ │ │ │ ├── inverted_double_pendulum.py │ │ │ │ ├── inverted_pendulum.py │ │ │ │ ├── mujoco_env.py │ │ │ │ ├── reacher.py │ │ │ │ ├── swimmer.py │ │ │ │ └── walker2d.py │ │ │ ├── parameter_tuning │ │ │ │ ├── __init__.py │ │ │ │ ├── convergence.py │ │ │ │ └── train_deep_cnn.py │ │ │ ├── registration.py │ │ │ ├── safety │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── offswitch_cartpole.py │ │ │ │ ├── offswitch_cartpole_prob.py │ │ │ │ ├── predict_actions_cartpole.py │ │ │ │ ├── predict_obs_cartpole.py │ │ │ │ └── semisuper.py │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ ├── rollout.json │ │ │ │ ├── spec_list.py │ │ │ │ ├── test_determinism.py │ │ │ │ ├── test_envs.py │ │ │ │ ├── test_envs_semantics.py │ │ │ │ ├── test_registration.py │ │ │ │ └── test_safety_envs.py │ │ │ └── toy_text │ │ │ │ ├── __init__.py │ │ │ │ ├── blackjack.py │ │ │ │ ├── discrete.py │ │ │ │ ├── frozen_lake.py │ │ │ │ ├── guessing_game.py │ │ │ │ ├── hotter_colder.py │ │ │ │ ├── nchain.py │ │ │ │ ├── roulette.py │ │ │ │ └── taxi.py │ │ ├── error.py │ │ ├── monitoring │ │ │ ├── __init__.py │ │ │ ├── stats_recorder.py │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ ├── helpers.py │ │ │ │ ├── test_monitor.py │ │ │ │ └── test_video_recorder.py │ │ │ └── video_recorder.py │ │ ├── scoreboard │ │ │ ├── __init__.py │ │ │ ├── api.py │ │ │ ├── client │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── api_requestor.py │ │ │ │ ├── http_client.py │ │ │ │ ├── resource.py │ │ │ │ ├── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── helper.py │ │ │ │ │ ├── test_evaluation.py │ │ │ │ │ └── test_file_upload.py │ │ │ │ └── util.py │ │ │ ├── registration.py │ │ │ ├── scoring.py │ │ │ └── tests │ │ │ │ ├── __init__.py │ │ │ │ ├── test_registration.py │ │ │ │ └── test_scoring.py │ │ ├── spaces │ │ │ ├── __init__.py │ │ │ ├── box.py │ │ │ ├── discrete.py │ │ │ ├── multi_binary.py │ │ │ ├── multi_discrete.py │ │ │ ├── prng.py │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ └── test_spaces.py │ │ │ └── tuple_space.py │ │ ├── tests │ │ │ └── test_core.py │ │ ├── utils │ │ │ ├── __init__.py │ │ │ ├── atomic_write.py │ │ │ ├── closer.py │ │ │ ├── colorize.py │ │ │ ├── ezpickle.py │ │ │ ├── json_utils.py │ │ │ ├── play.py │ │ │ ├── reraise.py │ │ │ ├── reraise_impl_py2.py │ │ │ ├── reraise_impl_py3.py │ │ │ ├── seeding.py │ │ │ └── tests │ │ │ │ ├── test_atexit.py │ │ │ │ └── test_seeding.py │ │ ├── version.py │ │ └── wrappers │ │ │ ├── README.md │ │ │ ├── __init__.py │ │ │ ├── frame_skipping.py │ │ │ ├── monitoring.py │ │ │ ├── tests │ │ │ ├── __init__.py │ │ │ └── test_wrappers.py │ │ │ └── time_limit.py │ ├── hopper_rand_params.py │ ├── mujoco_py │ │ ├── .ruby-version │ │ ├── Gemfile │ │ ├── Gemfile.lock │ │ ├── __init__.py │ │ ├── codegen.rb │ │ ├── config.py │ │ ├── error.py │ │ ├── gen_binding.sh │ │ ├── glfw.py │ │ ├── mjconstants.py │ │ ├── mjcore.py │ │ ├── mjextra.py │ │ ├── mjlib.py │ │ ├── mjtypes.py │ │ ├── mjviewer.py │ │ ├── platname_targdir.py │ │ ├── util.py │ │ └── vendor │ │ │ └── osx │ │ │ └── mujoco │ │ │ └── mujoco.h │ ├── pr2_env_reach.py │ ├── rand_param_envs │ │ ├── __init__.py │ │ ├── base.py │ │ ├── gym │ │ │ ├── __init__.py │ │ │ ├── benchmarks │ │ │ │ ├── __init__.py │ │ │ │ ├── registration.py │ │ │ │ ├── scoring.py │ │ │ │ └── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── test_benchmark.py │ │ │ ├── configuration.py │ │ │ ├── core.py │ │ │ ├── envs │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── algorithmic │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── algorithmic_env.py │ │ │ │ │ ├── copy_.py │ │ │ │ │ ├── duplicated_input.py │ │ │ │ │ ├── repeat_copy.py │ │ │ │ │ ├── reverse.py │ │ │ │ │ ├── reversed_addition.py │ │ │ │ │ └── tests │ │ │ │ │ │ ├── __init__.py │ │ │ │ │ │ └── test_algorithmic.py │ │ │ │ ├── atari │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── atari_env.py │ │ │ │ ├── board_game │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── go.py │ │ │ │ │ └── hex.py │ │ │ │ ├── box2d │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── bipedal_walker.py │ │ │ │ │ ├── car_dynamics.py │ │ │ │ │ ├── car_racing.py │ │ │ │ │ └── lunar_lander.py │ │ │ │ ├── classic_control │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── acrobot.py │ │ │ │ │ ├── assets │ │ │ │ │ │ └── clockwise.png │ │ │ │ │ ├── cartpole.py │ │ │ │ │ ├── continuous_mountain_car.py │ │ │ │ │ ├── mountain_car.py │ │ │ │ │ ├── pendulum.py │ │ │ │ │ └── rendering.py │ │ │ │ ├── debugging │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── one_round_deterministic_reward.py │ │ │ │ │ ├── one_round_nondeterministic_reward.py │ │ │ │ │ ├── two_round_deterministic_reward.py │ │ │ │ │ └── two_round_nondeterministic_reward.py │ │ │ │ ├── mujoco │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── ant.py │ │ │ │ │ ├── assets │ │ │ │ │ │ ├── ant.xml │ │ │ │ │ │ ├── half_cheetah.xml │ │ │ │ │ │ ├── hopper.xml │ │ │ │ │ │ ├── humanoid.xml │ │ │ │ │ │ ├── humanoidstandup.xml │ │ │ │ │ │ ├── inverted_double_pendulum.xml │ │ │ │ │ │ ├── inverted_pendulum.xml │ │ │ │ │ │ ├── meshes │ │ │ │ │ │ │ ├── base.stl │ │ │ │ │ │ │ ├── base_L.stl │ │ │ │ │ │ │ ├── caster.stl │ │ │ │ │ │ │ ├── caster_L.stl │ │ │ │ │ │ │ ├── coffe_mate.stl │ │ │ │ │ │ │ ├── elbow_flex.stl │ │ │ │ │ │ │ ├── finger_tip_l.stl │ │ │ │ │ │ │ ├── finger_tip_pad2_l.stl │ │ │ │ │ │ │ ├── finger_tip_pad2_r.stl │ │ │ │ │ │ │ ├── finger_tip_r.stl │ │ │ │ │ │ │ ├── forearm.stl │ │ │ │ │ │ │ ├── forearm_roll.stl │ │ │ │ │ │ │ ├── forearm_roll_L.stl │ │ │ │ │ │ │ ├── gripper_palm.stl │ │ │ │ │ │ │ ├── head_pan.stl │ │ │ │ │ │ │ ├── head_pan_L.stl │ │ │ │ │ │ │ ├── head_tilt.stl │ │ │ │ │ │ │ ├── head_tilt_L.stl │ │ │ │ │ │ │ ├── hok_tilt.stl │ │ │ │ │ │ │ ├── l_finger.stl │ │ │ │ │ │ │ ├── l_finger_tip.stl │ │ │ │ │ │ │ ├── l_floating.stl │ │ │ │ │ │ │ ├── noddlesoup.stl │ │ │ │ │ │ │ ├── pr2_wheel.stl │ │ │ │ │ │ │ ├── shoulder_lift.stl │ │ │ │ │ │ │ ├── shoulder_pan.stl │ │ │ │ │ │ │ ├── shoulder_yaw.stl │ │ │ │ │ │ │ ├── tilting_hokuyo.stl │ │ │ │ │ │ │ ├── tilting_hokuyo_L.stl │ │ │ │ │ │ │ ├── torso.stl │ │ │ │ │ │ │ ├── torso_lift.stl │ │ │ │ │ │ │ ├── torso_lift_L.stl │ │ │ │ │ │ │ ├── upper_arm.stl │ │ │ │ │ │ │ ├── upper_arm_roll.stl │ │ │ │ │ │ │ ├── upper_arm_roll_L.stl │ │ │ │ │ │ │ ├── upper_finger_l.stl │ │ │ │ │ │ │ ├── upper_finger_r.stl │ │ │ │ │ │ │ ├── wheel.stl │ │ │ │ │ │ │ ├── white_rain.stl │ │ │ │ │ │ │ ├── windex.stl │ │ │ │ │ │ │ ├── wrist_flex.stl │ │ │ │ │ │ │ ├── wrist_roll.stl │ │ │ │ │ │ │ └── wrist_roll_L.stl │ │ │ │ │ │ ├── point.xml │ │ │ │ │ │ ├── pr2.xml │ │ │ │ │ │ ├── reacher.xml │ │ │ │ │ │ ├── swimmer.xml │ │ │ │ │ │ └── walker2d.xml │ │ │ │ │ ├── half_cheetah.py │ │ │ │ │ ├── hopper.py │ │ │ │ │ ├── humanoid.py │ │ │ │ │ ├── humanoidstandup.py │ │ │ │ │ ├── inverted_double_pendulum.py │ │ │ │ │ ├── inverted_pendulum.py │ │ │ │ │ ├── mujoco_env.py │ │ │ │ │ ├── reacher.py │ │ │ │ │ ├── swimmer.py │ │ │ │ │ └── walker2d.py │ │ │ │ ├── parameter_tuning │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── convergence.py │ │ │ │ │ └── train_deep_cnn.py │ │ │ │ ├── registration.py │ │ │ │ ├── safety │ │ │ │ │ ├── README.md │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── offswitch_cartpole.py │ │ │ │ │ ├── offswitch_cartpole_prob.py │ │ │ │ │ ├── predict_actions_cartpole.py │ │ │ │ │ ├── predict_obs_cartpole.py │ │ │ │ │ └── semisuper.py │ │ │ │ ├── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── rollout.json │ │ │ │ │ ├── spec_list.py │ │ │ │ │ ├── test_determinism.py │ │ │ │ │ ├── test_envs.py │ │ │ │ │ ├── test_envs_semantics.py │ │ │ │ │ ├── test_registration.py │ │ │ │ │ └── test_safety_envs.py │ │ │ │ └── toy_text │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── blackjack.py │ │ │ │ │ ├── discrete.py │ │ │ │ │ ├── frozen_lake.py │ │ │ │ │ ├── guessing_game.py │ │ │ │ │ ├── hotter_colder.py │ │ │ │ │ ├── nchain.py │ │ │ │ │ ├── roulette.py │ │ │ │ │ └── taxi.py │ │ │ ├── error.py │ │ │ ├── monitoring │ │ │ │ ├── __init__.py │ │ │ │ ├── stats_recorder.py │ │ │ │ ├── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── helpers.py │ │ │ │ │ ├── test_monitor.py │ │ │ │ │ └── test_video_recorder.py │ │ │ │ └── video_recorder.py │ │ │ ├── scoreboard │ │ │ │ ├── __init__.py │ │ │ │ ├── api.py │ │ │ │ ├── client │ │ │ │ │ ├── README.md │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── api_requestor.py │ │ │ │ │ ├── http_client.py │ │ │ │ │ ├── resource.py │ │ │ │ │ ├── tests │ │ │ │ │ │ ├── __init__.py │ │ │ │ │ │ ├── helper.py │ │ │ │ │ │ ├── test_evaluation.py │ │ │ │ │ │ └── test_file_upload.py │ │ │ │ │ └── util.py │ │ │ │ ├── registration.py │ │ │ │ ├── scoring.py │ │ │ │ └── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── test_registration.py │ │ │ │ │ └── test_scoring.py │ │ │ ├── spaces │ │ │ │ ├── __init__.py │ │ │ │ ├── box.py │ │ │ │ ├── discrete.py │ │ │ │ ├── multi_binary.py │ │ │ │ ├── multi_discrete.py │ │ │ │ ├── prng.py │ │ │ │ ├── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── test_spaces.py │ │ │ │ └── tuple_space.py │ │ │ ├── tests │ │ │ │ └── test_core.py │ │ │ ├── utils │ │ │ │ ├── __init__.py │ │ │ │ ├── atomic_write.py │ │ │ │ ├── closer.py │ │ │ │ ├── colorize.py │ │ │ │ ├── ezpickle.py │ │ │ │ ├── json_utils.py │ │ │ │ ├── play.py │ │ │ │ ├── reraise.py │ │ │ │ ├── reraise_impl_py2.py │ │ │ │ ├── reraise_impl_py3.py │ │ │ │ ├── seeding.py │ │ │ │ └── tests │ │ │ │ │ ├── test_atexit.py │ │ │ │ │ └── test_seeding.py │ │ │ ├── version.py │ │ │ └── wrappers │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── frame_skipping.py │ │ │ │ ├── monitoring.py │ │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ └── test_wrappers.py │ │ │ │ └── time_limit.py │ │ ├── hopper_rand_params.py │ │ ├── mujoco_py │ │ │ ├── .ruby-version │ │ │ ├── Gemfile │ │ │ ├── Gemfile.lock │ │ │ ├── __init__.py │ │ │ ├── codegen.rb │ │ │ ├── config.py │ │ │ ├── error.py │ │ │ ├── gen_binding.sh │ │ │ ├── glfw.py │ │ │ ├── mjconstants.py │ │ │ ├── mjcore.py │ │ │ ├── mjextra.py │ │ │ ├── mjlib.py │ │ │ ├── mjtypes.py │ │ │ ├── mjviewer.py │ │ │ ├── platname_targdir.py │ │ │ ├── util.py │ │ │ └── vendor │ │ │ │ └── osx │ │ │ │ └── mujoco │ │ │ │ └── mujoco.h │ │ ├── pr2_env_reach.py │ │ └── walker2d_rand_params.py │ ├── setup.py │ └── walker2d_rand_params.py ├── replay_buffer.py ├── rl_algorithm.py ├── trainer.py └── utils │ ├── core.py │ ├── env_utils.py │ ├── eval_util.py │ ├── logging.py │ ├── pythonplusplus.py │ ├── pytorch_util.py │ ├── rng.py │ └── tabulate.py ├── no_transition_relabelling ├── .gitignore ├── BCQ.py ├── configs │ ├── ant-dir.py │ ├── ant-goal.py │ ├── halfcheetah-vel.py │ ├── humanoid-ndone-goal.py │ ├── humanoid-openai-dir.py │ ├── maze-umaze.py │ └── walker-param.py ├── env │ ├── ant_dir.py │ ├── ant_goal.py │ ├── half_cheetah.py │ ├── hopper.py │ ├── humanoid_dir.py │ ├── humanoid_dir_openai.py │ ├── humanoid_goal_ndone.py │ ├── maze2d.py │ └── walker_param.py ├── generate_goals.py ├── goals │ ├── ant-dir-normal-goals.pkl │ ├── ant-goal-normal-goals.pkl │ ├── halfcheetah-vel-hard-goals.pkl │ ├── humanoid-dir-normal-goals.pkl │ ├── humanoid-goal-normal-goals.pkl │ ├── humanoid-ndone-goal-normal-goals.pkl │ ├── humanoid-openai-dir-normal-goals.pkl │ ├── maze-medium-normal-goals.pkl │ ├── maze-umaze-normal-goals.pkl │ └── walker-param-normal-goals.pkl ├── main.py ├── networks.py ├── path_collector.py ├── pointmaze │ ├── __init__.py │ ├── dynamic_mjc.py │ ├── gridcraft │ │ ├── __init__.py │ │ ├── grid_env.py │ │ ├── grid_spec.py │ │ ├── utils.py │ │ └── wrappers.py │ ├── maze_model.py │ └── q_iteration.py ├── prob_context_encoder.py ├── rand_param_envs │ ├── .gitignore │ ├── README.md │ ├── __init__.py │ ├── base.py │ ├── gym │ │ ├── __init__.py │ │ ├── benchmarks │ │ │ ├── __init__.py │ │ │ ├── registration.py │ │ │ ├── scoring.py │ │ │ └── tests │ │ │ │ ├── __init__.py │ │ │ │ └── test_benchmark.py │ │ ├── configuration.py │ │ ├── core.py │ │ ├── envs │ │ │ ├── README.md │ │ │ ├── __init__.py │ │ │ ├── algorithmic │ │ │ │ ├── __init__.py │ │ │ │ ├── algorithmic_env.py │ │ │ │ ├── copy_.py │ │ │ │ ├── duplicated_input.py │ │ │ │ ├── repeat_copy.py │ │ │ │ ├── reverse.py │ │ │ │ ├── reversed_addition.py │ │ │ │ └── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── test_algorithmic.py │ │ │ ├── atari │ │ │ │ ├── __init__.py │ │ │ │ └── atari_env.py │ │ │ ├── board_game │ │ │ │ ├── __init__.py │ │ │ │ ├── go.py │ │ │ │ └── hex.py │ │ │ ├── box2d │ │ │ │ ├── __init__.py │ │ │ │ ├── bipedal_walker.py │ │ │ │ ├── car_dynamics.py │ │ │ │ ├── car_racing.py │ │ │ │ └── lunar_lander.py │ │ │ ├── classic_control │ │ │ │ ├── __init__.py │ │ │ │ ├── acrobot.py │ │ │ │ ├── assets │ │ │ │ │ └── clockwise.png │ │ │ │ ├── cartpole.py │ │ │ │ ├── continuous_mountain_car.py │ │ │ │ ├── mountain_car.py │ │ │ │ ├── pendulum.py │ │ │ │ └── rendering.py │ │ │ ├── debugging │ │ │ │ ├── __init__.py │ │ │ │ ├── one_round_deterministic_reward.py │ │ │ │ ├── one_round_nondeterministic_reward.py │ │ │ │ ├── two_round_deterministic_reward.py │ │ │ │ └── two_round_nondeterministic_reward.py │ │ │ ├── mujoco │ │ │ │ ├── __init__.py │ │ │ │ ├── ant.py │ │ │ │ ├── assets │ │ │ │ │ ├── ant.xml │ │ │ │ │ ├── half_cheetah.xml │ │ │ │ │ ├── hopper.xml │ │ │ │ │ ├── humanoid.xml │ │ │ │ │ ├── humanoidstandup.xml │ │ │ │ │ ├── inverted_double_pendulum.xml │ │ │ │ │ ├── inverted_pendulum.xml │ │ │ │ │ ├── meshes │ │ │ │ │ │ ├── base.stl │ │ │ │ │ │ ├── base_L.stl │ │ │ │ │ │ ├── caster.stl │ │ │ │ │ │ ├── caster_L.stl │ │ │ │ │ │ ├── coffe_mate.stl │ │ │ │ │ │ ├── elbow_flex.stl │ │ │ │ │ │ ├── finger_tip_l.stl │ │ │ │ │ │ ├── finger_tip_pad2_l.stl │ │ │ │ │ │ ├── finger_tip_pad2_r.stl │ │ │ │ │ │ ├── finger_tip_r.stl │ │ │ │ │ │ ├── forearm.stl │ │ │ │ │ │ ├── forearm_roll.stl │ │ │ │ │ │ ├── forearm_roll_L.stl │ │ │ │ │ │ ├── gripper_palm.stl │ │ │ │ │ │ ├── head_pan.stl │ │ │ │ │ │ ├── head_pan_L.stl │ │ │ │ │ │ ├── head_tilt.stl │ │ │ │ │ │ ├── head_tilt_L.stl │ │ │ │ │ │ ├── hok_tilt.stl │ │ │ │ │ │ ├── l_finger.stl │ │ │ │ │ │ ├── l_finger_tip.stl │ │ │ │ │ │ ├── l_floating.stl │ │ │ │ │ │ ├── noddlesoup.stl │ │ │ │ │ │ ├── pr2_wheel.stl │ │ │ │ │ │ ├── shoulder_lift.stl │ │ │ │ │ │ ├── shoulder_pan.stl │ │ │ │ │ │ ├── shoulder_yaw.stl │ │ │ │ │ │ ├── tilting_hokuyo.stl │ │ │ │ │ │ ├── tilting_hokuyo_L.stl │ │ │ │ │ │ ├── torso.stl │ │ │ │ │ │ ├── torso_lift.stl │ │ │ │ │ │ ├── torso_lift_L.stl │ │ │ │ │ │ ├── upper_arm.stl │ │ │ │ │ │ ├── upper_arm_roll.stl │ │ │ │ │ │ ├── upper_arm_roll_L.stl │ │ │ │ │ │ ├── upper_finger_l.stl │ │ │ │ │ │ ├── upper_finger_r.stl │ │ │ │ │ │ ├── wheel.stl │ │ │ │ │ │ ├── white_rain.stl │ │ │ │ │ │ ├── windex.stl │ │ │ │ │ │ ├── wrist_flex.stl │ │ │ │ │ │ ├── wrist_roll.stl │ │ │ │ │ │ └── wrist_roll_L.stl │ │ │ │ │ ├── point.xml │ │ │ │ │ ├── pr2.xml │ │ │ │ │ ├── reacher.xml │ │ │ │ │ ├── swimmer.xml │ │ │ │ │ └── walker2d.xml │ │ │ │ ├── half_cheetah.py │ │ │ │ ├── hopper.py │ │ │ │ ├── humanoid.py │ │ │ │ ├── humanoidstandup.py │ │ │ │ ├── inverted_double_pendulum.py │ │ │ │ ├── inverted_pendulum.py │ │ │ │ ├── mujoco_env.py │ │ │ │ ├── reacher.py │ │ │ │ ├── swimmer.py │ │ │ │ └── walker2d.py │ │ │ ├── parameter_tuning │ │ │ │ ├── __init__.py │ │ │ │ ├── convergence.py │ │ │ │ └── train_deep_cnn.py │ │ │ ├── registration.py │ │ │ ├── safety │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── offswitch_cartpole.py │ │ │ │ ├── offswitch_cartpole_prob.py │ │ │ │ ├── predict_actions_cartpole.py │ │ │ │ ├── predict_obs_cartpole.py │ │ │ │ └── semisuper.py │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ ├── rollout.json │ │ │ │ ├── spec_list.py │ │ │ │ ├── test_determinism.py │ │ │ │ ├── test_envs.py │ │ │ │ ├── test_envs_semantics.py │ │ │ │ ├── test_registration.py │ │ │ │ └── test_safety_envs.py │ │ │ └── toy_text │ │ │ │ ├── __init__.py │ │ │ │ ├── blackjack.py │ │ │ │ ├── discrete.py │ │ │ │ ├── frozen_lake.py │ │ │ │ ├── guessing_game.py │ │ │ │ ├── hotter_colder.py │ │ │ │ ├── nchain.py │ │ │ │ ├── roulette.py │ │ │ │ └── taxi.py │ │ ├── error.py │ │ ├── monitoring │ │ │ ├── __init__.py │ │ │ ├── stats_recorder.py │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ ├── helpers.py │ │ │ │ ├── test_monitor.py │ │ │ │ └── test_video_recorder.py │ │ │ └── video_recorder.py │ │ ├── scoreboard │ │ │ ├── __init__.py │ │ │ ├── api.py │ │ │ ├── client │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── api_requestor.py │ │ │ │ ├── http_client.py │ │ │ │ ├── resource.py │ │ │ │ ├── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── helper.py │ │ │ │ │ ├── test_evaluation.py │ │ │ │ │ └── test_file_upload.py │ │ │ │ └── util.py │ │ │ ├── registration.py │ │ │ ├── scoring.py │ │ │ └── tests │ │ │ │ ├── __init__.py │ │ │ │ ├── test_registration.py │ │ │ │ └── test_scoring.py │ │ ├── spaces │ │ │ ├── __init__.py │ │ │ ├── box.py │ │ │ ├── discrete.py │ │ │ ├── multi_binary.py │ │ │ ├── multi_discrete.py │ │ │ ├── prng.py │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ └── test_spaces.py │ │ │ └── tuple_space.py │ │ ├── tests │ │ │ └── test_core.py │ │ ├── utils │ │ │ ├── __init__.py │ │ │ ├── atomic_write.py │ │ │ ├── closer.py │ │ │ ├── colorize.py │ │ │ ├── ezpickle.py │ │ │ ├── json_utils.py │ │ │ ├── play.py │ │ │ ├── reraise.py │ │ │ ├── reraise_impl_py2.py │ │ │ ├── reraise_impl_py3.py │ │ │ ├── seeding.py │ │ │ └── tests │ │ │ │ ├── test_atexit.py │ │ │ │ └── test_seeding.py │ │ ├── version.py │ │ └── wrappers │ │ │ ├── README.md │ │ │ ├── __init__.py │ │ │ ├── frame_skipping.py │ │ │ ├── monitoring.py │ │ │ ├── tests │ │ │ ├── __init__.py │ │ │ └── test_wrappers.py │ │ │ └── time_limit.py │ ├── hopper_rand_params.py │ ├── mujoco_py │ │ ├── .ruby-version │ │ ├── Gemfile │ │ ├── Gemfile.lock │ │ ├── __init__.py │ │ ├── codegen.rb │ │ ├── config.py │ │ ├── error.py │ │ ├── gen_binding.sh │ │ ├── glfw.py │ │ ├── mjconstants.py │ │ ├── mjcore.py │ │ ├── mjextra.py │ │ ├── mjlib.py │ │ ├── mjtypes.py │ │ ├── mjviewer.py │ │ ├── platname_targdir.py │ │ ├── util.py │ │ └── vendor │ │ │ └── osx │ │ │ └── mujoco │ │ │ └── mujoco.h │ ├── pr2_env_reach.py │ ├── rand_param_envs │ │ ├── __init__.py │ │ ├── base.py │ │ ├── gym │ │ │ ├── __init__.py │ │ │ ├── benchmarks │ │ │ │ ├── __init__.py │ │ │ │ ├── registration.py │ │ │ │ ├── scoring.py │ │ │ │ └── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── test_benchmark.py │ │ │ ├── configuration.py │ │ │ ├── core.py │ │ │ ├── envs │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── algorithmic │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── algorithmic_env.py │ │ │ │ │ ├── copy_.py │ │ │ │ │ ├── duplicated_input.py │ │ │ │ │ ├── repeat_copy.py │ │ │ │ │ ├── reverse.py │ │ │ │ │ ├── reversed_addition.py │ │ │ │ │ └── tests │ │ │ │ │ │ ├── __init__.py │ │ │ │ │ │ └── test_algorithmic.py │ │ │ │ ├── atari │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── atari_env.py │ │ │ │ ├── board_game │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── go.py │ │ │ │ │ └── hex.py │ │ │ │ ├── box2d │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── bipedal_walker.py │ │ │ │ │ ├── car_dynamics.py │ │ │ │ │ ├── car_racing.py │ │ │ │ │ └── lunar_lander.py │ │ │ │ ├── classic_control │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── acrobot.py │ │ │ │ │ ├── assets │ │ │ │ │ │ └── clockwise.png │ │ │ │ │ ├── cartpole.py │ │ │ │ │ ├── continuous_mountain_car.py │ │ │ │ │ ├── mountain_car.py │ │ │ │ │ ├── pendulum.py │ │ │ │ │ └── rendering.py │ │ │ │ ├── debugging │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── one_round_deterministic_reward.py │ │ │ │ │ ├── one_round_nondeterministic_reward.py │ │ │ │ │ ├── two_round_deterministic_reward.py │ │ │ │ │ └── two_round_nondeterministic_reward.py │ │ │ │ ├── mujoco │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── ant.py │ │ │ │ │ ├── assets │ │ │ │ │ │ ├── ant.xml │ │ │ │ │ │ ├── half_cheetah.xml │ │ │ │ │ │ ├── hopper.xml │ │ │ │ │ │ ├── humanoid.xml │ │ │ │ │ │ ├── humanoidstandup.xml │ │ │ │ │ │ ├── inverted_double_pendulum.xml │ │ │ │ │ │ ├── inverted_pendulum.xml │ │ │ │ │ │ ├── meshes │ │ │ │ │ │ │ ├── base.stl │ │ │ │ │ │ │ ├── base_L.stl │ │ │ │ │ │ │ ├── caster.stl │ │ │ │ │ │ │ ├── caster_L.stl │ │ │ │ │ │ │ ├── coffe_mate.stl │ │ │ │ │ │ │ ├── elbow_flex.stl │ │ │ │ │ │ │ ├── finger_tip_l.stl │ │ │ │ │ │ │ ├── finger_tip_pad2_l.stl │ │ │ │ │ │ │ ├── finger_tip_pad2_r.stl │ │ │ │ │ │ │ ├── finger_tip_r.stl │ │ │ │ │ │ │ ├── forearm.stl │ │ │ │ │ │ │ ├── forearm_roll.stl │ │ │ │ │ │ │ ├── forearm_roll_L.stl │ │ │ │ │ │ │ ├── gripper_palm.stl │ │ │ │ │ │ │ ├── head_pan.stl │ │ │ │ │ │ │ ├── head_pan_L.stl │ │ │ │ │ │ │ ├── head_tilt.stl │ │ │ │ │ │ │ ├── head_tilt_L.stl │ │ │ │ │ │ │ ├── hok_tilt.stl │ │ │ │ │ │ │ ├── l_finger.stl │ │ │ │ │ │ │ ├── l_finger_tip.stl │ │ │ │ │ │ │ ├── l_floating.stl │ │ │ │ │ │ │ ├── noddlesoup.stl │ │ │ │ │ │ │ ├── pr2_wheel.stl │ │ │ │ │ │ │ ├── shoulder_lift.stl │ │ │ │ │ │ │ ├── shoulder_pan.stl │ │ │ │ │ │ │ ├── shoulder_yaw.stl │ │ │ │ │ │ │ ├── tilting_hokuyo.stl │ │ │ │ │ │ │ ├── tilting_hokuyo_L.stl │ │ │ │ │ │ │ ├── torso.stl │ │ │ │ │ │ │ ├── torso_lift.stl │ │ │ │ │ │ │ ├── torso_lift_L.stl │ │ │ │ │ │ │ ├── upper_arm.stl │ │ │ │ │ │ │ ├── upper_arm_roll.stl │ │ │ │ │ │ │ ├── upper_arm_roll_L.stl │ │ │ │ │ │ │ ├── upper_finger_l.stl │ │ │ │ │ │ │ ├── upper_finger_r.stl │ │ │ │ │ │ │ ├── wheel.stl │ │ │ │ │ │ │ ├── white_rain.stl │ │ │ │ │ │ │ ├── windex.stl │ │ │ │ │ │ │ ├── wrist_flex.stl │ │ │ │ │ │ │ ├── wrist_roll.stl │ │ │ │ │ │ │ └── wrist_roll_L.stl │ │ │ │ │ │ ├── point.xml │ │ │ │ │ │ ├── pr2.xml │ │ │ │ │ │ ├── reacher.xml │ │ │ │ │ │ ├── swimmer.xml │ │ │ │ │ │ └── walker2d.xml │ │ │ │ │ ├── half_cheetah.py │ │ │ │ │ ├── hopper.py │ │ │ │ │ ├── humanoid.py │ │ │ │ │ ├── humanoidstandup.py │ │ │ │ │ ├── inverted_double_pendulum.py │ │ │ │ │ ├── inverted_pendulum.py │ │ │ │ │ ├── mujoco_env.py │ │ │ │ │ ├── reacher.py │ │ │ │ │ ├── swimmer.py │ │ │ │ │ └── walker2d.py │ │ │ │ ├── parameter_tuning │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── convergence.py │ │ │ │ │ └── train_deep_cnn.py │ │ │ │ ├── registration.py │ │ │ │ ├── safety │ │ │ │ │ ├── README.md │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── offswitch_cartpole.py │ │ │ │ │ ├── offswitch_cartpole_prob.py │ │ │ │ │ ├── predict_actions_cartpole.py │ │ │ │ │ ├── predict_obs_cartpole.py │ │ │ │ │ └── semisuper.py │ │ │ │ ├── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── rollout.json │ │ │ │ │ ├── spec_list.py │ │ │ │ │ ├── test_determinism.py │ │ │ │ │ ├── test_envs.py │ │ │ │ │ ├── test_envs_semantics.py │ │ │ │ │ ├── test_registration.py │ │ │ │ │ └── test_safety_envs.py │ │ │ │ └── toy_text │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── blackjack.py │ │ │ │ │ ├── discrete.py │ │ │ │ │ ├── frozen_lake.py │ │ │ │ │ ├── guessing_game.py │ │ │ │ │ ├── hotter_colder.py │ │ │ │ │ ├── nchain.py │ │ │ │ │ ├── roulette.py │ │ │ │ │ └── taxi.py │ │ │ ├── error.py │ │ │ ├── monitoring │ │ │ │ ├── __init__.py │ │ │ │ ├── stats_recorder.py │ │ │ │ ├── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── helpers.py │ │ │ │ │ ├── test_monitor.py │ │ │ │ │ └── test_video_recorder.py │ │ │ │ └── video_recorder.py │ │ │ ├── scoreboard │ │ │ │ ├── __init__.py │ │ │ │ ├── api.py │ │ │ │ ├── client │ │ │ │ │ ├── README.md │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── api_requestor.py │ │ │ │ │ ├── http_client.py │ │ │ │ │ ├── resource.py │ │ │ │ │ ├── tests │ │ │ │ │ │ ├── __init__.py │ │ │ │ │ │ ├── helper.py │ │ │ │ │ │ ├── test_evaluation.py │ │ │ │ │ │ └── test_file_upload.py │ │ │ │ │ └── util.py │ │ │ │ ├── registration.py │ │ │ │ ├── scoring.py │ │ │ │ └── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── test_registration.py │ │ │ │ │ └── test_scoring.py │ │ │ ├── spaces │ │ │ │ ├── __init__.py │ │ │ │ ├── box.py │ │ │ │ ├── discrete.py │ │ │ │ ├── multi_binary.py │ │ │ │ ├── multi_discrete.py │ │ │ │ ├── prng.py │ │ │ │ ├── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── test_spaces.py │ │ │ │ └── tuple_space.py │ │ │ ├── tests │ │ │ │ └── test_core.py │ │ │ ├── utils │ │ │ │ ├── __init__.py │ │ │ │ ├── atomic_write.py │ │ │ │ ├── closer.py │ │ │ │ ├── colorize.py │ │ │ │ ├── ezpickle.py │ │ │ │ ├── json_utils.py │ │ │ │ ├── play.py │ │ │ │ ├── reraise.py │ │ │ │ ├── reraise_impl_py2.py │ │ │ │ ├── reraise_impl_py3.py │ │ │ │ ├── seeding.py │ │ │ │ └── tests │ │ │ │ │ ├── test_atexit.py │ │ │ │ │ └── test_seeding.py │ │ │ ├── version.py │ │ │ └── wrappers │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── frame_skipping.py │ │ │ │ ├── monitoring.py │ │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ └── test_wrappers.py │ │ │ │ └── time_limit.py │ │ ├── hopper_rand_params.py │ │ ├── mujoco_py │ │ │ ├── .ruby-version │ │ │ ├── Gemfile │ │ │ ├── Gemfile.lock │ │ │ ├── __init__.py │ │ │ ├── codegen.rb │ │ │ ├── config.py │ │ │ ├── error.py │ │ │ ├── gen_binding.sh │ │ │ ├── glfw.py │ │ │ ├── mjconstants.py │ │ │ ├── mjcore.py │ │ │ ├── mjextra.py │ │ │ ├── mjlib.py │ │ │ ├── mjtypes.py │ │ │ ├── mjviewer.py │ │ │ ├── platname_targdir.py │ │ │ ├── util.py │ │ │ └── vendor │ │ │ │ └── osx │ │ │ │ └── mujoco │ │ │ │ └── mujoco.h │ │ ├── pr2_env_reach.py │ │ └── walker2d_rand_params.py │ ├── setup.py │ └── walker2d_rand_params.py ├── replay_buffer.py ├── rl_algorithm.py ├── trainer.py └── utils │ ├── core.py │ ├── env_utils.py │ ├── eval_util.py │ ├── logging.py │ ├── pythonplusplus.py │ ├── pytorch_util.py │ ├── rng.py │ └── tabulate.py ├── no_triplet_loss ├── .gitignore ├── BCQ.py ├── configs │ ├── ant-dir.py │ ├── ant-goal.py │ ├── halfcheetah-vel.py │ ├── humanoid-ndone-goal.py │ ├── humanoid-openai-dir.py │ └── maze-umaze.py ├── ensemble.py ├── env │ ├── ant_dir.py │ ├── ant_goal.py │ ├── half_cheetah.py │ ├── hopper.py │ ├── humanoid_dir.py │ ├── humanoid_dir_openai.py │ ├── humanoid_goal_ndone.py │ ├── maze2d.py │ └── walker_param.py ├── generate_goals.py ├── goals │ ├── ant-dir-normal-goals.pkl │ ├── ant-goal-normal-goals.pkl │ ├── halfcheetah-vel-hard-goals.pkl │ ├── humanoid-dir-normal-goals.pkl │ ├── humanoid-goal-normal-goals.pkl │ ├── humanoid-ndone-goal-normal-goals.pkl │ ├── humanoid-openai-dir-normal-goals.pkl │ ├── maze-medium-normal-goals.pkl │ ├── maze-umaze-normal-goals.pkl │ └── walker-param-normal-goals.pkl ├── main.py ├── networks.py ├── path_collector.py ├── pointmaze │ ├── __init__.py │ ├── dynamic_mjc.py │ ├── gridcraft │ │ ├── __init__.py │ │ ├── grid_env.py │ │ ├── grid_spec.py │ │ ├── utils.py │ │ └── wrappers.py │ ├── maze_model.py │ └── q_iteration.py ├── prob_context_encoder.py ├── rand_param_envs │ ├── .gitignore │ ├── README.md │ ├── __init__.py │ ├── base.py │ ├── gym │ │ ├── __init__.py │ │ ├── benchmarks │ │ │ ├── __init__.py │ │ │ ├── registration.py │ │ │ ├── scoring.py │ │ │ └── tests │ │ │ │ ├── __init__.py │ │ │ │ └── test_benchmark.py │ │ ├── configuration.py │ │ ├── core.py │ │ ├── envs │ │ │ ├── README.md │ │ │ ├── __init__.py │ │ │ ├── algorithmic │ │ │ │ ├── __init__.py │ │ │ │ ├── algorithmic_env.py │ │ │ │ ├── copy_.py │ │ │ │ ├── duplicated_input.py │ │ │ │ ├── repeat_copy.py │ │ │ │ ├── reverse.py │ │ │ │ ├── reversed_addition.py │ │ │ │ └── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── test_algorithmic.py │ │ │ ├── atari │ │ │ │ ├── __init__.py │ │ │ │ └── atari_env.py │ │ │ ├── board_game │ │ │ │ ├── __init__.py │ │ │ │ ├── go.py │ │ │ │ └── hex.py │ │ │ ├── box2d │ │ │ │ ├── __init__.py │ │ │ │ ├── bipedal_walker.py │ │ │ │ ├── car_dynamics.py │ │ │ │ ├── car_racing.py │ │ │ │ └── lunar_lander.py │ │ │ ├── classic_control │ │ │ │ ├── __init__.py │ │ │ │ ├── acrobot.py │ │ │ │ ├── assets │ │ │ │ │ └── clockwise.png │ │ │ │ ├── cartpole.py │ │ │ │ ├── continuous_mountain_car.py │ │ │ │ ├── mountain_car.py │ │ │ │ ├── pendulum.py │ │ │ │ └── rendering.py │ │ │ ├── debugging │ │ │ │ ├── __init__.py │ │ │ │ ├── one_round_deterministic_reward.py │ │ │ │ ├── one_round_nondeterministic_reward.py │ │ │ │ ├── two_round_deterministic_reward.py │ │ │ │ └── two_round_nondeterministic_reward.py │ │ │ ├── mujoco │ │ │ │ ├── __init__.py │ │ │ │ ├── ant.py │ │ │ │ ├── assets │ │ │ │ │ ├── ant.xml │ │ │ │ │ ├── half_cheetah.xml │ │ │ │ │ ├── hopper.xml │ │ │ │ │ ├── humanoid.xml │ │ │ │ │ ├── humanoidstandup.xml │ │ │ │ │ ├── inverted_double_pendulum.xml │ │ │ │ │ ├── inverted_pendulum.xml │ │ │ │ │ ├── meshes │ │ │ │ │ │ ├── base.stl │ │ │ │ │ │ ├── base_L.stl │ │ │ │ │ │ ├── caster.stl │ │ │ │ │ │ ├── caster_L.stl │ │ │ │ │ │ ├── coffe_mate.stl │ │ │ │ │ │ ├── elbow_flex.stl │ │ │ │ │ │ ├── finger_tip_l.stl │ │ │ │ │ │ ├── finger_tip_pad2_l.stl │ │ │ │ │ │ ├── finger_tip_pad2_r.stl │ │ │ │ │ │ ├── finger_tip_r.stl │ │ │ │ │ │ ├── forearm.stl │ │ │ │ │ │ ├── forearm_roll.stl │ │ │ │ │ │ ├── forearm_roll_L.stl │ │ │ │ │ │ ├── gripper_palm.stl │ │ │ │ │ │ ├── head_pan.stl │ │ │ │ │ │ ├── head_pan_L.stl │ │ │ │ │ │ ├── head_tilt.stl │ │ │ │ │ │ ├── head_tilt_L.stl │ │ │ │ │ │ ├── hok_tilt.stl │ │ │ │ │ │ ├── l_finger.stl │ │ │ │ │ │ ├── l_finger_tip.stl │ │ │ │ │ │ ├── l_floating.stl │ │ │ │ │ │ ├── noddlesoup.stl │ │ │ │ │ │ ├── pr2_wheel.stl │ │ │ │ │ │ ├── shoulder_lift.stl │ │ │ │ │ │ ├── shoulder_pan.stl │ │ │ │ │ │ ├── shoulder_yaw.stl │ │ │ │ │ │ ├── tilting_hokuyo.stl │ │ │ │ │ │ ├── tilting_hokuyo_L.stl │ │ │ │ │ │ ├── torso.stl │ │ │ │ │ │ ├── torso_lift.stl │ │ │ │ │ │ ├── torso_lift_L.stl │ │ │ │ │ │ ├── upper_arm.stl │ │ │ │ │ │ ├── upper_arm_roll.stl │ │ │ │ │ │ ├── upper_arm_roll_L.stl │ │ │ │ │ │ ├── upper_finger_l.stl │ │ │ │ │ │ ├── upper_finger_r.stl │ │ │ │ │ │ ├── wheel.stl │ │ │ │ │ │ ├── white_rain.stl │ │ │ │ │ │ ├── windex.stl │ │ │ │ │ │ ├── wrist_flex.stl │ │ │ │ │ │ ├── wrist_roll.stl │ │ │ │ │ │ └── wrist_roll_L.stl │ │ │ │ │ ├── point.xml │ │ │ │ │ ├── pr2.xml │ │ │ │ │ ├── reacher.xml │ │ │ │ │ ├── swimmer.xml │ │ │ │ │ └── walker2d.xml │ │ │ │ ├── half_cheetah.py │ │ │ │ ├── hopper.py │ │ │ │ ├── humanoid.py │ │ │ │ ├── humanoidstandup.py │ │ │ │ ├── inverted_double_pendulum.py │ │ │ │ ├── inverted_pendulum.py │ │ │ │ ├── mujoco_env.py │ │ │ │ ├── reacher.py │ │ │ │ ├── swimmer.py │ │ │ │ └── walker2d.py │ │ │ ├── parameter_tuning │ │ │ │ ├── __init__.py │ │ │ │ ├── convergence.py │ │ │ │ └── train_deep_cnn.py │ │ │ ├── registration.py │ │ │ ├── safety │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── offswitch_cartpole.py │ │ │ │ ├── offswitch_cartpole_prob.py │ │ │ │ ├── predict_actions_cartpole.py │ │ │ │ ├── predict_obs_cartpole.py │ │ │ │ └── semisuper.py │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ ├── rollout.json │ │ │ │ ├── spec_list.py │ │ │ │ ├── test_determinism.py │ │ │ │ ├── test_envs.py │ │ │ │ ├── test_envs_semantics.py │ │ │ │ ├── test_registration.py │ │ │ │ └── test_safety_envs.py │ │ │ └── toy_text │ │ │ │ ├── __init__.py │ │ │ │ ├── blackjack.py │ │ │ │ ├── discrete.py │ │ │ │ ├── frozen_lake.py │ │ │ │ ├── guessing_game.py │ │ │ │ ├── hotter_colder.py │ │ │ │ ├── nchain.py │ │ │ │ ├── roulette.py │ │ │ │ └── taxi.py │ │ ├── error.py │ │ ├── monitoring │ │ │ ├── __init__.py │ │ │ ├── stats_recorder.py │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ ├── helpers.py │ │ │ │ ├── test_monitor.py │ │ │ │ └── test_video_recorder.py │ │ │ └── video_recorder.py │ │ ├── scoreboard │ │ │ ├── __init__.py │ │ │ ├── api.py │ │ │ ├── client │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── api_requestor.py │ │ │ │ ├── http_client.py │ │ │ │ ├── resource.py │ │ │ │ ├── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── helper.py │ │ │ │ │ ├── test_evaluation.py │ │ │ │ │ └── test_file_upload.py │ │ │ │ └── util.py │ │ │ ├── registration.py │ │ │ ├── scoring.py │ │ │ └── tests │ │ │ │ ├── __init__.py │ │ │ │ ├── test_registration.py │ │ │ │ └── test_scoring.py │ │ ├── spaces │ │ │ ├── __init__.py │ │ │ ├── box.py │ │ │ ├── discrete.py │ │ │ ├── multi_binary.py │ │ │ ├── multi_discrete.py │ │ │ ├── prng.py │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ └── test_spaces.py │ │ │ └── tuple_space.py │ │ ├── tests │ │ │ └── test_core.py │ │ ├── utils │ │ │ ├── __init__.py │ │ │ ├── atomic_write.py │ │ │ ├── closer.py │ │ │ ├── colorize.py │ │ │ ├── ezpickle.py │ │ │ ├── json_utils.py │ │ │ ├── play.py │ │ │ ├── reraise.py │ │ │ ├── reraise_impl_py2.py │ │ │ ├── reraise_impl_py3.py │ │ │ ├── seeding.py │ │ │ └── tests │ │ │ │ ├── test_atexit.py │ │ │ │ └── test_seeding.py │ │ ├── version.py │ │ └── wrappers │ │ │ ├── README.md │ │ │ ├── __init__.py │ │ │ ├── frame_skipping.py │ │ │ ├── monitoring.py │ │ │ ├── tests │ │ │ ├── __init__.py │ │ │ └── test_wrappers.py │ │ │ └── time_limit.py │ ├── hopper_rand_params.py │ ├── mujoco_py │ │ ├── .ruby-version │ │ ├── Gemfile │ │ ├── Gemfile.lock │ │ ├── __init__.py │ │ ├── codegen.rb │ │ ├── config.py │ │ ├── error.py │ │ ├── gen_binding.sh │ │ ├── glfw.py │ │ ├── mjconstants.py │ │ ├── mjcore.py │ │ ├── mjextra.py │ │ ├── mjlib.py │ │ ├── mjtypes.py │ │ ├── mjviewer.py │ │ ├── platname_targdir.py │ │ ├── util.py │ │ └── vendor │ │ │ └── osx │ │ │ └── mujoco │ │ │ └── mujoco.h │ ├── pr2_env_reach.py │ ├── rand_param_envs │ │ ├── __init__.py │ │ ├── base.py │ │ ├── gym │ │ │ ├── __init__.py │ │ │ ├── benchmarks │ │ │ │ ├── __init__.py │ │ │ │ ├── registration.py │ │ │ │ ├── scoring.py │ │ │ │ └── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── test_benchmark.py │ │ │ ├── configuration.py │ │ │ ├── core.py │ │ │ ├── envs │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── algorithmic │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── algorithmic_env.py │ │ │ │ │ ├── copy_.py │ │ │ │ │ ├── duplicated_input.py │ │ │ │ │ ├── repeat_copy.py │ │ │ │ │ ├── reverse.py │ │ │ │ │ ├── reversed_addition.py │ │ │ │ │ └── tests │ │ │ │ │ │ ├── __init__.py │ │ │ │ │ │ └── test_algorithmic.py │ │ │ │ ├── atari │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── atari_env.py │ │ │ │ ├── board_game │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── go.py │ │ │ │ │ └── hex.py │ │ │ │ ├── box2d │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── bipedal_walker.py │ │ │ │ │ ├── car_dynamics.py │ │ │ │ │ ├── car_racing.py │ │ │ │ │ └── lunar_lander.py │ │ │ │ ├── classic_control │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── acrobot.py │ │ │ │ │ ├── assets │ │ │ │ │ │ └── clockwise.png │ │ │ │ │ ├── cartpole.py │ │ │ │ │ ├── continuous_mountain_car.py │ │ │ │ │ ├── mountain_car.py │ │ │ │ │ ├── pendulum.py │ │ │ │ │ └── rendering.py │ │ │ │ ├── debugging │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── one_round_deterministic_reward.py │ │ │ │ │ ├── one_round_nondeterministic_reward.py │ │ │ │ │ ├── two_round_deterministic_reward.py │ │ │ │ │ └── two_round_nondeterministic_reward.py │ │ │ │ ├── mujoco │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── ant.py │ │ │ │ │ ├── assets │ │ │ │ │ │ ├── ant.xml │ │ │ │ │ │ ├── half_cheetah.xml │ │ │ │ │ │ ├── hopper.xml │ │ │ │ │ │ ├── humanoid.xml │ │ │ │ │ │ ├── humanoidstandup.xml │ │ │ │ │ │ ├── inverted_double_pendulum.xml │ │ │ │ │ │ ├── inverted_pendulum.xml │ │ │ │ │ │ ├── meshes │ │ │ │ │ │ │ ├── base.stl │ │ │ │ │ │ │ ├── base_L.stl │ │ │ │ │ │ │ ├── caster.stl │ │ │ │ │ │ │ ├── caster_L.stl │ │ │ │ │ │ │ ├── coffe_mate.stl │ │ │ │ │ │ │ ├── elbow_flex.stl │ │ │ │ │ │ │ ├── finger_tip_l.stl │ │ │ │ │ │ │ ├── finger_tip_pad2_l.stl │ │ │ │ │ │ │ ├── finger_tip_pad2_r.stl │ │ │ │ │ │ │ ├── finger_tip_r.stl │ │ │ │ │ │ │ ├── forearm.stl │ │ │ │ │ │ │ ├── forearm_roll.stl │ │ │ │ │ │ │ ├── forearm_roll_L.stl │ │ │ │ │ │ │ ├── gripper_palm.stl │ │ │ │ │ │ │ ├── head_pan.stl │ │ │ │ │ │ │ ├── head_pan_L.stl │ │ │ │ │ │ │ ├── head_tilt.stl │ │ │ │ │ │ │ ├── head_tilt_L.stl │ │ │ │ │ │ │ ├── hok_tilt.stl │ │ │ │ │ │ │ ├── l_finger.stl │ │ │ │ │ │ │ ├── l_finger_tip.stl │ │ │ │ │ │ │ ├── l_floating.stl │ │ │ │ │ │ │ ├── noddlesoup.stl │ │ │ │ │ │ │ ├── pr2_wheel.stl │ │ │ │ │ │ │ ├── shoulder_lift.stl │ │ │ │ │ │ │ ├── shoulder_pan.stl │ │ │ │ │ │ │ ├── shoulder_yaw.stl │ │ │ │ │ │ │ ├── tilting_hokuyo.stl │ │ │ │ │ │ │ ├── tilting_hokuyo_L.stl │ │ │ │ │ │ │ ├── torso.stl │ │ │ │ │ │ │ ├── torso_lift.stl │ │ │ │ │ │ │ ├── torso_lift_L.stl │ │ │ │ │ │ │ ├── upper_arm.stl │ │ │ │ │ │ │ ├── upper_arm_roll.stl │ │ │ │ │ │ │ ├── upper_arm_roll_L.stl │ │ │ │ │ │ │ ├── upper_finger_l.stl │ │ │ │ │ │ │ ├── upper_finger_r.stl │ │ │ │ │ │ │ ├── wheel.stl │ │ │ │ │ │ │ ├── white_rain.stl │ │ │ │ │ │ │ ├── windex.stl │ │ │ │ │ │ │ ├── wrist_flex.stl │ │ │ │ │ │ │ ├── wrist_roll.stl │ │ │ │ │ │ │ └── wrist_roll_L.stl │ │ │ │ │ │ ├── point.xml │ │ │ │ │ │ ├── pr2.xml │ │ │ │ │ │ ├── reacher.xml │ │ │ │ │ │ ├── swimmer.xml │ │ │ │ │ │ └── walker2d.xml │ │ │ │ │ ├── half_cheetah.py │ │ │ │ │ ├── hopper.py │ │ │ │ │ ├── humanoid.py │ │ │ │ │ ├── humanoidstandup.py │ │ │ │ │ ├── inverted_double_pendulum.py │ │ │ │ │ ├── inverted_pendulum.py │ │ │ │ │ ├── mujoco_env.py │ │ │ │ │ ├── reacher.py │ │ │ │ │ ├── swimmer.py │ │ │ │ │ └── walker2d.py │ │ │ │ ├── parameter_tuning │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── convergence.py │ │ │ │ │ └── train_deep_cnn.py │ │ │ │ ├── registration.py │ │ │ │ ├── safety │ │ │ │ │ ├── README.md │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── offswitch_cartpole.py │ │ │ │ │ ├── offswitch_cartpole_prob.py │ │ │ │ │ ├── predict_actions_cartpole.py │ │ │ │ │ ├── predict_obs_cartpole.py │ │ │ │ │ └── semisuper.py │ │ │ │ ├── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── rollout.json │ │ │ │ │ ├── spec_list.py │ │ │ │ │ ├── test_determinism.py │ │ │ │ │ ├── test_envs.py │ │ │ │ │ ├── test_envs_semantics.py │ │ │ │ │ ├── test_registration.py │ │ │ │ │ └── test_safety_envs.py │ │ │ │ └── toy_text │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── blackjack.py │ │ │ │ │ ├── discrete.py │ │ │ │ │ ├── frozen_lake.py │ │ │ │ │ ├── guessing_game.py │ │ │ │ │ ├── hotter_colder.py │ │ │ │ │ ├── nchain.py │ │ │ │ │ ├── roulette.py │ │ │ │ │ └── taxi.py │ │ │ ├── error.py │ │ │ ├── monitoring │ │ │ │ ├── __init__.py │ │ │ │ ├── stats_recorder.py │ │ │ │ ├── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── helpers.py │ │ │ │ │ ├── test_monitor.py │ │ │ │ │ └── test_video_recorder.py │ │ │ │ └── video_recorder.py │ │ │ ├── scoreboard │ │ │ │ ├── __init__.py │ │ │ │ ├── api.py │ │ │ │ ├── client │ │ │ │ │ ├── README.md │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── api_requestor.py │ │ │ │ │ ├── http_client.py │ │ │ │ │ ├── resource.py │ │ │ │ │ ├── tests │ │ │ │ │ │ ├── __init__.py │ │ │ │ │ │ ├── helper.py │ │ │ │ │ │ ├── test_evaluation.py │ │ │ │ │ │ └── test_file_upload.py │ │ │ │ │ └── util.py │ │ │ │ ├── registration.py │ │ │ │ ├── scoring.py │ │ │ │ └── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── test_registration.py │ │ │ │ │ └── test_scoring.py │ │ │ ├── spaces │ │ │ │ ├── __init__.py │ │ │ │ ├── box.py │ │ │ │ ├── discrete.py │ │ │ │ ├── multi_binary.py │ │ │ │ ├── multi_discrete.py │ │ │ │ ├── prng.py │ │ │ │ ├── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── test_spaces.py │ │ │ │ └── tuple_space.py │ │ │ ├── tests │ │ │ │ └── test_core.py │ │ │ ├── utils │ │ │ │ ├── __init__.py │ │ │ │ ├── atomic_write.py │ │ │ │ ├── closer.py │ │ │ │ ├── colorize.py │ │ │ │ ├── ezpickle.py │ │ │ │ ├── json_utils.py │ │ │ │ ├── play.py │ │ │ │ ├── reraise.py │ │ │ │ ├── reraise_impl_py2.py │ │ │ │ ├── reraise_impl_py3.py │ │ │ │ ├── seeding.py │ │ │ │ └── tests │ │ │ │ │ ├── test_atexit.py │ │ │ │ │ └── test_seeding.py │ │ │ ├── version.py │ │ │ └── wrappers │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── frame_skipping.py │ │ │ │ ├── monitoring.py │ │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ └── test_wrappers.py │ │ │ │ └── time_limit.py │ │ ├── hopper_rand_params.py │ │ ├── mujoco_py │ │ │ ├── .ruby-version │ │ │ ├── Gemfile │ │ │ ├── Gemfile.lock │ │ │ ├── __init__.py │ │ │ ├── codegen.rb │ │ │ ├── config.py │ │ │ ├── error.py │ │ │ ├── gen_binding.sh │ │ │ ├── glfw.py │ │ │ ├── mjconstants.py │ │ │ ├── mjcore.py │ │ │ ├── mjextra.py │ │ │ ├── mjlib.py │ │ │ ├── mjtypes.py │ │ │ ├── mjviewer.py │ │ │ ├── platname_targdir.py │ │ │ ├── util.py │ │ │ └── vendor │ │ │ │ └── osx │ │ │ │ └── mujoco │ │ │ │ └── mujoco.h │ │ ├── pr2_env_reach.py │ │ └── walker2d_rand_params.py │ ├── setup.py │ └── walker2d_rand_params.py ├── replay_buffer.py ├── rl_algorithm.py ├── trainer.py └── utils │ ├── core.py │ ├── env_utils.py │ ├── eval_util.py │ ├── logging.py │ ├── pythonplusplus.py │ ├── pytorch_util.py │ ├── rng.py │ └── tabulate.py ├── no_triplet_loss_walker_param ├── .gitignore ├── BCQ.py ├── configs │ └── walker-param.py ├── env │ ├── ant_dir.py │ ├── ant_goal.py │ ├── half_cheetah.py │ ├── hopper.py │ ├── humanoid_dir.py │ ├── humanoid_dir_openai.py │ ├── humanoid_goal_ndone.py │ └── walker_param.py ├── generate_goals.py ├── goals │ ├── ant-dir-normal-goals.pkl │ ├── ant-goal-normal-goals.pkl │ ├── halfcheetah-vel-hard-goals.pkl │ ├── humanoid-dir-normal-goals.pkl │ ├── humanoid-goal-normal-goals.pkl │ ├── humanoid-ndone-goal-normal-goals.pkl │ ├── humanoid-openai-dir-normal-goals.pkl │ └── walker-param-normal-goals.pkl ├── main.py ├── networks.py ├── path_collector.py ├── prob_context_encoder.py ├── rand_param_envs │ ├── .gitignore │ ├── README.md │ ├── __init__.py │ ├── base.py │ ├── gym │ │ ├── __init__.py │ │ ├── benchmarks │ │ │ ├── __init__.py │ │ │ ├── registration.py │ │ │ ├── scoring.py │ │ │ └── tests │ │ │ │ ├── __init__.py │ │ │ │ └── test_benchmark.py │ │ ├── configuration.py │ │ ├── core.py │ │ ├── envs │ │ │ ├── README.md │ │ │ ├── __init__.py │ │ │ ├── algorithmic │ │ │ │ ├── __init__.py │ │ │ │ ├── algorithmic_env.py │ │ │ │ ├── copy_.py │ │ │ │ ├── duplicated_input.py │ │ │ │ ├── repeat_copy.py │ │ │ │ ├── reverse.py │ │ │ │ ├── reversed_addition.py │ │ │ │ └── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── test_algorithmic.py │ │ │ ├── atari │ │ │ │ ├── __init__.py │ │ │ │ └── atari_env.py │ │ │ ├── board_game │ │ │ │ ├── __init__.py │ │ │ │ ├── go.py │ │ │ │ └── hex.py │ │ │ ├── box2d │ │ │ │ ├── __init__.py │ │ │ │ ├── bipedal_walker.py │ │ │ │ ├── car_dynamics.py │ │ │ │ ├── car_racing.py │ │ │ │ └── lunar_lander.py │ │ │ ├── classic_control │ │ │ │ ├── __init__.py │ │ │ │ ├── acrobot.py │ │ │ │ ├── assets │ │ │ │ │ └── clockwise.png │ │ │ │ ├── cartpole.py │ │ │ │ ├── continuous_mountain_car.py │ │ │ │ ├── mountain_car.py │ │ │ │ ├── pendulum.py │ │ │ │ └── rendering.py │ │ │ ├── debugging │ │ │ │ ├── __init__.py │ │ │ │ ├── one_round_deterministic_reward.py │ │ │ │ ├── one_round_nondeterministic_reward.py │ │ │ │ ├── two_round_deterministic_reward.py │ │ │ │ └── two_round_nondeterministic_reward.py │ │ │ ├── mujoco │ │ │ │ ├── __init__.py │ │ │ │ ├── ant.py │ │ │ │ ├── assets │ │ │ │ │ ├── ant.xml │ │ │ │ │ ├── half_cheetah.xml │ │ │ │ │ ├── hopper.xml │ │ │ │ │ ├── humanoid.xml │ │ │ │ │ ├── humanoidstandup.xml │ │ │ │ │ ├── inverted_double_pendulum.xml │ │ │ │ │ ├── inverted_pendulum.xml │ │ │ │ │ ├── meshes │ │ │ │ │ │ ├── base.stl │ │ │ │ │ │ ├── base_L.stl │ │ │ │ │ │ ├── caster.stl │ │ │ │ │ │ ├── caster_L.stl │ │ │ │ │ │ ├── coffe_mate.stl │ │ │ │ │ │ ├── elbow_flex.stl │ │ │ │ │ │ ├── finger_tip_l.stl │ │ │ │ │ │ ├── finger_tip_pad2_l.stl │ │ │ │ │ │ ├── finger_tip_pad2_r.stl │ │ │ │ │ │ ├── finger_tip_r.stl │ │ │ │ │ │ ├── forearm.stl │ │ │ │ │ │ ├── forearm_roll.stl │ │ │ │ │ │ ├── forearm_roll_L.stl │ │ │ │ │ │ ├── gripper_palm.stl │ │ │ │ │ │ ├── head_pan.stl │ │ │ │ │ │ ├── head_pan_L.stl │ │ │ │ │ │ ├── head_tilt.stl │ │ │ │ │ │ ├── head_tilt_L.stl │ │ │ │ │ │ ├── hok_tilt.stl │ │ │ │ │ │ ├── l_finger.stl │ │ │ │ │ │ ├── l_finger_tip.stl │ │ │ │ │ │ ├── l_floating.stl │ │ │ │ │ │ ├── noddlesoup.stl │ │ │ │ │ │ ├── pr2_wheel.stl │ │ │ │ │ │ ├── shoulder_lift.stl │ │ │ │ │ │ ├── shoulder_pan.stl │ │ │ │ │ │ ├── shoulder_yaw.stl │ │ │ │ │ │ ├── tilting_hokuyo.stl │ │ │ │ │ │ ├── tilting_hokuyo_L.stl │ │ │ │ │ │ ├── torso.stl │ │ │ │ │ │ ├── torso_lift.stl │ │ │ │ │ │ ├── torso_lift_L.stl │ │ │ │ │ │ ├── upper_arm.stl │ │ │ │ │ │ ├── upper_arm_roll.stl │ │ │ │ │ │ ├── upper_arm_roll_L.stl │ │ │ │ │ │ ├── upper_finger_l.stl │ │ │ │ │ │ ├── upper_finger_r.stl │ │ │ │ │ │ ├── wheel.stl │ │ │ │ │ │ ├── white_rain.stl │ │ │ │ │ │ ├── windex.stl │ │ │ │ │ │ ├── wrist_flex.stl │ │ │ │ │ │ ├── wrist_roll.stl │ │ │ │ │ │ └── wrist_roll_L.stl │ │ │ │ │ ├── point.xml │ │ │ │ │ ├── pr2.xml │ │ │ │ │ ├── reacher.xml │ │ │ │ │ ├── swimmer.xml │ │ │ │ │ └── walker2d.xml │ │ │ │ ├── half_cheetah.py │ │ │ │ ├── hopper.py │ │ │ │ ├── humanoid.py │ │ │ │ ├── humanoidstandup.py │ │ │ │ ├── inverted_double_pendulum.py │ │ │ │ ├── inverted_pendulum.py │ │ │ │ ├── mujoco_env.py │ │ │ │ ├── reacher.py │ │ │ │ ├── swimmer.py │ │ │ │ └── walker2d.py │ │ │ ├── parameter_tuning │ │ │ │ ├── __init__.py │ │ │ │ ├── convergence.py │ │ │ │ └── train_deep_cnn.py │ │ │ ├── registration.py │ │ │ ├── safety │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── offswitch_cartpole.py │ │ │ │ ├── offswitch_cartpole_prob.py │ │ │ │ ├── predict_actions_cartpole.py │ │ │ │ ├── predict_obs_cartpole.py │ │ │ │ └── semisuper.py │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ ├── rollout.json │ │ │ │ ├── spec_list.py │ │ │ │ ├── test_determinism.py │ │ │ │ ├── test_envs.py │ │ │ │ ├── test_envs_semantics.py │ │ │ │ ├── test_registration.py │ │ │ │ └── test_safety_envs.py │ │ │ └── toy_text │ │ │ │ ├── __init__.py │ │ │ │ ├── blackjack.py │ │ │ │ ├── discrete.py │ │ │ │ ├── frozen_lake.py │ │ │ │ ├── guessing_game.py │ │ │ │ ├── hotter_colder.py │ │ │ │ ├── nchain.py │ │ │ │ ├── roulette.py │ │ │ │ └── taxi.py │ │ ├── error.py │ │ ├── monitoring │ │ │ ├── __init__.py │ │ │ ├── stats_recorder.py │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ ├── helpers.py │ │ │ │ ├── test_monitor.py │ │ │ │ └── test_video_recorder.py │ │ │ └── video_recorder.py │ │ ├── scoreboard │ │ │ ├── __init__.py │ │ │ ├── api.py │ │ │ ├── client │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── api_requestor.py │ │ │ │ ├── http_client.py │ │ │ │ ├── resource.py │ │ │ │ ├── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── helper.py │ │ │ │ │ ├── test_evaluation.py │ │ │ │ │ └── test_file_upload.py │ │ │ │ └── util.py │ │ │ ├── registration.py │ │ │ ├── scoring.py │ │ │ └── tests │ │ │ │ ├── __init__.py │ │ │ │ ├── test_registration.py │ │ │ │ └── test_scoring.py │ │ ├── spaces │ │ │ ├── __init__.py │ │ │ ├── box.py │ │ │ ├── discrete.py │ │ │ ├── multi_binary.py │ │ │ ├── multi_discrete.py │ │ │ ├── prng.py │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ └── test_spaces.py │ │ │ └── tuple_space.py │ │ ├── tests │ │ │ └── test_core.py │ │ ├── utils │ │ │ ├── __init__.py │ │ │ ├── atomic_write.py │ │ │ ├── closer.py │ │ │ ├── colorize.py │ │ │ ├── ezpickle.py │ │ │ ├── json_utils.py │ │ │ ├── play.py │ │ │ ├── reraise.py │ │ │ ├── reraise_impl_py2.py │ │ │ ├── reraise_impl_py3.py │ │ │ ├── seeding.py │ │ │ └── tests │ │ │ │ ├── test_atexit.py │ │ │ │ └── test_seeding.py │ │ ├── version.py │ │ └── wrappers │ │ │ ├── README.md │ │ │ ├── __init__.py │ │ │ ├── frame_skipping.py │ │ │ ├── monitoring.py │ │ │ ├── tests │ │ │ ├── __init__.py │ │ │ └── test_wrappers.py │ │ │ └── time_limit.py │ ├── hopper_rand_params.py │ ├── mujoco_py │ │ ├── .ruby-version │ │ ├── Gemfile │ │ ├── Gemfile.lock │ │ ├── __init__.py │ │ ├── codegen.rb │ │ ├── config.py │ │ ├── error.py │ │ ├── gen_binding.sh │ │ ├── glfw.py │ │ ├── mjconstants.py │ │ ├── mjcore.py │ │ ├── mjextra.py │ │ ├── mjlib.py │ │ ├── mjtypes.py │ │ ├── mjviewer.py │ │ ├── platname_targdir.py │ │ ├── util.py │ │ └── vendor │ │ │ └── osx │ │ │ └── mujoco │ │ │ └── mujoco.h │ ├── pr2_env_reach.py │ ├── rand_param_envs │ │ ├── __init__.py │ │ ├── base.py │ │ ├── gym │ │ │ ├── __init__.py │ │ │ ├── benchmarks │ │ │ │ ├── __init__.py │ │ │ │ ├── registration.py │ │ │ │ ├── scoring.py │ │ │ │ └── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── test_benchmark.py │ │ │ ├── configuration.py │ │ │ ├── core.py │ │ │ ├── envs │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── algorithmic │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── algorithmic_env.py │ │ │ │ │ ├── copy_.py │ │ │ │ │ ├── duplicated_input.py │ │ │ │ │ ├── repeat_copy.py │ │ │ │ │ ├── reverse.py │ │ │ │ │ ├── reversed_addition.py │ │ │ │ │ └── tests │ │ │ │ │ │ ├── __init__.py │ │ │ │ │ │ └── test_algorithmic.py │ │ │ │ ├── atari │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── atari_env.py │ │ │ │ ├── board_game │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── go.py │ │ │ │ │ └── hex.py │ │ │ │ ├── box2d │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── bipedal_walker.py │ │ │ │ │ ├── car_dynamics.py │ │ │ │ │ ├── car_racing.py │ │ │ │ │ └── lunar_lander.py │ │ │ │ ├── classic_control │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── acrobot.py │ │ │ │ │ ├── assets │ │ │ │ │ │ └── clockwise.png │ │ │ │ │ ├── cartpole.py │ │ │ │ │ ├── continuous_mountain_car.py │ │ │ │ │ ├── mountain_car.py │ │ │ │ │ ├── pendulum.py │ │ │ │ │ └── rendering.py │ │ │ │ ├── debugging │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── one_round_deterministic_reward.py │ │ │ │ │ ├── one_round_nondeterministic_reward.py │ │ │ │ │ ├── two_round_deterministic_reward.py │ │ │ │ │ └── two_round_nondeterministic_reward.py │ │ │ │ ├── mujoco │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── ant.py │ │ │ │ │ ├── assets │ │ │ │ │ │ ├── ant.xml │ │ │ │ │ │ ├── half_cheetah.xml │ │ │ │ │ │ ├── hopper.xml │ │ │ │ │ │ ├── humanoid.xml │ │ │ │ │ │ ├── humanoidstandup.xml │ │ │ │ │ │ ├── inverted_double_pendulum.xml │ │ │ │ │ │ ├── inverted_pendulum.xml │ │ │ │ │ │ ├── meshes │ │ │ │ │ │ │ ├── base.stl │ │ │ │ │ │ │ ├── base_L.stl │ │ │ │ │ │ │ ├── caster.stl │ │ │ │ │ │ │ ├── caster_L.stl │ │ │ │ │ │ │ ├── coffe_mate.stl │ │ │ │ │ │ │ ├── elbow_flex.stl │ │ │ │ │ │ │ ├── finger_tip_l.stl │ │ │ │ │ │ │ ├── finger_tip_pad2_l.stl │ │ │ │ │ │ │ ├── finger_tip_pad2_r.stl │ │ │ │ │ │ │ ├── finger_tip_r.stl │ │ │ │ │ │ │ ├── forearm.stl │ │ │ │ │ │ │ ├── forearm_roll.stl │ │ │ │ │ │ │ ├── forearm_roll_L.stl │ │ │ │ │ │ │ ├── gripper_palm.stl │ │ │ │ │ │ │ ├── head_pan.stl │ │ │ │ │ │ │ ├── head_pan_L.stl │ │ │ │ │ │ │ ├── head_tilt.stl │ │ │ │ │ │ │ ├── head_tilt_L.stl │ │ │ │ │ │ │ ├── hok_tilt.stl │ │ │ │ │ │ │ ├── l_finger.stl │ │ │ │ │ │ │ ├── l_finger_tip.stl │ │ │ │ │ │ │ ├── l_floating.stl │ │ │ │ │ │ │ ├── noddlesoup.stl │ │ │ │ │ │ │ ├── pr2_wheel.stl │ │ │ │ │ │ │ ├── shoulder_lift.stl │ │ │ │ │ │ │ ├── shoulder_pan.stl │ │ │ │ │ │ │ ├── shoulder_yaw.stl │ │ │ │ │ │ │ ├── tilting_hokuyo.stl │ │ │ │ │ │ │ ├── tilting_hokuyo_L.stl │ │ │ │ │ │ │ ├── torso.stl │ │ │ │ │ │ │ ├── torso_lift.stl │ │ │ │ │ │ │ ├── torso_lift_L.stl │ │ │ │ │ │ │ ├── upper_arm.stl │ │ │ │ │ │ │ ├── upper_arm_roll.stl │ │ │ │ │ │ │ ├── upper_arm_roll_L.stl │ │ │ │ │ │ │ ├── upper_finger_l.stl │ │ │ │ │ │ │ ├── upper_finger_r.stl │ │ │ │ │ │ │ ├── wheel.stl │ │ │ │ │ │ │ ├── white_rain.stl │ │ │ │ │ │ │ ├── windex.stl │ │ │ │ │ │ │ ├── wrist_flex.stl │ │ │ │ │ │ │ ├── wrist_roll.stl │ │ │ │ │ │ │ └── wrist_roll_L.stl │ │ │ │ │ │ ├── point.xml │ │ │ │ │ │ ├── pr2.xml │ │ │ │ │ │ ├── reacher.xml │ │ │ │ │ │ ├── swimmer.xml │ │ │ │ │ │ └── walker2d.xml │ │ │ │ │ ├── half_cheetah.py │ │ │ │ │ ├── hopper.py │ │ │ │ │ ├── humanoid.py │ │ │ │ │ ├── humanoidstandup.py │ │ │ │ │ ├── inverted_double_pendulum.py │ │ │ │ │ ├── inverted_pendulum.py │ │ │ │ │ ├── mujoco_env.py │ │ │ │ │ ├── reacher.py │ │ │ │ │ ├── swimmer.py │ │ │ │ │ └── walker2d.py │ │ │ │ ├── parameter_tuning │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── convergence.py │ │ │ │ │ └── train_deep_cnn.py │ │ │ │ ├── registration.py │ │ │ │ ├── safety │ │ │ │ │ ├── README.md │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── offswitch_cartpole.py │ │ │ │ │ ├── offswitch_cartpole_prob.py │ │ │ │ │ ├── predict_actions_cartpole.py │ │ │ │ │ ├── predict_obs_cartpole.py │ │ │ │ │ └── semisuper.py │ │ │ │ ├── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── rollout.json │ │ │ │ │ ├── spec_list.py │ │ │ │ │ ├── test_determinism.py │ │ │ │ │ ├── test_envs.py │ │ │ │ │ ├── test_envs_semantics.py │ │ │ │ │ ├── test_registration.py │ │ │ │ │ └── test_safety_envs.py │ │ │ │ └── toy_text │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── blackjack.py │ │ │ │ │ ├── discrete.py │ │ │ │ │ ├── frozen_lake.py │ │ │ │ │ ├── guessing_game.py │ │ │ │ │ ├── hotter_colder.py │ │ │ │ │ ├── nchain.py │ │ │ │ │ ├── roulette.py │ │ │ │ │ └── taxi.py │ │ │ ├── error.py │ │ │ ├── monitoring │ │ │ │ ├── __init__.py │ │ │ │ ├── stats_recorder.py │ │ │ │ ├── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── helpers.py │ │ │ │ │ ├── test_monitor.py │ │ │ │ │ └── test_video_recorder.py │ │ │ │ └── video_recorder.py │ │ │ ├── scoreboard │ │ │ │ ├── __init__.py │ │ │ │ ├── api.py │ │ │ │ ├── client │ │ │ │ │ ├── README.md │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── api_requestor.py │ │ │ │ │ ├── http_client.py │ │ │ │ │ ├── resource.py │ │ │ │ │ ├── tests │ │ │ │ │ │ ├── __init__.py │ │ │ │ │ │ ├── helper.py │ │ │ │ │ │ ├── test_evaluation.py │ │ │ │ │ │ └── test_file_upload.py │ │ │ │ │ └── util.py │ │ │ │ ├── registration.py │ │ │ │ ├── scoring.py │ │ │ │ └── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── test_registration.py │ │ │ │ │ └── test_scoring.py │ │ │ ├── spaces │ │ │ │ ├── __init__.py │ │ │ │ ├── box.py │ │ │ │ ├── discrete.py │ │ │ │ ├── multi_binary.py │ │ │ │ ├── multi_discrete.py │ │ │ │ ├── prng.py │ │ │ │ ├── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── test_spaces.py │ │ │ │ └── tuple_space.py │ │ │ ├── tests │ │ │ │ └── test_core.py │ │ │ ├── utils │ │ │ │ ├── __init__.py │ │ │ │ ├── atomic_write.py │ │ │ │ ├── closer.py │ │ │ │ ├── colorize.py │ │ │ │ ├── ezpickle.py │ │ │ │ ├── json_utils.py │ │ │ │ ├── play.py │ │ │ │ ├── reraise.py │ │ │ │ ├── reraise_impl_py2.py │ │ │ │ ├── reraise_impl_py3.py │ │ │ │ ├── seeding.py │ │ │ │ └── tests │ │ │ │ │ ├── test_atexit.py │ │ │ │ │ └── test_seeding.py │ │ │ ├── version.py │ │ │ └── wrappers │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── frame_skipping.py │ │ │ │ ├── monitoring.py │ │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ └── test_wrappers.py │ │ │ │ └── time_limit.py │ │ ├── hopper_rand_params.py │ │ ├── mujoco_py │ │ │ ├── .ruby-version │ │ │ ├── Gemfile │ │ │ ├── Gemfile.lock │ │ │ ├── __init__.py │ │ │ ├── codegen.rb │ │ │ ├── config.py │ │ │ ├── error.py │ │ │ ├── gen_binding.sh │ │ │ ├── glfw.py │ │ │ ├── mjconstants.py │ │ │ ├── mjcore.py │ │ │ ├── mjextra.py │ │ │ ├── mjlib.py │ │ │ ├── mjtypes.py │ │ │ ├── mjviewer.py │ │ │ ├── platname_targdir.py │ │ │ ├── util.py │ │ │ └── vendor │ │ │ │ └── osx │ │ │ │ └── mujoco │ │ │ │ └── mujoco.h │ │ ├── pr2_env_reach.py │ │ └── walker2d_rand_params.py │ ├── setup.py │ └── walker2d_rand_params.py ├── replay_buffer.py ├── reward_ensemble.py ├── rl_algorithm.py ├── trainer.py ├── transition_ensemble.py └── utils │ ├── core.py │ ├── env_utils.py │ ├── eval_util.py │ ├── logging.py │ ├── pythonplusplus.py │ ├── pytorch_util.py │ ├── rng.py │ └── tabulate.py ├── oac-explore ├── .gitignore ├── configs │ ├── ant-dir.py │ ├── ant-goal.py │ ├── halfcheetah-vel.py │ ├── humanoid-dir.py │ ├── humanoid-openai-dir.py │ ├── humanoid-openai-goal.py │ ├── maze-medium.py │ ├── maze-umaze.py │ └── walker-param.py ├── env │ ├── ant_dir.py │ ├── ant_goal.py │ ├── half_cheetah.py │ ├── hopper.py │ ├── humanoid_dir.py │ ├── humanoid_dir_openai.py │ ├── humanoid_goal_ndone.py │ ├── maze2d.py │ └── walker_param.py ├── generate_goals.py ├── goals │ ├── ant-dir-normal-goals.pkl │ ├── ant-goal-normal-goals.pkl │ ├── halfcheetah-vel-hard-goals.pkl │ ├── humanoid-dir-normal-goals.pkl │ ├── humanoid-goal-normal-goals.pkl │ ├── humanoid-ndone-goal-normal-goals.pkl │ ├── humanoid-openai-dir-normal-goals.pkl │ ├── maze-medium-normal-goals.pkl │ ├── maze-umaze-normal-goals.pkl │ └── walker-param-normal-goals.pkl ├── launcher_util.py ├── main.py ├── medium.png ├── networks.py ├── optimistic_exploration.py ├── path_collector.py ├── pointmaze │ ├── __init__.py │ ├── dynamic_mjc.py │ ├── gridcraft │ │ ├── __init__.py │ │ ├── grid_env.py │ │ ├── grid_spec.py │ │ ├── utils.py │ │ └── wrappers.py │ ├── maze_model.py │ └── q_iteration.py ├── rand_param_envs │ ├── .gitignore │ ├── README.md │ ├── __init__.py │ ├── base.py │ ├── gym │ │ ├── __init__.py │ │ ├── benchmarks │ │ │ ├── __init__.py │ │ │ ├── registration.py │ │ │ ├── scoring.py │ │ │ └── tests │ │ │ │ ├── __init__.py │ │ │ │ └── test_benchmark.py │ │ ├── configuration.py │ │ ├── core.py │ │ ├── envs │ │ │ ├── README.md │ │ │ ├── __init__.py │ │ │ ├── algorithmic │ │ │ │ ├── __init__.py │ │ │ │ ├── algorithmic_env.py │ │ │ │ ├── copy_.py │ │ │ │ ├── duplicated_input.py │ │ │ │ ├── repeat_copy.py │ │ │ │ ├── reverse.py │ │ │ │ ├── reversed_addition.py │ │ │ │ └── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── test_algorithmic.py │ │ │ ├── atari │ │ │ │ ├── __init__.py │ │ │ │ └── atari_env.py │ │ │ ├── board_game │ │ │ │ ├── __init__.py │ │ │ │ ├── go.py │ │ │ │ └── hex.py │ │ │ ├── box2d │ │ │ │ ├── __init__.py │ │ │ │ ├── bipedal_walker.py │ │ │ │ ├── car_dynamics.py │ │ │ │ ├── car_racing.py │ │ │ │ └── lunar_lander.py │ │ │ ├── classic_control │ │ │ │ ├── __init__.py │ │ │ │ ├── acrobot.py │ │ │ │ ├── assets │ │ │ │ │ └── clockwise.png │ │ │ │ ├── cartpole.py │ │ │ │ ├── continuous_mountain_car.py │ │ │ │ ├── mountain_car.py │ │ │ │ ├── pendulum.py │ │ │ │ └── rendering.py │ │ │ ├── debugging │ │ │ │ ├── __init__.py │ │ │ │ ├── one_round_deterministic_reward.py │ │ │ │ ├── one_round_nondeterministic_reward.py │ │ │ │ ├── two_round_deterministic_reward.py │ │ │ │ └── two_round_nondeterministic_reward.py │ │ │ ├── mujoco │ │ │ │ ├── __init__.py │ │ │ │ ├── ant.py │ │ │ │ ├── assets │ │ │ │ │ ├── ant.xml │ │ │ │ │ ├── half_cheetah.xml │ │ │ │ │ ├── hopper.xml │ │ │ │ │ ├── humanoid.xml │ │ │ │ │ ├── humanoidstandup.xml │ │ │ │ │ ├── inverted_double_pendulum.xml │ │ │ │ │ ├── inverted_pendulum.xml │ │ │ │ │ ├── meshes │ │ │ │ │ │ ├── base.stl │ │ │ │ │ │ ├── base_L.stl │ │ │ │ │ │ ├── caster.stl │ │ │ │ │ │ ├── caster_L.stl │ │ │ │ │ │ ├── coffe_mate.stl │ │ │ │ │ │ ├── elbow_flex.stl │ │ │ │ │ │ ├── finger_tip_l.stl │ │ │ │ │ │ ├── finger_tip_pad2_l.stl │ │ │ │ │ │ ├── finger_tip_pad2_r.stl │ │ │ │ │ │ ├── finger_tip_r.stl │ │ │ │ │ │ ├── forearm.stl │ │ │ │ │ │ ├── forearm_roll.stl │ │ │ │ │ │ ├── forearm_roll_L.stl │ │ │ │ │ │ ├── gripper_palm.stl │ │ │ │ │ │ ├── head_pan.stl │ │ │ │ │ │ ├── head_pan_L.stl │ │ │ │ │ │ ├── head_tilt.stl │ │ │ │ │ │ ├── head_tilt_L.stl │ │ │ │ │ │ ├── hok_tilt.stl │ │ │ │ │ │ ├── l_finger.stl │ │ │ │ │ │ ├── l_finger_tip.stl │ │ │ │ │ │ ├── l_floating.stl │ │ │ │ │ │ ├── noddlesoup.stl │ │ │ │ │ │ ├── pr2_wheel.stl │ │ │ │ │ │ ├── shoulder_lift.stl │ │ │ │ │ │ ├── shoulder_pan.stl │ │ │ │ │ │ ├── shoulder_yaw.stl │ │ │ │ │ │ ├── tilting_hokuyo.stl │ │ │ │ │ │ ├── tilting_hokuyo_L.stl │ │ │ │ │ │ ├── torso.stl │ │ │ │ │ │ ├── torso_lift.stl │ │ │ │ │ │ ├── torso_lift_L.stl │ │ │ │ │ │ ├── upper_arm.stl │ │ │ │ │ │ ├── upper_arm_roll.stl │ │ │ │ │ │ ├── upper_arm_roll_L.stl │ │ │ │ │ │ ├── upper_finger_l.stl │ │ │ │ │ │ ├── upper_finger_r.stl │ │ │ │ │ │ ├── wheel.stl │ │ │ │ │ │ ├── white_rain.stl │ │ │ │ │ │ ├── windex.stl │ │ │ │ │ │ ├── wrist_flex.stl │ │ │ │ │ │ ├── wrist_roll.stl │ │ │ │ │ │ └── wrist_roll_L.stl │ │ │ │ │ ├── point.xml │ │ │ │ │ ├── pr2.xml │ │ │ │ │ ├── reacher.xml │ │ │ │ │ ├── swimmer.xml │ │ │ │ │ └── walker2d.xml │ │ │ │ ├── half_cheetah.py │ │ │ │ ├── hopper.py │ │ │ │ ├── humanoid.py │ │ │ │ ├── humanoidstandup.py │ │ │ │ ├── inverted_double_pendulum.py │ │ │ │ ├── inverted_pendulum.py │ │ │ │ ├── mujoco_env.py │ │ │ │ ├── reacher.py │ │ │ │ ├── swimmer.py │ │ │ │ └── walker2d.py │ │ │ ├── parameter_tuning │ │ │ │ ├── __init__.py │ │ │ │ ├── convergence.py │ │ │ │ └── train_deep_cnn.py │ │ │ ├── registration.py │ │ │ ├── safety │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── offswitch_cartpole.py │ │ │ │ ├── offswitch_cartpole_prob.py │ │ │ │ ├── predict_actions_cartpole.py │ │ │ │ ├── predict_obs_cartpole.py │ │ │ │ └── semisuper.py │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ ├── rollout.json │ │ │ │ ├── spec_list.py │ │ │ │ ├── test_determinism.py │ │ │ │ ├── test_envs.py │ │ │ │ ├── test_envs_semantics.py │ │ │ │ ├── test_registration.py │ │ │ │ └── test_safety_envs.py │ │ │ └── toy_text │ │ │ │ ├── __init__.py │ │ │ │ ├── blackjack.py │ │ │ │ ├── discrete.py │ │ │ │ ├── frozen_lake.py │ │ │ │ ├── guessing_game.py │ │ │ │ ├── hotter_colder.py │ │ │ │ ├── nchain.py │ │ │ │ ├── roulette.py │ │ │ │ └── taxi.py │ │ ├── error.py │ │ ├── monitoring │ │ │ ├── __init__.py │ │ │ ├── stats_recorder.py │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ ├── helpers.py │ │ │ │ ├── test_monitor.py │ │ │ │ └── test_video_recorder.py │ │ │ └── video_recorder.py │ │ ├── scoreboard │ │ │ ├── __init__.py │ │ │ ├── api.py │ │ │ ├── client │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── api_requestor.py │ │ │ │ ├── http_client.py │ │ │ │ ├── resource.py │ │ │ │ ├── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── helper.py │ │ │ │ │ ├── test_evaluation.py │ │ │ │ │ └── test_file_upload.py │ │ │ │ └── util.py │ │ │ ├── registration.py │ │ │ ├── scoring.py │ │ │ └── tests │ │ │ │ ├── __init__.py │ │ │ │ ├── test_registration.py │ │ │ │ └── test_scoring.py │ │ ├── spaces │ │ │ ├── __init__.py │ │ │ ├── box.py │ │ │ ├── discrete.py │ │ │ ├── multi_binary.py │ │ │ ├── multi_discrete.py │ │ │ ├── prng.py │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ └── test_spaces.py │ │ │ └── tuple_space.py │ │ ├── tests │ │ │ └── test_core.py │ │ ├── utils │ │ │ ├── __init__.py │ │ │ ├── atomic_write.py │ │ │ ├── closer.py │ │ │ ├── colorize.py │ │ │ ├── ezpickle.py │ │ │ ├── json_utils.py │ │ │ ├── play.py │ │ │ ├── reraise.py │ │ │ ├── reraise_impl_py2.py │ │ │ ├── reraise_impl_py3.py │ │ │ ├── seeding.py │ │ │ └── tests │ │ │ │ ├── test_atexit.py │ │ │ │ └── test_seeding.py │ │ ├── version.py │ │ └── wrappers │ │ │ ├── README.md │ │ │ ├── __init__.py │ │ │ ├── frame_skipping.py │ │ │ ├── monitoring.py │ │ │ ├── tests │ │ │ ├── __init__.py │ │ │ └── test_wrappers.py │ │ │ └── time_limit.py │ ├── hopper_rand_params.py │ ├── mujoco_py │ │ ├── .ruby-version │ │ ├── Gemfile │ │ ├── Gemfile.lock │ │ ├── __init__.py │ │ ├── codegen.rb │ │ ├── config.py │ │ ├── error.py │ │ ├── gen_binding.sh │ │ ├── glfw.py │ │ ├── mjconstants.py │ │ ├── mjcore.py │ │ ├── mjextra.py │ │ ├── mjlib.py │ │ ├── mjtypes.py │ │ ├── mjviewer.py │ │ ├── platname_targdir.py │ │ ├── util.py │ │ └── vendor │ │ │ └── osx │ │ │ └── mujoco │ │ │ └── mujoco.h │ ├── pr2_env_reach.py │ ├── rand_param_envs │ │ ├── __init__.py │ │ ├── base.py │ │ ├── gym │ │ │ ├── __init__.py │ │ │ ├── benchmarks │ │ │ │ ├── __init__.py │ │ │ │ ├── registration.py │ │ │ │ ├── scoring.py │ │ │ │ └── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── test_benchmark.py │ │ │ ├── configuration.py │ │ │ ├── core.py │ │ │ ├── envs │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── algorithmic │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── algorithmic_env.py │ │ │ │ │ ├── copy_.py │ │ │ │ │ ├── duplicated_input.py │ │ │ │ │ ├── repeat_copy.py │ │ │ │ │ ├── reverse.py │ │ │ │ │ ├── reversed_addition.py │ │ │ │ │ └── tests │ │ │ │ │ │ ├── __init__.py │ │ │ │ │ │ └── test_algorithmic.py │ │ │ │ ├── atari │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── atari_env.py │ │ │ │ ├── board_game │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── go.py │ │ │ │ │ └── hex.py │ │ │ │ ├── box2d │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── bipedal_walker.py │ │ │ │ │ ├── car_dynamics.py │ │ │ │ │ ├── car_racing.py │ │ │ │ │ └── lunar_lander.py │ │ │ │ ├── classic_control │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── acrobot.py │ │ │ │ │ ├── assets │ │ │ │ │ │ └── clockwise.png │ │ │ │ │ ├── cartpole.py │ │ │ │ │ ├── continuous_mountain_car.py │ │ │ │ │ ├── mountain_car.py │ │ │ │ │ ├── pendulum.py │ │ │ │ │ └── rendering.py │ │ │ │ ├── debugging │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── one_round_deterministic_reward.py │ │ │ │ │ ├── one_round_nondeterministic_reward.py │ │ │ │ │ ├── two_round_deterministic_reward.py │ │ │ │ │ └── two_round_nondeterministic_reward.py │ │ │ │ ├── mujoco │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── ant.py │ │ │ │ │ ├── assets │ │ │ │ │ │ ├── ant.xml │ │ │ │ │ │ ├── half_cheetah.xml │ │ │ │ │ │ ├── hopper.xml │ │ │ │ │ │ ├── humanoid.xml │ │ │ │ │ │ ├── humanoidstandup.xml │ │ │ │ │ │ ├── inverted_double_pendulum.xml │ │ │ │ │ │ ├── inverted_pendulum.xml │ │ │ │ │ │ ├── meshes │ │ │ │ │ │ │ ├── base.stl │ │ │ │ │ │ │ ├── base_L.stl │ │ │ │ │ │ │ ├── caster.stl │ │ │ │ │ │ │ ├── caster_L.stl │ │ │ │ │ │ │ ├── coffe_mate.stl │ │ │ │ │ │ │ ├── elbow_flex.stl │ │ │ │ │ │ │ ├── finger_tip_l.stl │ │ │ │ │ │ │ ├── finger_tip_pad2_l.stl │ │ │ │ │ │ │ ├── finger_tip_pad2_r.stl │ │ │ │ │ │ │ ├── finger_tip_r.stl │ │ │ │ │ │ │ ├── forearm.stl │ │ │ │ │ │ │ ├── forearm_roll.stl │ │ │ │ │ │ │ ├── forearm_roll_L.stl │ │ │ │ │ │ │ ├── gripper_palm.stl │ │ │ │ │ │ │ ├── head_pan.stl │ │ │ │ │ │ │ ├── head_pan_L.stl │ │ │ │ │ │ │ ├── head_tilt.stl │ │ │ │ │ │ │ ├── head_tilt_L.stl │ │ │ │ │ │ │ ├── hok_tilt.stl │ │ │ │ │ │ │ ├── l_finger.stl │ │ │ │ │ │ │ ├── l_finger_tip.stl │ │ │ │ │ │ │ ├── l_floating.stl │ │ │ │ │ │ │ ├── noddlesoup.stl │ │ │ │ │ │ │ ├── pr2_wheel.stl │ │ │ │ │ │ │ ├── shoulder_lift.stl │ │ │ │ │ │ │ ├── shoulder_pan.stl │ │ │ │ │ │ │ ├── shoulder_yaw.stl │ │ │ │ │ │ │ ├── tilting_hokuyo.stl │ │ │ │ │ │ │ ├── tilting_hokuyo_L.stl │ │ │ │ │ │ │ ├── torso.stl │ │ │ │ │ │ │ ├── torso_lift.stl │ │ │ │ │ │ │ ├── torso_lift_L.stl │ │ │ │ │ │ │ ├── upper_arm.stl │ │ │ │ │ │ │ ├── upper_arm_roll.stl │ │ │ │ │ │ │ ├── upper_arm_roll_L.stl │ │ │ │ │ │ │ ├── upper_finger_l.stl │ │ │ │ │ │ │ ├── upper_finger_r.stl │ │ │ │ │ │ │ ├── wheel.stl │ │ │ │ │ │ │ ├── white_rain.stl │ │ │ │ │ │ │ ├── windex.stl │ │ │ │ │ │ │ ├── wrist_flex.stl │ │ │ │ │ │ │ ├── wrist_roll.stl │ │ │ │ │ │ │ └── wrist_roll_L.stl │ │ │ │ │ │ ├── point.xml │ │ │ │ │ │ ├── pr2.xml │ │ │ │ │ │ ├── reacher.xml │ │ │ │ │ │ ├── swimmer.xml │ │ │ │ │ │ └── walker2d.xml │ │ │ │ │ ├── half_cheetah.py │ │ │ │ │ ├── hopper.py │ │ │ │ │ ├── humanoid.py │ │ │ │ │ ├── humanoidstandup.py │ │ │ │ │ ├── inverted_double_pendulum.py │ │ │ │ │ ├── inverted_pendulum.py │ │ │ │ │ ├── mujoco_env.py │ │ │ │ │ ├── reacher.py │ │ │ │ │ ├── swimmer.py │ │ │ │ │ └── walker2d.py │ │ │ │ ├── parameter_tuning │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── convergence.py │ │ │ │ │ └── train_deep_cnn.py │ │ │ │ ├── registration.py │ │ │ │ ├── safety │ │ │ │ │ ├── README.md │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── offswitch_cartpole.py │ │ │ │ │ ├── offswitch_cartpole_prob.py │ │ │ │ │ ├── predict_actions_cartpole.py │ │ │ │ │ ├── predict_obs_cartpole.py │ │ │ │ │ └── semisuper.py │ │ │ │ ├── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── rollout.json │ │ │ │ │ ├── spec_list.py │ │ │ │ │ ├── test_determinism.py │ │ │ │ │ ├── test_envs.py │ │ │ │ │ ├── test_envs_semantics.py │ │ │ │ │ ├── test_registration.py │ │ │ │ │ └── test_safety_envs.py │ │ │ │ └── toy_text │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── blackjack.py │ │ │ │ │ ├── discrete.py │ │ │ │ │ ├── frozen_lake.py │ │ │ │ │ ├── guessing_game.py │ │ │ │ │ ├── hotter_colder.py │ │ │ │ │ ├── nchain.py │ │ │ │ │ ├── roulette.py │ │ │ │ │ └── taxi.py │ │ │ ├── error.py │ │ │ ├── monitoring │ │ │ │ ├── __init__.py │ │ │ │ ├── stats_recorder.py │ │ │ │ ├── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── helpers.py │ │ │ │ │ ├── test_monitor.py │ │ │ │ │ └── test_video_recorder.py │ │ │ │ └── video_recorder.py │ │ │ ├── scoreboard │ │ │ │ ├── __init__.py │ │ │ │ ├── api.py │ │ │ │ ├── client │ │ │ │ │ ├── README.md │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── api_requestor.py │ │ │ │ │ ├── http_client.py │ │ │ │ │ ├── resource.py │ │ │ │ │ ├── tests │ │ │ │ │ │ ├── __init__.py │ │ │ │ │ │ ├── helper.py │ │ │ │ │ │ ├── test_evaluation.py │ │ │ │ │ │ └── test_file_upload.py │ │ │ │ │ └── util.py │ │ │ │ ├── registration.py │ │ │ │ ├── scoring.py │ │ │ │ └── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── test_registration.py │ │ │ │ │ └── test_scoring.py │ │ │ ├── spaces │ │ │ │ ├── __init__.py │ │ │ │ ├── box.py │ │ │ │ ├── discrete.py │ │ │ │ ├── multi_binary.py │ │ │ │ ├── multi_discrete.py │ │ │ │ ├── prng.py │ │ │ │ ├── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── test_spaces.py │ │ │ │ └── tuple_space.py │ │ │ ├── tests │ │ │ │ └── test_core.py │ │ │ ├── utils │ │ │ │ ├── __init__.py │ │ │ │ ├── atomic_write.py │ │ │ │ ├── closer.py │ │ │ │ ├── colorize.py │ │ │ │ ├── ezpickle.py │ │ │ │ ├── json_utils.py │ │ │ │ ├── play.py │ │ │ │ ├── reraise.py │ │ │ │ ├── reraise_impl_py2.py │ │ │ │ ├── reraise_impl_py3.py │ │ │ │ ├── seeding.py │ │ │ │ └── tests │ │ │ │ │ ├── test_atexit.py │ │ │ │ │ └── test_seeding.py │ │ │ ├── version.py │ │ │ └── wrappers │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── frame_skipping.py │ │ │ │ ├── monitoring.py │ │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ └── test_wrappers.py │ │ │ │ └── time_limit.py │ │ ├── hopper_rand_params.py │ │ ├── mujoco_py │ │ │ ├── .ruby-version │ │ │ ├── Gemfile │ │ │ ├── Gemfile.lock │ │ │ ├── __init__.py │ │ │ ├── codegen.rb │ │ │ ├── config.py │ │ │ ├── error.py │ │ │ ├── gen_binding.sh │ │ │ ├── glfw.py │ │ │ ├── mjconstants.py │ │ │ ├── mjcore.py │ │ │ ├── mjextra.py │ │ │ ├── mjlib.py │ │ │ ├── mjtypes.py │ │ │ ├── mjviewer.py │ │ │ ├── platname_targdir.py │ │ │ ├── util.py │ │ │ └── vendor │ │ │ │ └── osx │ │ │ │ └── mujoco │ │ │ │ └── mujoco.h │ │ ├── pr2_env_reach.py │ │ └── walker2d_rand_params.py │ ├── setup.py │ └── walker2d_rand_params.py ├── replay_buffer.py ├── rl_algorithm.py ├── test.py ├── trainer │ ├── __init__.py │ ├── policies.py │ └── trainer.py ├── umaze.png └── utils │ ├── .env_utils.py.swp │ ├── __init__.py │ ├── core.py │ ├── env_utils.py │ ├── eval_util.py │ ├── logging.py │ ├── pythonplusplus.py │ ├── pytorch_util.py │ ├── rng.py │ └── tabulate.py ├── paper_figs └── test.txt ├── plotting ├── evaluate_ablate_reward_ensemble.py ├── evaluate_ablate_triplet_margin.py ├── evaluate_against_ablations.py ├── evaluate_against_baseline.py ├── evaluate_metagenrl.py ├── evaluate_sac_init.py ├── goals │ ├── ant-dir-normal-goals.pkl │ ├── ant-goal-normal-goals.pkl │ ├── halfcheetah-vel-hard-goals.pkl │ ├── humanoid-dir-normal-goals.pkl │ ├── humanoid-goal-normal-goals.pkl │ ├── humanoid-ndone-goal-normal-goals.pkl │ ├── humanoid-openai-dir-normal-goals.pkl │ ├── maze-medium-normal-goals.pkl │ ├── maze-umaze-normal-goals.pkl │ └── walker-param-normal-goals.pkl └── plot_utils.py ├── reward_prediction_ensemble ├── .gitignore ├── configs │ ├── ant-dir.py │ ├── ant-goal.py │ ├── halfcheetah-vel.py │ ├── humanoid-ndone-goal.py │ ├── humanoid-openai-dir.py │ ├── maze-medium-0-1.py │ ├── maze-medium-2-3.py │ ├── maze-medium-4-5.py │ ├── maze-medium-6-7.py │ ├── maze-medium-8-9.py │ ├── maze-umaze-0-4.py │ └── maze-umaze-5-9.py ├── env │ ├── ant_dir.py │ ├── ant_goal.py │ ├── half_cheetah.py │ ├── hopper.py │ ├── humanoid_dir.py │ ├── humanoid_dir_openai.py │ ├── humanoid_goal_ndone.py │ ├── maze2d.py │ └── walker_param.py ├── generate_goals.py ├── goals │ ├── ant-dir-normal-goals.pkl │ ├── ant-goal-normal-goals.pkl │ ├── halfcheetah-vel-hard-goals.pkl │ ├── humanoid-dir-normal-goals.pkl │ ├── humanoid-goal-normal-goals.pkl │ ├── humanoid-ndone-goal-normal-goals.pkl │ ├── humanoid-openai-dir-normal-goals.pkl │ ├── maze-medium-normal-goals.pkl │ ├── maze-umaze-normal-goals.pkl │ └── walker-param-normal-goals.pkl ├── main.py ├── networks.py ├── pointmaze │ ├── __init__.py │ ├── dynamic_mjc.py │ ├── gridcraft │ │ ├── __init__.py │ │ ├── grid_env.py │ │ ├── grid_spec.py │ │ ├── utils.py │ │ └── wrappers.py │ ├── maze_model.py │ └── q_iteration.py ├── rand_param_envs │ ├── .gitignore │ ├── README.md │ ├── __init__.py │ ├── base.py │ ├── gym │ │ ├── __init__.py │ │ ├── benchmarks │ │ │ ├── __init__.py │ │ │ ├── registration.py │ │ │ ├── scoring.py │ │ │ └── tests │ │ │ │ ├── __init__.py │ │ │ │ └── test_benchmark.py │ │ ├── configuration.py │ │ ├── core.py │ │ ├── envs │ │ │ ├── README.md │ │ │ ├── __init__.py │ │ │ ├── algorithmic │ │ │ │ ├── __init__.py │ │ │ │ ├── algorithmic_env.py │ │ │ │ ├── copy_.py │ │ │ │ ├── duplicated_input.py │ │ │ │ ├── repeat_copy.py │ │ │ │ ├── reverse.py │ │ │ │ ├── reversed_addition.py │ │ │ │ └── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── test_algorithmic.py │ │ │ ├── atari │ │ │ │ ├── __init__.py │ │ │ │ └── atari_env.py │ │ │ ├── board_game │ │ │ │ ├── __init__.py │ │ │ │ ├── go.py │ │ │ │ └── hex.py │ │ │ ├── box2d │ │ │ │ ├── __init__.py │ │ │ │ ├── bipedal_walker.py │ │ │ │ ├── car_dynamics.py │ │ │ │ ├── car_racing.py │ │ │ │ └── lunar_lander.py │ │ │ ├── classic_control │ │ │ │ ├── __init__.py │ │ │ │ ├── acrobot.py │ │ │ │ ├── assets │ │ │ │ │ └── clockwise.png │ │ │ │ ├── cartpole.py │ │ │ │ ├── continuous_mountain_car.py │ │ │ │ ├── mountain_car.py │ │ │ │ ├── pendulum.py │ │ │ │ └── rendering.py │ │ │ ├── debugging │ │ │ │ ├── __init__.py │ │ │ │ ├── one_round_deterministic_reward.py │ │ │ │ ├── one_round_nondeterministic_reward.py │ │ │ │ ├── two_round_deterministic_reward.py │ │ │ │ └── two_round_nondeterministic_reward.py │ │ │ ├── mujoco │ │ │ │ ├── __init__.py │ │ │ │ ├── ant.py │ │ │ │ ├── assets │ │ │ │ │ ├── ant.xml │ │ │ │ │ ├── half_cheetah.xml │ │ │ │ │ ├── hopper.xml │ │ │ │ │ ├── humanoid.xml │ │ │ │ │ ├── humanoidstandup.xml │ │ │ │ │ ├── inverted_double_pendulum.xml │ │ │ │ │ ├── inverted_pendulum.xml │ │ │ │ │ ├── meshes │ │ │ │ │ │ ├── base.stl │ │ │ │ │ │ ├── base_L.stl │ │ │ │ │ │ ├── caster.stl │ │ │ │ │ │ ├── caster_L.stl │ │ │ │ │ │ ├── coffe_mate.stl │ │ │ │ │ │ ├── elbow_flex.stl │ │ │ │ │ │ ├── finger_tip_l.stl │ │ │ │ │ │ ├── finger_tip_pad2_l.stl │ │ │ │ │ │ ├── finger_tip_pad2_r.stl │ │ │ │ │ │ ├── finger_tip_r.stl │ │ │ │ │ │ ├── forearm.stl │ │ │ │ │ │ ├── forearm_roll.stl │ │ │ │ │ │ ├── forearm_roll_L.stl │ │ │ │ │ │ ├── gripper_palm.stl │ │ │ │ │ │ ├── head_pan.stl │ │ │ │ │ │ ├── head_pan_L.stl │ │ │ │ │ │ ├── head_tilt.stl │ │ │ │ │ │ ├── head_tilt_L.stl │ │ │ │ │ │ ├── hok_tilt.stl │ │ │ │ │ │ ├── l_finger.stl │ │ │ │ │ │ ├── l_finger_tip.stl │ │ │ │ │ │ ├── l_floating.stl │ │ │ │ │ │ ├── noddlesoup.stl │ │ │ │ │ │ ├── pr2_wheel.stl │ │ │ │ │ │ ├── shoulder_lift.stl │ │ │ │ │ │ ├── shoulder_pan.stl │ │ │ │ │ │ ├── shoulder_yaw.stl │ │ │ │ │ │ ├── tilting_hokuyo.stl │ │ │ │ │ │ ├── tilting_hokuyo_L.stl │ │ │ │ │ │ ├── torso.stl │ │ │ │ │ │ ├── torso_lift.stl │ │ │ │ │ │ ├── torso_lift_L.stl │ │ │ │ │ │ ├── upper_arm.stl │ │ │ │ │ │ ├── upper_arm_roll.stl │ │ │ │ │ │ ├── upper_arm_roll_L.stl │ │ │ │ │ │ ├── upper_finger_l.stl │ │ │ │ │ │ ├── upper_finger_r.stl │ │ │ │ │ │ ├── wheel.stl │ │ │ │ │ │ ├── white_rain.stl │ │ │ │ │ │ ├── windex.stl │ │ │ │ │ │ ├── wrist_flex.stl │ │ │ │ │ │ ├── wrist_roll.stl │ │ │ │ │ │ └── wrist_roll_L.stl │ │ │ │ │ ├── point.xml │ │ │ │ │ ├── pr2.xml │ │ │ │ │ ├── reacher.xml │ │ │ │ │ ├── swimmer.xml │ │ │ │ │ └── walker2d.xml │ │ │ │ ├── half_cheetah.py │ │ │ │ ├── hopper.py │ │ │ │ ├── humanoid.py │ │ │ │ ├── humanoidstandup.py │ │ │ │ ├── inverted_double_pendulum.py │ │ │ │ ├── inverted_pendulum.py │ │ │ │ ├── mujoco_env.py │ │ │ │ ├── reacher.py │ │ │ │ ├── swimmer.py │ │ │ │ └── walker2d.py │ │ │ ├── parameter_tuning │ │ │ │ ├── __init__.py │ │ │ │ ├── convergence.py │ │ │ │ └── train_deep_cnn.py │ │ │ ├── registration.py │ │ │ ├── safety │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── offswitch_cartpole.py │ │ │ │ ├── offswitch_cartpole_prob.py │ │ │ │ ├── predict_actions_cartpole.py │ │ │ │ ├── predict_obs_cartpole.py │ │ │ │ └── semisuper.py │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ ├── rollout.json │ │ │ │ ├── spec_list.py │ │ │ │ ├── test_determinism.py │ │ │ │ ├── test_envs.py │ │ │ │ ├── test_envs_semantics.py │ │ │ │ ├── test_registration.py │ │ │ │ └── test_safety_envs.py │ │ │ └── toy_text │ │ │ │ ├── __init__.py │ │ │ │ ├── blackjack.py │ │ │ │ ├── discrete.py │ │ │ │ ├── frozen_lake.py │ │ │ │ ├── guessing_game.py │ │ │ │ ├── hotter_colder.py │ │ │ │ ├── nchain.py │ │ │ │ ├── roulette.py │ │ │ │ └── taxi.py │ │ ├── error.py │ │ ├── monitoring │ │ │ ├── __init__.py │ │ │ ├── stats_recorder.py │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ ├── helpers.py │ │ │ │ ├── test_monitor.py │ │ │ │ └── test_video_recorder.py │ │ │ └── video_recorder.py │ │ ├── scoreboard │ │ │ ├── __init__.py │ │ │ ├── api.py │ │ │ ├── client │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── api_requestor.py │ │ │ │ ├── http_client.py │ │ │ │ ├── resource.py │ │ │ │ ├── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── helper.py │ │ │ │ │ ├── test_evaluation.py │ │ │ │ │ └── test_file_upload.py │ │ │ │ └── util.py │ │ │ ├── registration.py │ │ │ ├── scoring.py │ │ │ └── tests │ │ │ │ ├── __init__.py │ │ │ │ ├── test_registration.py │ │ │ │ └── test_scoring.py │ │ ├── spaces │ │ │ ├── __init__.py │ │ │ ├── box.py │ │ │ ├── discrete.py │ │ │ ├── multi_binary.py │ │ │ ├── multi_discrete.py │ │ │ ├── prng.py │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ └── test_spaces.py │ │ │ └── tuple_space.py │ │ ├── tests │ │ │ └── test_core.py │ │ ├── utils │ │ │ ├── __init__.py │ │ │ ├── atomic_write.py │ │ │ ├── closer.py │ │ │ ├── colorize.py │ │ │ ├── ezpickle.py │ │ │ ├── json_utils.py │ │ │ ├── play.py │ │ │ ├── reraise.py │ │ │ ├── reraise_impl_py2.py │ │ │ ├── reraise_impl_py3.py │ │ │ ├── seeding.py │ │ │ └── tests │ │ │ │ ├── test_atexit.py │ │ │ │ └── test_seeding.py │ │ ├── version.py │ │ └── wrappers │ │ │ ├── README.md │ │ │ ├── __init__.py │ │ │ ├── frame_skipping.py │ │ │ ├── monitoring.py │ │ │ ├── tests │ │ │ ├── __init__.py │ │ │ └── test_wrappers.py │ │ │ └── time_limit.py │ ├── hopper_rand_params.py │ ├── mujoco_py │ │ ├── .ruby-version │ │ ├── Gemfile │ │ ├── Gemfile.lock │ │ ├── __init__.py │ │ ├── codegen.rb │ │ ├── config.py │ │ ├── error.py │ │ ├── gen_binding.sh │ │ ├── glfw.py │ │ ├── mjconstants.py │ │ ├── mjcore.py │ │ ├── mjextra.py │ │ ├── mjlib.py │ │ ├── mjtypes.py │ │ ├── mjviewer.py │ │ ├── platname_targdir.py │ │ ├── util.py │ │ └── vendor │ │ │ └── osx │ │ │ └── mujoco │ │ │ └── mujoco.h │ ├── pr2_env_reach.py │ ├── rand_param_envs │ │ ├── __init__.py │ │ ├── base.py │ │ ├── gym │ │ │ ├── __init__.py │ │ │ ├── benchmarks │ │ │ │ ├── __init__.py │ │ │ │ ├── registration.py │ │ │ │ ├── scoring.py │ │ │ │ └── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── test_benchmark.py │ │ │ ├── configuration.py │ │ │ ├── core.py │ │ │ ├── envs │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── algorithmic │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── algorithmic_env.py │ │ │ │ │ ├── copy_.py │ │ │ │ │ ├── duplicated_input.py │ │ │ │ │ ├── repeat_copy.py │ │ │ │ │ ├── reverse.py │ │ │ │ │ ├── reversed_addition.py │ │ │ │ │ └── tests │ │ │ │ │ │ ├── __init__.py │ │ │ │ │ │ └── test_algorithmic.py │ │ │ │ ├── atari │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── atari_env.py │ │ │ │ ├── board_game │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── go.py │ │ │ │ │ └── hex.py │ │ │ │ ├── box2d │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── bipedal_walker.py │ │ │ │ │ ├── car_dynamics.py │ │ │ │ │ ├── car_racing.py │ │ │ │ │ └── lunar_lander.py │ │ │ │ ├── classic_control │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── acrobot.py │ │ │ │ │ ├── assets │ │ │ │ │ │ └── clockwise.png │ │ │ │ │ ├── cartpole.py │ │ │ │ │ ├── continuous_mountain_car.py │ │ │ │ │ ├── mountain_car.py │ │ │ │ │ ├── pendulum.py │ │ │ │ │ └── rendering.py │ │ │ │ ├── debugging │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── one_round_deterministic_reward.py │ │ │ │ │ ├── one_round_nondeterministic_reward.py │ │ │ │ │ ├── two_round_deterministic_reward.py │ │ │ │ │ └── two_round_nondeterministic_reward.py │ │ │ │ ├── mujoco │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── ant.py │ │ │ │ │ ├── assets │ │ │ │ │ │ ├── ant.xml │ │ │ │ │ │ ├── half_cheetah.xml │ │ │ │ │ │ ├── hopper.xml │ │ │ │ │ │ ├── humanoid.xml │ │ │ │ │ │ ├── humanoidstandup.xml │ │ │ │ │ │ ├── inverted_double_pendulum.xml │ │ │ │ │ │ ├── inverted_pendulum.xml │ │ │ │ │ │ ├── meshes │ │ │ │ │ │ │ ├── base.stl │ │ │ │ │ │ │ ├── base_L.stl │ │ │ │ │ │ │ ├── caster.stl │ │ │ │ │ │ │ ├── caster_L.stl │ │ │ │ │ │ │ ├── coffe_mate.stl │ │ │ │ │ │ │ ├── elbow_flex.stl │ │ │ │ │ │ │ ├── finger_tip_l.stl │ │ │ │ │ │ │ ├── finger_tip_pad2_l.stl │ │ │ │ │ │ │ ├── finger_tip_pad2_r.stl │ │ │ │ │ │ │ ├── finger_tip_r.stl │ │ │ │ │ │ │ ├── forearm.stl │ │ │ │ │ │ │ ├── forearm_roll.stl │ │ │ │ │ │ │ ├── forearm_roll_L.stl │ │ │ │ │ │ │ ├── gripper_palm.stl │ │ │ │ │ │ │ ├── head_pan.stl │ │ │ │ │ │ │ ├── head_pan_L.stl │ │ │ │ │ │ │ ├── head_tilt.stl │ │ │ │ │ │ │ ├── head_tilt_L.stl │ │ │ │ │ │ │ ├── hok_tilt.stl │ │ │ │ │ │ │ ├── l_finger.stl │ │ │ │ │ │ │ ├── l_finger_tip.stl │ │ │ │ │ │ │ ├── l_floating.stl │ │ │ │ │ │ │ ├── noddlesoup.stl │ │ │ │ │ │ │ ├── pr2_wheel.stl │ │ │ │ │ │ │ ├── shoulder_lift.stl │ │ │ │ │ │ │ ├── shoulder_pan.stl │ │ │ │ │ │ │ ├── shoulder_yaw.stl │ │ │ │ │ │ │ ├── tilting_hokuyo.stl │ │ │ │ │ │ │ ├── tilting_hokuyo_L.stl │ │ │ │ │ │ │ ├── torso.stl │ │ │ │ │ │ │ ├── torso_lift.stl │ │ │ │ │ │ │ ├── torso_lift_L.stl │ │ │ │ │ │ │ ├── upper_arm.stl │ │ │ │ │ │ │ ├── upper_arm_roll.stl │ │ │ │ │ │ │ ├── upper_arm_roll_L.stl │ │ │ │ │ │ │ ├── upper_finger_l.stl │ │ │ │ │ │ │ ├── upper_finger_r.stl │ │ │ │ │ │ │ ├── wheel.stl │ │ │ │ │ │ │ ├── white_rain.stl │ │ │ │ │ │ │ ├── windex.stl │ │ │ │ │ │ │ ├── wrist_flex.stl │ │ │ │ │ │ │ ├── wrist_roll.stl │ │ │ │ │ │ │ └── wrist_roll_L.stl │ │ │ │ │ │ ├── point.xml │ │ │ │ │ │ ├── pr2.xml │ │ │ │ │ │ ├── reacher.xml │ │ │ │ │ │ ├── swimmer.xml │ │ │ │ │ │ └── walker2d.xml │ │ │ │ │ ├── half_cheetah.py │ │ │ │ │ ├── hopper.py │ │ │ │ │ ├── humanoid.py │ │ │ │ │ ├── humanoidstandup.py │ │ │ │ │ ├── inverted_double_pendulum.py │ │ │ │ │ ├── inverted_pendulum.py │ │ │ │ │ ├── mujoco_env.py │ │ │ │ │ ├── reacher.py │ │ │ │ │ ├── swimmer.py │ │ │ │ │ └── walker2d.py │ │ │ │ ├── parameter_tuning │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── convergence.py │ │ │ │ │ └── train_deep_cnn.py │ │ │ │ ├── registration.py │ │ │ │ ├── safety │ │ │ │ │ ├── README.md │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── offswitch_cartpole.py │ │ │ │ │ ├── offswitch_cartpole_prob.py │ │ │ │ │ ├── predict_actions_cartpole.py │ │ │ │ │ ├── predict_obs_cartpole.py │ │ │ │ │ └── semisuper.py │ │ │ │ ├── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── rollout.json │ │ │ │ │ ├── spec_list.py │ │ │ │ │ ├── test_determinism.py │ │ │ │ │ ├── test_envs.py │ │ │ │ │ ├── test_envs_semantics.py │ │ │ │ │ ├── test_registration.py │ │ │ │ │ └── test_safety_envs.py │ │ │ │ └── toy_text │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── blackjack.py │ │ │ │ │ ├── discrete.py │ │ │ │ │ ├── frozen_lake.py │ │ │ │ │ ├── guessing_game.py │ │ │ │ │ ├── hotter_colder.py │ │ │ │ │ ├── nchain.py │ │ │ │ │ ├── roulette.py │ │ │ │ │ └── taxi.py │ │ │ ├── error.py │ │ │ ├── monitoring │ │ │ │ ├── __init__.py │ │ │ │ ├── stats_recorder.py │ │ │ │ ├── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── helpers.py │ │ │ │ │ ├── test_monitor.py │ │ │ │ │ └── test_video_recorder.py │ │ │ │ └── video_recorder.py │ │ │ ├── scoreboard │ │ │ │ ├── __init__.py │ │ │ │ ├── api.py │ │ │ │ ├── client │ │ │ │ │ ├── README.md │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── api_requestor.py │ │ │ │ │ ├── http_client.py │ │ │ │ │ ├── resource.py │ │ │ │ │ ├── tests │ │ │ │ │ │ ├── __init__.py │ │ │ │ │ │ ├── helper.py │ │ │ │ │ │ ├── test_evaluation.py │ │ │ │ │ │ └── test_file_upload.py │ │ │ │ │ └── util.py │ │ │ │ ├── registration.py │ │ │ │ ├── scoring.py │ │ │ │ └── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── test_registration.py │ │ │ │ │ └── test_scoring.py │ │ │ ├── spaces │ │ │ │ ├── __init__.py │ │ │ │ ├── box.py │ │ │ │ ├── discrete.py │ │ │ │ ├── multi_binary.py │ │ │ │ ├── multi_discrete.py │ │ │ │ ├── prng.py │ │ │ │ ├── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── test_spaces.py │ │ │ │ └── tuple_space.py │ │ │ ├── tests │ │ │ │ └── test_core.py │ │ │ ├── utils │ │ │ │ ├── __init__.py │ │ │ │ ├── atomic_write.py │ │ │ │ ├── closer.py │ │ │ │ ├── colorize.py │ │ │ │ ├── ezpickle.py │ │ │ │ ├── json_utils.py │ │ │ │ ├── play.py │ │ │ │ ├── reraise.py │ │ │ │ ├── reraise_impl_py2.py │ │ │ │ ├── reraise_impl_py3.py │ │ │ │ ├── seeding.py │ │ │ │ └── tests │ │ │ │ │ ├── test_atexit.py │ │ │ │ │ └── test_seeding.py │ │ │ ├── version.py │ │ │ └── wrappers │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── frame_skipping.py │ │ │ │ ├── monitoring.py │ │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ └── test_wrappers.py │ │ │ │ └── time_limit.py │ │ ├── hopper_rand_params.py │ │ ├── mujoco_py │ │ │ ├── .ruby-version │ │ │ ├── Gemfile │ │ │ ├── Gemfile.lock │ │ │ ├── __init__.py │ │ │ ├── codegen.rb │ │ │ ├── config.py │ │ │ ├── error.py │ │ │ ├── gen_binding.sh │ │ │ ├── glfw.py │ │ │ ├── mjconstants.py │ │ │ ├── mjcore.py │ │ │ ├── mjextra.py │ │ │ ├── mjlib.py │ │ │ ├── mjtypes.py │ │ │ ├── mjviewer.py │ │ │ ├── platname_targdir.py │ │ │ ├── util.py │ │ │ └── vendor │ │ │ │ └── osx │ │ │ │ └── mujoco │ │ │ │ └── mujoco.h │ │ ├── pr2_env_reach.py │ │ └── walker2d_rand_params.py │ ├── setup.py │ └── walker2d_rand_params.py ├── replay_buffer.py ├── rl_algorithm.py ├── trainer.py ├── tune_threshold.py └── utils │ ├── core.py │ ├── env_utils.py │ ├── eval_util.py │ ├── logging.py │ ├── pythonplusplus.py │ ├── pytorch_util.py │ ├── rng.py │ └── tabulate.py ├── sac_baseline ├── .gitignore ├── configs │ ├── ant-dir.py │ ├── ant-goal.py │ ├── halfcheetah-vel.py │ ├── humanoid-ndone-goal.py │ ├── humanoid-openai-dir.py │ └── walker-param.py ├── generate_goals.py ├── goals │ ├── ant-dir-normal-goals.pkl │ ├── ant-goal-normal-goals.pkl │ ├── halfcheetah-vel-hard-goals.pkl │ ├── humanoid-dir-normal-goals.pkl │ ├── humanoid-goal-normal-goals.pkl │ ├── humanoid-ndone-goal-normal-goals.pkl │ ├── humanoid-openai-dir-normal-goals.pkl │ └── walker-param-normal-goals.pkl ├── launcher_util.py ├── main.py ├── networks.py ├── optimistic_exploration.py ├── path_collector.py ├── prob_context_encoder.py ├── rand_param_envs │ ├── .gitignore │ ├── README.md │ ├── __init__.py │ ├── base.py │ ├── gym │ │ ├── __init__.py │ │ ├── benchmarks │ │ │ ├── __init__.py │ │ │ ├── registration.py │ │ │ ├── scoring.py │ │ │ └── tests │ │ │ │ ├── __init__.py │ │ │ │ └── test_benchmark.py │ │ ├── configuration.py │ │ ├── core.py │ │ ├── envs │ │ │ ├── README.md │ │ │ ├── __init__.py │ │ │ ├── algorithmic │ │ │ │ ├── __init__.py │ │ │ │ ├── algorithmic_env.py │ │ │ │ ├── copy_.py │ │ │ │ ├── duplicated_input.py │ │ │ │ ├── repeat_copy.py │ │ │ │ ├── reverse.py │ │ │ │ ├── reversed_addition.py │ │ │ │ └── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── test_algorithmic.py │ │ │ ├── atari │ │ │ │ ├── __init__.py │ │ │ │ └── atari_env.py │ │ │ ├── board_game │ │ │ │ ├── __init__.py │ │ │ │ ├── go.py │ │ │ │ └── hex.py │ │ │ ├── box2d │ │ │ │ ├── __init__.py │ │ │ │ ├── bipedal_walker.py │ │ │ │ ├── car_dynamics.py │ │ │ │ ├── car_racing.py │ │ │ │ └── lunar_lander.py │ │ │ ├── classic_control │ │ │ │ ├── __init__.py │ │ │ │ ├── acrobot.py │ │ │ │ ├── assets │ │ │ │ │ └── clockwise.png │ │ │ │ ├── cartpole.py │ │ │ │ ├── continuous_mountain_car.py │ │ │ │ ├── mountain_car.py │ │ │ │ ├── pendulum.py │ │ │ │ └── rendering.py │ │ │ ├── debugging │ │ │ │ ├── __init__.py │ │ │ │ ├── one_round_deterministic_reward.py │ │ │ │ ├── one_round_nondeterministic_reward.py │ │ │ │ ├── two_round_deterministic_reward.py │ │ │ │ └── two_round_nondeterministic_reward.py │ │ │ ├── mujoco │ │ │ │ ├── __init__.py │ │ │ │ ├── ant.py │ │ │ │ ├── assets │ │ │ │ │ ├── ant.xml │ │ │ │ │ ├── half_cheetah.xml │ │ │ │ │ ├── hopper.xml │ │ │ │ │ ├── humanoid.xml │ │ │ │ │ ├── humanoidstandup.xml │ │ │ │ │ ├── inverted_double_pendulum.xml │ │ │ │ │ ├── inverted_pendulum.xml │ │ │ │ │ ├── meshes │ │ │ │ │ │ ├── base.stl │ │ │ │ │ │ ├── base_L.stl │ │ │ │ │ │ ├── caster.stl │ │ │ │ │ │ ├── caster_L.stl │ │ │ │ │ │ ├── coffe_mate.stl │ │ │ │ │ │ ├── elbow_flex.stl │ │ │ │ │ │ ├── finger_tip_l.stl │ │ │ │ │ │ ├── finger_tip_pad2_l.stl │ │ │ │ │ │ ├── finger_tip_pad2_r.stl │ │ │ │ │ │ ├── finger_tip_r.stl │ │ │ │ │ │ ├── forearm.stl │ │ │ │ │ │ ├── forearm_roll.stl │ │ │ │ │ │ ├── forearm_roll_L.stl │ │ │ │ │ │ ├── gripper_palm.stl │ │ │ │ │ │ ├── head_pan.stl │ │ │ │ │ │ ├── head_pan_L.stl │ │ │ │ │ │ ├── head_tilt.stl │ │ │ │ │ │ ├── head_tilt_L.stl │ │ │ │ │ │ ├── hok_tilt.stl │ │ │ │ │ │ ├── l_finger.stl │ │ │ │ │ │ ├── l_finger_tip.stl │ │ │ │ │ │ ├── l_floating.stl │ │ │ │ │ │ ├── noddlesoup.stl │ │ │ │ │ │ ├── pr2_wheel.stl │ │ │ │ │ │ ├── shoulder_lift.stl │ │ │ │ │ │ ├── shoulder_pan.stl │ │ │ │ │ │ ├── shoulder_yaw.stl │ │ │ │ │ │ ├── tilting_hokuyo.stl │ │ │ │ │ │ ├── tilting_hokuyo_L.stl │ │ │ │ │ │ ├── torso.stl │ │ │ │ │ │ ├── torso_lift.stl │ │ │ │ │ │ ├── torso_lift_L.stl │ │ │ │ │ │ ├── upper_arm.stl │ │ │ │ │ │ ├── upper_arm_roll.stl │ │ │ │ │ │ ├── upper_arm_roll_L.stl │ │ │ │ │ │ ├── upper_finger_l.stl │ │ │ │ │ │ ├── upper_finger_r.stl │ │ │ │ │ │ ├── wheel.stl │ │ │ │ │ │ ├── white_rain.stl │ │ │ │ │ │ ├── windex.stl │ │ │ │ │ │ ├── wrist_flex.stl │ │ │ │ │ │ ├── wrist_roll.stl │ │ │ │ │ │ └── wrist_roll_L.stl │ │ │ │ │ ├── point.xml │ │ │ │ │ ├── pr2.xml │ │ │ │ │ ├── reacher.xml │ │ │ │ │ ├── swimmer.xml │ │ │ │ │ └── walker2d.xml │ │ │ │ ├── half_cheetah.py │ │ │ │ ├── hopper.py │ │ │ │ ├── humanoid.py │ │ │ │ ├── humanoidstandup.py │ │ │ │ ├── inverted_double_pendulum.py │ │ │ │ ├── inverted_pendulum.py │ │ │ │ ├── mujoco_env.py │ │ │ │ ├── reacher.py │ │ │ │ ├── swimmer.py │ │ │ │ └── walker2d.py │ │ │ ├── parameter_tuning │ │ │ │ ├── __init__.py │ │ │ │ ├── convergence.py │ │ │ │ └── train_deep_cnn.py │ │ │ ├── registration.py │ │ │ ├── safety │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── offswitch_cartpole.py │ │ │ │ ├── offswitch_cartpole_prob.py │ │ │ │ ├── predict_actions_cartpole.py │ │ │ │ ├── predict_obs_cartpole.py │ │ │ │ └── semisuper.py │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ ├── rollout.json │ │ │ │ ├── spec_list.py │ │ │ │ ├── test_determinism.py │ │ │ │ ├── test_envs.py │ │ │ │ ├── test_envs_semantics.py │ │ │ │ ├── test_registration.py │ │ │ │ └── test_safety_envs.py │ │ │ └── toy_text │ │ │ │ ├── __init__.py │ │ │ │ ├── blackjack.py │ │ │ │ ├── discrete.py │ │ │ │ ├── frozen_lake.py │ │ │ │ ├── guessing_game.py │ │ │ │ ├── hotter_colder.py │ │ │ │ ├── nchain.py │ │ │ │ ├── roulette.py │ │ │ │ └── taxi.py │ │ ├── error.py │ │ ├── monitoring │ │ │ ├── __init__.py │ │ │ ├── stats_recorder.py │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ ├── helpers.py │ │ │ │ ├── test_monitor.py │ │ │ │ └── test_video_recorder.py │ │ │ └── video_recorder.py │ │ ├── scoreboard │ │ │ ├── __init__.py │ │ │ ├── api.py │ │ │ ├── client │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── api_requestor.py │ │ │ │ ├── http_client.py │ │ │ │ ├── resource.py │ │ │ │ ├── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── helper.py │ │ │ │ │ ├── test_evaluation.py │ │ │ │ │ └── test_file_upload.py │ │ │ │ └── util.py │ │ │ ├── registration.py │ │ │ ├── scoring.py │ │ │ └── tests │ │ │ │ ├── __init__.py │ │ │ │ ├── test_registration.py │ │ │ │ └── test_scoring.py │ │ ├── spaces │ │ │ ├── __init__.py │ │ │ ├── box.py │ │ │ ├── discrete.py │ │ │ ├── multi_binary.py │ │ │ ├── multi_discrete.py │ │ │ ├── prng.py │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ └── test_spaces.py │ │ │ └── tuple_space.py │ │ ├── tests │ │ │ └── test_core.py │ │ ├── utils │ │ │ ├── __init__.py │ │ │ ├── atomic_write.py │ │ │ ├── closer.py │ │ │ ├── colorize.py │ │ │ ├── ezpickle.py │ │ │ ├── json_utils.py │ │ │ ├── play.py │ │ │ ├── reraise.py │ │ │ ├── reraise_impl_py2.py │ │ │ ├── reraise_impl_py3.py │ │ │ ├── seeding.py │ │ │ └── tests │ │ │ │ ├── test_atexit.py │ │ │ │ └── test_seeding.py │ │ ├── version.py │ │ └── wrappers │ │ │ ├── README.md │ │ │ ├── __init__.py │ │ │ ├── frame_skipping.py │ │ │ ├── monitoring.py │ │ │ ├── tests │ │ │ ├── __init__.py │ │ │ └── test_wrappers.py │ │ │ └── time_limit.py │ ├── hopper_rand_params.py │ ├── mujoco_py │ │ ├── .ruby-version │ │ ├── Gemfile │ │ ├── Gemfile.lock │ │ ├── __init__.py │ │ ├── codegen.rb │ │ ├── config.py │ │ ├── error.py │ │ ├── gen_binding.sh │ │ ├── glfw.py │ │ ├── mjconstants.py │ │ ├── mjcore.py │ │ ├── mjextra.py │ │ ├── mjlib.py │ │ ├── mjtypes.py │ │ ├── mjviewer.py │ │ ├── platname_targdir.py │ │ ├── util.py │ │ └── vendor │ │ │ └── osx │ │ │ └── mujoco │ │ │ └── mujoco.h │ ├── pr2_env_reach.py │ ├── rand_param_envs │ │ ├── __init__.py │ │ ├── base.py │ │ ├── gym │ │ │ ├── __init__.py │ │ │ ├── benchmarks │ │ │ │ ├── __init__.py │ │ │ │ ├── registration.py │ │ │ │ ├── scoring.py │ │ │ │ └── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── test_benchmark.py │ │ │ ├── configuration.py │ │ │ ├── core.py │ │ │ ├── envs │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── algorithmic │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── algorithmic_env.py │ │ │ │ │ ├── copy_.py │ │ │ │ │ ├── duplicated_input.py │ │ │ │ │ ├── repeat_copy.py │ │ │ │ │ ├── reverse.py │ │ │ │ │ ├── reversed_addition.py │ │ │ │ │ └── tests │ │ │ │ │ │ ├── __init__.py │ │ │ │ │ │ └── test_algorithmic.py │ │ │ │ ├── atari │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── atari_env.py │ │ │ │ ├── board_game │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── go.py │ │ │ │ │ └── hex.py │ │ │ │ ├── box2d │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── bipedal_walker.py │ │ │ │ │ ├── car_dynamics.py │ │ │ │ │ ├── car_racing.py │ │ │ │ │ └── lunar_lander.py │ │ │ │ ├── classic_control │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── acrobot.py │ │ │ │ │ ├── assets │ │ │ │ │ │ └── clockwise.png │ │ │ │ │ ├── cartpole.py │ │ │ │ │ ├── continuous_mountain_car.py │ │ │ │ │ ├── mountain_car.py │ │ │ │ │ ├── pendulum.py │ │ │ │ │ └── rendering.py │ │ │ │ ├── debugging │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── one_round_deterministic_reward.py │ │ │ │ │ ├── one_round_nondeterministic_reward.py │ │ │ │ │ ├── two_round_deterministic_reward.py │ │ │ │ │ └── two_round_nondeterministic_reward.py │ │ │ │ ├── mujoco │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── ant.py │ │ │ │ │ ├── assets │ │ │ │ │ │ ├── ant.xml │ │ │ │ │ │ ├── half_cheetah.xml │ │ │ │ │ │ ├── hopper.xml │ │ │ │ │ │ ├── humanoid.xml │ │ │ │ │ │ ├── humanoidstandup.xml │ │ │ │ │ │ ├── inverted_double_pendulum.xml │ │ │ │ │ │ ├── inverted_pendulum.xml │ │ │ │ │ │ ├── meshes │ │ │ │ │ │ │ ├── base.stl │ │ │ │ │ │ │ ├── base_L.stl │ │ │ │ │ │ │ ├── caster.stl │ │ │ │ │ │ │ ├── caster_L.stl │ │ │ │ │ │ │ ├── coffe_mate.stl │ │ │ │ │ │ │ ├── elbow_flex.stl │ │ │ │ │ │ │ ├── finger_tip_l.stl │ │ │ │ │ │ │ ├── finger_tip_pad2_l.stl │ │ │ │ │ │ │ ├── finger_tip_pad2_r.stl │ │ │ │ │ │ │ ├── finger_tip_r.stl │ │ │ │ │ │ │ ├── forearm.stl │ │ │ │ │ │ │ ├── forearm_roll.stl │ │ │ │ │ │ │ ├── forearm_roll_L.stl │ │ │ │ │ │ │ ├── gripper_palm.stl │ │ │ │ │ │ │ ├── head_pan.stl │ │ │ │ │ │ │ ├── head_pan_L.stl │ │ │ │ │ │ │ ├── head_tilt.stl │ │ │ │ │ │ │ ├── head_tilt_L.stl │ │ │ │ │ │ │ ├── hok_tilt.stl │ │ │ │ │ │ │ ├── l_finger.stl │ │ │ │ │ │ │ ├── l_finger_tip.stl │ │ │ │ │ │ │ ├── l_floating.stl │ │ │ │ │ │ │ ├── noddlesoup.stl │ │ │ │ │ │ │ ├── pr2_wheel.stl │ │ │ │ │ │ │ ├── shoulder_lift.stl │ │ │ │ │ │ │ ├── shoulder_pan.stl │ │ │ │ │ │ │ ├── shoulder_yaw.stl │ │ │ │ │ │ │ ├── tilting_hokuyo.stl │ │ │ │ │ │ │ ├── tilting_hokuyo_L.stl │ │ │ │ │ │ │ ├── torso.stl │ │ │ │ │ │ │ ├── torso_lift.stl │ │ │ │ │ │ │ ├── torso_lift_L.stl │ │ │ │ │ │ │ ├── upper_arm.stl │ │ │ │ │ │ │ ├── upper_arm_roll.stl │ │ │ │ │ │ │ ├── upper_arm_roll_L.stl │ │ │ │ │ │ │ ├── upper_finger_l.stl │ │ │ │ │ │ │ ├── upper_finger_r.stl │ │ │ │ │ │ │ ├── wheel.stl │ │ │ │ │ │ │ ├── white_rain.stl │ │ │ │ │ │ │ ├── windex.stl │ │ │ │ │ │ │ ├── wrist_flex.stl │ │ │ │ │ │ │ ├── wrist_roll.stl │ │ │ │ │ │ │ └── wrist_roll_L.stl │ │ │ │ │ │ ├── point.xml │ │ │ │ │ │ ├── pr2.xml │ │ │ │ │ │ ├── reacher.xml │ │ │ │ │ │ ├── swimmer.xml │ │ │ │ │ │ └── walker2d.xml │ │ │ │ │ ├── half_cheetah.py │ │ │ │ │ ├── hopper.py │ │ │ │ │ ├── humanoid.py │ │ │ │ │ ├── humanoidstandup.py │ │ │ │ │ ├── inverted_double_pendulum.py │ │ │ │ │ ├── inverted_pendulum.py │ │ │ │ │ ├── mujoco_env.py │ │ │ │ │ ├── reacher.py │ │ │ │ │ ├── swimmer.py │ │ │ │ │ └── walker2d.py │ │ │ │ ├── parameter_tuning │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── convergence.py │ │ │ │ │ └── train_deep_cnn.py │ │ │ │ ├── registration.py │ │ │ │ ├── safety │ │ │ │ │ ├── README.md │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── offswitch_cartpole.py │ │ │ │ │ ├── offswitch_cartpole_prob.py │ │ │ │ │ ├── predict_actions_cartpole.py │ │ │ │ │ ├── predict_obs_cartpole.py │ │ │ │ │ └── semisuper.py │ │ │ │ ├── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── rollout.json │ │ │ │ │ ├── spec_list.py │ │ │ │ │ ├── test_determinism.py │ │ │ │ │ ├── test_envs.py │ │ │ │ │ ├── test_envs_semantics.py │ │ │ │ │ ├── test_registration.py │ │ │ │ │ └── test_safety_envs.py │ │ │ │ └── toy_text │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── blackjack.py │ │ │ │ │ ├── discrete.py │ │ │ │ │ ├── frozen_lake.py │ │ │ │ │ ├── guessing_game.py │ │ │ │ │ ├── hotter_colder.py │ │ │ │ │ ├── nchain.py │ │ │ │ │ ├── roulette.py │ │ │ │ │ └── taxi.py │ │ │ ├── error.py │ │ │ ├── monitoring │ │ │ │ ├── __init__.py │ │ │ │ ├── stats_recorder.py │ │ │ │ ├── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── helpers.py │ │ │ │ │ ├── test_monitor.py │ │ │ │ │ └── test_video_recorder.py │ │ │ │ └── video_recorder.py │ │ │ ├── scoreboard │ │ │ │ ├── __init__.py │ │ │ │ ├── api.py │ │ │ │ ├── client │ │ │ │ │ ├── README.md │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── api_requestor.py │ │ │ │ │ ├── http_client.py │ │ │ │ │ ├── resource.py │ │ │ │ │ ├── tests │ │ │ │ │ │ ├── __init__.py │ │ │ │ │ │ ├── helper.py │ │ │ │ │ │ ├── test_evaluation.py │ │ │ │ │ │ └── test_file_upload.py │ │ │ │ │ └── util.py │ │ │ │ ├── registration.py │ │ │ │ ├── scoring.py │ │ │ │ └── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── test_registration.py │ │ │ │ │ └── test_scoring.py │ │ │ ├── spaces │ │ │ │ ├── __init__.py │ │ │ │ ├── box.py │ │ │ │ ├── discrete.py │ │ │ │ ├── multi_binary.py │ │ │ │ ├── multi_discrete.py │ │ │ │ ├── prng.py │ │ │ │ ├── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── test_spaces.py │ │ │ │ └── tuple_space.py │ │ │ ├── tests │ │ │ │ └── test_core.py │ │ │ ├── utils │ │ │ │ ├── __init__.py │ │ │ │ ├── atomic_write.py │ │ │ │ ├── closer.py │ │ │ │ ├── colorize.py │ │ │ │ ├── ezpickle.py │ │ │ │ ├── json_utils.py │ │ │ │ ├── play.py │ │ │ │ ├── reraise.py │ │ │ │ ├── reraise_impl_py2.py │ │ │ │ ├── reraise_impl_py3.py │ │ │ │ ├── seeding.py │ │ │ │ └── tests │ │ │ │ │ ├── test_atexit.py │ │ │ │ │ └── test_seeding.py │ │ │ ├── version.py │ │ │ └── wrappers │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── frame_skipping.py │ │ │ │ ├── monitoring.py │ │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ └── test_wrappers.py │ │ │ │ └── time_limit.py │ │ ├── hopper_rand_params.py │ │ ├── mujoco_py │ │ │ ├── .ruby-version │ │ │ ├── Gemfile │ │ │ ├── Gemfile.lock │ │ │ ├── __init__.py │ │ │ ├── codegen.rb │ │ │ ├── config.py │ │ │ ├── error.py │ │ │ ├── gen_binding.sh │ │ │ ├── glfw.py │ │ │ ├── mjconstants.py │ │ │ ├── mjcore.py │ │ │ ├── mjextra.py │ │ │ ├── mjlib.py │ │ │ ├── mjtypes.py │ │ │ ├── mjviewer.py │ │ │ ├── platname_targdir.py │ │ │ ├── util.py │ │ │ └── vendor │ │ │ │ └── osx │ │ │ │ └── mujoco │ │ │ │ └── mujoco.h │ │ ├── pr2_env_reach.py │ │ └── walker2d_rand_params.py │ ├── setup.py │ └── walker2d_rand_params.py ├── replay_buffer.py ├── rl_algorithm.py ├── trainer │ ├── __init__.py │ ├── policies.py │ └── trainer.py └── utils │ ├── .env_utils.py.swp │ ├── __init__.py │ ├── core.py │ ├── env_utils.py │ ├── eval_util.py │ ├── logging.py │ ├── pythonplusplus.py │ ├── pytorch_util.py │ ├── rng.py │ └── tabulate.py ├── sac_with_initialization ├── .gitignore ├── configs │ ├── ant-dir.py │ ├── ant-goal.py │ ├── halfcheetah-vel.py │ ├── humanoid-ndone-goal.py │ ├── humanoid-openai-dir.py │ └── walker-param.py ├── env │ ├── ant_dir.py │ ├── ant_goal.py │ ├── half_cheetah.py │ ├── hopper.py │ ├── humanoid_dir.py │ ├── humanoid_dir_openai.py │ ├── humanoid_goal_ndone.py │ └── walker_param.py ├── generate_goals.py ├── goals │ ├── ant-dir-normal-goals.pkl │ ├── ant-goal-normal-goals.pkl │ ├── halfcheetah-vel-hard-goals.pkl │ ├── humanoid-dir-normal-goals.pkl │ ├── humanoid-goal-normal-goals.pkl │ ├── humanoid-ndone-goal-normal-goals.pkl │ ├── humanoid-openai-dir-normal-goals.pkl │ └── walker-param-normal-goals.pkl ├── launcher_util.py ├── main.py ├── networks.py ├── optimistic_exploration.py ├── path_collector.py ├── prob_context_encoder.py ├── rand_param_envs │ ├── .gitignore │ ├── README.md │ ├── __init__.py │ ├── base.py │ ├── gym │ │ ├── __init__.py │ │ ├── benchmarks │ │ │ ├── __init__.py │ │ │ ├── registration.py │ │ │ ├── scoring.py │ │ │ └── tests │ │ │ │ ├── __init__.py │ │ │ │ └── test_benchmark.py │ │ ├── configuration.py │ │ ├── core.py │ │ ├── envs │ │ │ ├── README.md │ │ │ ├── __init__.py │ │ │ ├── algorithmic │ │ │ │ ├── __init__.py │ │ │ │ ├── algorithmic_env.py │ │ │ │ ├── copy_.py │ │ │ │ ├── duplicated_input.py │ │ │ │ ├── repeat_copy.py │ │ │ │ ├── reverse.py │ │ │ │ ├── reversed_addition.py │ │ │ │ └── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── test_algorithmic.py │ │ │ ├── atari │ │ │ │ ├── __init__.py │ │ │ │ └── atari_env.py │ │ │ ├── board_game │ │ │ │ ├── __init__.py │ │ │ │ ├── go.py │ │ │ │ └── hex.py │ │ │ ├── box2d │ │ │ │ ├── __init__.py │ │ │ │ ├── bipedal_walker.py │ │ │ │ ├── car_dynamics.py │ │ │ │ ├── car_racing.py │ │ │ │ └── lunar_lander.py │ │ │ ├── classic_control │ │ │ │ ├── __init__.py │ │ │ │ ├── acrobot.py │ │ │ │ ├── assets │ │ │ │ │ └── clockwise.png │ │ │ │ ├── cartpole.py │ │ │ │ ├── continuous_mountain_car.py │ │ │ │ ├── mountain_car.py │ │ │ │ ├── pendulum.py │ │ │ │ └── rendering.py │ │ │ ├── debugging │ │ │ │ ├── __init__.py │ │ │ │ ├── one_round_deterministic_reward.py │ │ │ │ ├── one_round_nondeterministic_reward.py │ │ │ │ ├── two_round_deterministic_reward.py │ │ │ │ └── two_round_nondeterministic_reward.py │ │ │ ├── mujoco │ │ │ │ ├── __init__.py │ │ │ │ ├── ant.py │ │ │ │ ├── assets │ │ │ │ │ ├── ant.xml │ │ │ │ │ ├── half_cheetah.xml │ │ │ │ │ ├── hopper.xml │ │ │ │ │ ├── humanoid.xml │ │ │ │ │ ├── humanoidstandup.xml │ │ │ │ │ ├── inverted_double_pendulum.xml │ │ │ │ │ ├── inverted_pendulum.xml │ │ │ │ │ ├── meshes │ │ │ │ │ │ ├── base.stl │ │ │ │ │ │ ├── base_L.stl │ │ │ │ │ │ ├── caster.stl │ │ │ │ │ │ ├── caster_L.stl │ │ │ │ │ │ ├── coffe_mate.stl │ │ │ │ │ │ ├── elbow_flex.stl │ │ │ │ │ │ ├── finger_tip_l.stl │ │ │ │ │ │ ├── finger_tip_pad2_l.stl │ │ │ │ │ │ ├── finger_tip_pad2_r.stl │ │ │ │ │ │ ├── finger_tip_r.stl │ │ │ │ │ │ ├── forearm.stl │ │ │ │ │ │ ├── forearm_roll.stl │ │ │ │ │ │ ├── forearm_roll_L.stl │ │ │ │ │ │ ├── gripper_palm.stl │ │ │ │ │ │ ├── head_pan.stl │ │ │ │ │ │ ├── head_pan_L.stl │ │ │ │ │ │ ├── head_tilt.stl │ │ │ │ │ │ ├── head_tilt_L.stl │ │ │ │ │ │ ├── hok_tilt.stl │ │ │ │ │ │ ├── l_finger.stl │ │ │ │ │ │ ├── l_finger_tip.stl │ │ │ │ │ │ ├── l_floating.stl │ │ │ │ │ │ ├── noddlesoup.stl │ │ │ │ │ │ ├── pr2_wheel.stl │ │ │ │ │ │ ├── shoulder_lift.stl │ │ │ │ │ │ ├── shoulder_pan.stl │ │ │ │ │ │ ├── shoulder_yaw.stl │ │ │ │ │ │ ├── tilting_hokuyo.stl │ │ │ │ │ │ ├── tilting_hokuyo_L.stl │ │ │ │ │ │ ├── torso.stl │ │ │ │ │ │ ├── torso_lift.stl │ │ │ │ │ │ ├── torso_lift_L.stl │ │ │ │ │ │ ├── upper_arm.stl │ │ │ │ │ │ ├── upper_arm_roll.stl │ │ │ │ │ │ ├── upper_arm_roll_L.stl │ │ │ │ │ │ ├── upper_finger_l.stl │ │ │ │ │ │ ├── upper_finger_r.stl │ │ │ │ │ │ ├── wheel.stl │ │ │ │ │ │ ├── white_rain.stl │ │ │ │ │ │ ├── windex.stl │ │ │ │ │ │ ├── wrist_flex.stl │ │ │ │ │ │ ├── wrist_roll.stl │ │ │ │ │ │ └── wrist_roll_L.stl │ │ │ │ │ ├── point.xml │ │ │ │ │ ├── pr2.xml │ │ │ │ │ ├── reacher.xml │ │ │ │ │ ├── swimmer.xml │ │ │ │ │ └── walker2d.xml │ │ │ │ ├── half_cheetah.py │ │ │ │ ├── hopper.py │ │ │ │ ├── humanoid.py │ │ │ │ ├── humanoidstandup.py │ │ │ │ ├── inverted_double_pendulum.py │ │ │ │ ├── inverted_pendulum.py │ │ │ │ ├── mujoco_env.py │ │ │ │ ├── reacher.py │ │ │ │ ├── swimmer.py │ │ │ │ └── walker2d.py │ │ │ ├── parameter_tuning │ │ │ │ ├── __init__.py │ │ │ │ ├── convergence.py │ │ │ │ └── train_deep_cnn.py │ │ │ ├── registration.py │ │ │ ├── safety │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── offswitch_cartpole.py │ │ │ │ ├── offswitch_cartpole_prob.py │ │ │ │ ├── predict_actions_cartpole.py │ │ │ │ ├── predict_obs_cartpole.py │ │ │ │ └── semisuper.py │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ ├── rollout.json │ │ │ │ ├── spec_list.py │ │ │ │ ├── test_determinism.py │ │ │ │ ├── test_envs.py │ │ │ │ ├── test_envs_semantics.py │ │ │ │ ├── test_registration.py │ │ │ │ └── test_safety_envs.py │ │ │ └── toy_text │ │ │ │ ├── __init__.py │ │ │ │ ├── blackjack.py │ │ │ │ ├── discrete.py │ │ │ │ ├── frozen_lake.py │ │ │ │ ├── guessing_game.py │ │ │ │ ├── hotter_colder.py │ │ │ │ ├── nchain.py │ │ │ │ ├── roulette.py │ │ │ │ └── taxi.py │ │ ├── error.py │ │ ├── monitoring │ │ │ ├── __init__.py │ │ │ ├── stats_recorder.py │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ ├── helpers.py │ │ │ │ ├── test_monitor.py │ │ │ │ └── test_video_recorder.py │ │ │ └── video_recorder.py │ │ ├── scoreboard │ │ │ ├── __init__.py │ │ │ ├── api.py │ │ │ ├── client │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── api_requestor.py │ │ │ │ ├── http_client.py │ │ │ │ ├── resource.py │ │ │ │ ├── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── helper.py │ │ │ │ │ ├── test_evaluation.py │ │ │ │ │ └── test_file_upload.py │ │ │ │ └── util.py │ │ │ ├── registration.py │ │ │ ├── scoring.py │ │ │ └── tests │ │ │ │ ├── __init__.py │ │ │ │ ├── test_registration.py │ │ │ │ └── test_scoring.py │ │ ├── spaces │ │ │ ├── __init__.py │ │ │ ├── box.py │ │ │ ├── discrete.py │ │ │ ├── multi_binary.py │ │ │ ├── multi_discrete.py │ │ │ ├── prng.py │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ └── test_spaces.py │ │ │ └── tuple_space.py │ │ ├── tests │ │ │ └── test_core.py │ │ ├── utils │ │ │ ├── __init__.py │ │ │ ├── atomic_write.py │ │ │ ├── closer.py │ │ │ ├── colorize.py │ │ │ ├── ezpickle.py │ │ │ ├── json_utils.py │ │ │ ├── play.py │ │ │ ├── reraise.py │ │ │ ├── reraise_impl_py2.py │ │ │ ├── reraise_impl_py3.py │ │ │ ├── seeding.py │ │ │ └── tests │ │ │ │ ├── test_atexit.py │ │ │ │ └── test_seeding.py │ │ ├── version.py │ │ └── wrappers │ │ │ ├── README.md │ │ │ ├── __init__.py │ │ │ ├── frame_skipping.py │ │ │ ├── monitoring.py │ │ │ ├── tests │ │ │ ├── __init__.py │ │ │ └── test_wrappers.py │ │ │ └── time_limit.py │ ├── hopper_rand_params.py │ ├── mujoco_py │ │ ├── .ruby-version │ │ ├── Gemfile │ │ ├── Gemfile.lock │ │ ├── __init__.py │ │ ├── codegen.rb │ │ ├── config.py │ │ ├── error.py │ │ ├── gen_binding.sh │ │ ├── glfw.py │ │ ├── mjconstants.py │ │ ├── mjcore.py │ │ ├── mjextra.py │ │ ├── mjlib.py │ │ ├── mjtypes.py │ │ ├── mjviewer.py │ │ ├── platname_targdir.py │ │ ├── util.py │ │ └── vendor │ │ │ └── osx │ │ │ └── mujoco │ │ │ └── mujoco.h │ ├── pr2_env_reach.py │ ├── rand_param_envs │ │ ├── __init__.py │ │ ├── base.py │ │ ├── gym │ │ │ ├── __init__.py │ │ │ ├── benchmarks │ │ │ │ ├── __init__.py │ │ │ │ ├── registration.py │ │ │ │ ├── scoring.py │ │ │ │ └── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── test_benchmark.py │ │ │ ├── configuration.py │ │ │ ├── core.py │ │ │ ├── envs │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── algorithmic │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── algorithmic_env.py │ │ │ │ │ ├── copy_.py │ │ │ │ │ ├── duplicated_input.py │ │ │ │ │ ├── repeat_copy.py │ │ │ │ │ ├── reverse.py │ │ │ │ │ ├── reversed_addition.py │ │ │ │ │ └── tests │ │ │ │ │ │ ├── __init__.py │ │ │ │ │ │ └── test_algorithmic.py │ │ │ │ ├── atari │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── atari_env.py │ │ │ │ ├── board_game │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── go.py │ │ │ │ │ └── hex.py │ │ │ │ ├── box2d │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── bipedal_walker.py │ │ │ │ │ ├── car_dynamics.py │ │ │ │ │ ├── car_racing.py │ │ │ │ │ └── lunar_lander.py │ │ │ │ ├── classic_control │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── acrobot.py │ │ │ │ │ ├── assets │ │ │ │ │ │ └── clockwise.png │ │ │ │ │ ├── cartpole.py │ │ │ │ │ ├── continuous_mountain_car.py │ │ │ │ │ ├── mountain_car.py │ │ │ │ │ ├── pendulum.py │ │ │ │ │ └── rendering.py │ │ │ │ ├── debugging │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── one_round_deterministic_reward.py │ │ │ │ │ ├── one_round_nondeterministic_reward.py │ │ │ │ │ ├── two_round_deterministic_reward.py │ │ │ │ │ └── two_round_nondeterministic_reward.py │ │ │ │ ├── mujoco │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── ant.py │ │ │ │ │ ├── assets │ │ │ │ │ │ ├── ant.xml │ │ │ │ │ │ ├── half_cheetah.xml │ │ │ │ │ │ ├── hopper.xml │ │ │ │ │ │ ├── humanoid.xml │ │ │ │ │ │ ├── humanoidstandup.xml │ │ │ │ │ │ ├── inverted_double_pendulum.xml │ │ │ │ │ │ ├── inverted_pendulum.xml │ │ │ │ │ │ ├── meshes │ │ │ │ │ │ │ ├── base.stl │ │ │ │ │ │ │ ├── base_L.stl │ │ │ │ │ │ │ ├── caster.stl │ │ │ │ │ │ │ ├── caster_L.stl │ │ │ │ │ │ │ ├── coffe_mate.stl │ │ │ │ │ │ │ ├── elbow_flex.stl │ │ │ │ │ │ │ ├── finger_tip_l.stl │ │ │ │ │ │ │ ├── finger_tip_pad2_l.stl │ │ │ │ │ │ │ ├── finger_tip_pad2_r.stl │ │ │ │ │ │ │ ├── finger_tip_r.stl │ │ │ │ │ │ │ ├── forearm.stl │ │ │ │ │ │ │ ├── forearm_roll.stl │ │ │ │ │ │ │ ├── forearm_roll_L.stl │ │ │ │ │ │ │ ├── gripper_palm.stl │ │ │ │ │ │ │ ├── head_pan.stl │ │ │ │ │ │ │ ├── head_pan_L.stl │ │ │ │ │ │ │ ├── head_tilt.stl │ │ │ │ │ │ │ ├── head_tilt_L.stl │ │ │ │ │ │ │ ├── hok_tilt.stl │ │ │ │ │ │ │ ├── l_finger.stl │ │ │ │ │ │ │ ├── l_finger_tip.stl │ │ │ │ │ │ │ ├── l_floating.stl │ │ │ │ │ │ │ ├── noddlesoup.stl │ │ │ │ │ │ │ ├── pr2_wheel.stl │ │ │ │ │ │ │ ├── shoulder_lift.stl │ │ │ │ │ │ │ ├── shoulder_pan.stl │ │ │ │ │ │ │ ├── shoulder_yaw.stl │ │ │ │ │ │ │ ├── tilting_hokuyo.stl │ │ │ │ │ │ │ ├── tilting_hokuyo_L.stl │ │ │ │ │ │ │ ├── torso.stl │ │ │ │ │ │ │ ├── torso_lift.stl │ │ │ │ │ │ │ ├── torso_lift_L.stl │ │ │ │ │ │ │ ├── upper_arm.stl │ │ │ │ │ │ │ ├── upper_arm_roll.stl │ │ │ │ │ │ │ ├── upper_arm_roll_L.stl │ │ │ │ │ │ │ ├── upper_finger_l.stl │ │ │ │ │ │ │ ├── upper_finger_r.stl │ │ │ │ │ │ │ ├── wheel.stl │ │ │ │ │ │ │ ├── white_rain.stl │ │ │ │ │ │ │ ├── windex.stl │ │ │ │ │ │ │ ├── wrist_flex.stl │ │ │ │ │ │ │ ├── wrist_roll.stl │ │ │ │ │ │ │ └── wrist_roll_L.stl │ │ │ │ │ │ ├── point.xml │ │ │ │ │ │ ├── pr2.xml │ │ │ │ │ │ ├── reacher.xml │ │ │ │ │ │ ├── swimmer.xml │ │ │ │ │ │ └── walker2d.xml │ │ │ │ │ ├── half_cheetah.py │ │ │ │ │ ├── hopper.py │ │ │ │ │ ├── humanoid.py │ │ │ │ │ ├── humanoidstandup.py │ │ │ │ │ ├── inverted_double_pendulum.py │ │ │ │ │ ├── inverted_pendulum.py │ │ │ │ │ ├── mujoco_env.py │ │ │ │ │ ├── reacher.py │ │ │ │ │ ├── swimmer.py │ │ │ │ │ └── walker2d.py │ │ │ │ ├── parameter_tuning │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── convergence.py │ │ │ │ │ └── train_deep_cnn.py │ │ │ │ ├── registration.py │ │ │ │ ├── safety │ │ │ │ │ ├── README.md │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── offswitch_cartpole.py │ │ │ │ │ ├── offswitch_cartpole_prob.py │ │ │ │ │ ├── predict_actions_cartpole.py │ │ │ │ │ ├── predict_obs_cartpole.py │ │ │ │ │ └── semisuper.py │ │ │ │ ├── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── rollout.json │ │ │ │ │ ├── spec_list.py │ │ │ │ │ ├── test_determinism.py │ │ │ │ │ ├── test_envs.py │ │ │ │ │ ├── test_envs_semantics.py │ │ │ │ │ ├── test_registration.py │ │ │ │ │ └── test_safety_envs.py │ │ │ │ └── toy_text │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── blackjack.py │ │ │ │ │ ├── discrete.py │ │ │ │ │ ├── frozen_lake.py │ │ │ │ │ ├── guessing_game.py │ │ │ │ │ ├── hotter_colder.py │ │ │ │ │ ├── nchain.py │ │ │ │ │ ├── roulette.py │ │ │ │ │ └── taxi.py │ │ │ ├── error.py │ │ │ ├── monitoring │ │ │ │ ├── __init__.py │ │ │ │ ├── stats_recorder.py │ │ │ │ ├── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── helpers.py │ │ │ │ │ ├── test_monitor.py │ │ │ │ │ └── test_video_recorder.py │ │ │ │ └── video_recorder.py │ │ │ ├── scoreboard │ │ │ │ ├── __init__.py │ │ │ │ ├── api.py │ │ │ │ ├── client │ │ │ │ │ ├── README.md │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── api_requestor.py │ │ │ │ │ ├── http_client.py │ │ │ │ │ ├── resource.py │ │ │ │ │ ├── tests │ │ │ │ │ │ ├── __init__.py │ │ │ │ │ │ ├── helper.py │ │ │ │ │ │ ├── test_evaluation.py │ │ │ │ │ │ └── test_file_upload.py │ │ │ │ │ └── util.py │ │ │ │ ├── registration.py │ │ │ │ ├── scoring.py │ │ │ │ └── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── test_registration.py │ │ │ │ │ └── test_scoring.py │ │ │ ├── spaces │ │ │ │ ├── __init__.py │ │ │ │ ├── box.py │ │ │ │ ├── discrete.py │ │ │ │ ├── multi_binary.py │ │ │ │ ├── multi_discrete.py │ │ │ │ ├── prng.py │ │ │ │ ├── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── test_spaces.py │ │ │ │ └── tuple_space.py │ │ │ ├── tests │ │ │ │ └── test_core.py │ │ │ ├── utils │ │ │ │ ├── __init__.py │ │ │ │ ├── atomic_write.py │ │ │ │ ├── closer.py │ │ │ │ ├── colorize.py │ │ │ │ ├── ezpickle.py │ │ │ │ ├── json_utils.py │ │ │ │ ├── play.py │ │ │ │ ├── reraise.py │ │ │ │ ├── reraise_impl_py2.py │ │ │ │ ├── reraise_impl_py3.py │ │ │ │ ├── seeding.py │ │ │ │ └── tests │ │ │ │ │ ├── test_atexit.py │ │ │ │ │ └── test_seeding.py │ │ │ ├── version.py │ │ │ └── wrappers │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── frame_skipping.py │ │ │ │ ├── monitoring.py │ │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ └── test_wrappers.py │ │ │ │ └── time_limit.py │ │ ├── hopper_rand_params.py │ │ ├── mujoco_py │ │ │ ├── .ruby-version │ │ │ ├── Gemfile │ │ │ ├── Gemfile.lock │ │ │ ├── __init__.py │ │ │ ├── codegen.rb │ │ │ ├── config.py │ │ │ ├── error.py │ │ │ ├── gen_binding.sh │ │ │ ├── glfw.py │ │ │ ├── mjconstants.py │ │ │ ├── mjcore.py │ │ │ ├── mjextra.py │ │ │ ├── mjlib.py │ │ │ ├── mjtypes.py │ │ │ ├── mjviewer.py │ │ │ ├── platname_targdir.py │ │ │ ├── util.py │ │ │ └── vendor │ │ │ │ └── osx │ │ │ │ └── mujoco │ │ │ │ └── mujoco.h │ │ ├── pr2_env_reach.py │ │ └── walker2d_rand_params.py │ ├── setup.py │ └── walker2d_rand_params.py ├── replay_buffer.py ├── rl_algorithm.py ├── trainer │ ├── __init__.py │ ├── policies.py │ └── trainer.py └── utils │ ├── .env_utils.py.swp │ ├── __init__.py │ ├── core.py │ ├── env_utils.py │ ├── eval_util.py │ ├── logging.py │ ├── pythonplusplus.py │ ├── pytorch_util.py │ ├── rng.py │ └── tabulate.py └── transition_prediction_ensemble ├── .gitignore ├── BCQ.py ├── configs └── walker-param.py ├── ensemble.py ├── env ├── ant_dir.py ├── ant_goal.py ├── half_cheetah.py ├── hopper.py ├── humanoid_dir.py └── walker_param.py ├── goals ├── ant-dir-normal-goals.pkl ├── ant-goal-normal-goals.pkl ├── halfcheetah-vel-hard-goals.pkl ├── humanoid-dir-normal-goals.pkl ├── humanoid-goal-normal-goals.pkl ├── humanoid-ndone-goal-normal-goals.pkl ├── humanoid-openai-dir-normal-goals.pkl └── walker-param-normal-goals.pkl ├── main.py ├── networks.py ├── path_collector.py ├── prob_context_encoder.py ├── rand_param_envs ├── .gitignore ├── README.md ├── __init__.py ├── base.py ├── gym │ ├── __init__.py │ ├── benchmarks │ │ ├── __init__.py │ │ ├── registration.py │ │ ├── scoring.py │ │ └── tests │ │ │ ├── __init__.py │ │ │ └── test_benchmark.py │ ├── configuration.py │ ├── core.py │ ├── envs │ │ ├── README.md │ │ ├── __init__.py │ │ ├── algorithmic │ │ │ ├── __init__.py │ │ │ ├── algorithmic_env.py │ │ │ ├── copy_.py │ │ │ ├── duplicated_input.py │ │ │ ├── repeat_copy.py │ │ │ ├── reverse.py │ │ │ ├── reversed_addition.py │ │ │ └── tests │ │ │ │ ├── __init__.py │ │ │ │ └── test_algorithmic.py │ │ ├── atari │ │ │ ├── __init__.py │ │ │ └── atari_env.py │ │ ├── board_game │ │ │ ├── __init__.py │ │ │ ├── go.py │ │ │ └── hex.py │ │ ├── box2d │ │ │ ├── __init__.py │ │ │ ├── bipedal_walker.py │ │ │ ├── car_dynamics.py │ │ │ ├── car_racing.py │ │ │ └── lunar_lander.py │ │ ├── classic_control │ │ │ ├── __init__.py │ │ │ ├── acrobot.py │ │ │ ├── assets │ │ │ │ └── clockwise.png │ │ │ ├── cartpole.py │ │ │ ├── continuous_mountain_car.py │ │ │ ├── mountain_car.py │ │ │ ├── pendulum.py │ │ │ └── rendering.py │ │ ├── debugging │ │ │ ├── __init__.py │ │ │ ├── one_round_deterministic_reward.py │ │ │ ├── one_round_nondeterministic_reward.py │ │ │ ├── two_round_deterministic_reward.py │ │ │ └── two_round_nondeterministic_reward.py │ │ ├── mujoco │ │ │ ├── __init__.py │ │ │ ├── ant.py │ │ │ ├── assets │ │ │ │ ├── ant.xml │ │ │ │ ├── half_cheetah.xml │ │ │ │ ├── hopper.xml │ │ │ │ ├── humanoid.xml │ │ │ │ ├── humanoidstandup.xml │ │ │ │ ├── inverted_double_pendulum.xml │ │ │ │ ├── inverted_pendulum.xml │ │ │ │ ├── meshes │ │ │ │ │ ├── base.stl │ │ │ │ │ ├── base_L.stl │ │ │ │ │ ├── caster.stl │ │ │ │ │ ├── caster_L.stl │ │ │ │ │ ├── coffe_mate.stl │ │ │ │ │ ├── elbow_flex.stl │ │ │ │ │ ├── finger_tip_l.stl │ │ │ │ │ ├── finger_tip_pad2_l.stl │ │ │ │ │ ├── finger_tip_pad2_r.stl │ │ │ │ │ ├── finger_tip_r.stl │ │ │ │ │ ├── forearm.stl │ │ │ │ │ ├── forearm_roll.stl │ │ │ │ │ ├── forearm_roll_L.stl │ │ │ │ │ ├── gripper_palm.stl │ │ │ │ │ ├── head_pan.stl │ │ │ │ │ ├── head_pan_L.stl │ │ │ │ │ ├── head_tilt.stl │ │ │ │ │ ├── head_tilt_L.stl │ │ │ │ │ ├── hok_tilt.stl │ │ │ │ │ ├── l_finger.stl │ │ │ │ │ ├── l_finger_tip.stl │ │ │ │ │ ├── l_floating.stl │ │ │ │ │ ├── noddlesoup.stl │ │ │ │ │ ├── pr2_wheel.stl │ │ │ │ │ ├── shoulder_lift.stl │ │ │ │ │ ├── shoulder_pan.stl │ │ │ │ │ ├── shoulder_yaw.stl │ │ │ │ │ ├── tilting_hokuyo.stl │ │ │ │ │ ├── tilting_hokuyo_L.stl │ │ │ │ │ ├── torso.stl │ │ │ │ │ ├── torso_lift.stl │ │ │ │ │ ├── torso_lift_L.stl │ │ │ │ │ ├── upper_arm.stl │ │ │ │ │ ├── upper_arm_roll.stl │ │ │ │ │ ├── upper_arm_roll_L.stl │ │ │ │ │ ├── upper_finger_l.stl │ │ │ │ │ ├── upper_finger_r.stl │ │ │ │ │ ├── wheel.stl │ │ │ │ │ ├── white_rain.stl │ │ │ │ │ ├── windex.stl │ │ │ │ │ ├── wrist_flex.stl │ │ │ │ │ ├── wrist_roll.stl │ │ │ │ │ └── wrist_roll_L.stl │ │ │ │ ├── point.xml │ │ │ │ ├── pr2.xml │ │ │ │ ├── reacher.xml │ │ │ │ ├── swimmer.xml │ │ │ │ └── walker2d.xml │ │ │ ├── half_cheetah.py │ │ │ ├── hopper.py │ │ │ ├── humanoid.py │ │ │ ├── humanoidstandup.py │ │ │ ├── inverted_double_pendulum.py │ │ │ ├── inverted_pendulum.py │ │ │ ├── mujoco_env.py │ │ │ ├── reacher.py │ │ │ ├── swimmer.py │ │ │ └── walker2d.py │ │ ├── parameter_tuning │ │ │ ├── __init__.py │ │ │ ├── convergence.py │ │ │ └── train_deep_cnn.py │ │ ├── registration.py │ │ ├── safety │ │ │ ├── README.md │ │ │ ├── __init__.py │ │ │ ├── offswitch_cartpole.py │ │ │ ├── offswitch_cartpole_prob.py │ │ │ ├── predict_actions_cartpole.py │ │ │ ├── predict_obs_cartpole.py │ │ │ └── semisuper.py │ │ ├── tests │ │ │ ├── __init__.py │ │ │ ├── rollout.json │ │ │ ├── spec_list.py │ │ │ ├── test_determinism.py │ │ │ ├── test_envs.py │ │ │ ├── test_envs_semantics.py │ │ │ ├── test_registration.py │ │ │ └── test_safety_envs.py │ │ └── toy_text │ │ │ ├── __init__.py │ │ │ ├── blackjack.py │ │ │ ├── discrete.py │ │ │ ├── frozen_lake.py │ │ │ ├── guessing_game.py │ │ │ ├── hotter_colder.py │ │ │ ├── nchain.py │ │ │ ├── roulette.py │ │ │ └── taxi.py │ ├── error.py │ ├── monitoring │ │ ├── __init__.py │ │ ├── stats_recorder.py │ │ ├── tests │ │ │ ├── __init__.py │ │ │ ├── helpers.py │ │ │ ├── test_monitor.py │ │ │ └── test_video_recorder.py │ │ └── video_recorder.py │ ├── scoreboard │ │ ├── __init__.py │ │ ├── api.py │ │ ├── client │ │ │ ├── README.md │ │ │ ├── __init__.py │ │ │ ├── api_requestor.py │ │ │ ├── http_client.py │ │ │ ├── resource.py │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ ├── helper.py │ │ │ │ ├── test_evaluation.py │ │ │ │ └── test_file_upload.py │ │ │ └── util.py │ │ ├── registration.py │ │ ├── scoring.py │ │ └── tests │ │ │ ├── __init__.py │ │ │ ├── test_registration.py │ │ │ └── test_scoring.py │ ├── spaces │ │ ├── __init__.py │ │ ├── box.py │ │ ├── discrete.py │ │ ├── multi_binary.py │ │ ├── multi_discrete.py │ │ ├── prng.py │ │ ├── tests │ │ │ ├── __init__.py │ │ │ └── test_spaces.py │ │ └── tuple_space.py │ ├── tests │ │ └── test_core.py │ ├── utils │ │ ├── __init__.py │ │ ├── atomic_write.py │ │ ├── closer.py │ │ ├── colorize.py │ │ ├── ezpickle.py │ │ ├── json_utils.py │ │ ├── play.py │ │ ├── reraise.py │ │ ├── reraise_impl_py2.py │ │ ├── reraise_impl_py3.py │ │ ├── seeding.py │ │ └── tests │ │ │ ├── test_atexit.py │ │ │ └── test_seeding.py │ ├── version.py │ └── wrappers │ │ ├── README.md │ │ ├── __init__.py │ │ ├── frame_skipping.py │ │ ├── monitoring.py │ │ ├── tests │ │ ├── __init__.py │ │ └── test_wrappers.py │ │ └── time_limit.py ├── hopper_rand_params.py ├── mujoco_py │ ├── .ruby-version │ ├── Gemfile │ ├── Gemfile.lock │ ├── __init__.py │ ├── codegen.rb │ ├── config.py │ ├── error.py │ ├── gen_binding.sh │ ├── glfw.py │ ├── mjconstants.py │ ├── mjcore.py │ ├── mjextra.py │ ├── mjlib.py │ ├── mjtypes.py │ ├── mjviewer.py │ ├── platname_targdir.py │ ├── util.py │ └── vendor │ │ └── osx │ │ └── mujoco │ │ └── mujoco.h ├── pr2_env_reach.py ├── rand_param_envs │ ├── __init__.py │ ├── base.py │ ├── gym │ │ ├── __init__.py │ │ ├── benchmarks │ │ │ ├── __init__.py │ │ │ ├── registration.py │ │ │ ├── scoring.py │ │ │ └── tests │ │ │ │ ├── __init__.py │ │ │ │ └── test_benchmark.py │ │ ├── configuration.py │ │ ├── core.py │ │ ├── envs │ │ │ ├── README.md │ │ │ ├── __init__.py │ │ │ ├── algorithmic │ │ │ │ ├── __init__.py │ │ │ │ ├── algorithmic_env.py │ │ │ │ ├── copy_.py │ │ │ │ ├── duplicated_input.py │ │ │ │ ├── repeat_copy.py │ │ │ │ ├── reverse.py │ │ │ │ ├── reversed_addition.py │ │ │ │ └── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ └── test_algorithmic.py │ │ │ ├── atari │ │ │ │ ├── __init__.py │ │ │ │ └── atari_env.py │ │ │ ├── board_game │ │ │ │ ├── __init__.py │ │ │ │ ├── go.py │ │ │ │ └── hex.py │ │ │ ├── box2d │ │ │ │ ├── __init__.py │ │ │ │ ├── bipedal_walker.py │ │ │ │ ├── car_dynamics.py │ │ │ │ ├── car_racing.py │ │ │ │ └── lunar_lander.py │ │ │ ├── classic_control │ │ │ │ ├── __init__.py │ │ │ │ ├── acrobot.py │ │ │ │ ├── assets │ │ │ │ │ └── clockwise.png │ │ │ │ ├── cartpole.py │ │ │ │ ├── continuous_mountain_car.py │ │ │ │ ├── mountain_car.py │ │ │ │ ├── pendulum.py │ │ │ │ └── rendering.py │ │ │ ├── debugging │ │ │ │ ├── __init__.py │ │ │ │ ├── one_round_deterministic_reward.py │ │ │ │ ├── one_round_nondeterministic_reward.py │ │ │ │ ├── two_round_deterministic_reward.py │ │ │ │ └── two_round_nondeterministic_reward.py │ │ │ ├── mujoco │ │ │ │ ├── __init__.py │ │ │ │ ├── ant.py │ │ │ │ ├── assets │ │ │ │ │ ├── ant.xml │ │ │ │ │ ├── half_cheetah.xml │ │ │ │ │ ├── hopper.xml │ │ │ │ │ ├── humanoid.xml │ │ │ │ │ ├── humanoidstandup.xml │ │ │ │ │ ├── inverted_double_pendulum.xml │ │ │ │ │ ├── inverted_pendulum.xml │ │ │ │ │ ├── meshes │ │ │ │ │ │ ├── base.stl │ │ │ │ │ │ ├── base_L.stl │ │ │ │ │ │ ├── caster.stl │ │ │ │ │ │ ├── caster_L.stl │ │ │ │ │ │ ├── coffe_mate.stl │ │ │ │ │ │ ├── elbow_flex.stl │ │ │ │ │ │ ├── finger_tip_l.stl │ │ │ │ │ │ ├── finger_tip_pad2_l.stl │ │ │ │ │ │ ├── finger_tip_pad2_r.stl │ │ │ │ │ │ ├── finger_tip_r.stl │ │ │ │ │ │ ├── forearm.stl │ │ │ │ │ │ ├── forearm_roll.stl │ │ │ │ │ │ ├── forearm_roll_L.stl │ │ │ │ │ │ ├── gripper_palm.stl │ │ │ │ │ │ ├── head_pan.stl │ │ │ │ │ │ ├── head_pan_L.stl │ │ │ │ │ │ ├── head_tilt.stl │ │ │ │ │ │ ├── head_tilt_L.stl │ │ │ │ │ │ ├── hok_tilt.stl │ │ │ │ │ │ ├── l_finger.stl │ │ │ │ │ │ ├── l_finger_tip.stl │ │ │ │ │ │ ├── l_floating.stl │ │ │ │ │ │ ├── noddlesoup.stl │ │ │ │ │ │ ├── pr2_wheel.stl │ │ │ │ │ │ ├── shoulder_lift.stl │ │ │ │ │ │ ├── shoulder_pan.stl │ │ │ │ │ │ ├── shoulder_yaw.stl │ │ │ │ │ │ ├── tilting_hokuyo.stl │ │ │ │ │ │ ├── tilting_hokuyo_L.stl │ │ │ │ │ │ ├── torso.stl │ │ │ │ │ │ ├── torso_lift.stl │ │ │ │ │ │ ├── torso_lift_L.stl │ │ │ │ │ │ ├── upper_arm.stl │ │ │ │ │ │ ├── upper_arm_roll.stl │ │ │ │ │ │ ├── upper_arm_roll_L.stl │ │ │ │ │ │ ├── upper_finger_l.stl │ │ │ │ │ │ ├── upper_finger_r.stl │ │ │ │ │ │ ├── wheel.stl │ │ │ │ │ │ ├── white_rain.stl │ │ │ │ │ │ ├── windex.stl │ │ │ │ │ │ ├── wrist_flex.stl │ │ │ │ │ │ ├── wrist_roll.stl │ │ │ │ │ │ └── wrist_roll_L.stl │ │ │ │ │ ├── point.xml │ │ │ │ │ ├── pr2.xml │ │ │ │ │ ├── reacher.xml │ │ │ │ │ ├── swimmer.xml │ │ │ │ │ └── walker2d.xml │ │ │ │ ├── half_cheetah.py │ │ │ │ ├── hopper.py │ │ │ │ ├── humanoid.py │ │ │ │ ├── humanoidstandup.py │ │ │ │ ├── inverted_double_pendulum.py │ │ │ │ ├── inverted_pendulum.py │ │ │ │ ├── mujoco_env.py │ │ │ │ ├── reacher.py │ │ │ │ ├── swimmer.py │ │ │ │ └── walker2d.py │ │ │ ├── parameter_tuning │ │ │ │ ├── __init__.py │ │ │ │ ├── convergence.py │ │ │ │ └── train_deep_cnn.py │ │ │ ├── registration.py │ │ │ ├── safety │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── offswitch_cartpole.py │ │ │ │ ├── offswitch_cartpole_prob.py │ │ │ │ ├── predict_actions_cartpole.py │ │ │ │ ├── predict_obs_cartpole.py │ │ │ │ └── semisuper.py │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ ├── rollout.json │ │ │ │ ├── spec_list.py │ │ │ │ ├── test_determinism.py │ │ │ │ ├── test_envs.py │ │ │ │ ├── test_envs_semantics.py │ │ │ │ ├── test_registration.py │ │ │ │ └── test_safety_envs.py │ │ │ └── toy_text │ │ │ │ ├── __init__.py │ │ │ │ ├── blackjack.py │ │ │ │ ├── discrete.py │ │ │ │ ├── frozen_lake.py │ │ │ │ ├── guessing_game.py │ │ │ │ ├── hotter_colder.py │ │ │ │ ├── nchain.py │ │ │ │ ├── roulette.py │ │ │ │ └── taxi.py │ │ ├── error.py │ │ ├── monitoring │ │ │ ├── __init__.py │ │ │ ├── stats_recorder.py │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ ├── helpers.py │ │ │ │ ├── test_monitor.py │ │ │ │ └── test_video_recorder.py │ │ │ └── video_recorder.py │ │ ├── scoreboard │ │ │ ├── __init__.py │ │ │ ├── api.py │ │ │ ├── client │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── api_requestor.py │ │ │ │ ├── http_client.py │ │ │ │ ├── resource.py │ │ │ │ ├── tests │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── helper.py │ │ │ │ │ ├── test_evaluation.py │ │ │ │ │ └── test_file_upload.py │ │ │ │ └── util.py │ │ │ ├── registration.py │ │ │ ├── scoring.py │ │ │ └── tests │ │ │ │ ├── __init__.py │ │ │ │ ├── test_registration.py │ │ │ │ └── test_scoring.py │ │ ├── spaces │ │ │ ├── __init__.py │ │ │ ├── box.py │ │ │ ├── discrete.py │ │ │ ├── multi_binary.py │ │ │ ├── multi_discrete.py │ │ │ ├── prng.py │ │ │ ├── tests │ │ │ │ ├── __init__.py │ │ │ │ └── test_spaces.py │ │ │ └── tuple_space.py │ │ ├── tests │ │ │ └── test_core.py │ │ ├── utils │ │ │ ├── __init__.py │ │ │ ├── atomic_write.py │ │ │ ├── closer.py │ │ │ ├── colorize.py │ │ │ ├── ezpickle.py │ │ │ ├── json_utils.py │ │ │ ├── play.py │ │ │ ├── reraise.py │ │ │ ├── reraise_impl_py2.py │ │ │ ├── reraise_impl_py3.py │ │ │ ├── seeding.py │ │ │ └── tests │ │ │ │ ├── test_atexit.py │ │ │ │ └── test_seeding.py │ │ ├── version.py │ │ └── wrappers │ │ │ ├── README.md │ │ │ ├── __init__.py │ │ │ ├── frame_skipping.py │ │ │ ├── monitoring.py │ │ │ ├── tests │ │ │ ├── __init__.py │ │ │ └── test_wrappers.py │ │ │ └── time_limit.py │ ├── hopper_rand_params.py │ ├── mujoco_py │ │ ├── .ruby-version │ │ ├── Gemfile │ │ ├── Gemfile.lock │ │ ├── __init__.py │ │ ├── codegen.rb │ │ ├── config.py │ │ ├── error.py │ │ ├── gen_binding.sh │ │ ├── glfw.py │ │ ├── mjconstants.py │ │ ├── mjcore.py │ │ ├── mjextra.py │ │ ├── mjlib.py │ │ ├── mjtypes.py │ │ ├── mjviewer.py │ │ ├── platname_targdir.py │ │ ├── util.py │ │ └── vendor │ │ │ └── osx │ │ │ └── mujoco │ │ │ └── mujoco.h │ ├── pr2_env_reach.py │ └── walker2d_rand_params.py ├── setup.py └── walker2d_rand_params.py ├── replay_buffer.py ├── rl_algorithm.py ├── trainer.py ├── tune_threshold.py └── utils ├── core.py ├── env_utils.py ├── eval_util.py ├── logging.py ├── pythonplusplus.py ├── pytorch_util.py ├── rng.py └── tabulate.py /.gitignore: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/.gitignore -------------------------------------------------------------------------------- /BCQ/.gitignore: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/.gitignore -------------------------------------------------------------------------------- /BCQ/BCQ.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/BCQ.py -------------------------------------------------------------------------------- /BCQ/DDPG.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/DDPG.py -------------------------------------------------------------------------------- /BCQ/configs/ant-dir.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/configs/ant-dir.py -------------------------------------------------------------------------------- /BCQ/configs/ant-goal.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/configs/ant-goal.py -------------------------------------------------------------------------------- /BCQ/configs/halfcheetah-vel.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/configs/halfcheetah-vel.py -------------------------------------------------------------------------------- /BCQ/configs/humanoid-dir.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/configs/humanoid-dir.py -------------------------------------------------------------------------------- /BCQ/configs/humanoid-ndone-goal.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/configs/humanoid-ndone-goal.py -------------------------------------------------------------------------------- /BCQ/configs/humanoid-openai-dir.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/configs/humanoid-openai-dir.py -------------------------------------------------------------------------------- /BCQ/configs/maze-medium.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/configs/maze-medium.py -------------------------------------------------------------------------------- /BCQ/configs/maze-umaze.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/configs/maze-umaze.py -------------------------------------------------------------------------------- /BCQ/configs/walker-param.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/configs/walker-param.py -------------------------------------------------------------------------------- /BCQ/env/ant_dir.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/env/ant_dir.py -------------------------------------------------------------------------------- /BCQ/env/ant_goal.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/env/ant_goal.py -------------------------------------------------------------------------------- /BCQ/env/half_cheetah.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/env/half_cheetah.py -------------------------------------------------------------------------------- /BCQ/env/hopper.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/env/hopper.py -------------------------------------------------------------------------------- /BCQ/env/humanoid_dir.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/env/humanoid_dir.py -------------------------------------------------------------------------------- /BCQ/env/humanoid_dir_openai.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/env/humanoid_dir_openai.py -------------------------------------------------------------------------------- /BCQ/env/humanoid_goal_ndone.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/env/humanoid_goal_ndone.py -------------------------------------------------------------------------------- /BCQ/env/maze2d.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/env/maze2d.py -------------------------------------------------------------------------------- /BCQ/env/walker_param.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/env/walker_param.py -------------------------------------------------------------------------------- /BCQ/env_utils.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/env_utils.py -------------------------------------------------------------------------------- /BCQ/generate_goals.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/generate_goals.py -------------------------------------------------------------------------------- /BCQ/goals/ant-dir-normal-goals.pkl: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/goals/ant-dir-normal-goals.pkl -------------------------------------------------------------------------------- /BCQ/goals/ant-goal-normal-goals.pkl: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/goals/ant-goal-normal-goals.pkl -------------------------------------------------------------------------------- /BCQ/goals/halfcheetah-vel-hard-goals.pkl: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/goals/halfcheetah-vel-hard-goals.pkl -------------------------------------------------------------------------------- /BCQ/goals/humanoid-dir-normal-goals.pkl: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/goals/humanoid-dir-normal-goals.pkl -------------------------------------------------------------------------------- /BCQ/goals/humanoid-goal-normal-goals.pkl: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/goals/humanoid-goal-normal-goals.pkl -------------------------------------------------------------------------------- /BCQ/goals/maze-medium-normal-goals.pkl: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/goals/maze-medium-normal-goals.pkl -------------------------------------------------------------------------------- /BCQ/goals/maze-umaze-normal-goals.pkl: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/goals/maze-umaze-normal-goals.pkl -------------------------------------------------------------------------------- /BCQ/goals/walker-param-normal-goals.pkl: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/goals/walker-param-normal-goals.pkl -------------------------------------------------------------------------------- /BCQ/hyperparams_BCQ_default.pkl: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/hyperparams_BCQ_default.pkl -------------------------------------------------------------------------------- /BCQ/main.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/main.py -------------------------------------------------------------------------------- /BCQ/pointmaze/__init__.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/pointmaze/__init__.py -------------------------------------------------------------------------------- /BCQ/pointmaze/dynamic_mjc.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/pointmaze/dynamic_mjc.py -------------------------------------------------------------------------------- /BCQ/pointmaze/gridcraft/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /BCQ/pointmaze/gridcraft/grid_env.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/pointmaze/gridcraft/grid_env.py -------------------------------------------------------------------------------- /BCQ/pointmaze/gridcraft/grid_spec.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/pointmaze/gridcraft/grid_spec.py -------------------------------------------------------------------------------- /BCQ/pointmaze/gridcraft/utils.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/pointmaze/gridcraft/utils.py -------------------------------------------------------------------------------- /BCQ/pointmaze/gridcraft/wrappers.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/pointmaze/gridcraft/wrappers.py -------------------------------------------------------------------------------- /BCQ/pointmaze/maze_model.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/pointmaze/maze_model.py -------------------------------------------------------------------------------- /BCQ/pointmaze/q_iteration.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/pointmaze/q_iteration.py -------------------------------------------------------------------------------- /BCQ/rand_param_envs/.gitignore: -------------------------------------------------------------------------------- 1 | __pycache__/ -------------------------------------------------------------------------------- /BCQ/rand_param_envs/README.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/rand_param_envs/README.md -------------------------------------------------------------------------------- /BCQ/rand_param_envs/__init__.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/rand_param_envs/__init__.py -------------------------------------------------------------------------------- /BCQ/rand_param_envs/base.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/rand_param_envs/base.py -------------------------------------------------------------------------------- /BCQ/rand_param_envs/gym/__init__.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/rand_param_envs/gym/__init__.py -------------------------------------------------------------------------------- /BCQ/rand_param_envs/gym/benchmarks/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /BCQ/rand_param_envs/gym/configuration.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/rand_param_envs/gym/configuration.py -------------------------------------------------------------------------------- /BCQ/rand_param_envs/gym/core.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/rand_param_envs/gym/core.py -------------------------------------------------------------------------------- /BCQ/rand_param_envs/gym/envs/README.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/rand_param_envs/gym/envs/README.md -------------------------------------------------------------------------------- /BCQ/rand_param_envs/gym/envs/__init__.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/rand_param_envs/gym/envs/__init__.py -------------------------------------------------------------------------------- /BCQ/rand_param_envs/gym/envs/algorithmic/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /BCQ/rand_param_envs/gym/envs/mujoco/ant.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/rand_param_envs/gym/envs/mujoco/ant.py -------------------------------------------------------------------------------- /BCQ/rand_param_envs/gym/envs/registration.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/rand_param_envs/gym/envs/registration.py -------------------------------------------------------------------------------- /BCQ/rand_param_envs/gym/envs/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /BCQ/rand_param_envs/gym/error.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/rand_param_envs/gym/error.py -------------------------------------------------------------------------------- /BCQ/rand_param_envs/gym/monitoring/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /BCQ/rand_param_envs/gym/scoreboard/api.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/rand_param_envs/gym/scoreboard/api.py -------------------------------------------------------------------------------- /BCQ/rand_param_envs/gym/scoreboard/client/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /BCQ/rand_param_envs/gym/scoreboard/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /BCQ/rand_param_envs/gym/spaces/__init__.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/rand_param_envs/gym/spaces/__init__.py -------------------------------------------------------------------------------- /BCQ/rand_param_envs/gym/spaces/box.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/rand_param_envs/gym/spaces/box.py -------------------------------------------------------------------------------- /BCQ/rand_param_envs/gym/spaces/discrete.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/rand_param_envs/gym/spaces/discrete.py -------------------------------------------------------------------------------- /BCQ/rand_param_envs/gym/spaces/prng.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/rand_param_envs/gym/spaces/prng.py -------------------------------------------------------------------------------- /BCQ/rand_param_envs/gym/spaces/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /BCQ/rand_param_envs/gym/tests/test_core.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/rand_param_envs/gym/tests/test_core.py -------------------------------------------------------------------------------- /BCQ/rand_param_envs/gym/utils/__init__.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/rand_param_envs/gym/utils/__init__.py -------------------------------------------------------------------------------- /BCQ/rand_param_envs/gym/utils/closer.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/rand_param_envs/gym/utils/closer.py -------------------------------------------------------------------------------- /BCQ/rand_param_envs/gym/utils/colorize.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/rand_param_envs/gym/utils/colorize.py -------------------------------------------------------------------------------- /BCQ/rand_param_envs/gym/utils/ezpickle.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/rand_param_envs/gym/utils/ezpickle.py -------------------------------------------------------------------------------- /BCQ/rand_param_envs/gym/utils/json_utils.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/rand_param_envs/gym/utils/json_utils.py -------------------------------------------------------------------------------- /BCQ/rand_param_envs/gym/utils/play.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/rand_param_envs/gym/utils/play.py -------------------------------------------------------------------------------- /BCQ/rand_param_envs/gym/utils/reraise.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/rand_param_envs/gym/utils/reraise.py -------------------------------------------------------------------------------- /BCQ/rand_param_envs/gym/utils/seeding.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/rand_param_envs/gym/utils/seeding.py -------------------------------------------------------------------------------- /BCQ/rand_param_envs/gym/version.py: -------------------------------------------------------------------------------- 1 | VERSION = '0.7.4' 2 | -------------------------------------------------------------------------------- /BCQ/rand_param_envs/gym/wrappers/README.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/rand_param_envs/gym/wrappers/README.md -------------------------------------------------------------------------------- /BCQ/rand_param_envs/gym/wrappers/__init__.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/rand_param_envs/gym/wrappers/__init__.py -------------------------------------------------------------------------------- /BCQ/rand_param_envs/gym/wrappers/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /BCQ/rand_param_envs/hopper_rand_params.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/rand_param_envs/hopper_rand_params.py -------------------------------------------------------------------------------- /BCQ/rand_param_envs/mujoco_py/.ruby-version: -------------------------------------------------------------------------------- 1 | ruby-2.1.0 2 | -------------------------------------------------------------------------------- /BCQ/rand_param_envs/mujoco_py/Gemfile: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/rand_param_envs/mujoco_py/Gemfile -------------------------------------------------------------------------------- /BCQ/rand_param_envs/mujoco_py/Gemfile.lock: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/rand_param_envs/mujoco_py/Gemfile.lock -------------------------------------------------------------------------------- /BCQ/rand_param_envs/mujoco_py/__init__.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/rand_param_envs/mujoco_py/__init__.py -------------------------------------------------------------------------------- /BCQ/rand_param_envs/mujoco_py/codegen.rb: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/rand_param_envs/mujoco_py/codegen.rb -------------------------------------------------------------------------------- /BCQ/rand_param_envs/mujoco_py/config.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/rand_param_envs/mujoco_py/config.py -------------------------------------------------------------------------------- /BCQ/rand_param_envs/mujoco_py/error.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/rand_param_envs/mujoco_py/error.py -------------------------------------------------------------------------------- /BCQ/rand_param_envs/mujoco_py/gen_binding.sh: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/rand_param_envs/mujoco_py/gen_binding.sh -------------------------------------------------------------------------------- /BCQ/rand_param_envs/mujoco_py/glfw.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/rand_param_envs/mujoco_py/glfw.py -------------------------------------------------------------------------------- /BCQ/rand_param_envs/mujoco_py/mjconstants.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/rand_param_envs/mujoco_py/mjconstants.py -------------------------------------------------------------------------------- /BCQ/rand_param_envs/mujoco_py/mjcore.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/rand_param_envs/mujoco_py/mjcore.py -------------------------------------------------------------------------------- /BCQ/rand_param_envs/mujoco_py/mjextra.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/rand_param_envs/mujoco_py/mjextra.py -------------------------------------------------------------------------------- /BCQ/rand_param_envs/mujoco_py/mjlib.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/rand_param_envs/mujoco_py/mjlib.py -------------------------------------------------------------------------------- /BCQ/rand_param_envs/mujoco_py/mjtypes.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/rand_param_envs/mujoco_py/mjtypes.py -------------------------------------------------------------------------------- /BCQ/rand_param_envs/mujoco_py/mjviewer.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/rand_param_envs/mujoco_py/mjviewer.py -------------------------------------------------------------------------------- /BCQ/rand_param_envs/mujoco_py/util.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/rand_param_envs/mujoco_py/util.py -------------------------------------------------------------------------------- /BCQ/rand_param_envs/pr2_env_reach.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/rand_param_envs/pr2_env_reach.py -------------------------------------------------------------------------------- /BCQ/rand_param_envs/rand_param_envs/base.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/rand_param_envs/rand_param_envs/base.py -------------------------------------------------------------------------------- /BCQ/rand_param_envs/rand_param_envs/gym/benchmarks/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /BCQ/rand_param_envs/rand_param_envs/gym/envs/algorithmic/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /BCQ/rand_param_envs/rand_param_envs/gym/envs/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /BCQ/rand_param_envs/rand_param_envs/gym/monitoring/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /BCQ/rand_param_envs/rand_param_envs/gym/scoreboard/client/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /BCQ/rand_param_envs/rand_param_envs/gym/scoreboard/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /BCQ/rand_param_envs/rand_param_envs/gym/spaces/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /BCQ/rand_param_envs/rand_param_envs/gym/version.py: -------------------------------------------------------------------------------- 1 | VERSION = '0.7.4' 2 | -------------------------------------------------------------------------------- /BCQ/rand_param_envs/rand_param_envs/gym/wrappers/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /BCQ/rand_param_envs/rand_param_envs/mujoco_py/.ruby-version: -------------------------------------------------------------------------------- 1 | ruby-2.1.0 2 | -------------------------------------------------------------------------------- /BCQ/rand_param_envs/setup.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/rand_param_envs/setup.py -------------------------------------------------------------------------------- /BCQ/rand_param_envs/walker2d_rand_params.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/rand_param_envs/walker2d_rand_params.py -------------------------------------------------------------------------------- /BCQ/utils.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/BCQ/utils.py -------------------------------------------------------------------------------- /README.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/README.md -------------------------------------------------------------------------------- /batch_pearl/.gitignore: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/.gitignore -------------------------------------------------------------------------------- /batch_pearl/.gitmodules: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/.gitmodules -------------------------------------------------------------------------------- /batch_pearl/configs/ant-dir.json: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/configs/ant-dir.json -------------------------------------------------------------------------------- /batch_pearl/configs/ant-goal.json: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/configs/ant-goal.json -------------------------------------------------------------------------------- /batch_pearl/configs/default.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/configs/default.py -------------------------------------------------------------------------------- /batch_pearl/configs/halfcheetah-vel.json: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/configs/halfcheetah-vel.json -------------------------------------------------------------------------------- /batch_pearl/configs/humanoid-ndone-goal.json: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/configs/humanoid-ndone-goal.json -------------------------------------------------------------------------------- /batch_pearl/configs/humanoid-openai-dir.json: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/configs/humanoid-openai-dir.json -------------------------------------------------------------------------------- /batch_pearl/configs/maze-medium.json: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/configs/maze-medium.json -------------------------------------------------------------------------------- /batch_pearl/configs/maze-umaze.json: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/configs/maze-umaze.json -------------------------------------------------------------------------------- /batch_pearl/configs/walker-param.json: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/configs/walker-param.json -------------------------------------------------------------------------------- /batch_pearl/env/ant_dir.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/env/ant_dir.py -------------------------------------------------------------------------------- /batch_pearl/env/ant_goal.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/env/ant_goal.py -------------------------------------------------------------------------------- /batch_pearl/env/half_cheetah.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/env/half_cheetah.py -------------------------------------------------------------------------------- /batch_pearl/env/hopper.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/env/hopper.py -------------------------------------------------------------------------------- /batch_pearl/env/humanoid_dir.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/env/humanoid_dir.py -------------------------------------------------------------------------------- /batch_pearl/env/humanoid_dir_openai.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/env/humanoid_dir_openai.py -------------------------------------------------------------------------------- /batch_pearl/env/humanoid_goal_ndone.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/env/humanoid_goal_ndone.py -------------------------------------------------------------------------------- /batch_pearl/env/maze2d.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/env/maze2d.py -------------------------------------------------------------------------------- /batch_pearl/env/walker_param.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/env/walker_param.py -------------------------------------------------------------------------------- /batch_pearl/generate_goals.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/generate_goals.py -------------------------------------------------------------------------------- /batch_pearl/goals/ant-dir-normal-goals.pkl: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/goals/ant-dir-normal-goals.pkl -------------------------------------------------------------------------------- /batch_pearl/goals/ant-goal-normal-goals.pkl: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/goals/ant-goal-normal-goals.pkl -------------------------------------------------------------------------------- /batch_pearl/launch.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/launch.py -------------------------------------------------------------------------------- /batch_pearl/launch_experiment.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/launch_experiment.py -------------------------------------------------------------------------------- /batch_pearl/path_collector.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/path_collector.py -------------------------------------------------------------------------------- /batch_pearl/pointmaze/__init__.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/pointmaze/__init__.py -------------------------------------------------------------------------------- /batch_pearl/pointmaze/dynamic_mjc.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/pointmaze/dynamic_mjc.py -------------------------------------------------------------------------------- /batch_pearl/pointmaze/gridcraft/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /batch_pearl/pointmaze/gridcraft/grid_env.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/pointmaze/gridcraft/grid_env.py -------------------------------------------------------------------------------- /batch_pearl/pointmaze/gridcraft/grid_spec.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/pointmaze/gridcraft/grid_spec.py -------------------------------------------------------------------------------- /batch_pearl/pointmaze/gridcraft/utils.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/pointmaze/gridcraft/utils.py -------------------------------------------------------------------------------- /batch_pearl/pointmaze/gridcraft/wrappers.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/pointmaze/gridcraft/wrappers.py -------------------------------------------------------------------------------- /batch_pearl/pointmaze/maze_model.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/pointmaze/maze_model.py -------------------------------------------------------------------------------- /batch_pearl/pointmaze/q_iteration.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/pointmaze/q_iteration.py -------------------------------------------------------------------------------- /batch_pearl/rand_param_envs/.gitignore: -------------------------------------------------------------------------------- 1 | __pycache__/ -------------------------------------------------------------------------------- /batch_pearl/rand_param_envs/README.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/rand_param_envs/README.md -------------------------------------------------------------------------------- /batch_pearl/rand_param_envs/__init__.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/rand_param_envs/__init__.py -------------------------------------------------------------------------------- /batch_pearl/rand_param_envs/base.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/rand_param_envs/base.py -------------------------------------------------------------------------------- /batch_pearl/rand_param_envs/gym/__init__.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/rand_param_envs/gym/__init__.py -------------------------------------------------------------------------------- /batch_pearl/rand_param_envs/gym/benchmarks/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /batch_pearl/rand_param_envs/gym/core.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/rand_param_envs/gym/core.py -------------------------------------------------------------------------------- /batch_pearl/rand_param_envs/gym/envs/algorithmic/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /batch_pearl/rand_param_envs/gym/envs/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /batch_pearl/rand_param_envs/gym/error.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/rand_param_envs/gym/error.py -------------------------------------------------------------------------------- /batch_pearl/rand_param_envs/gym/monitoring/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /batch_pearl/rand_param_envs/gym/scoreboard/client/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /batch_pearl/rand_param_envs/gym/scoreboard/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /batch_pearl/rand_param_envs/gym/spaces/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /batch_pearl/rand_param_envs/gym/version.py: -------------------------------------------------------------------------------- 1 | VERSION = '0.7.4' 2 | -------------------------------------------------------------------------------- /batch_pearl/rand_param_envs/gym/wrappers/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /batch_pearl/rand_param_envs/mujoco_py/.ruby-version: -------------------------------------------------------------------------------- 1 | ruby-2.1.0 2 | -------------------------------------------------------------------------------- /batch_pearl/rand_param_envs/pr2_env_reach.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/rand_param_envs/pr2_env_reach.py -------------------------------------------------------------------------------- /batch_pearl/rand_param_envs/rand_param_envs/gym/benchmarks/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /batch_pearl/rand_param_envs/rand_param_envs/gym/envs/algorithmic/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /batch_pearl/rand_param_envs/rand_param_envs/gym/envs/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /batch_pearl/rand_param_envs/rand_param_envs/gym/monitoring/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /batch_pearl/rand_param_envs/rand_param_envs/gym/scoreboard/client/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /batch_pearl/rand_param_envs/rand_param_envs/gym/scoreboard/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /batch_pearl/rand_param_envs/rand_param_envs/gym/spaces/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /batch_pearl/rand_param_envs/rand_param_envs/gym/version.py: -------------------------------------------------------------------------------- 1 | VERSION = '0.7.4' 2 | -------------------------------------------------------------------------------- /batch_pearl/rand_param_envs/rand_param_envs/gym/wrappers/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /batch_pearl/rand_param_envs/rand_param_envs/mujoco_py/.ruby-version: -------------------------------------------------------------------------------- 1 | ruby-2.1.0 2 | -------------------------------------------------------------------------------- /batch_pearl/rand_param_envs/setup.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/rand_param_envs/setup.py -------------------------------------------------------------------------------- /batch_pearl/replay_buffer.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/replay_buffer.py -------------------------------------------------------------------------------- /batch_pearl/rlkit/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /batch_pearl/rlkit/core/__init__.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/rlkit/core/__init__.py -------------------------------------------------------------------------------- /batch_pearl/rlkit/core/eval_util.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/rlkit/core/eval_util.py -------------------------------------------------------------------------------- /batch_pearl/rlkit/core/logger.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/rlkit/core/logger.py -------------------------------------------------------------------------------- /batch_pearl/rlkit/core/rl_algorithm.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/rlkit/core/rl_algorithm.py -------------------------------------------------------------------------------- /batch_pearl/rlkit/core/serializable.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/rlkit/core/serializable.py -------------------------------------------------------------------------------- /batch_pearl/rlkit/core/tabulate.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/rlkit/core/tabulate.py -------------------------------------------------------------------------------- /batch_pearl/rlkit/core/util.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/rlkit/core/util.py -------------------------------------------------------------------------------- /batch_pearl/rlkit/data_management/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /batch_pearl/rlkit/envs/__init__.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/rlkit/envs/__init__.py -------------------------------------------------------------------------------- /batch_pearl/rlkit/envs/ant.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/rlkit/envs/ant.py -------------------------------------------------------------------------------- /batch_pearl/rlkit/envs/ant_dir.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/rlkit/envs/ant_dir.py -------------------------------------------------------------------------------- /batch_pearl/rlkit/envs/ant_goal.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/rlkit/envs/ant_goal.py -------------------------------------------------------------------------------- /batch_pearl/rlkit/envs/ant_multitask_base.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/rlkit/envs/ant_multitask_base.py -------------------------------------------------------------------------------- /batch_pearl/rlkit/envs/assets/ant.xml: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/rlkit/envs/assets/ant.xml -------------------------------------------------------------------------------- /batch_pearl/rlkit/envs/half_cheetah.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/rlkit/envs/half_cheetah.py -------------------------------------------------------------------------------- /batch_pearl/rlkit/envs/half_cheetah_dir.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/rlkit/envs/half_cheetah_dir.py -------------------------------------------------------------------------------- /batch_pearl/rlkit/envs/half_cheetah_vel.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/rlkit/envs/half_cheetah_vel.py -------------------------------------------------------------------------------- /batch_pearl/rlkit/envs/humanoid_dir.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/rlkit/envs/humanoid_dir.py -------------------------------------------------------------------------------- /batch_pearl/rlkit/envs/mujoco_env.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/rlkit/envs/mujoco_env.py -------------------------------------------------------------------------------- /batch_pearl/rlkit/envs/point_robot.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/rlkit/envs/point_robot.py -------------------------------------------------------------------------------- /batch_pearl/rlkit/envs/wrappers.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/rlkit/envs/wrappers.py -------------------------------------------------------------------------------- /batch_pearl/rlkit/launchers/__init__.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/rlkit/launchers/__init__.py -------------------------------------------------------------------------------- /batch_pearl/rlkit/launchers/config.py: -------------------------------------------------------------------------------- 1 | # Change this 2 | LOCAL_LOG_DIR = 'output' 3 | -------------------------------------------------------------------------------- /batch_pearl/rlkit/launchers/launcher_util.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/rlkit/launchers/launcher_util.py -------------------------------------------------------------------------------- /batch_pearl/rlkit/policies/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /batch_pearl/rlkit/policies/argmax.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/rlkit/policies/argmax.py -------------------------------------------------------------------------------- /batch_pearl/rlkit/policies/base.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/rlkit/policies/base.py -------------------------------------------------------------------------------- /batch_pearl/rlkit/policies/simple.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/rlkit/policies/simple.py -------------------------------------------------------------------------------- /batch_pearl/rlkit/samplers/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /batch_pearl/rlkit/samplers/in_place.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/rlkit/samplers/in_place.py -------------------------------------------------------------------------------- /batch_pearl/rlkit/samplers/util.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/rlkit/samplers/util.py -------------------------------------------------------------------------------- /batch_pearl/rlkit/torch/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /batch_pearl/rlkit/torch/core.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/rlkit/torch/core.py -------------------------------------------------------------------------------- /batch_pearl/rlkit/torch/data_management/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /batch_pearl/rlkit/torch/distributions.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/rlkit/torch/distributions.py -------------------------------------------------------------------------------- /batch_pearl/rlkit/torch/modules.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/rlkit/torch/modules.py -------------------------------------------------------------------------------- /batch_pearl/rlkit/torch/networks.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/rlkit/torch/networks.py -------------------------------------------------------------------------------- /batch_pearl/rlkit/torch/pytorch_util.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/rlkit/torch/pytorch_util.py -------------------------------------------------------------------------------- /batch_pearl/rlkit/torch/sac/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /batch_pearl/rlkit/torch/sac/agent.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/rlkit/torch/sac/agent.py -------------------------------------------------------------------------------- /batch_pearl/rlkit/torch/sac/policies.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/rlkit/torch/sac/policies.py -------------------------------------------------------------------------------- /batch_pearl/rlkit/torch/sac/sac.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/rlkit/torch/sac/sac.py -------------------------------------------------------------------------------- /batch_pearl/utils/core.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/utils/core.py -------------------------------------------------------------------------------- /batch_pearl/utils/env_utils.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/utils/env_utils.py -------------------------------------------------------------------------------- /batch_pearl/utils/eval_util.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/utils/eval_util.py -------------------------------------------------------------------------------- /batch_pearl/utils/logging.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/utils/logging.py -------------------------------------------------------------------------------- /batch_pearl/utils/pythonplusplus.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/utils/pythonplusplus.py -------------------------------------------------------------------------------- /batch_pearl/utils/pytorch_util.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/utils/pytorch_util.py -------------------------------------------------------------------------------- /batch_pearl/utils/rng.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/utils/rng.py -------------------------------------------------------------------------------- /batch_pearl/utils/tabulate.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/batch_pearl/utils/tabulate.py -------------------------------------------------------------------------------- /contextual_bcq/.gitignore: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/contextual_bcq/.gitignore -------------------------------------------------------------------------------- /contextual_bcq/BCQ.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/contextual_bcq/BCQ.py -------------------------------------------------------------------------------- /contextual_bcq/BCQ_plus_encoder.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/contextual_bcq/BCQ_plus_encoder.py -------------------------------------------------------------------------------- /contextual_bcq/compare.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/contextual_bcq/compare.py -------------------------------------------------------------------------------- /contextual_bcq/configs/ant-dir.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/contextual_bcq/configs/ant-dir.py -------------------------------------------------------------------------------- /contextual_bcq/configs/ant-goal.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/contextual_bcq/configs/ant-goal.py -------------------------------------------------------------------------------- /contextual_bcq/configs/halfcheetah-vel.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/contextual_bcq/configs/halfcheetah-vel.py -------------------------------------------------------------------------------- /contextual_bcq/configs/maze-medium.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/contextual_bcq/configs/maze-medium.py -------------------------------------------------------------------------------- /contextual_bcq/configs/maze-umaze.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/contextual_bcq/configs/maze-umaze.py -------------------------------------------------------------------------------- /contextual_bcq/configs/walker-param.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/contextual_bcq/configs/walker-param.py -------------------------------------------------------------------------------- /contextual_bcq/env/ant_dir.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/contextual_bcq/env/ant_dir.py -------------------------------------------------------------------------------- /contextual_bcq/env/ant_goal.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/contextual_bcq/env/ant_goal.py -------------------------------------------------------------------------------- /contextual_bcq/env/half_cheetah.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/contextual_bcq/env/half_cheetah.py -------------------------------------------------------------------------------- /contextual_bcq/env/hopper.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/contextual_bcq/env/hopper.py -------------------------------------------------------------------------------- /contextual_bcq/env/humanoid_dir.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/contextual_bcq/env/humanoid_dir.py -------------------------------------------------------------------------------- /contextual_bcq/env/humanoid_dir_openai.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/contextual_bcq/env/humanoid_dir_openai.py -------------------------------------------------------------------------------- /contextual_bcq/env/humanoid_goal_ndone.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/contextual_bcq/env/humanoid_goal_ndone.py -------------------------------------------------------------------------------- /contextual_bcq/env/maze2d.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/contextual_bcq/env/maze2d.py -------------------------------------------------------------------------------- /contextual_bcq/env/walker_param.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/contextual_bcq/env/walker_param.py -------------------------------------------------------------------------------- /contextual_bcq/env_utils.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/contextual_bcq/env_utils.py -------------------------------------------------------------------------------- /contextual_bcq/generate_goals.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/contextual_bcq/generate_goals.py -------------------------------------------------------------------------------- /contextual_bcq/generate_params.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/contextual_bcq/generate_params.py -------------------------------------------------------------------------------- /contextual_bcq/main.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/contextual_bcq/main.py -------------------------------------------------------------------------------- /contextual_bcq/networks.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/contextual_bcq/networks.py -------------------------------------------------------------------------------- /contextual_bcq/path_collector.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/contextual_bcq/path_collector.py -------------------------------------------------------------------------------- /contextual_bcq/pointmaze/__init__.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/contextual_bcq/pointmaze/__init__.py -------------------------------------------------------------------------------- /contextual_bcq/pointmaze/dynamic_mjc.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/contextual_bcq/pointmaze/dynamic_mjc.py -------------------------------------------------------------------------------- /contextual_bcq/pointmaze/gridcraft/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /contextual_bcq/pointmaze/maze_model.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/contextual_bcq/pointmaze/maze_model.py -------------------------------------------------------------------------------- /contextual_bcq/pointmaze/q_iteration.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/contextual_bcq/pointmaze/q_iteration.py -------------------------------------------------------------------------------- /contextual_bcq/prob_context_encoder.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/contextual_bcq/prob_context_encoder.py -------------------------------------------------------------------------------- /contextual_bcq/rand_param_envs/.gitignore: -------------------------------------------------------------------------------- 1 | __pycache__/ -------------------------------------------------------------------------------- /contextual_bcq/rand_param_envs/README.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/contextual_bcq/rand_param_envs/README.md -------------------------------------------------------------------------------- /contextual_bcq/rand_param_envs/base.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/contextual_bcq/rand_param_envs/base.py -------------------------------------------------------------------------------- /contextual_bcq/rand_param_envs/gym/benchmarks/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /contextual_bcq/rand_param_envs/gym/envs/algorithmic/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /contextual_bcq/rand_param_envs/gym/envs/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /contextual_bcq/rand_param_envs/gym/monitoring/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /contextual_bcq/rand_param_envs/gym/scoreboard/client/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /contextual_bcq/rand_param_envs/gym/scoreboard/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /contextual_bcq/rand_param_envs/gym/spaces/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /contextual_bcq/rand_param_envs/gym/version.py: -------------------------------------------------------------------------------- 1 | VERSION = '0.7.4' 2 | -------------------------------------------------------------------------------- /contextual_bcq/rand_param_envs/gym/wrappers/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /contextual_bcq/rand_param_envs/mujoco_py/.ruby-version: -------------------------------------------------------------------------------- 1 | ruby-2.1.0 2 | -------------------------------------------------------------------------------- /contextual_bcq/rand_param_envs/rand_param_envs/gym/benchmarks/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /contextual_bcq/rand_param_envs/rand_param_envs/gym/envs/algorithmic/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /contextual_bcq/rand_param_envs/rand_param_envs/gym/envs/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /contextual_bcq/rand_param_envs/rand_param_envs/gym/monitoring/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /contextual_bcq/rand_param_envs/rand_param_envs/gym/scoreboard/client/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /contextual_bcq/rand_param_envs/rand_param_envs/gym/scoreboard/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /contextual_bcq/rand_param_envs/rand_param_envs/gym/spaces/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /contextual_bcq/rand_param_envs/rand_param_envs/gym/version.py: -------------------------------------------------------------------------------- 1 | VERSION = '0.7.4' 2 | -------------------------------------------------------------------------------- /contextual_bcq/rand_param_envs/rand_param_envs/gym/wrappers/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /contextual_bcq/rand_param_envs/rand_param_envs/mujoco_py/.ruby-version: -------------------------------------------------------------------------------- 1 | ruby-2.1.0 2 | -------------------------------------------------------------------------------- /contextual_bcq/rand_param_envs/setup.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/contextual_bcq/rand_param_envs/setup.py -------------------------------------------------------------------------------- /contextual_bcq/replay_buffer.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/contextual_bcq/replay_buffer.py -------------------------------------------------------------------------------- /contextual_bcq/rl_alogrithm.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/contextual_bcq/rl_alogrithm.py -------------------------------------------------------------------------------- /contextual_bcq/utils/core.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/contextual_bcq/utils/core.py -------------------------------------------------------------------------------- /contextual_bcq/utils/env_utils.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/contextual_bcq/utils/env_utils.py -------------------------------------------------------------------------------- /contextual_bcq/utils/eval_util.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/contextual_bcq/utils/eval_util.py -------------------------------------------------------------------------------- /contextual_bcq/utils/logging.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/contextual_bcq/utils/logging.py -------------------------------------------------------------------------------- /contextual_bcq/utils/pythonplusplus.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/contextual_bcq/utils/pythonplusplus.py -------------------------------------------------------------------------------- /contextual_bcq/utils/pytorch_util.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/contextual_bcq/utils/pytorch_util.py -------------------------------------------------------------------------------- /contextual_bcq/utils/rng.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/contextual_bcq/utils/rng.py -------------------------------------------------------------------------------- /contextual_bcq/utils/tabulate.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/contextual_bcq/utils/tabulate.py -------------------------------------------------------------------------------- /contextual_bcq/utils_replay_buffer.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/contextual_bcq/utils_replay_buffer.py -------------------------------------------------------------------------------- /data_and_trained_models/test.txt: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/data_and_trained_models/test.txt -------------------------------------------------------------------------------- /environment/environment.yml: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/environment/environment.yml -------------------------------------------------------------------------------- /environment/install_mujoco.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/environment/install_mujoco.py -------------------------------------------------------------------------------- /full_model/.gitignore: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model/.gitignore -------------------------------------------------------------------------------- /full_model/BCQ.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model/BCQ.py -------------------------------------------------------------------------------- /full_model/configs/ant-dir.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model/configs/ant-dir.py -------------------------------------------------------------------------------- /full_model/configs/ant-goal.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model/configs/ant-goal.py -------------------------------------------------------------------------------- /full_model/configs/halfcheetah-vel.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model/configs/halfcheetah-vel.py -------------------------------------------------------------------------------- /full_model/configs/humanoid-ndone-goal.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model/configs/humanoid-ndone-goal.py -------------------------------------------------------------------------------- /full_model/configs/humanoid-openai-dir.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model/configs/humanoid-openai-dir.py -------------------------------------------------------------------------------- /full_model/configs/maze-medium.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model/configs/maze-medium.py -------------------------------------------------------------------------------- /full_model/configs/maze-umaze.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model/configs/maze-umaze.py -------------------------------------------------------------------------------- /full_model/ensemble.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model/ensemble.py -------------------------------------------------------------------------------- /full_model/env/ant_dir.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model/env/ant_dir.py -------------------------------------------------------------------------------- /full_model/env/ant_goal.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model/env/ant_goal.py -------------------------------------------------------------------------------- /full_model/env/half_cheetah.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model/env/half_cheetah.py -------------------------------------------------------------------------------- /full_model/env/hopper.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model/env/hopper.py -------------------------------------------------------------------------------- /full_model/env/humanoid_dir.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model/env/humanoid_dir.py -------------------------------------------------------------------------------- /full_model/env/humanoid_dir_openai.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model/env/humanoid_dir_openai.py -------------------------------------------------------------------------------- /full_model/env/humanoid_goal_ndone.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model/env/humanoid_goal_ndone.py -------------------------------------------------------------------------------- /full_model/env/maze2d.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model/env/maze2d.py -------------------------------------------------------------------------------- /full_model/env/walker_param.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model/env/walker_param.py -------------------------------------------------------------------------------- /full_model/generate_goals.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model/generate_goals.py -------------------------------------------------------------------------------- /full_model/goals/ant-dir-normal-goals.pkl: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model/goals/ant-dir-normal-goals.pkl -------------------------------------------------------------------------------- /full_model/main.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model/main.py -------------------------------------------------------------------------------- /full_model/networks.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model/networks.py -------------------------------------------------------------------------------- /full_model/path_collector.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model/path_collector.py -------------------------------------------------------------------------------- /full_model/pointmaze/__init__.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model/pointmaze/__init__.py -------------------------------------------------------------------------------- /full_model/pointmaze/dynamic_mjc.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model/pointmaze/dynamic_mjc.py -------------------------------------------------------------------------------- /full_model/pointmaze/gridcraft/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /full_model/pointmaze/gridcraft/utils.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model/pointmaze/gridcraft/utils.py -------------------------------------------------------------------------------- /full_model/pointmaze/maze_model.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model/pointmaze/maze_model.py -------------------------------------------------------------------------------- /full_model/pointmaze/q_iteration.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model/pointmaze/q_iteration.py -------------------------------------------------------------------------------- /full_model/prob_context_encoder.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model/prob_context_encoder.py -------------------------------------------------------------------------------- /full_model/rand_param_envs/.gitignore: -------------------------------------------------------------------------------- 1 | __pycache__/ -------------------------------------------------------------------------------- /full_model/rand_param_envs/README.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model/rand_param_envs/README.md -------------------------------------------------------------------------------- /full_model/rand_param_envs/__init__.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model/rand_param_envs/__init__.py -------------------------------------------------------------------------------- /full_model/rand_param_envs/base.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model/rand_param_envs/base.py -------------------------------------------------------------------------------- /full_model/rand_param_envs/gym/benchmarks/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /full_model/rand_param_envs/gym/core.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model/rand_param_envs/gym/core.py -------------------------------------------------------------------------------- /full_model/rand_param_envs/gym/envs/algorithmic/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /full_model/rand_param_envs/gym/envs/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /full_model/rand_param_envs/gym/error.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model/rand_param_envs/gym/error.py -------------------------------------------------------------------------------- /full_model/rand_param_envs/gym/monitoring/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /full_model/rand_param_envs/gym/scoreboard/client/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /full_model/rand_param_envs/gym/scoreboard/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /full_model/rand_param_envs/gym/spaces/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /full_model/rand_param_envs/gym/version.py: -------------------------------------------------------------------------------- 1 | VERSION = '0.7.4' 2 | -------------------------------------------------------------------------------- /full_model/rand_param_envs/gym/wrappers/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /full_model/rand_param_envs/mujoco_py/.ruby-version: -------------------------------------------------------------------------------- 1 | ruby-2.1.0 2 | -------------------------------------------------------------------------------- /full_model/rand_param_envs/rand_param_envs/gym/benchmarks/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /full_model/rand_param_envs/rand_param_envs/gym/envs/algorithmic/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /full_model/rand_param_envs/rand_param_envs/gym/envs/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /full_model/rand_param_envs/rand_param_envs/gym/monitoring/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /full_model/rand_param_envs/rand_param_envs/gym/scoreboard/client/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /full_model/rand_param_envs/rand_param_envs/gym/scoreboard/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /full_model/rand_param_envs/rand_param_envs/gym/spaces/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /full_model/rand_param_envs/rand_param_envs/gym/version.py: -------------------------------------------------------------------------------- 1 | VERSION = '0.7.4' 2 | -------------------------------------------------------------------------------- /full_model/rand_param_envs/rand_param_envs/gym/wrappers/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /full_model/rand_param_envs/rand_param_envs/mujoco_py/.ruby-version: -------------------------------------------------------------------------------- 1 | ruby-2.1.0 2 | -------------------------------------------------------------------------------- /full_model/rand_param_envs/setup.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model/rand_param_envs/setup.py -------------------------------------------------------------------------------- /full_model/replay_buffer.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model/replay_buffer.py -------------------------------------------------------------------------------- /full_model/rl_algorithm.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model/rl_algorithm.py -------------------------------------------------------------------------------- /full_model/trainer.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model/trainer.py -------------------------------------------------------------------------------- /full_model/utils/core.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model/utils/core.py -------------------------------------------------------------------------------- /full_model/utils/env_utils.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model/utils/env_utils.py -------------------------------------------------------------------------------- /full_model/utils/eval_util.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model/utils/eval_util.py -------------------------------------------------------------------------------- /full_model/utils/logging.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model/utils/logging.py -------------------------------------------------------------------------------- /full_model/utils/pythonplusplus.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model/utils/pythonplusplus.py -------------------------------------------------------------------------------- /full_model/utils/pytorch_util.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model/utils/pytorch_util.py -------------------------------------------------------------------------------- /full_model/utils/rng.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model/utils/rng.py -------------------------------------------------------------------------------- /full_model/utils/tabulate.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model/utils/tabulate.py -------------------------------------------------------------------------------- /full_model_ground_truth_label/.gitignore: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model_ground_truth_label/.gitignore -------------------------------------------------------------------------------- /full_model_ground_truth_label/BCQ.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model_ground_truth_label/BCQ.py -------------------------------------------------------------------------------- /full_model_ground_truth_label/ensemble.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model_ground_truth_label/ensemble.py -------------------------------------------------------------------------------- /full_model_ground_truth_label/main.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model_ground_truth_label/main.py -------------------------------------------------------------------------------- /full_model_ground_truth_label/networks.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model_ground_truth_label/networks.py -------------------------------------------------------------------------------- /full_model_ground_truth_label/pointmaze/gridcraft/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /full_model_ground_truth_label/rand_param_envs/.gitignore: -------------------------------------------------------------------------------- 1 | __pycache__/ -------------------------------------------------------------------------------- /full_model_ground_truth_label/rand_param_envs/gym/benchmarks/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /full_model_ground_truth_label/rand_param_envs/gym/envs/algorithmic/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /full_model_ground_truth_label/rand_param_envs/gym/envs/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /full_model_ground_truth_label/rand_param_envs/gym/monitoring/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /full_model_ground_truth_label/rand_param_envs/gym/scoreboard/client/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /full_model_ground_truth_label/rand_param_envs/gym/scoreboard/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /full_model_ground_truth_label/rand_param_envs/gym/spaces/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /full_model_ground_truth_label/rand_param_envs/gym/version.py: -------------------------------------------------------------------------------- 1 | VERSION = '0.7.4' 2 | -------------------------------------------------------------------------------- /full_model_ground_truth_label/rand_param_envs/gym/wrappers/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /full_model_ground_truth_label/rand_param_envs/mujoco_py/.ruby-version: -------------------------------------------------------------------------------- 1 | ruby-2.1.0 2 | -------------------------------------------------------------------------------- /full_model_ground_truth_label/rand_param_envs/rand_param_envs/gym/benchmarks/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /full_model_ground_truth_label/rand_param_envs/rand_param_envs/gym/envs/algorithmic/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /full_model_ground_truth_label/rand_param_envs/rand_param_envs/gym/envs/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /full_model_ground_truth_label/rand_param_envs/rand_param_envs/gym/monitoring/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /full_model_ground_truth_label/rand_param_envs/rand_param_envs/gym/scoreboard/client/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /full_model_ground_truth_label/rand_param_envs/rand_param_envs/gym/scoreboard/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /full_model_ground_truth_label/rand_param_envs/rand_param_envs/gym/spaces/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /full_model_ground_truth_label/rand_param_envs/rand_param_envs/gym/version.py: -------------------------------------------------------------------------------- 1 | VERSION = '0.7.4' 2 | -------------------------------------------------------------------------------- /full_model_ground_truth_label/rand_param_envs/rand_param_envs/gym/wrappers/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /full_model_ground_truth_label/rand_param_envs/rand_param_envs/mujoco_py/.ruby-version: -------------------------------------------------------------------------------- 1 | ruby-2.1.0 2 | -------------------------------------------------------------------------------- /full_model_ground_truth_label/trainer.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model_ground_truth_label/trainer.py -------------------------------------------------------------------------------- /full_model_walker_param/.gitignore: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model_walker_param/.gitignore -------------------------------------------------------------------------------- /full_model_walker_param/BCQ.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model_walker_param/BCQ.py -------------------------------------------------------------------------------- /full_model_walker_param/env/ant_dir.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model_walker_param/env/ant_dir.py -------------------------------------------------------------------------------- /full_model_walker_param/env/ant_goal.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model_walker_param/env/ant_goal.py -------------------------------------------------------------------------------- /full_model_walker_param/env/hopper.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model_walker_param/env/hopper.py -------------------------------------------------------------------------------- /full_model_walker_param/generate_goals.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model_walker_param/generate_goals.py -------------------------------------------------------------------------------- /full_model_walker_param/main.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model_walker_param/main.py -------------------------------------------------------------------------------- /full_model_walker_param/networks.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model_walker_param/networks.py -------------------------------------------------------------------------------- /full_model_walker_param/path_collector.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model_walker_param/path_collector.py -------------------------------------------------------------------------------- /full_model_walker_param/rand_param_envs/.gitignore: -------------------------------------------------------------------------------- 1 | __pycache__/ -------------------------------------------------------------------------------- /full_model_walker_param/rand_param_envs/gym/benchmarks/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /full_model_walker_param/rand_param_envs/gym/envs/algorithmic/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /full_model_walker_param/rand_param_envs/gym/envs/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /full_model_walker_param/rand_param_envs/gym/monitoring/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /full_model_walker_param/rand_param_envs/gym/scoreboard/client/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /full_model_walker_param/rand_param_envs/gym/scoreboard/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /full_model_walker_param/rand_param_envs/gym/spaces/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /full_model_walker_param/rand_param_envs/gym/version.py: -------------------------------------------------------------------------------- 1 | VERSION = '0.7.4' 2 | -------------------------------------------------------------------------------- /full_model_walker_param/rand_param_envs/gym/wrappers/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /full_model_walker_param/rand_param_envs/mujoco_py/.ruby-version: -------------------------------------------------------------------------------- 1 | ruby-2.1.0 2 | -------------------------------------------------------------------------------- /full_model_walker_param/rand_param_envs/rand_param_envs/gym/benchmarks/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /full_model_walker_param/rand_param_envs/rand_param_envs/gym/envs/algorithmic/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /full_model_walker_param/rand_param_envs/rand_param_envs/gym/envs/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /full_model_walker_param/rand_param_envs/rand_param_envs/gym/monitoring/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /full_model_walker_param/rand_param_envs/rand_param_envs/gym/scoreboard/client/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /full_model_walker_param/rand_param_envs/rand_param_envs/gym/scoreboard/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /full_model_walker_param/rand_param_envs/rand_param_envs/gym/spaces/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /full_model_walker_param/rand_param_envs/rand_param_envs/gym/version.py: -------------------------------------------------------------------------------- 1 | VERSION = '0.7.4' 2 | -------------------------------------------------------------------------------- /full_model_walker_param/rand_param_envs/rand_param_envs/gym/wrappers/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /full_model_walker_param/rand_param_envs/rand_param_envs/mujoco_py/.ruby-version: -------------------------------------------------------------------------------- 1 | ruby-2.1.0 2 | -------------------------------------------------------------------------------- /full_model_walker_param/replay_buffer.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model_walker_param/replay_buffer.py -------------------------------------------------------------------------------- /full_model_walker_param/rl_algorithm.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model_walker_param/rl_algorithm.py -------------------------------------------------------------------------------- /full_model_walker_param/trainer.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model_walker_param/trainer.py -------------------------------------------------------------------------------- /full_model_walker_param/utils/core.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model_walker_param/utils/core.py -------------------------------------------------------------------------------- /full_model_walker_param/utils/logging.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model_walker_param/utils/logging.py -------------------------------------------------------------------------------- /full_model_walker_param/utils/rng.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model_walker_param/utils/rng.py -------------------------------------------------------------------------------- /full_model_walker_param/utils/tabulate.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/full_model_walker_param/utils/tabulate.py -------------------------------------------------------------------------------- /metagenrl/.gitignore: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/metagenrl/.gitignore -------------------------------------------------------------------------------- /metagenrl/README.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/metagenrl/README.md -------------------------------------------------------------------------------- /metagenrl/env/ant_dir.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/metagenrl/env/ant_dir.py -------------------------------------------------------------------------------- /metagenrl/env/ant_goal.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/metagenrl/env/ant_goal.py -------------------------------------------------------------------------------- /metagenrl/env/half_cheetah.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/metagenrl/env/half_cheetah.py -------------------------------------------------------------------------------- /metagenrl/env/hopper.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/metagenrl/env/hopper.py -------------------------------------------------------------------------------- /metagenrl/env/humanoid_dir.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/metagenrl/env/humanoid_dir.py -------------------------------------------------------------------------------- /metagenrl/env/humanoid_dir_openai.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/metagenrl/env/humanoid_dir_openai.py -------------------------------------------------------------------------------- /metagenrl/env/humanoid_goal_ndone.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/metagenrl/env/humanoid_goal_ndone.py -------------------------------------------------------------------------------- /metagenrl/env/maze2d.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/metagenrl/env/maze2d.py -------------------------------------------------------------------------------- /metagenrl/env/walker_param.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/metagenrl/env/walker_param.py -------------------------------------------------------------------------------- /metagenrl/env_utils.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/metagenrl/env_utils.py -------------------------------------------------------------------------------- /metagenrl/goals/ant-dir-normal-goals.pkl: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/metagenrl/goals/ant-dir-normal-goals.pkl -------------------------------------------------------------------------------- /metagenrl/goals/ant-goal-normal-goals.pkl: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/metagenrl/goals/ant-goal-normal-goals.pkl -------------------------------------------------------------------------------- /metagenrl/model.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/metagenrl/model.py -------------------------------------------------------------------------------- /metagenrl/ray_configs.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/metagenrl/ray_configs.py -------------------------------------------------------------------------------- /metagenrl/ray_experiments.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/metagenrl/ray_experiments.py -------------------------------------------------------------------------------- /metagenrl/ray_extensions.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/metagenrl/ray_extensions.py -------------------------------------------------------------------------------- /metagenrl/ray_workers.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/metagenrl/ray_workers.py -------------------------------------------------------------------------------- /metagenrl/test_agentWorker.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/metagenrl/test_agentWorker.py -------------------------------------------------------------------------------- /metagenrl/test_experiment.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/metagenrl/test_experiment.py -------------------------------------------------------------------------------- /metagenrl/tflog_utils.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/metagenrl/tflog_utils.py -------------------------------------------------------------------------------- /metagenrl/utils.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/metagenrl/utils.py -------------------------------------------------------------------------------- /neither/.gitignore: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/neither/.gitignore -------------------------------------------------------------------------------- /neither/BCQ.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/neither/BCQ.py -------------------------------------------------------------------------------- /neither/configs/ant-dir.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/neither/configs/ant-dir.py -------------------------------------------------------------------------------- /neither/configs/ant-goal.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/neither/configs/ant-goal.py -------------------------------------------------------------------------------- /neither/configs/halfcheetah-vel.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/neither/configs/halfcheetah-vel.py -------------------------------------------------------------------------------- /neither/configs/humanoid-ndone-goal.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/neither/configs/humanoid-ndone-goal.py -------------------------------------------------------------------------------- /neither/configs/humanoid-openai-dir.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/neither/configs/humanoid-openai-dir.py -------------------------------------------------------------------------------- /neither/configs/maze-umaze.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/neither/configs/maze-umaze.py -------------------------------------------------------------------------------- /neither/configs/walker-param.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/neither/configs/walker-param.py -------------------------------------------------------------------------------- /neither/ensemble.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/neither/ensemble.py -------------------------------------------------------------------------------- /neither/env/ant_dir.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/neither/env/ant_dir.py -------------------------------------------------------------------------------- /neither/env/ant_goal.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/neither/env/ant_goal.py -------------------------------------------------------------------------------- /neither/env/half_cheetah.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/neither/env/half_cheetah.py -------------------------------------------------------------------------------- /neither/env/hopper.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/neither/env/hopper.py -------------------------------------------------------------------------------- /neither/env/humanoid_dir.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/neither/env/humanoid_dir.py -------------------------------------------------------------------------------- /neither/env/humanoid_dir_openai.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/neither/env/humanoid_dir_openai.py -------------------------------------------------------------------------------- /neither/env/humanoid_goal_ndone.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/neither/env/humanoid_goal_ndone.py -------------------------------------------------------------------------------- /neither/env/maze2d.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/neither/env/maze2d.py -------------------------------------------------------------------------------- /neither/env/walker_param.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/neither/env/walker_param.py -------------------------------------------------------------------------------- /neither/generate_goals.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/neither/generate_goals.py -------------------------------------------------------------------------------- /neither/goals/ant-dir-normal-goals.pkl: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/neither/goals/ant-dir-normal-goals.pkl -------------------------------------------------------------------------------- /neither/goals/ant-goal-normal-goals.pkl: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/neither/goals/ant-goal-normal-goals.pkl -------------------------------------------------------------------------------- /neither/goals/maze-umaze-normal-goals.pkl: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/neither/goals/maze-umaze-normal-goals.pkl -------------------------------------------------------------------------------- /neither/main.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/neither/main.py -------------------------------------------------------------------------------- /neither/networks.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/neither/networks.py -------------------------------------------------------------------------------- /neither/path_collector.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/neither/path_collector.py -------------------------------------------------------------------------------- /neither/pointmaze/__init__.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/neither/pointmaze/__init__.py -------------------------------------------------------------------------------- /neither/pointmaze/dynamic_mjc.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/neither/pointmaze/dynamic_mjc.py -------------------------------------------------------------------------------- /neither/pointmaze/gridcraft/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /neither/pointmaze/gridcraft/grid_env.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/neither/pointmaze/gridcraft/grid_env.py -------------------------------------------------------------------------------- /neither/pointmaze/gridcraft/grid_spec.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/neither/pointmaze/gridcraft/grid_spec.py -------------------------------------------------------------------------------- /neither/pointmaze/gridcraft/utils.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/neither/pointmaze/gridcraft/utils.py -------------------------------------------------------------------------------- /neither/pointmaze/gridcraft/wrappers.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/neither/pointmaze/gridcraft/wrappers.py -------------------------------------------------------------------------------- /neither/pointmaze/maze_model.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/neither/pointmaze/maze_model.py -------------------------------------------------------------------------------- /neither/pointmaze/q_iteration.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/neither/pointmaze/q_iteration.py -------------------------------------------------------------------------------- /neither/prob_context_encoder.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/neither/prob_context_encoder.py -------------------------------------------------------------------------------- /neither/rand_param_envs/.gitignore: -------------------------------------------------------------------------------- 1 | __pycache__/ -------------------------------------------------------------------------------- /neither/rand_param_envs/README.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/neither/rand_param_envs/README.md -------------------------------------------------------------------------------- /neither/rand_param_envs/__init__.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/neither/rand_param_envs/__init__.py -------------------------------------------------------------------------------- /neither/rand_param_envs/base.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/neither/rand_param_envs/base.py -------------------------------------------------------------------------------- /neither/rand_param_envs/gym/__init__.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/neither/rand_param_envs/gym/__init__.py -------------------------------------------------------------------------------- /neither/rand_param_envs/gym/benchmarks/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /neither/rand_param_envs/gym/core.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/neither/rand_param_envs/gym/core.py -------------------------------------------------------------------------------- /neither/rand_param_envs/gym/envs/algorithmic/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /neither/rand_param_envs/gym/envs/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /neither/rand_param_envs/gym/error.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/neither/rand_param_envs/gym/error.py -------------------------------------------------------------------------------- /neither/rand_param_envs/gym/monitoring/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /neither/rand_param_envs/gym/scoreboard/client/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /neither/rand_param_envs/gym/scoreboard/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /neither/rand_param_envs/gym/spaces/box.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/neither/rand_param_envs/gym/spaces/box.py -------------------------------------------------------------------------------- /neither/rand_param_envs/gym/spaces/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /neither/rand_param_envs/gym/utils/play.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/neither/rand_param_envs/gym/utils/play.py -------------------------------------------------------------------------------- /neither/rand_param_envs/gym/version.py: -------------------------------------------------------------------------------- 1 | VERSION = '0.7.4' 2 | -------------------------------------------------------------------------------- /neither/rand_param_envs/gym/wrappers/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /neither/rand_param_envs/mujoco_py/.ruby-version: -------------------------------------------------------------------------------- 1 | ruby-2.1.0 2 | -------------------------------------------------------------------------------- /neither/rand_param_envs/mujoco_py/Gemfile: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/neither/rand_param_envs/mujoco_py/Gemfile -------------------------------------------------------------------------------- /neither/rand_param_envs/mujoco_py/glfw.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/neither/rand_param_envs/mujoco_py/glfw.py -------------------------------------------------------------------------------- /neither/rand_param_envs/mujoco_py/util.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/neither/rand_param_envs/mujoco_py/util.py -------------------------------------------------------------------------------- /neither/rand_param_envs/pr2_env_reach.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/neither/rand_param_envs/pr2_env_reach.py -------------------------------------------------------------------------------- /neither/rand_param_envs/rand_param_envs/gym/benchmarks/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /neither/rand_param_envs/rand_param_envs/gym/envs/algorithmic/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /neither/rand_param_envs/rand_param_envs/gym/envs/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /neither/rand_param_envs/rand_param_envs/gym/monitoring/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /neither/rand_param_envs/rand_param_envs/gym/scoreboard/client/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /neither/rand_param_envs/rand_param_envs/gym/scoreboard/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /neither/rand_param_envs/rand_param_envs/gym/spaces/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /neither/rand_param_envs/rand_param_envs/gym/version.py: -------------------------------------------------------------------------------- 1 | VERSION = '0.7.4' 2 | -------------------------------------------------------------------------------- /neither/rand_param_envs/rand_param_envs/gym/wrappers/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /neither/rand_param_envs/rand_param_envs/mujoco_py/.ruby-version: -------------------------------------------------------------------------------- 1 | ruby-2.1.0 2 | -------------------------------------------------------------------------------- /neither/rand_param_envs/setup.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/neither/rand_param_envs/setup.py -------------------------------------------------------------------------------- /neither/replay_buffer.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/neither/replay_buffer.py -------------------------------------------------------------------------------- /neither/rl_algorithm.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/neither/rl_algorithm.py -------------------------------------------------------------------------------- /neither/trainer.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/neither/trainer.py -------------------------------------------------------------------------------- /neither/utils/core.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/neither/utils/core.py -------------------------------------------------------------------------------- /neither/utils/env_utils.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/neither/utils/env_utils.py -------------------------------------------------------------------------------- /neither/utils/eval_util.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/neither/utils/eval_util.py -------------------------------------------------------------------------------- /neither/utils/logging.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/neither/utils/logging.py -------------------------------------------------------------------------------- /neither/utils/pythonplusplus.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/neither/utils/pythonplusplus.py -------------------------------------------------------------------------------- /neither/utils/pytorch_util.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/neither/utils/pytorch_util.py -------------------------------------------------------------------------------- /neither/utils/rng.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/neither/utils/rng.py -------------------------------------------------------------------------------- /neither/utils/tabulate.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/neither/utils/tabulate.py -------------------------------------------------------------------------------- /no_transition_relabelling/.gitignore: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/no_transition_relabelling/.gitignore -------------------------------------------------------------------------------- /no_transition_relabelling/BCQ.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/no_transition_relabelling/BCQ.py -------------------------------------------------------------------------------- /no_transition_relabelling/env/ant_dir.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/no_transition_relabelling/env/ant_dir.py -------------------------------------------------------------------------------- /no_transition_relabelling/env/ant_goal.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/no_transition_relabelling/env/ant_goal.py -------------------------------------------------------------------------------- /no_transition_relabelling/env/hopper.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/no_transition_relabelling/env/hopper.py -------------------------------------------------------------------------------- /no_transition_relabelling/env/maze2d.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/no_transition_relabelling/env/maze2d.py -------------------------------------------------------------------------------- /no_transition_relabelling/main.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/no_transition_relabelling/main.py -------------------------------------------------------------------------------- /no_transition_relabelling/networks.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/no_transition_relabelling/networks.py -------------------------------------------------------------------------------- /no_transition_relabelling/pointmaze/gridcraft/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /no_transition_relabelling/rand_param_envs/.gitignore: -------------------------------------------------------------------------------- 1 | __pycache__/ -------------------------------------------------------------------------------- /no_transition_relabelling/rand_param_envs/gym/benchmarks/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /no_transition_relabelling/rand_param_envs/gym/envs/algorithmic/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /no_transition_relabelling/rand_param_envs/gym/envs/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /no_transition_relabelling/rand_param_envs/gym/monitoring/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /no_transition_relabelling/rand_param_envs/gym/scoreboard/client/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /no_transition_relabelling/rand_param_envs/gym/scoreboard/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /no_transition_relabelling/rand_param_envs/gym/spaces/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /no_transition_relabelling/rand_param_envs/gym/version.py: -------------------------------------------------------------------------------- 1 | VERSION = '0.7.4' 2 | -------------------------------------------------------------------------------- /no_transition_relabelling/rand_param_envs/gym/wrappers/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /no_transition_relabelling/rand_param_envs/mujoco_py/.ruby-version: -------------------------------------------------------------------------------- 1 | ruby-2.1.0 2 | -------------------------------------------------------------------------------- /no_transition_relabelling/rand_param_envs/rand_param_envs/gym/benchmarks/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /no_transition_relabelling/rand_param_envs/rand_param_envs/gym/envs/algorithmic/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /no_transition_relabelling/rand_param_envs/rand_param_envs/gym/envs/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /no_transition_relabelling/rand_param_envs/rand_param_envs/gym/monitoring/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /no_transition_relabelling/rand_param_envs/rand_param_envs/gym/scoreboard/client/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /no_transition_relabelling/rand_param_envs/rand_param_envs/gym/scoreboard/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /no_transition_relabelling/rand_param_envs/rand_param_envs/gym/spaces/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /no_transition_relabelling/rand_param_envs/rand_param_envs/gym/version.py: -------------------------------------------------------------------------------- 1 | VERSION = '0.7.4' 2 | -------------------------------------------------------------------------------- /no_transition_relabelling/rand_param_envs/rand_param_envs/gym/wrappers/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /no_transition_relabelling/rand_param_envs/rand_param_envs/mujoco_py/.ruby-version: -------------------------------------------------------------------------------- 1 | ruby-2.1.0 2 | -------------------------------------------------------------------------------- /no_transition_relabelling/rl_algorithm.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/no_transition_relabelling/rl_algorithm.py -------------------------------------------------------------------------------- /no_transition_relabelling/trainer.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/no_transition_relabelling/trainer.py -------------------------------------------------------------------------------- /no_transition_relabelling/utils/core.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/no_transition_relabelling/utils/core.py -------------------------------------------------------------------------------- /no_transition_relabelling/utils/rng.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/no_transition_relabelling/utils/rng.py -------------------------------------------------------------------------------- /no_triplet_loss/.gitignore: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/no_triplet_loss/.gitignore -------------------------------------------------------------------------------- /no_triplet_loss/BCQ.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/no_triplet_loss/BCQ.py -------------------------------------------------------------------------------- /no_triplet_loss/configs/ant-dir.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/no_triplet_loss/configs/ant-dir.py -------------------------------------------------------------------------------- /no_triplet_loss/configs/ant-goal.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/no_triplet_loss/configs/ant-goal.py -------------------------------------------------------------------------------- /no_triplet_loss/configs/maze-umaze.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/no_triplet_loss/configs/maze-umaze.py -------------------------------------------------------------------------------- /no_triplet_loss/ensemble.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/no_triplet_loss/ensemble.py -------------------------------------------------------------------------------- /no_triplet_loss/env/ant_dir.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/no_triplet_loss/env/ant_dir.py -------------------------------------------------------------------------------- /no_triplet_loss/env/ant_goal.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/no_triplet_loss/env/ant_goal.py -------------------------------------------------------------------------------- /no_triplet_loss/env/half_cheetah.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/no_triplet_loss/env/half_cheetah.py -------------------------------------------------------------------------------- /no_triplet_loss/env/hopper.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/no_triplet_loss/env/hopper.py -------------------------------------------------------------------------------- /no_triplet_loss/env/humanoid_dir.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/no_triplet_loss/env/humanoid_dir.py -------------------------------------------------------------------------------- /no_triplet_loss/env/maze2d.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/no_triplet_loss/env/maze2d.py -------------------------------------------------------------------------------- /no_triplet_loss/env/walker_param.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/no_triplet_loss/env/walker_param.py -------------------------------------------------------------------------------- /no_triplet_loss/generate_goals.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/no_triplet_loss/generate_goals.py -------------------------------------------------------------------------------- /no_triplet_loss/main.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/no_triplet_loss/main.py -------------------------------------------------------------------------------- /no_triplet_loss/networks.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/no_triplet_loss/networks.py -------------------------------------------------------------------------------- /no_triplet_loss/path_collector.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/no_triplet_loss/path_collector.py -------------------------------------------------------------------------------- /no_triplet_loss/pointmaze/__init__.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/no_triplet_loss/pointmaze/__init__.py -------------------------------------------------------------------------------- /no_triplet_loss/pointmaze/dynamic_mjc.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/no_triplet_loss/pointmaze/dynamic_mjc.py -------------------------------------------------------------------------------- /no_triplet_loss/pointmaze/gridcraft/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /no_triplet_loss/pointmaze/maze_model.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/no_triplet_loss/pointmaze/maze_model.py -------------------------------------------------------------------------------- /no_triplet_loss/pointmaze/q_iteration.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/no_triplet_loss/pointmaze/q_iteration.py -------------------------------------------------------------------------------- /no_triplet_loss/prob_context_encoder.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/no_triplet_loss/prob_context_encoder.py -------------------------------------------------------------------------------- /no_triplet_loss/rand_param_envs/.gitignore: -------------------------------------------------------------------------------- 1 | __pycache__/ -------------------------------------------------------------------------------- /no_triplet_loss/rand_param_envs/README.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/no_triplet_loss/rand_param_envs/README.md -------------------------------------------------------------------------------- /no_triplet_loss/rand_param_envs/base.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/no_triplet_loss/rand_param_envs/base.py -------------------------------------------------------------------------------- /no_triplet_loss/rand_param_envs/gym/benchmarks/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /no_triplet_loss/rand_param_envs/gym/envs/algorithmic/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /no_triplet_loss/rand_param_envs/gym/envs/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /no_triplet_loss/rand_param_envs/gym/monitoring/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /no_triplet_loss/rand_param_envs/gym/scoreboard/client/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /no_triplet_loss/rand_param_envs/gym/scoreboard/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /no_triplet_loss/rand_param_envs/gym/spaces/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /no_triplet_loss/rand_param_envs/gym/version.py: -------------------------------------------------------------------------------- 1 | VERSION = '0.7.4' 2 | -------------------------------------------------------------------------------- /no_triplet_loss/rand_param_envs/gym/wrappers/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /no_triplet_loss/rand_param_envs/mujoco_py/.ruby-version: -------------------------------------------------------------------------------- 1 | ruby-2.1.0 2 | -------------------------------------------------------------------------------- /no_triplet_loss/rand_param_envs/rand_param_envs/gym/benchmarks/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /no_triplet_loss/rand_param_envs/rand_param_envs/gym/envs/algorithmic/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /no_triplet_loss/rand_param_envs/rand_param_envs/gym/envs/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /no_triplet_loss/rand_param_envs/rand_param_envs/gym/monitoring/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /no_triplet_loss/rand_param_envs/rand_param_envs/gym/scoreboard/client/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /no_triplet_loss/rand_param_envs/rand_param_envs/gym/scoreboard/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /no_triplet_loss/rand_param_envs/rand_param_envs/gym/spaces/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /no_triplet_loss/rand_param_envs/rand_param_envs/gym/version.py: -------------------------------------------------------------------------------- 1 | VERSION = '0.7.4' 2 | -------------------------------------------------------------------------------- /no_triplet_loss/rand_param_envs/rand_param_envs/gym/wrappers/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /no_triplet_loss/rand_param_envs/rand_param_envs/mujoco_py/.ruby-version: -------------------------------------------------------------------------------- 1 | ruby-2.1.0 2 | -------------------------------------------------------------------------------- /no_triplet_loss/rand_param_envs/setup.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/no_triplet_loss/rand_param_envs/setup.py -------------------------------------------------------------------------------- /no_triplet_loss/replay_buffer.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/no_triplet_loss/replay_buffer.py -------------------------------------------------------------------------------- /no_triplet_loss/rl_algorithm.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/no_triplet_loss/rl_algorithm.py -------------------------------------------------------------------------------- /no_triplet_loss/trainer.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/no_triplet_loss/trainer.py -------------------------------------------------------------------------------- /no_triplet_loss/utils/core.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/no_triplet_loss/utils/core.py -------------------------------------------------------------------------------- /no_triplet_loss/utils/env_utils.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/no_triplet_loss/utils/env_utils.py -------------------------------------------------------------------------------- /no_triplet_loss/utils/eval_util.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/no_triplet_loss/utils/eval_util.py -------------------------------------------------------------------------------- /no_triplet_loss/utils/logging.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/no_triplet_loss/utils/logging.py -------------------------------------------------------------------------------- /no_triplet_loss/utils/pythonplusplus.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/no_triplet_loss/utils/pythonplusplus.py -------------------------------------------------------------------------------- /no_triplet_loss/utils/pytorch_util.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/no_triplet_loss/utils/pytorch_util.py -------------------------------------------------------------------------------- /no_triplet_loss/utils/rng.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/no_triplet_loss/utils/rng.py -------------------------------------------------------------------------------- /no_triplet_loss/utils/tabulate.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/no_triplet_loss/utils/tabulate.py -------------------------------------------------------------------------------- /no_triplet_loss_walker_param/.gitignore: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/no_triplet_loss_walker_param/.gitignore -------------------------------------------------------------------------------- /no_triplet_loss_walker_param/BCQ.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/no_triplet_loss_walker_param/BCQ.py -------------------------------------------------------------------------------- /no_triplet_loss_walker_param/main.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/no_triplet_loss_walker_param/main.py -------------------------------------------------------------------------------- /no_triplet_loss_walker_param/networks.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/no_triplet_loss_walker_param/networks.py -------------------------------------------------------------------------------- /no_triplet_loss_walker_param/rand_param_envs/.gitignore: -------------------------------------------------------------------------------- 1 | __pycache__/ -------------------------------------------------------------------------------- /no_triplet_loss_walker_param/rand_param_envs/gym/benchmarks/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /no_triplet_loss_walker_param/rand_param_envs/gym/envs/algorithmic/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /no_triplet_loss_walker_param/rand_param_envs/gym/envs/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /no_triplet_loss_walker_param/rand_param_envs/gym/monitoring/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /no_triplet_loss_walker_param/rand_param_envs/gym/scoreboard/client/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /no_triplet_loss_walker_param/rand_param_envs/gym/scoreboard/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /no_triplet_loss_walker_param/rand_param_envs/gym/spaces/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /no_triplet_loss_walker_param/rand_param_envs/gym/version.py: -------------------------------------------------------------------------------- 1 | VERSION = '0.7.4' 2 | -------------------------------------------------------------------------------- /no_triplet_loss_walker_param/rand_param_envs/gym/wrappers/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /no_triplet_loss_walker_param/rand_param_envs/mujoco_py/.ruby-version: -------------------------------------------------------------------------------- 1 | ruby-2.1.0 2 | -------------------------------------------------------------------------------- /no_triplet_loss_walker_param/rand_param_envs/rand_param_envs/gym/benchmarks/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /no_triplet_loss_walker_param/rand_param_envs/rand_param_envs/gym/envs/algorithmic/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /no_triplet_loss_walker_param/rand_param_envs/rand_param_envs/gym/envs/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /no_triplet_loss_walker_param/rand_param_envs/rand_param_envs/gym/monitoring/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /no_triplet_loss_walker_param/rand_param_envs/rand_param_envs/gym/scoreboard/client/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /no_triplet_loss_walker_param/rand_param_envs/rand_param_envs/gym/scoreboard/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /no_triplet_loss_walker_param/rand_param_envs/rand_param_envs/gym/spaces/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /no_triplet_loss_walker_param/rand_param_envs/rand_param_envs/gym/version.py: -------------------------------------------------------------------------------- 1 | VERSION = '0.7.4' 2 | -------------------------------------------------------------------------------- /no_triplet_loss_walker_param/rand_param_envs/rand_param_envs/gym/wrappers/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /no_triplet_loss_walker_param/rand_param_envs/rand_param_envs/mujoco_py/.ruby-version: -------------------------------------------------------------------------------- 1 | ruby-2.1.0 2 | -------------------------------------------------------------------------------- /no_triplet_loss_walker_param/trainer.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/no_triplet_loss_walker_param/trainer.py -------------------------------------------------------------------------------- /no_triplet_loss_walker_param/utils/rng.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/no_triplet_loss_walker_param/utils/rng.py -------------------------------------------------------------------------------- /oac-explore/.gitignore: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/oac-explore/.gitignore -------------------------------------------------------------------------------- /oac-explore/configs/ant-dir.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/oac-explore/configs/ant-dir.py -------------------------------------------------------------------------------- /oac-explore/configs/ant-goal.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/oac-explore/configs/ant-goal.py -------------------------------------------------------------------------------- /oac-explore/configs/halfcheetah-vel.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/oac-explore/configs/halfcheetah-vel.py -------------------------------------------------------------------------------- /oac-explore/configs/humanoid-dir.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/oac-explore/configs/humanoid-dir.py -------------------------------------------------------------------------------- /oac-explore/configs/maze-medium.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/oac-explore/configs/maze-medium.py -------------------------------------------------------------------------------- /oac-explore/configs/maze-umaze.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/oac-explore/configs/maze-umaze.py -------------------------------------------------------------------------------- /oac-explore/configs/walker-param.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/oac-explore/configs/walker-param.py -------------------------------------------------------------------------------- /oac-explore/env/ant_dir.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/oac-explore/env/ant_dir.py -------------------------------------------------------------------------------- /oac-explore/env/ant_goal.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/oac-explore/env/ant_goal.py -------------------------------------------------------------------------------- /oac-explore/env/half_cheetah.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/oac-explore/env/half_cheetah.py -------------------------------------------------------------------------------- /oac-explore/env/hopper.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/oac-explore/env/hopper.py -------------------------------------------------------------------------------- /oac-explore/env/humanoid_dir.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/oac-explore/env/humanoid_dir.py -------------------------------------------------------------------------------- /oac-explore/env/humanoid_dir_openai.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/oac-explore/env/humanoid_dir_openai.py -------------------------------------------------------------------------------- /oac-explore/env/humanoid_goal_ndone.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/oac-explore/env/humanoid_goal_ndone.py -------------------------------------------------------------------------------- /oac-explore/env/maze2d.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/oac-explore/env/maze2d.py -------------------------------------------------------------------------------- /oac-explore/env/walker_param.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/oac-explore/env/walker_param.py -------------------------------------------------------------------------------- /oac-explore/generate_goals.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/oac-explore/generate_goals.py -------------------------------------------------------------------------------- /oac-explore/launcher_util.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/oac-explore/launcher_util.py -------------------------------------------------------------------------------- /oac-explore/main.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/oac-explore/main.py -------------------------------------------------------------------------------- /oac-explore/medium.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/oac-explore/medium.png -------------------------------------------------------------------------------- /oac-explore/networks.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/oac-explore/networks.py -------------------------------------------------------------------------------- /oac-explore/optimistic_exploration.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/oac-explore/optimistic_exploration.py -------------------------------------------------------------------------------- /oac-explore/path_collector.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/oac-explore/path_collector.py -------------------------------------------------------------------------------- /oac-explore/pointmaze/__init__.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/oac-explore/pointmaze/__init__.py -------------------------------------------------------------------------------- /oac-explore/pointmaze/dynamic_mjc.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/oac-explore/pointmaze/dynamic_mjc.py -------------------------------------------------------------------------------- /oac-explore/pointmaze/gridcraft/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /oac-explore/pointmaze/gridcraft/utils.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/oac-explore/pointmaze/gridcraft/utils.py -------------------------------------------------------------------------------- /oac-explore/pointmaze/maze_model.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/oac-explore/pointmaze/maze_model.py -------------------------------------------------------------------------------- /oac-explore/pointmaze/q_iteration.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/oac-explore/pointmaze/q_iteration.py -------------------------------------------------------------------------------- /oac-explore/rand_param_envs/.gitignore: -------------------------------------------------------------------------------- 1 | __pycache__/ -------------------------------------------------------------------------------- /oac-explore/rand_param_envs/README.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/oac-explore/rand_param_envs/README.md -------------------------------------------------------------------------------- /oac-explore/rand_param_envs/__init__.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/oac-explore/rand_param_envs/__init__.py -------------------------------------------------------------------------------- /oac-explore/rand_param_envs/base.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/oac-explore/rand_param_envs/base.py -------------------------------------------------------------------------------- /oac-explore/rand_param_envs/gym/benchmarks/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /oac-explore/rand_param_envs/gym/core.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/oac-explore/rand_param_envs/gym/core.py -------------------------------------------------------------------------------- /oac-explore/rand_param_envs/gym/envs/algorithmic/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /oac-explore/rand_param_envs/gym/envs/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /oac-explore/rand_param_envs/gym/error.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/oac-explore/rand_param_envs/gym/error.py -------------------------------------------------------------------------------- /oac-explore/rand_param_envs/gym/monitoring/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /oac-explore/rand_param_envs/gym/scoreboard/client/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /oac-explore/rand_param_envs/gym/scoreboard/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /oac-explore/rand_param_envs/gym/spaces/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /oac-explore/rand_param_envs/gym/version.py: -------------------------------------------------------------------------------- 1 | VERSION = '0.7.4' 2 | -------------------------------------------------------------------------------- /oac-explore/rand_param_envs/gym/wrappers/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /oac-explore/rand_param_envs/mujoco_py/.ruby-version: -------------------------------------------------------------------------------- 1 | ruby-2.1.0 2 | -------------------------------------------------------------------------------- /oac-explore/rand_param_envs/rand_param_envs/gym/benchmarks/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /oac-explore/rand_param_envs/rand_param_envs/gym/envs/algorithmic/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /oac-explore/rand_param_envs/rand_param_envs/gym/envs/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /oac-explore/rand_param_envs/rand_param_envs/gym/monitoring/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /oac-explore/rand_param_envs/rand_param_envs/gym/scoreboard/client/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /oac-explore/rand_param_envs/rand_param_envs/gym/scoreboard/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /oac-explore/rand_param_envs/rand_param_envs/gym/spaces/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /oac-explore/rand_param_envs/rand_param_envs/gym/version.py: -------------------------------------------------------------------------------- 1 | VERSION = '0.7.4' 2 | -------------------------------------------------------------------------------- /oac-explore/rand_param_envs/rand_param_envs/gym/wrappers/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /oac-explore/rand_param_envs/rand_param_envs/mujoco_py/.ruby-version: -------------------------------------------------------------------------------- 1 | ruby-2.1.0 2 | -------------------------------------------------------------------------------- /oac-explore/rand_param_envs/setup.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/oac-explore/rand_param_envs/setup.py -------------------------------------------------------------------------------- /oac-explore/replay_buffer.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/oac-explore/replay_buffer.py -------------------------------------------------------------------------------- /oac-explore/rl_algorithm.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/oac-explore/rl_algorithm.py -------------------------------------------------------------------------------- /oac-explore/test.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/oac-explore/test.py -------------------------------------------------------------------------------- /oac-explore/trainer/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /oac-explore/trainer/policies.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/oac-explore/trainer/policies.py -------------------------------------------------------------------------------- /oac-explore/trainer/trainer.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/oac-explore/trainer/trainer.py -------------------------------------------------------------------------------- /oac-explore/umaze.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/oac-explore/umaze.png -------------------------------------------------------------------------------- /oac-explore/utils/.env_utils.py.swp: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/oac-explore/utils/.env_utils.py.swp -------------------------------------------------------------------------------- /oac-explore/utils/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /oac-explore/utils/core.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/oac-explore/utils/core.py -------------------------------------------------------------------------------- /oac-explore/utils/env_utils.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/oac-explore/utils/env_utils.py -------------------------------------------------------------------------------- /oac-explore/utils/eval_util.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/oac-explore/utils/eval_util.py -------------------------------------------------------------------------------- /oac-explore/utils/logging.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/oac-explore/utils/logging.py -------------------------------------------------------------------------------- /oac-explore/utils/pythonplusplus.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/oac-explore/utils/pythonplusplus.py -------------------------------------------------------------------------------- /oac-explore/utils/pytorch_util.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/oac-explore/utils/pytorch_util.py -------------------------------------------------------------------------------- /oac-explore/utils/rng.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/oac-explore/utils/rng.py -------------------------------------------------------------------------------- /oac-explore/utils/tabulate.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/oac-explore/utils/tabulate.py -------------------------------------------------------------------------------- /paper_figs/test.txt: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/paper_figs/test.txt -------------------------------------------------------------------------------- /plotting/evaluate_against_ablations.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/plotting/evaluate_against_ablations.py -------------------------------------------------------------------------------- /plotting/evaluate_against_baseline.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/plotting/evaluate_against_baseline.py -------------------------------------------------------------------------------- /plotting/evaluate_metagenrl.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/plotting/evaluate_metagenrl.py -------------------------------------------------------------------------------- /plotting/evaluate_sac_init.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/plotting/evaluate_sac_init.py -------------------------------------------------------------------------------- /plotting/goals/ant-dir-normal-goals.pkl: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/plotting/goals/ant-dir-normal-goals.pkl -------------------------------------------------------------------------------- /plotting/goals/ant-goal-normal-goals.pkl: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/plotting/goals/ant-goal-normal-goals.pkl -------------------------------------------------------------------------------- /plotting/plot_utils.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/plotting/plot_utils.py -------------------------------------------------------------------------------- /reward_prediction_ensemble/.gitignore: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/reward_prediction_ensemble/.gitignore -------------------------------------------------------------------------------- /reward_prediction_ensemble/env/ant_dir.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/reward_prediction_ensemble/env/ant_dir.py -------------------------------------------------------------------------------- /reward_prediction_ensemble/env/hopper.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/reward_prediction_ensemble/env/hopper.py -------------------------------------------------------------------------------- /reward_prediction_ensemble/env/maze2d.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/reward_prediction_ensemble/env/maze2d.py -------------------------------------------------------------------------------- /reward_prediction_ensemble/main.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/reward_prediction_ensemble/main.py -------------------------------------------------------------------------------- /reward_prediction_ensemble/networks.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/reward_prediction_ensemble/networks.py -------------------------------------------------------------------------------- /reward_prediction_ensemble/pointmaze/gridcraft/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /reward_prediction_ensemble/rand_param_envs/.gitignore: -------------------------------------------------------------------------------- 1 | __pycache__/ -------------------------------------------------------------------------------- /reward_prediction_ensemble/rand_param_envs/gym/benchmarks/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /reward_prediction_ensemble/rand_param_envs/gym/envs/algorithmic/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /reward_prediction_ensemble/rand_param_envs/gym/envs/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /reward_prediction_ensemble/rand_param_envs/gym/monitoring/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /reward_prediction_ensemble/rand_param_envs/gym/scoreboard/client/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /reward_prediction_ensemble/rand_param_envs/gym/scoreboard/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /reward_prediction_ensemble/rand_param_envs/gym/spaces/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /reward_prediction_ensemble/rand_param_envs/gym/version.py: -------------------------------------------------------------------------------- 1 | VERSION = '0.7.4' 2 | -------------------------------------------------------------------------------- /reward_prediction_ensemble/rand_param_envs/gym/wrappers/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /reward_prediction_ensemble/rand_param_envs/mujoco_py/.ruby-version: -------------------------------------------------------------------------------- 1 | ruby-2.1.0 2 | -------------------------------------------------------------------------------- /reward_prediction_ensemble/rand_param_envs/rand_param_envs/gym/benchmarks/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /reward_prediction_ensemble/rand_param_envs/rand_param_envs/gym/envs/algorithmic/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /reward_prediction_ensemble/rand_param_envs/rand_param_envs/gym/envs/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /reward_prediction_ensemble/rand_param_envs/rand_param_envs/gym/monitoring/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /reward_prediction_ensemble/rand_param_envs/rand_param_envs/gym/scoreboard/client/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /reward_prediction_ensemble/rand_param_envs/rand_param_envs/gym/scoreboard/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /reward_prediction_ensemble/rand_param_envs/rand_param_envs/gym/spaces/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /reward_prediction_ensemble/rand_param_envs/rand_param_envs/gym/version.py: -------------------------------------------------------------------------------- 1 | VERSION = '0.7.4' 2 | -------------------------------------------------------------------------------- /reward_prediction_ensemble/rand_param_envs/rand_param_envs/gym/wrappers/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /reward_prediction_ensemble/rand_param_envs/rand_param_envs/mujoco_py/.ruby-version: -------------------------------------------------------------------------------- 1 | ruby-2.1.0 2 | -------------------------------------------------------------------------------- /reward_prediction_ensemble/trainer.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/reward_prediction_ensemble/trainer.py -------------------------------------------------------------------------------- /reward_prediction_ensemble/utils/core.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/reward_prediction_ensemble/utils/core.py -------------------------------------------------------------------------------- /reward_prediction_ensemble/utils/rng.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/reward_prediction_ensemble/utils/rng.py -------------------------------------------------------------------------------- /sac_baseline/.gitignore: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/sac_baseline/.gitignore -------------------------------------------------------------------------------- /sac_baseline/configs/ant-dir.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/sac_baseline/configs/ant-dir.py -------------------------------------------------------------------------------- /sac_baseline/configs/ant-goal.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/sac_baseline/configs/ant-goal.py -------------------------------------------------------------------------------- /sac_baseline/configs/halfcheetah-vel.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/sac_baseline/configs/halfcheetah-vel.py -------------------------------------------------------------------------------- /sac_baseline/configs/walker-param.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/sac_baseline/configs/walker-param.py -------------------------------------------------------------------------------- /sac_baseline/generate_goals.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/sac_baseline/generate_goals.py -------------------------------------------------------------------------------- /sac_baseline/launcher_util.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/sac_baseline/launcher_util.py -------------------------------------------------------------------------------- /sac_baseline/main.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/sac_baseline/main.py -------------------------------------------------------------------------------- /sac_baseline/networks.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/sac_baseline/networks.py -------------------------------------------------------------------------------- /sac_baseline/optimistic_exploration.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/sac_baseline/optimistic_exploration.py -------------------------------------------------------------------------------- /sac_baseline/path_collector.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/sac_baseline/path_collector.py -------------------------------------------------------------------------------- /sac_baseline/prob_context_encoder.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/sac_baseline/prob_context_encoder.py -------------------------------------------------------------------------------- /sac_baseline/rand_param_envs/.gitignore: -------------------------------------------------------------------------------- 1 | __pycache__/ -------------------------------------------------------------------------------- /sac_baseline/rand_param_envs/README.md: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/sac_baseline/rand_param_envs/README.md -------------------------------------------------------------------------------- /sac_baseline/rand_param_envs/__init__.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/sac_baseline/rand_param_envs/__init__.py -------------------------------------------------------------------------------- /sac_baseline/rand_param_envs/base.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/sac_baseline/rand_param_envs/base.py -------------------------------------------------------------------------------- /sac_baseline/rand_param_envs/gym/benchmarks/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /sac_baseline/rand_param_envs/gym/core.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/sac_baseline/rand_param_envs/gym/core.py -------------------------------------------------------------------------------- /sac_baseline/rand_param_envs/gym/envs/algorithmic/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /sac_baseline/rand_param_envs/gym/envs/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /sac_baseline/rand_param_envs/gym/error.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/sac_baseline/rand_param_envs/gym/error.py -------------------------------------------------------------------------------- /sac_baseline/rand_param_envs/gym/monitoring/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /sac_baseline/rand_param_envs/gym/scoreboard/client/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /sac_baseline/rand_param_envs/gym/scoreboard/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /sac_baseline/rand_param_envs/gym/spaces/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /sac_baseline/rand_param_envs/gym/version.py: -------------------------------------------------------------------------------- 1 | VERSION = '0.7.4' 2 | -------------------------------------------------------------------------------- /sac_baseline/rand_param_envs/gym/wrappers/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /sac_baseline/rand_param_envs/mujoco_py/.ruby-version: -------------------------------------------------------------------------------- 1 | ruby-2.1.0 2 | -------------------------------------------------------------------------------- /sac_baseline/rand_param_envs/rand_param_envs/gym/benchmarks/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /sac_baseline/rand_param_envs/rand_param_envs/gym/envs/algorithmic/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /sac_baseline/rand_param_envs/rand_param_envs/gym/envs/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /sac_baseline/rand_param_envs/rand_param_envs/gym/monitoring/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /sac_baseline/rand_param_envs/rand_param_envs/gym/scoreboard/client/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /sac_baseline/rand_param_envs/rand_param_envs/gym/scoreboard/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /sac_baseline/rand_param_envs/rand_param_envs/gym/spaces/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /sac_baseline/rand_param_envs/rand_param_envs/gym/version.py: -------------------------------------------------------------------------------- 1 | VERSION = '0.7.4' 2 | -------------------------------------------------------------------------------- /sac_baseline/rand_param_envs/rand_param_envs/gym/wrappers/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /sac_baseline/rand_param_envs/rand_param_envs/mujoco_py/.ruby-version: -------------------------------------------------------------------------------- 1 | ruby-2.1.0 2 | -------------------------------------------------------------------------------- /sac_baseline/rand_param_envs/setup.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/sac_baseline/rand_param_envs/setup.py -------------------------------------------------------------------------------- /sac_baseline/replay_buffer.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/sac_baseline/replay_buffer.py -------------------------------------------------------------------------------- /sac_baseline/rl_algorithm.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/sac_baseline/rl_algorithm.py -------------------------------------------------------------------------------- /sac_baseline/trainer/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /sac_baseline/trainer/policies.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/sac_baseline/trainer/policies.py -------------------------------------------------------------------------------- /sac_baseline/trainer/trainer.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/sac_baseline/trainer/trainer.py -------------------------------------------------------------------------------- /sac_baseline/utils/.env_utils.py.swp: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/sac_baseline/utils/.env_utils.py.swp -------------------------------------------------------------------------------- /sac_baseline/utils/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /sac_baseline/utils/core.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/sac_baseline/utils/core.py -------------------------------------------------------------------------------- /sac_baseline/utils/env_utils.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/sac_baseline/utils/env_utils.py -------------------------------------------------------------------------------- /sac_baseline/utils/eval_util.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/sac_baseline/utils/eval_util.py -------------------------------------------------------------------------------- /sac_baseline/utils/logging.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/sac_baseline/utils/logging.py -------------------------------------------------------------------------------- /sac_baseline/utils/pythonplusplus.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/sac_baseline/utils/pythonplusplus.py -------------------------------------------------------------------------------- /sac_baseline/utils/pytorch_util.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/sac_baseline/utils/pytorch_util.py -------------------------------------------------------------------------------- /sac_baseline/utils/rng.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/sac_baseline/utils/rng.py -------------------------------------------------------------------------------- /sac_baseline/utils/tabulate.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/sac_baseline/utils/tabulate.py -------------------------------------------------------------------------------- /sac_with_initialization/.gitignore: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/sac_with_initialization/.gitignore -------------------------------------------------------------------------------- /sac_with_initialization/env/ant_dir.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/sac_with_initialization/env/ant_dir.py -------------------------------------------------------------------------------- /sac_with_initialization/env/ant_goal.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/sac_with_initialization/env/ant_goal.py -------------------------------------------------------------------------------- /sac_with_initialization/env/hopper.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/sac_with_initialization/env/hopper.py -------------------------------------------------------------------------------- /sac_with_initialization/generate_goals.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/sac_with_initialization/generate_goals.py -------------------------------------------------------------------------------- /sac_with_initialization/launcher_util.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/sac_with_initialization/launcher_util.py -------------------------------------------------------------------------------- /sac_with_initialization/main.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/sac_with_initialization/main.py -------------------------------------------------------------------------------- /sac_with_initialization/networks.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/sac_with_initialization/networks.py -------------------------------------------------------------------------------- /sac_with_initialization/path_collector.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/sac_with_initialization/path_collector.py -------------------------------------------------------------------------------- /sac_with_initialization/rand_param_envs/.gitignore: -------------------------------------------------------------------------------- 1 | __pycache__/ -------------------------------------------------------------------------------- /sac_with_initialization/rand_param_envs/gym/benchmarks/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /sac_with_initialization/rand_param_envs/gym/envs/algorithmic/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /sac_with_initialization/rand_param_envs/gym/envs/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /sac_with_initialization/rand_param_envs/gym/monitoring/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /sac_with_initialization/rand_param_envs/gym/scoreboard/client/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /sac_with_initialization/rand_param_envs/gym/scoreboard/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /sac_with_initialization/rand_param_envs/gym/spaces/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /sac_with_initialization/rand_param_envs/gym/version.py: -------------------------------------------------------------------------------- 1 | VERSION = '0.7.4' 2 | -------------------------------------------------------------------------------- /sac_with_initialization/rand_param_envs/gym/wrappers/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /sac_with_initialization/rand_param_envs/mujoco_py/.ruby-version: -------------------------------------------------------------------------------- 1 | ruby-2.1.0 2 | -------------------------------------------------------------------------------- /sac_with_initialization/rand_param_envs/rand_param_envs/gym/benchmarks/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /sac_with_initialization/rand_param_envs/rand_param_envs/gym/envs/algorithmic/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /sac_with_initialization/rand_param_envs/rand_param_envs/gym/envs/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /sac_with_initialization/rand_param_envs/rand_param_envs/gym/monitoring/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /sac_with_initialization/rand_param_envs/rand_param_envs/gym/scoreboard/client/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /sac_with_initialization/rand_param_envs/rand_param_envs/gym/scoreboard/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /sac_with_initialization/rand_param_envs/rand_param_envs/gym/spaces/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /sac_with_initialization/rand_param_envs/rand_param_envs/gym/version.py: -------------------------------------------------------------------------------- 1 | VERSION = '0.7.4' 2 | -------------------------------------------------------------------------------- /sac_with_initialization/rand_param_envs/rand_param_envs/gym/wrappers/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /sac_with_initialization/rand_param_envs/rand_param_envs/mujoco_py/.ruby-version: -------------------------------------------------------------------------------- 1 | ruby-2.1.0 2 | -------------------------------------------------------------------------------- /sac_with_initialization/replay_buffer.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/sac_with_initialization/replay_buffer.py -------------------------------------------------------------------------------- /sac_with_initialization/rl_algorithm.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/sac_with_initialization/rl_algorithm.py -------------------------------------------------------------------------------- /sac_with_initialization/trainer/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /sac_with_initialization/utils/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /sac_with_initialization/utils/core.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/sac_with_initialization/utils/core.py -------------------------------------------------------------------------------- /sac_with_initialization/utils/logging.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/sac_with_initialization/utils/logging.py -------------------------------------------------------------------------------- /sac_with_initialization/utils/rng.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/sac_with_initialization/utils/rng.py -------------------------------------------------------------------------------- /sac_with_initialization/utils/tabulate.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/sac_with_initialization/utils/tabulate.py -------------------------------------------------------------------------------- /transition_prediction_ensemble/.gitignore: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/transition_prediction_ensemble/.gitignore -------------------------------------------------------------------------------- /transition_prediction_ensemble/BCQ.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/transition_prediction_ensemble/BCQ.py -------------------------------------------------------------------------------- /transition_prediction_ensemble/main.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/transition_prediction_ensemble/main.py -------------------------------------------------------------------------------- /transition_prediction_ensemble/rand_param_envs/.gitignore: -------------------------------------------------------------------------------- 1 | __pycache__/ -------------------------------------------------------------------------------- /transition_prediction_ensemble/rand_param_envs/gym/benchmarks/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /transition_prediction_ensemble/rand_param_envs/gym/envs/algorithmic/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /transition_prediction_ensemble/rand_param_envs/gym/envs/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /transition_prediction_ensemble/rand_param_envs/gym/monitoring/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /transition_prediction_ensemble/rand_param_envs/gym/scoreboard/client/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /transition_prediction_ensemble/rand_param_envs/gym/scoreboard/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /transition_prediction_ensemble/rand_param_envs/gym/spaces/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /transition_prediction_ensemble/rand_param_envs/gym/version.py: -------------------------------------------------------------------------------- 1 | VERSION = '0.7.4' 2 | -------------------------------------------------------------------------------- /transition_prediction_ensemble/rand_param_envs/gym/wrappers/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /transition_prediction_ensemble/rand_param_envs/mujoco_py/.ruby-version: -------------------------------------------------------------------------------- 1 | ruby-2.1.0 2 | -------------------------------------------------------------------------------- /transition_prediction_ensemble/rand_param_envs/rand_param_envs/gym/benchmarks/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /transition_prediction_ensemble/rand_param_envs/rand_param_envs/gym/envs/algorithmic/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /transition_prediction_ensemble/rand_param_envs/rand_param_envs/gym/envs/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /transition_prediction_ensemble/rand_param_envs/rand_param_envs/gym/monitoring/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /transition_prediction_ensemble/rand_param_envs/rand_param_envs/gym/scoreboard/client/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /transition_prediction_ensemble/rand_param_envs/rand_param_envs/gym/scoreboard/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /transition_prediction_ensemble/rand_param_envs/rand_param_envs/gym/spaces/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /transition_prediction_ensemble/rand_param_envs/rand_param_envs/gym/version.py: -------------------------------------------------------------------------------- 1 | VERSION = '0.7.4' 2 | -------------------------------------------------------------------------------- /transition_prediction_ensemble/rand_param_envs/rand_param_envs/gym/wrappers/tests/__init__.py: -------------------------------------------------------------------------------- 1 | -------------------------------------------------------------------------------- /transition_prediction_ensemble/rand_param_envs/rand_param_envs/mujoco_py/.ruby-version: -------------------------------------------------------------------------------- 1 | ruby-2.1.0 2 | -------------------------------------------------------------------------------- /transition_prediction_ensemble/trainer.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/Ji4chenLi/Multi-Task-Batch-RL/HEAD/transition_prediction_ensemble/trainer.py --------------------------------------------------------------------------------