Быстрый старт в научные вычисления

Posted in Science

Введение. Для кого и зачем.

Этот пост написан, прежде всего, для моих студентов 3го курса ФУПМ МФТИ с целью предоставить всем равные возможности для изучения курса по методам оптимизации в весеннем семестре, так как он предполагает интенсивную практическую работу с языком Python. В то же время, данный материал может быть полезен многим студентам младших курсов, желающих почувствовать себя властелинами вычислительной математики легко и играючи. Буду невероятно рад дополнениям, исправлениям, хинтам и замечаниям. Материал может быть полезен новичкам и практически бесполезен для тех, кто уже шарит во всех тулзах, перечисленных ниже в содержании.

Среди корыстных интересов я бы выделил желание систематизировать накопленный опыт и материалы, а так же интерес проверить срок годности данного поста, так как computer science развивается (и еще долго будет развиваться) такими темпами, что большинство практических советов и лайфхаков в этой области имеют весьма существенный шанс стать безбожно устарелыми уже через год (true story, покажите мне мануал по TensorFlow годовой (upd: полуторагодовой) давности - код из него с высокой вероятностью не скомпилируется). Это, кстати, весьма странная ситуация - вычислительные тулзы стали настолько удобными и приятными, что возникает огромное желание в них закопаться, в то время как очевидна необходимость изучать фундаментальные разделы этой науки - они с бОльшей вероятностью останутся актуальны к тому моменту, как студент получит образование. Ладно, я ушел в оффтоп, погнали! Как это обычно бывает, этот пост я начал писать зимой, а закончил летом, но лучше поздно. Некоторые комментарии я буду писать курсивом. Интересно, что часть информации, написанной зимой летом уже частично устарела :)

Как делать научные вычисления

Для начала необходимо установить среду, в которой Вы проведете самые лучшие и счастливые годы Вашей жизни. Конечно, мы говорим о Jupyter Notebook. Вообще говоря, Jupyter - это мощнейший инструмент кроссплатформенной разработки, поддерживающий более 40 языков программирования, в числе которых Python, R и даже Matlab! Тем не менее, языком, на котором фокусируется данное повествование, будет именно Python 3.

Jupyter

Нужно тыкнуть на страницу скачивания и выбрать третий Python.
Итак, Вы установили Python, Jupyter и еще много всякого. Как же запускать jupyter notebook без боли в произвольной папке?

Как быстро запускать jupyter notebook

Достаточно создать исполняемый скрипт, запускаемый двойным нажатием со следующим содержанием:

1
jupyter notebook --notebook-dir='C:\\Users\\bratishka\\Desired_folder'

В Windows это будет файл с расширением .bat, в Linux .sh, который можно редактировать с помощью любого текстового редактора (например, моего любимого sublime). Обратите внимание на то, что бэкслэши в примере двойные - это сделано, чтобы избежать проблем с кодировками (иногда, например, \U в адресе папки может сильно подпортить Вам жизнь:) )

Облачные возможности jupyter

Запуск тетрадок онлайн

Прежде всего, существует (upd: уже не совсем. Теперь сразу происходит запуск контейнера на binder, см.ниже, но ссылка должна редиректить правильно) официальный сервис try.jupyter.org. Туда можно загрузить и скомпилировать несложный ноутбук. Следует быть аккуратным, ведь виртуальный сервер, который Вам выделяется при запуске кекается падает через 10 минут бездействия. Данная опция подходит прежде всего в том случае, когда Вам нужно быстро собрать что то на коленке (или даже в дороге!) или возникли неожиданные проблемы с компьютером.

Существуют так же более солидные сервисы для работы онлайн с ноутбуками, предоставляющие облачные сервера и возможность совместной работы над проектами.

  • Colab От Google - этот инструмент хотелось бы особенно выделить. Дело в том, что зимой гугл запустил аттракцион невиданной щедрости, выдавая каждому пользователю в пользование GPU Tesla K80 бесплатно. Есть доступ к UNIX консоли, можно ставить либы с гитхаба, вобщем, все более менее вкусно. Здесь можно прочитать подробнее про то, как использовать локальные файлы (библиотеки, датасеты).

  • notebooks.azure.com
  • cocalc.com
Рендеринг готовых тетрадок и презентаций онлайн

Сервис nbviewer.jupyter.org умеет отображать ноутбуки загруженные в Ваш личный аккаунт на гитхабе. Пример тетрадки можно найти здесь. Так же, рендерятся презентации (пример), для их запуска нужно нажать значок подарка:

Расшарить свой проект с возможностью запуска кода

Вершиной повторяемых вычислений на сегодняшний день является возможность выложить весь свой проект в интернет и сделать его запускаемо-кликабельным с ядром, которое работает где то в облаке. Это гарантирует повторяемость полученных Вами результатов, снимая их зависимость от железа и установленных на Вашей вычислительной станции библиотек. Представьте, что Вам не нужно больше скачивать необходимое ПО и пакеты, Вам нужно нажать всего одну кнопку. Эта штука называется binder:

Binder гарантирует Вам 1Гб оперативной памяти (может быть и больше, но ограничение сверху - 4Гб), относительно небольшие вычислительные ресурсы, а так же запрет внешних сетевых подключений. Кроме того, сервер так же выключается после 10 минут бездействия (открытое окно в браузере считается не бездействием). На сайте хорошая документация (для того, чтобы выложить интерактивную запускаемую тетрадку - даже мануала читать не нужно. Выложить ее на гитхаб, указать ссылку и получить рабочую кнопку) .

Впрочем, если Вы занимаетесь вычислительно интенсивной работой (например, DEEP MACHINE LEARNING), binder Вам не подойдет, поскольку его вычислительных мощностей часто катастрофически не хватает для современных реальных задач (нас спасет docker - см. ниже). В то же время, никто не мешает оформить там проект по вычматам или лабы и выложить у себя на гитхабе. Вот, например, проект с анализом данных, полученных с детектора гравитационных волн LIGO.

Запуск ядра jupyter на стороннем сервере в один клик

Предположим, у Вас имеется лабораторный сервер, на котором Вам можно проводить вычисления и у Вас есть собственный юзер на нем. Во первых, мы предполагаем, что Вы с ним находитесь в одной локальной сети (иначе может быть нужно настроить ВПН). Во вторых, способ, который я сейчас напишу совсем несекьюрный :name_badge: и пользоваться им не надо. Однако, если Вам пофиг Вы уверены в том, что злоумышленников Вы не интересуете, вот он для винды:

  • На серваке поднимаете крутиться ядро jupyter так, чтобы оно не зависело от наличия подключения (чтобы, например, ночью ставить вычисления). Это можно делать с помощью эмуляторов терминала (tmux или screen) или с помощью docker. Ниже опишу первый способ. Заходите в терминал Вашего сервачка и пишите:
1
tmux

Затем:

1
 jupyter notebook --no-browser --port=8860

Поздравляю, этот сервер будет крутиться до посинения, пока Вы не зайдете обратно в эмулятор терминала (tmux a -t 0) и не выключите его (это иногда стоит делать, потому что юпитер имеет свойство сжирать много памяти и не переживать об этом - коллеги спасибо не скажут).

  • Создаете .bat файл со следующим содержанием на своем рабочем столе (к этому моменту у Вас уже установлена Putty, которая Вам точно нужна, если Вы любите Windows). Напишите там следующие 2 строчки и запускайте потом по двойному клику!
1
2
start "" "C:\Program Files\PuTTY\putty.exe" -ssh -N USERNAME@SERVERIP -pw PASSWORD -L 127.0.0.1:8860:SERVERIP:8860
start http://127.0.0.1:8860
  • Вы прекрасны!

Python

Осваиваем python

Шикарнейший курс по Python для начинающих. Люди, знакомые с программированием еще со школы, но не знающие языка так же найдут этот курс полезным, хотя и пройдут его быстрее. Топ курс от яндекса, иллюстрирующий работу некоторыми конкретными библиотеками для научных вычислений. Мне кажется очень важным учить язык не с точки зрения “stackverflow-driven development”, а потратить сначала какое - то время на широкое его понимание в купе с упражнениями. Для тех, кто хочет вкурить ООП в python и чуть более полезные тонкости - многие рекомендуют этот курс.

Библиотеки python

Большая часть полезности языка программирования реализуется через крутые библиотеки, написанные для него. Здесь я бы хотел осветить некоторые наиболее полезные, на мой взгляд, библиотеки, которые могут пригодиться будущему ученому. По большому счету, каждой из них можно посвятить отдельный пост, поэтому я вкратце опишу их предназначение, ссылку на официальный мануал и, быть может, еще что нибудь.

numpy

Библиотека для эффективной работы с многомерными массивами. Преобразование Фурье, матричные преобразования, разложения - туда же. Значительная часть функций библиотеки реализована на C, засчет чего библиотека работает достаточно эффективно. Tutorial по ссылке, однако данная библиотека является стандартом де-факто на сегодняшний день и очень тяжело придумать проблему, которую в numpy нельзя решить путем не очень активного гугления.

matplotlib

Библиотека для построения графиков. Здесь алгоритм простой: заходите на сайт, тыкаете на пример, который больше всего похож на тот, что у Вас в голове, копипасите код и доводите до блеска. Приведу лишь парочку трюков:

1
2
3
4
# Если вставить вот такую строчку перед рисованием графиков, 
# они будут отрисовываться в стиле комиксов
import matplotlib.pyplot as plt
plt.xkcd()

1
2
3
# А если вставить такую строчку перед рисованием графиков, 
# они будут отрисовываться в другом стиле. 
import seaborn

Вообще говоря, seaborn - это отдельная библиотека, которая работает в тесной связке с matplotlib, но имеет много своих фишечек.


Особенно хотелось бы выделить интерактивный режим работы с графиками в jupyter notebook. Если в начале ячейки прописать:

1
%matplotlib notebook

То будут доступны прикольные штуки, типа интерактивного зума в выделенное окно, изменение размера фигуры и прочее:

Из минусов: рендеринг очень медленный (особенно, если график “тяжелый”), иногда глючит (особенно, если менять бекенд для отрисовки графиков в работающем ядре - т.е. если сначала у вас было %matplotlib inline, то после замены на %matplotlib notebook может кекнуться - решается перезапуском Kernel). Для интерактивных графиков можно так же использовать библиотеки bokeh (демка, иллюстрирующая работу bokeh на IMDB) и plot.ly (если разобраться в документации, ее вполне себе можно использовать бесплатно, вот средненький пример)

pandas

Библиотека для работы с массивами данных. Позволяет легко расправляться с датасетами, представленных в виде таблиц (.csv, .txt и прочие). Идеально подходит, если у Вас есть табличка с данными (например, Excel табличка с лабы) и Вам нужно быстро понять, например, среднее значение по какому нибудь из столбцов или заменить все значения в таблице меньше 3 на нули. Десятиминутное введение есть на официальном сайте.

scikitlearn

Библиотека для машинного обучения. Каждый уважающий себя MACHINE_LEARNER проходил через эту библиотеку. Здесь есть очень много вкусностей - эффективная реализация огромного количества базовых алгоритмов, удобная загрузка классических датасетов, отличная документация и ссылки на статьи, на основе которых реализованы алгоритмы. Совместима с numpy, matplotlib, scipy.

sympy

Библиотека символьных вычислений. Эта штука умеет считать символьные производные, сравнивать формульные выражения и даже интегрировать. Опять же, небольшой туториал на сайте.

cython

Позволяет ускорять какие-то куски кода с помощью старого доброго C. Не совсем библиотека, но

прочее

Не забывать:

1
import this

Быстрое и честное умножение матриц (в т.ч. векторов):

1
A @ B

Git

Представьте, что Вам нужно сделать проект, который в процессе его создания будет нужен кому-то, кроме Вас (например, Вы делаете диплом, а научный руководитель будет не против видеть ежедневный маленький прогресс, писать свои комментарии, а, быть может, и куски кода). В зависимости от сложности проекта, существует много решений: папка в облаке, сервис таск менеджмента типа trello и т.д. Совершенно особое место в этой группе занимает система контроля версий git - она не очень интуитивно понятна для человека, не занимавшегося разработкой ранее, но это та вещь, от которой не получится убежать в процессе своего развития. То есть, если Вы очень долго говорите что то в стиле “ну хз, гит не для меня, мне и папочки хватает”, то рядом с Вами окажется туча людей, с которыми будет в тысячу раз удобнее работать (они-то знают гит), чем с Вами.

К тому же, когда есть такие туториалы, то всё это достаточно быстро имеет риск стать понятным и удобным для Вас без особых боев. Я бы рекомендовал следующую последовательность действий для того, чтобы увеличить свою ценность на рынке труда :zap: :

  • Прочитайте внимательно вот это введение в систему гит, команды оттуда пока можно не исполнять, но прочитать можно несколько раз. Попробуйте прочувствовать что такое коммит, бранч, репозиторий. Посмотрите сюда.
  • Для начала можно скачать любой GUI, который упростит Вашу работу с несколькими репозиториями. Я рекомендую GitKraken - он бесплатный для некоммерческого использования, симпатичный, удобный, поддерживает разные удаленные репозитории типа github, bitbucket, gitlab.
  • Зарегистрируйте аккаунт на каком-нибудь сервисе удаленных репозиториев - github (приватные репозитории только у про аккаунта), bitbucket(приватные репозитории есть у всех бесплатно), gitlab (тоже есть приватные репозитории + он няшный). На гитхабе студенческие аккаунты дают Вам приватные репозитории -> регистрируем на почту @skoltech.ru, @phystech.edu - обе эти почты прекрасно идут за студенческие и просим Pro фичи.
  • И вот, у Вас уже есть аккаунт и настроенный гит на Вашем компе. Теперь имеет смысл поиграться здесь.
  • После этого рекомендуется придумать проект, который Вы будете делать в гите. Это может быть бакалаврский или магистерский диплом, проект по методам оптимизации, по информатике, коллективный сборник мемов или что Вам угодно. И долбитесь с ним! :neckbeard: P.S. вариантов реально много, например - этот сайт написан с помощью системы git, а хостится бесплатно на гитхабе.

Docker

Docker - это относительно новый и достаточно модный инструмент, позволяющий Вам упаковать все зависимости и конкретные пакеты, которые нужны для Вашего проекта в один файл так, чтобы это можно было запустить на абсолютно любом железе с установленным docker. Дальше много сайтов врут о том, что докер в тысячу раз быстрее виртуальных машин (хотя многие процессоры уже имеют инструкции для виртуализации, а хороший софт это уже давно использует - нельзя говорить о том, что это “гигантский скачок в скорости”), описывают их различия и т.д. Так как полноценное введение в docker достойно отдельного большого поста, я здесь напишу кратко:

Материалы

  • Мне понравилось вот это введение в дело на youtube.
  • Немного интерактива и онлайн урок на stepik по docker.
  • На хабре есть: материал о том, какая боль заставляет прийти к докеру, вот такой интерактив и вот такой набор ссылок.

Осторожно

  • Почти на всех конференциях по docker обращают внимание на необходимость оценить масштаб проекта и целесообразность внедрения докера. Скажем, для моего маленького сайта это кажется бесполезным.
  • Если на общем вычислительном сервере Вашей научной группы много человек, которые пользуются docker - имейте ввиду, что каждый из них при ипользовании получает root права в рамках своего контейнера. Однако, система неидеальна и человек с такими правами может кекнуть сервак удалить все файлы на общем сервере (знаменитое rm -rf * при небольшой сноровке может сработать - не буду писать как, скажу лишь, что я был свидетелем такой ситуации на одном общем серваке).

Как оформлять научные вычисления

Markdown

Не секрет, что я - ярый фанат $\LaTeX$, о чем свидетельствуют мои периодические лекции по нему. Однако, хочу подчеркнуть, что в этой секции поста я поставил выше именно markdown. Это еще один подход к оформлению Ваших мыслей. Вообще, markdown - это язык разметки текста, созданный программистами для быстрого и удобного базового форматирования текста. Ключевые фишки следующие:

  • Базовое форматирование текста, типа жирного, курсива, моноширинного, mathJax формул $e^{i \pi} + 1 = 0$, зачеркнутого и т.п. Вот краткая шпаргалка.
  • Весь этот пост написан на markdown.
  • markdown сильно легче с точки зрения освоения и установки
  • В то же время, потенциальное разнообразие текстов, которые Вы сможете набрать в простеньком маркдаун редакторе не идет ни в какое сравнение с тем, что может $\LaTeX$ (однако, в большинстве случаев Вам нужно набрать листочек со списками, пару формул и emoji :thinking:)
  • Благодаря простоте языка, он таки завоевал популярность, и теперь сама разметка используется повсеместно - telegram, описание readme на github, jupyter notebook другие IT продукты

Q: Как поставить markdown и начать в нем писать?

A: Скачать typora и начать писать какую нибудь домашку или текст.

Q: Ну и че на выходе получается?

A: Файл .md, который, в свою очередь, прекрасно сохраняется в .pdf, .html, .doc, .tex и почти во что угодно.

Q: А если я хочу другой шрифт и чтоб красненьким?

A: Не вопрос, поддерживаются .css стили.

Q: В каких случаях ты предпочтешь markdown латеху?

A: Когда

  • нужно набросать черновик с какой то математической идеей
  • нужно набросать семинар или лекцию, которую одинаково просто можно выкладывать в интернет и как файл
  • нужно набросать какой то регулярный еженедельный отчет научруку
  • сложность текста, который предстоит набрать не подразумевает сложных колонтитулов, сносок, работу с источниками

Q: А есть инструменты для совместной работы?

А: Их много, например вот.

$\LaTeX$

Про $\LaTeX$ сейчас материалов на русском и английском невроятно много. Просто неприлично сегодня учиться в хорошем институте и не уметь в этот язык. Самое лучшее введение, которое я сейчас знаю для спокойного освоения дома - видео моего хорошего друга Сергея Жесткова.

Введение, установка, создание Вашего первого документа и математика:

Структура документа и более сложные формулы:

Картинки и таблицы в латех, ссылки:

От себя добавлю следующие ресурсы:

  • Detexify - Сервис, позволяющий вспомнить, как в латехе написать какой то специфичный символ, нарисовав его в окошке.
  • Генератор Таблиц - вообще единственная штука, которую я использую для вставки таблиц в латехе. Рекомендую переключить с Default table style на Booktabs table style. Выглядит няшно.
  • Хороший труд Воронцова, который можно использовать как шпаргалку.

nbconvert

Часто возникает ситуация сохранить то, что Вы написали в jupyter notebook как самостоятельный файл, доступный без поднятия сервера jupyter. Например, Вы написали семинар, в котором есть код, результаты его работы, немного формул и хотите его распространить. На помощь придет nbconvert. Если Вы скачали anaconda, этот пакет уже должен быть включен в Ваш набор. Ниже я приведу конкретные ситуации когда он может быть полезен:

Сконвертировать jupyter notebook в .html:

1
jupyter nbconvert my_cool_notebook.ipynb

.html является дефолтным форматом. Самым же простым способом сохранить Ваш jupyter notebook в .pdf формат будет банальное сохранение полученного .html файла в .pdf (печать страницы) - это не потребует от Вас никаких телодвижений и сойдет в большинстве случаев.

Сконвертировать jupyter notebook в .pdf красиво (.ipynb.tex.pdf ):

1
jupyter nbconvert --to pdf my_cool_notebook.ipynb

Конечно, не все так просто. Во первых, на компьютере должен быть установлен $\TeX$. Если его (на каком-то основании) не имеется - см.выше или сюда. Во вторых, у Вас почти наверное будут проблемы с русским языком. Дело в том, что шаблоны, по которым nbconvert конвертит это дело в .tex файл ничего не знают о том, что Вам нужен русский, или о том, что Вам нужен другой шрифт, или еще о чем то (например, мне было нужно, чтобы input ячейки с кодом не выводились в .pdf файл). Для решения этих проблем Вам нужно зайти в папку с библиотекой с шаблонами nbconvert. У меня такая:

1
C:\Users\MYNENAVIDIMTEBYATRUMP\Anaconda3\Lib\site-packages\nbconvert\templates\latex

И заменить Ваш файл base.tplx на мой:)

Что есть:

  • Поддержка кириллицы и латиницы одинаковым шрифтом
  • Скрыты все ячейки с кодом, оставлены только output. (чтобы включить input конкретной ячейки или выключить её output в .pdf необходимо в метаданных ячейки прописать следующее:
{
"tags": [
"jupyter:stay_input", # Оставить эту строчку, если хотите оставить input ячейки
"jupyter:hide_output" # Скрыть output ячейки
]
}

Для того, чтобы изменения вступили в силу при печати пдфки, ячейку надо запустить.

  • Картинки, которые выводятся matplotlibом вставляются в pdfку без проблем

Чего не хватает:

  • Обычные локальные картинки вставляются не очень (потому что латех запускается не совсем локально в папке ядры юпитера, а немножко случайно)
  • Замутить более простой способ кастомизировать вывод и не вывод ячеек в pdf. Вроде есть, но у меня через раз работает.

Презентации в jupyter - RISE

Презентации, сделанные прямо в jupyter - невероятно удобная и структурирующая штука. Здесь вся документация, установка, примеры и т.д. От себя, опять же, добавлю некоторые фишечки.

Jupyter презентация оффлайн

Для того, чтобы сохранить то, что Вы сделали, например, для показа позже без интернета надо проделать следующие манипуляции:

  1. Скачать библиотеку reveal.js для рендеринга слайдов. Сделать это можно с официального сайта, или с этого прекрасного сайта. После распаковки архива получится папочка reveal.js с файлами.
  2. Запустить nbconvert явно указав, что библиотеку reveal.js надо брать локально, а не в интернете ключом -reveal-prefix=PATHTOREVEAL.js . У меня, например, папка reveal.js находится на уровень выше папки с jupyter ноутбуком:
1
jupyter nbconvert --to slides MEGA_PRESENTATION.ipynb --reveal-prefix = ../reveal.js
  1. PROFIT!!!11! Открываем получившийся файл в браузере без интернета (могут быть кеки со шрифтами, если их нет в системе - особенно актуально для кириллических шрифтов)

Некоторые hotkeys, shortcuts, комбинации клавиш

  • space, n - следующий слайд
  • esc - overview всей презентации
  • home - возврат к первому слайду
  • end - последний слайд
  • f - полный экран
  • b, . - заныкать презентацию
  • ? - шпаргалка по этому разделу

Что то я не придумал чего бы еще сюда добавить :thinking: Пишите мне в телегу, если Вас интересуют какие то вопросы по теме или Вы нашли опечатку.

Меня зовут Даня, я PhD студент в Сколковском Институте Науки и Технологий. Я люблю математику, преподавать, историю, путешествовать и неоднозначность бытия.

Read Next

PhD. Look before the Adventure