QuantStart.
Junte-se ao portal de membros privados da Quantcademy que atende à comunidade de comerciantes de varejo de varejo em rápido crescimento. Você encontrará um grupo bem informado de mentalistas quant pronto para responder suas perguntas comerciais mais importantes.
Confira meu ebook sobre o comércio de quant, onde eu ensino você como criar estratégias de negociação sistemáticas lucrativas com ferramentas Python, desde o início.
Dê uma olhada no meu novo ebook sobre estratégias de negociação avançadas usando análise de séries temporais, aprendizado de máquina e estatísticas bayesianas, com Python e R.
Por Michael Halls-Moore em 26 de julho de 2018.
Uma das perguntas mais freqüentes que recebo no QS mailbag é "Qual é a melhor linguagem de programação para negociação algorítmica?". A resposta curta é que não existe um "melhor" idioma. Parâmetros de estratégia, desempenho, modularidade, desenvolvimento, resiliência e custo devem ser considerados. Este artigo descreve os componentes necessários de uma arquitetura de sistema de negociação algorítmica e como as decisões relativas à implementação afetam a escolha do idioma.
Em primeiro lugar, serão considerados os principais componentes de um sistema de negociação algorítmico, como ferramentas de pesquisa, otimizador de portfólio, gerenciador de riscos e motor de execução. Posteriormente, serão examinadas diferentes estratégias de negociação e como elas afetam o design do sistema. Em particular, a freqüência de negociação e o provável volume de negociação serão discutidos.
Uma vez que a estratégia de negociação foi selecionada, é necessário arquitetar todo o sistema. Isso inclui a escolha de hardware, o (s) sistema (s) operacional (is) e a resiliência do sistema contra eventos raros e potencialmente catastróficos. Enquanto a arquitetura está sendo considerada, deve-se ter em conta o desempenho, tanto para as ferramentas de pesquisa quanto para o ambiente de execução ao vivo.
Qual é o sistema de comércio tentando fazer?
Antes de decidir sobre o "melhor" idioma com o qual escrever um sistema de negociação automatizado, é necessário definir os requisitos. O sistema será puramente baseado em execução? O sistema exigirá um módulo de gerenciamento de risco ou construção de portfólio? O sistema exigirá um backtester de alto desempenho? Para a maioria das estratégias, o sistema comercial pode ser dividido em duas categorias: Pesquisa e geração de sinal.
A pesquisa está preocupada com a avaliação de um desempenho de estratégia em relação aos dados históricos. O processo de avaliação de uma estratégia de negociação em relação aos dados anteriores do mercado é conhecido como backtesting. O tamanho dos dados e a complexidade algorítmica terão um grande impacto na intensidade computacional do backtester. A velocidade da CPU e a concorrência são muitas vezes os fatores limitantes na otimização da velocidade de execução da pesquisa.
A geração de sinal está preocupada com a geração de um conjunto de sinais de negociação a partir de um algoritmo e envio de ordens para o mercado, geralmente através de uma corretora. Para determinadas estratégias, é necessário um alto nível de desempenho. As questões de E / S, como a largura de banda da rede e a latência, muitas vezes são fatores limitantes na otimização de sistemas de execução. Assim, a escolha de idiomas para cada componente de todo o seu sistema pode ser bastante diferente.
Tipo, Frequência e Volume de Estratégia.
O tipo de estratégia algorítmica empregada terá um impacto substancial no design do sistema. Será necessário considerar os mercados comercializados, a conectividade com os fornecedores de dados externos, a freqüência e o volume da estratégia, o trade-off entre facilidade de desenvolvimento e otimização de desempenho, bem como qualquer hardware personalizado, incluindo customizado servidores, GPUs ou FPGAs que possam ser necessários.
As opções de tecnologia para uma estratégia de ações de baixa freqüência dos EUA serão muito diferentes das de uma negociação de estratégias de arbitragem estatística de alta freqüência no mercado de futuros. Antes da escolha do idioma, muitos fornecedores de dados devem ser avaliados que pertencem à estratégia em questão.
Será necessário considerar a conectividade com o fornecedor, a estrutura de todas as APIs, a pontualidade dos dados, os requisitos de armazenamento e a resiliência em face de um fornecedor que está offline. Também é aconselhável possuir acesso rápido a vários fornecedores! Vários instrumentos têm todos os seus peculiaridades de armazenamento, exemplos dos quais incluem símbolos de ticker múltiplos para ações e datas de vencimento para futuros (sem mencionar nenhum dado OTC específico). Isso precisa ser incorporado ao design da plataforma.
A frequência da estratégia provavelmente será um dos maiores drivers de como a pilha de tecnologia será definida. Estratégias que empregam dados com mais freqüência do que minuciosamente ou em segundo lugar, exigem uma consideração significativa em relação ao desempenho.
Uma estratégia que excede as barras segundo (isto é, dados de marca) leva a um design orientado a desempenho como o principal requisito. Para estratégias de alta freqüência, uma quantidade substancial de dados do mercado precisará ser armazenada e avaliada. Software como HDF5 ou kdb + é comumente usado para essas funções.
Para processar os extensos volumes de dados necessários para aplicações HFT, um sistema de backtester e execução extensivamente otimizado deve ser usado. C / C ++ (possivelmente com algum montador) é provável para o candidato a linguagem mais forte. As estratégias de ultra-alta freqüência certamente exigirão hardware personalizado, como FPGAs, co-localização de troca e ajuste de interface de rede / kernal.
Sistemas de pesquisa.
Os sistemas de pesquisa geralmente envolvem uma mistura de desenvolvimento interativo e script automatizado. O primeiro geralmente ocorre dentro de um IDE, como Visual Studio, MatLab ou R Studio. O último envolve cálculos numéricos extensos em vários parâmetros e pontos de dados. Isso leva a uma escolha de idioma que fornece um ambiente direto para testar código, mas também fornece desempenho suficiente para avaliar estratégias em várias dimensões de parâmetros.
Os IDE típicos neste espaço incluem Microsoft Visual C ++ / C #, que contém extensos utilitários de depuração, recursos de conclusão de código (via "Intellisense") e visões gerais diretas de toda a pilha do projeto (via o banco de dados ORM, LINQ); MatLab, que é projetado para uma grande variedade de álgebras lineares numéricas e operações vetoriais, mas de uma forma de console interativo; R Studio, que envolve o console de linguagem estatística R em um IDE de pleno direito; Eclipse IDE para Linux Java e C ++; e IDE semi-proprietários, como Enthought Canopy para Python, que incluem bibliotecas de análise de dados, como NumPy, SciPy, scikit-learn e pandas em um único ambiente interativo (console).
Para backtesting numérico, todos os idiomas acima são adequados, embora não seja necessário utilizar uma GUI / IDE, pois o código será executado "em segundo plano". A principal consideração nesta fase é a velocidade de execução. Um idioma compilado (como C ++) geralmente é útil se as dimensões do parâmetro backtest forem grandes. Lembre-se de que é necessário desconfiar de tais sistemas se for esse o caso!
Idiomas interpretados, como Python, muitas vezes fazem uso de bibliotecas de alto desempenho, como NumPy / pandas para a etapa de teste, para manter um grau razoável de competitividade com equivalentes compilados. Em última análise, o idioma escolhido para o backtesting será determinado por necessidades algorítmicas específicas, bem como o intervalo de bibliotecas disponíveis no idioma (mais sobre isso abaixo). No entanto, o idioma utilizado para o backtester e os ambientes de pesquisa podem ser completamente independentes dos usados na construção de portfólio, gerenciamento de riscos e componentes de execução, como será visto.
Construção de carteiras e gerenciamento de riscos.
A construção do portfólio e os componentes de gerenciamento de riscos são muitas vezes ignorados pelos comerciantes algorítmicos de varejo. Isso é quase sempre um erro. Essas ferramentas fornecem o mecanismo pelo qual o capital será preservado. Eles não só tentam aliviar o número de apostas "arriscadas", mas também minimizam o churn dos próprios negócios, reduzindo os custos de transação.
Versões sofisticadas desses componentes podem ter um efeito significativo na qualidade e consistência da lucratividade. É direto criar um estável de estratégias, pois o mecanismo de construção do portfólio e o gerenciador de riscos podem ser facilmente modificados para lidar com múltiplos sistemas. Assim, eles devem ser considerados componentes essenciais no início do projeto de um sistema de comércio algorítmico.
O trabalho do sistema de construção de carteiras é levar um conjunto de trades desejados e produzir o conjunto de negócios reais que minimizam o churn, manter exposições a vários fatores (como setores, classes de ativos, volatilidade, etc.) e otimizar a alocação de capital para vários estratégias em um portfólio.
A construção do portfólio geralmente se reduz a um problema de álgebra linear (como uma fatoração da matriz) e, portanto, o desempenho é altamente dependente da eficácia da implementação de álgebra linear numérica disponível. As bibliotecas comuns incluem uBLAS, LAPACK e NAG para C ++. O MatLab também possui operações de matriz amplamente otimizadas. Python utiliza NumPy / SciPy para tais cálculos. Um portfólio freqüentemente reequilibrado exigirá uma biblioteca de matriz compilada (e bem otimizada!) Para executar esta etapa, de modo a não engarrafar o sistema de comércio.
O gerenciamento de riscos é outra parte extremamente importante de um sistema de comércio algorítmico. O risco pode vir de várias formas: aumento da volatilidade (embora isso possa ser visto como desejável para certas estratégias!), Aumento de correlações entre classes de ativos, contraparte padrão, interrupções do servidor, eventos de "cisnes negros" e erros não detectados no código comercial, para nomear alguns.
Os componentes de gerenciamento de risco tentam antecipar os efeitos da volatilidade excessiva e a correlação entre as classes de ativos e seus efeitos (s) subsequentes sobre o capital de negociação. Muitas vezes isso se reduz a um conjunto de cálculos estatísticos, como Monte Carlo "testes de estresse". Isso é muito semelhante às necessidades computacionais de um mecanismo de preços de derivativos e, como tal, será vinculado à CPU. Essas simulações são altamente paralelizáveis (veja abaixo) e, até certo ponto, é possível "lançar hardware no problema".
Sistemas de Execução.
O trabalho do sistema de execução é receber sinais de negociação filtrados dos componentes de construção de portfólio e gerenciamento de riscos e enviá-los para uma corretora ou outros meios de acesso ao mercado. Para a maioria das estratégias de negociação algorítmica de varejo, isso envolve uma conexão API ou FIX para uma corretora, como Interactive Brokers. As considerações primárias ao decidir sobre um idioma incluem a qualidade da API, a disponibilidade do idioma para uma API, a freqüência de execução e o deslizamento antecipado.
A "qualidade" da API refere-se ao quão bem documentado é, qual o tipo de desempenho que ele fornece, se ele precisa de um software autônomo para ser acessado ou se um gateway pode ser estabelecido de forma sem cabeça (ou seja, sem GUI). No caso dos Interactive Brokers, a ferramenta Trader WorkStation precisa ser executada em um ambiente GUI para acessar sua API. Uma vez, tive que instalar uma edição do Desktop Ubuntu em um servidor de nuvem da Amazon para acessar os corretores interativos de forma remota, apenas por esse motivo!
A maioria das APIs fornecerá uma interface C ++ e / ou Java. Geralmente, é de responsabilidade da comunidade desenvolver wrappers específicos do idioma para C #, Python, R, Excel e MatLab. Note-se que, com cada plugin adicional utilizado (especialmente os wrappers da API), há possibilidades de insetos no sistema. Sempre testar plugins desse tipo e garantir que eles sejam ativamente mantidos. Um indicador valioso é ver quantas novas atualizações de uma base de código foram feitas nos últimos meses.
A frequência de execução é de extrema importância no algoritmo de execução. Note que centenas de pedidos podem ser enviados a cada minuto e, como tal, o desempenho é crítico. Slippage será incorrido através de um sistema de execução mal executado e isso terá um impacto dramático sobre a rentabilidade.
Os idiomas estaticamente digitados (veja abaixo), como C ++ / Java, geralmente são ótimos para execução, mas há um trade-off em tempo de desenvolvimento, testes e facilidade de manutenção. Idiomas dinamicamente digitados, como Python e Perl, geralmente são geralmente "rápidos o suficiente". Certifique-se sempre de que os componentes foram projetados de forma modular (veja abaixo) para que eles possam ser "trocados" à medida que o sistema se reduz.
Processo de Planejamento e Desenvolvimento Arquitetônico.
Os componentes de um sistema de comércio, seus requisitos de freqüência e volume foram discutidos acima, mas a infraestrutura do sistema ainda não foi coberta. Aqueles que atuam como comerciante de varejo ou que trabalham em um fundo pequeno provavelmente estarão "vestindo muitos chapéus". Será necessário cobrir o modelo alfa, o gerenciamento de riscos e os parâmetros de execução, bem como a implementação final do sistema. Antes de aprofundar linguagens específicas, o design de uma arquitetura de sistema ideal será discutido.
Separação de preocupações.
Uma das decisões mais importantes que devem ser tomadas no início é como "separar as preocupações" de um sistema comercial. No desenvolvimento de software, isso significa essencialmente como dividir os diferentes aspectos do sistema de negociação em componentes modulares separados.
Ao expor as interfaces em cada um dos componentes, é fácil trocar partes do sistema por outras versões que ajudem o desempenho, confiabilidade ou manutenção, sem modificar nenhum código de dependência externo. Esta é a "melhor prática" para esses sistemas. Para estratégias em frequências mais baixas, tais práticas são aconselhadas. Para a negociação de alta freqüência, o livro de regras pode ser ignorado à custa de ajustar o sistema para ainda mais desempenho. Um sistema mais acoplado pode ser desejável.
Criar um mapa de componentes de um sistema de negociação algorítmico vale um artigo em si. No entanto, uma abordagem ótima é garantir que haja componentes separados para as entradas de dados de mercado históricos e em tempo real, armazenamento de dados, API de acesso a dados, backtester, parâmetros de estratégia, construção de portfólio, gerenciamento de riscos e sistemas de execução automatizada.
Por exemplo, se o armazenamento de dados em uso estiver atualmente com desempenho inferior, mesmo em níveis significativos de otimização, ele pode ser trocado com reescrituras mínimas para a ingesta de dados ou API de acesso a dados. Até o ponto em que o backtester e os componentes subsequentes estão em causa, não há diferença.
Outro benefício de componentes separados é que permite que uma variedade de linguagens de programação sejam usadas no sistema geral. Não é necessário restringir a um único idioma se o método de comunicação dos componentes for independente de linguagem. Este será o caso se estiverem se comunicando via TCP / IP, ZeroMQ ou algum outro protocolo independente de linguagem.
Como um exemplo concreto, considere o caso de um sistema de backtesting que está sendo escrito em C ++ para o desempenho do "crunching", enquanto o gerenciador de portfólio e os sistemas de execução são escritos em Python usando SciPy e IBPy.
Considerações sobre o desempenho.
O desempenho é uma consideração significativa para a maioria das estratégias comerciais. Para estratégias de maior freqüência, é o fator mais importante. O "Desempenho" cobre uma ampla gama de problemas, como velocidade de execução algorítmica, latência de rede, largura de banda, E / S de dados, simultaneidade / paralelismo e dimensionamento. Cada uma dessas áreas é coberta individualmente por grandes livros didáticos, portanto este artigo apenas arranhará a superfície de cada tópico. A escolha da arquitetura e da linguagem agora será discutida em termos de seus efeitos sobre o desempenho.
A sabedoria prevalecente, como afirmou Donald Knuth, um dos pais da Ciência da Computação, é que "a otimização prematura é a raiz de todo o mal". Este é quase sempre o caso - exceto quando se forma um algoritmo de negociação de alta freqüência! Para aqueles que estão interessados em estratégias de baixa freqüência, uma abordagem comum é construir um sistema da maneira mais simples possível e apenas otimizar à medida que os estrangulamentos começam a aparecer.
Ferramentas de perfil são usadas para determinar onde surgem os estrangulamentos. Perfis podem ser feitos para todos os fatores listados acima, em um ambiente MS Windows ou Linux. Existem muitas ferramentas de sistema operacional e de idioma disponíveis para isso, bem como utilitários de terceiros. A escolha da linguagem agora será discutida no contexto da performance.
C ++, Java, Python, R e MatLab contêm bibliotecas de alto desempenho (como parte do padrão ou externo) para estrutura básica de dados e trabalho algorítmico. C ++ é fornecido com a Biblioteca de modelos padrão, enquanto o Python contém NumPy / SciPy. Tarefas matemáticas comuns são encontradas nessas bibliotecas e raramente é benéfico escrever uma nova implementação.
Uma exceção é se uma arquitetura de hardware altamente personalizada é necessária e um algoritmo está fazendo uso extensivo de extensões proprietárias (como caches personalizados). No entanto, muitas vezes a "reinvenção da roda" desperdiça o tempo que pode ser melhor gasto no desenvolvimento e otimização de outras partes da infra-estrutura de negociação. O tempo de desenvolvimento é extremamente precioso especialmente no contexto dos únicos desenvolvedores.
A latência é muitas vezes uma questão do sistema de execução, pois as ferramentas de pesquisa geralmente estão localizadas na mesma máquina. Para o primeiro, a latência pode ocorrer em vários pontos ao longo do caminho de execução. Os bancos de dados devem ser consultados (latência de disco / rede), os sinais devem ser gerados (sistema operacional, latência de mensagens do kernal), sinais comerciais enviados (latência NIC) e pedidos processados (latência interna dos sistemas de troca).
Para operações de maior freqüência, é necessário familiarizar-se intimamente com a otimização do kernal, além de otimizar a transmissão da rede. Esta é uma área profunda e está significativamente além do escopo do artigo, mas se um algoritmo UHFT é desejado então esteja ciente da profundidade do conhecimento necessário!
O cache é muito útil no conjunto de ferramentas de um desenvolvedor de negócios quantitativo. O armazenamento em cache refere-se ao conceito de armazenar dados freqüentemente acessados de uma maneira que permita um acesso de alto desempenho, em detrimento do potencial estancamento dos dados. Um caso de uso comum ocorre no desenvolvimento da web ao tirar dados de um banco de dados relacional com respaldo de disco e colocá-lo na memória. Quaisquer pedidos subseqüentes para os dados não precisam "acessar o banco de dados" e, portanto, os ganhos de desempenho podem ser significativos.
Para situações de negociação, o cache pode ser extremamente benéfico. Por exemplo, o estado atual de um portfólio de estratégia pode ser armazenado em um cache até ser reequilibrado, de modo que a lista não precisa ser regenerada em cada ciclo do algoritmo de negociação. Essa regeneração provavelmente será uma alta CPU ou operação de E / S de disco.
No entanto, o armazenamento em cache não está sem os seus próprios problemas. A regeneração de dados de cache de uma só vez, devido à natureza volátil do armazenamento de cache, pode colocar uma demanda significativa na infraestrutura. Outra questão é o empilhamento de cães, onde múltiplas gerações de uma nova cópia de cache são realizadas sob uma carga extremamente alta, o que leva a uma falha em cascata.
A alocação de memória dinâmica é uma operação cara na execução de software. Assim, é imperativo que os aplicativos de maior desempenho comercial sejam conscientes de como a memória está sendo alocada e desalocada durante o fluxo do programa. Novos padrões de linguagem, como Java, C # e Python, todos executam a coleta automática de lixo, que se refere à desalocação da memória alocada dinamicamente quando os objetos ficam fora do escopo.
A coleta de lixo é extremamente útil durante o desenvolvimento, pois reduz erros e ajuda a legibilidade. No entanto, muitas vezes é sub óptimo para certas estratégias de negociação de alta freqüência. A coleta de lixo personalizada é muitas vezes desejada para esses casos. Em Java, por exemplo, ao ajustar a configuração do coletor de lixo e do heap, é possível obter alto desempenho para as estratégias de HFT.
C ++ não fornece um coletor de lixo nativo e, portanto, é necessário lidar com toda a alocação / desalocação de memória como parte da implementação de um objeto. Embora potencialmente propenso a erros (potencialmente levando a ponteiros pendurados), é extremamente útil ter um controle fino de como os objetos aparecem no heap para determinadas aplicações. Ao escolher um idioma, certifique-se de estudar como funciona o coletor de lixo e se ele pode ser modificado para otimizar um caso de uso específico.
Muitas operações em sistemas de negociação algorítmica são favoráveis à paralelização. Isso se refere ao conceito de realização de múltiplas operações programáticas ao mesmo tempo, ou seja, em "paralelo". Os algoritmos denominados "embarassingly paralelos" incluem etapas que podem ser computadas totalmente independentemente de outras etapas. Certas operações estatísticas, como as simulações de Monte Carlo, são um bom exemplo de algoritmos embarazosa paralelos, pois cada sorteio aleatório e subsequente operação do caminho podem ser computados sem o conhecimento de outros caminhos.
Outros algoritmos são apenas parcialmente paralelizados. As simulações de dinâmica de fluidos são um exemplo, onde o domínio da computação pode ser subdividido, mas, em última instância, esses domínios devem se comunicar entre si e, portanto, as operações são parcialmente seqüenciais. Os algoritmos paralisáveis estão sujeitos à Lei de Amdahl, que fornece um limite superior teórico para o aumento de desempenho de um algoritmo paralelizado quando sujeito a processos separados em $ N $ (por exemplo, em um núcleo ou fio de CPU).
A paralelização tornou-se cada vez mais importante como um meio de otimização, uma vez que as velocidades do clock do processador estagnaram, já que os processadores mais novos contêm muitos núcleos com os quais realizar cálculos paralelos. O aumento do hardware de gráficos de consumo (predominantemente para videogames) levou ao desenvolvimento de Unidades de processamento gráfico (GPUs), que contém centenas de "núcleos" para operações altamente concorrentes. Tais GPUs são agora muito acessíveis. Os quadros de alto nível, como o CUDA da Nvidia, levaram a uma adoção generalizada na academia e nas finanças.
Esse hardware de GPU geralmente é apenas adequado para o aspecto de pesquisa de financiamento quantitativo, enquanto que outros equipamentos mais especializados (incluindo matrizes de portas programáveis em campo - FPGAs) são usados para (U) HFT. Atualmente, a maioria dos langauges modernos suporta um grau de concorrência / multithreading. Assim, é direto otimizar um backtester, pois todos os cálculos são geralmente independentes dos outros.
O dimensionamento em engenharia e operações de software refere-se à capacidade do sistema de lidar consistentemente com o aumento de cargas sob a forma de solicitações maiores, maior uso do processador e maior alocação de memória. Na negociação algorítmica, uma estratégia pode escalar se pode aceitar quantidades maiores de capital e ainda produzir retornos consistentes. A pilha de tecnologia de negociação escala se pode suportar maiores volumes de comércio e latência aumentada, sem bloqueio de estrangulamento.
Enquanto os sistemas devem ser projetados para dimensionar, muitas vezes é difícil prever de antemão, onde um gargalo irá ocorrer. O registro, o teste, o perfil e o monitoramento rigorosos ajudarão grandemente em permitir que um sistema seja dimensionado. As próprias línguas são muitas vezes descritas como "inesquecíveis". Isso geralmente é o resultado de uma informação errônea, e não de um fato difícil. É a pilha de tecnologia total que deve ser verificada quanto à escalabilidade, e não ao idioma. Claramente, certas línguas têm maior desempenho do que outras em casos de uso específicos, mas um idioma nunca é "melhor" do que outro em todos os sentidos.
Um meio de gerenciar a escala é separar as preocupações, como afirmado acima. A fim de introduzir ainda a capacidade de lidar com "picos" no sistema (ou seja, uma volatilidade súbita que desencadeia uma série de trades), é útil criar uma "arquitetura de filas de mensagens". Isso simplesmente significa colocar um sistema de fila de mensagens entre os componentes para que as ordens sejam "empilhadas" se um determinado componente não conseguir processar muitos pedidos.
Em vez de pedidos de perda, eles simplesmente são mantidos em uma pilha até que a mensagem seja tratada. Isso é particularmente útil para enviar trocas para um mecanismo de execução. Se o motor está sofrendo em latência intensa, ele irá fazer backup de trades. Uma fila entre o gerador de sinal comercial e a API de execução aliviará essa questão à custa de uma possível destruição comercial. Um bem respeitado corretor de fila de mensagens de código aberto é RabbitMQ.
Hardware e sistemas operacionais.
O hardware que executa sua estratégia pode ter um impacto significativo na rentabilidade do seu algoritmo. Esta não é uma questão restrita aos comerciantes de alta freqüência. Uma má escolha em hardware e sistema operacional pode levar a uma falha na máquina ou reiniciar no momento mais inoportuno. Assim, é necessário considerar onde sua candidatura irá residir. A escolha é geralmente entre uma máquina de mesa pessoal, um servidor remoto, um provedor de "nuvem" ou um servidor co-localizado em troca.
As máquinas de mesa são simples de instalar e administrar, especialmente com sistemas operacionais mais novos e amigáveis, como o Windows 7/8, o Mac OSX eo Ubuntu. Os sistemas de desktop possuem algumas desvantagens significativas, no entanto. O principal é que as versões dos sistemas operacionais projetados para máquinas de mesa provavelmente irão requerer reinicialização / remendo (e muitas vezes no pior dos tempos!). Eles também usam mais recursos computacionais pela virtude de exigir uma interface gráfica do usuário (GUI).
Utilizar hardware em um ambiente doméstico (ou escritório local) pode levar à conectividade com a internet e aos problemas de tempo de atividade. O principal benefício de um sistema de desktop é que a potência computacional significativa pode ser comprada pela fração do custo de um servidor dedicado remoto (ou sistema baseado em nuvem) de velocidade comparável.
Um servidor dedicado ou uma máquina baseada em nuvem, muitas vezes mais caro do que uma opção de desktop, permite uma infra-estrutura de redundância mais significativa, como backups automatizados de dados, a capacidade de garantir de forma mais direta o tempo de atividade e monitoramento remoto. Eles são mais difíceis de administrar, pois exigem a capacidade de usar recursos de logon remoto do sistema operacional.
No Windows, isto é geralmente através do GUI Remote Desktop Protocol (RDP). Em sistemas baseados em Unix, a linha de comando Secure SHell (SSH) é usada. A infraestrutura de servidor baseada em Unix é quase sempre baseada em linha de comando, o que imediatamente faz com que as ferramentas de programação baseadas em GUI (como MatLab ou Excel) sejam inutilizáveis.
Um servidor co-localizado, como a frase é usada nos mercados de capitais, é simplesmente um servidor dedicado que se encontra dentro de uma troca para reduzir a latência do algoritmo de negociação. Isso é absolutamente necessário para certas estratégias de negociação de alta freqüência, que dependem de baixa latência para gerar alfa.
O aspecto final para a escolha do hardware e a escolha da linguagem de programação é a independência da plataforma. Existe a necessidade do código para executar vários sistemas operacionais diferentes? O código foi projetado para ser executado em um tipo específico de arquitetura de processador, como o Intel x86 / x64 ou será possível executar em processadores RISC, como os fabricados pela ARM? Essas questões serão altamente dependentes da frequência e do tipo de estratégia implementada.
Resiliência e Testes.
Uma das melhores maneiras de perder muito dinheiro na negociação algorítmica é criar um sistema sem resiliência. Isso se refere à durabilidade do sistema quando sujeito a eventos raros, como falências de corretagem, volatilidade súbita em excesso, tempo de inatividade em toda a região para um provedor de servidor em nuvem ou a exclusão acidental de um banco de dados de negociação inteiro. Anos de lucro podem ser eliminados em segundos com uma arquitetura mal projetada. É absolutamente essencial considerar questões como debugging, testes, logging, backups, alta disponibilidade e monitoramento como componentes principais do seu sistema.
É provável que, em qualquer aplicativo de negociação quantitativo personalizado razoavelmente complicado, pelo menos 50% do tempo de desenvolvimento serão gastos em depuração, teste e manutenção.
Quase todas as linguagens de programação são enviadas com um depurador associado ou possuem alternativas de terceiros bem respeitadas. Em essência, um depurador permite a execução de um programa com inserção de pontos de interrupção arbitrários no caminho do código, que interrompe temporariamente a execução para investigar o estado do sistema. O principal benefício da depuração é que é possível investigar o comportamento do código antes de um ponto de falha conhecido.
A depuração é um componente essencial na caixa de ferramentas para analisar erros de programação. No entanto, eles são mais amplamente utilizados em linguagens compiladas, como C ++ ou Java, pois linguagens interpretadas, como Python, geralmente são mais fáceis de depurar devido a menos declarações LOC e menos verbosas. Apesar desta tendência, o Python é enviado com o pdb, que é uma ferramenta de depuração sofisticada. O Microsoft Visual C ++ IDE possui amplos utilitários de depuração de GUI, enquanto que para o programador de linha de comando Linux C ++, o depurador gdb existe.
O teste no desenvolvimento de software refere-se ao processo de aplicação de parâmetros e resultados conhecidos a funções, métodos e objetos específicos dentro de uma base de código, para simular o comportamento e avaliar múltiplos caminhos de código, ajudando a garantir que um sistema se comporta como deveria. Um paradigma mais recente é conhecido como Test Driven Development (TDD), onde o código de teste é desenvolvido contra uma interface especificada sem implementação. Antes da conclusão da base de código real, todos os testes falharão. À medida que o código é escrito para "preencher os espaços em branco", os testes eventualmente passarão, em que ponto o desenvolvimento deve cessar.
O TDD requer um design de especificação detalhado e abrangente, bem como um grau de disciplina saudável para realizar com sucesso. Em C ++, o Boost fornece uma estrutura de teste de unidade. Em Java, a biblioteca JUnit existe para cumprir a mesma finalidade. O Python também possui o módulo unittest como parte da biblioteca padrão. Muitas outras línguas possuem estruturas de teste de unidade e muitas vezes existem várias opções.
Em um ambiente de produção, o log sofisticado é absolutamente essencial. Logging refere-se ao processo de saída de mensagens, com vários graus de gravidade, em relação ao comportamento de execução de um sistema em um arquivo ou banco de dados plano. Os logs são uma "primeira linha de ataque" ao procurar o comportamento inesperado do tempo de execução do programa. Infelizmente, as falhas de um sistema de registro tendem a ser descobertas apenas após o fato! Tal como acontece com os backups discutidos abaixo, um sistema de registro deve ser devidamente considerado ANTES de projetar um sistema.
Tanto o Microsoft Windows quanto o Linux possuem uma extensa capacidade de registro do sistema e as linguagens de programação tendem a ser enviadas com bibliotecas de registro padrão que cobrem a maioria dos casos de uso. Muitas vezes, é aconselhável centralizar as informações de registro para analisá-lo em uma data posterior, uma vez que muitas vezes pode levar a idéias sobre como melhorar o desempenho ou a redução de erros, o que quase certamente terá um impacto positivo em seus retornos comerciais.
Embora o registro de um sistema forneça informações sobre o que aconteceu no passado, o monitoramento de um aplicativo fornecerá uma visão do que está acontecendo agora. Todos os aspectos do sistema devem ser considerados para o monitoramento. As métricas do nível do sistema, como o uso do disco, a memória disponível, a largura de banda da rede e o uso da CPU fornecem informações básicas de carga.
Métricas de negociação, como preços / volume anormais, levantamentos rápidos bruscos e exposição à conta para diferentes setores / mercados também devem ser monitorados continuamente. Além disso, deve ser instigado um sistema de limiar que forneça notificação quando certas métricas são violadas, elevando o método de notificação (e-mail, SMS, atendimento automatizado), dependendo da gravidade da métrica.
O monitoramento do sistema geralmente é o domínio do administrador do sistema ou do gerente de operações. No entanto, como um único desenvolvedor comercial, essas métricas devem ser estabelecidas como parte do design maior. Existem muitas soluções para monitoramento: proprietárias, hospedadas e de código aberto, que permitem uma ampla personalização de métricas para um caso de uso particular.
Os backups e a alta disponibilidade devem ser as principais preocupações de um sistema comercial. Considere as seguintes duas questões: 1) Se um banco de dados de produção completo de dados de mercado e histórico de negócios foi excluído (sem backups), como o algoritmo de pesquisa e execução seria afetado? 2) If the trading system suffers an outage for an extended period (with open positions) how would account equity and ongoing profitability be affected? The answers to both of these questions are often sobering!
It is imperative to put in place a system for backing up data and also for testing the restoration of such data. Many individuals do not test a restore strategy. If recovery from a crash has not been tested in a safe environment, what guarantees exist that restoration will be available at the worst possible moment?
Similarly, high availability needs to be "baked in from the start". Redundant infrastructure (even at additional expense) must always be considered, as the cost of downtime is likely to far outweigh the ongoing maintenance cost of such systems. I won't delve too deeply into this topic as it is a large area, but make sure it is one of the first considerations given to your trading system.
Choosing a Language.
Considerable detail has now been provided on the various factors that arise when developing a custom high-performance algorithmic trading system. The next stage is to discuss how programming languages are generally categorised.
Type Systems.
When choosing a language for a trading stack it is necessary to consider the type system . The languages which are of interest for algorithmic trading are either statically - or dynamically-typed . A statically-typed language performs checks of the types (e. g. integers, floats, custom classes etc) during the compilation process. Such languages include C++ and Java. A dynamically-typed language performs the majority of its type-checking at runtime. Such languages include Python, Perl and JavaScript.
For a highly numerical system such as an algorithmic trading engine, type-checking at compile time can be extremely beneficial, as it can eliminate many bugs that would otherwise lead to numerical errors. However, type-checking doesn't catch everything, and this is where exception handling comes in due to the necessity of having to handle unexpected operations. 'Dynamic' languages (i. e. those that are dynamically-typed) can often lead to run-time errors that would otherwise be caught with a compilation-time type-check. For this reason, the concept of TDD (see above) and unit testing arose which, when carried out correctly, often provides more safety than compile-time checking alone.
Another benefit of statically-typed languages is that the compiler is able to make many optimisations that are otherwise unavailable to the dynamically - typed language, simply because the type (and thus memory requirements) are known at compile-time. In fact, part of the inefficiency of many dynamically-typed languages stems from the fact that certain objects must be type-inspected at run-time and this carries a performance hit. Libraries for dynamic languages, such as NumPy/SciPy alleviate this issue due to enforcing a type within arrays.
Open Source or Proprietary?
One of the biggest choices available to an algorithmic trading developer is whether to use proprietary (commercial) or open source technologies. Existem vantagens e desvantagens para ambas as abordagens. It is necessary to consider how well a language is supported, the activity of the community surrounding a language, ease of installation and maintenance, quality of the documentation and any licensing/maintenance costs.
The Microsoft stack (including Visual C++, Visual C#) and MathWorks' MatLab are two of the larger proprietary choices for developing custom algorithmic trading software. Both tools have had significant "battle testing" in the financial space, with the former making up the predominant software stack for investment banking trading infrastructure and the latter being heavily used for quantitative trading research within investment funds.
Microsoft and MathWorks both provide extensive high quality documentation for their products. Further, the communities surrounding each tool are very large with active web forums for both. The software allows cohesive integration with multiple languages such as C++, C# and VB, as well as easy linkage to other Microsoft products such as the SQL Server database via LINQ. MatLab also has many plugins/libraries (some free, some commercial) for nearly any quantitative research domain.
There are also drawbacks. With either piece of software the costs are not insignificant for a lone trader (although Microsoft does provide entry-level version of Visual Studio for free). Microsoft tools "play well" with each other, but integrate less well with external code. Visual Studio must also be executed on Microsoft Windows, which is arguably far less performant than an equivalent Linux server which is optimally tuned.
MatLab also lacks a few key plugins such as a good wrapper around the Interactive Brokers API, one of the few brokers amenable to high-performance algorithmic trading. The main issue with proprietary products is the lack of availability of the source code. This means that if ultra performance is truly required, both of these tools will be far less attractive.
Open source tools have been industry grade for sometime. Much of the alternative asset space makes extensive use of open-source Linux, MySQL/PostgreSQL, Python, R, C++ and Java in high-performance production roles. However, they are far from restricted to this domain. Python and R, in particular, contain a wealth of extensive numerical libraries for performing nearly any type of data analysis imaginable, often at execution speeds comparable to compiled languages, with certain caveats.
The main benefit of using interpreted languages is the speed of development time. Python and R require far fewer lines of code (LOC) to achieve similar functionality, principally due to the extensive libraries. Além disso, eles geralmente permitem um desenvolvimento baseado em console interativo, reduzindo rapidamente o processo de desenvolvimento iterativo.
Given that time as a developer is extremely valuable, and execution speed often less so (unless in the HFT space), it is worth giving extensive consideration to an open source technology stack. Python and R possess significant development communities and are extremely well supported, due to their popularity. Documentation is excellent and bugs (at least for core libraries) remain scarce.
Open source tools often suffer from a lack of a dedicated commercial support contract and run optimally on systems with less-forgiving user interfaces. A typical Linux server (such as Ubuntu) will often be fully command-line oriented. In addition, Python and R can be slow for certain execution tasks. There are mechanisms for integrating with C++ in order to improve execution speeds, but it requires some experience in multi-language programming.
While proprietary software is not immune from dependency/versioning issues it is far less common to have to deal with incorrect library versions in such environments. Os sistemas operacionais de código aberto, como o Linux, podem ser mais difíceis de administrar.
I will venture my personal opinion here and state that I build all of my trading tools with open source technologies. In particular I use: Ubuntu, MySQL, Python, C++ and R. The maturity, community size, ability to "dig deep" if problems occur and lower total cost ownership (TCO) far outweigh the simplicity of proprietary GUIs and easier installations. Having said that, Microsoft Visual Studio (especially for C++) is a fantastic Integrated Development Environment (IDE) which I would also highly recommend.
Batteries Included?
The header of this section refers to the "out of the box" capabilities of the language - what libraries does it contain and how good are they? This is where mature languages have an advantage over newer variants. C++, Java and Python all now possess extensive libraries for network programming, HTTP, operating system interaction, GUIs, regular expressions (regex), iteration and basic algorithms.
C++ is famed for its Standard Template Library (STL) which contains a wealth of high performance data structures and algorithms "for free". Python is known for being able to communicate with nearly any other type of system/protocol (especially the web), mostly through its own standard library. R has a wealth of statistical and econometric tools built in, while MatLab is extremely optimised for any numerical linear algebra code (which can be found in portfolio optimisation and derivatives pricing, for instance).
Outside of the standard libraries, C++ makes use of the Boost library, which fills in the "missing parts" of the standard library. In fact, many parts of Boost made it into the TR1 standard and subsequently are available in the C++11 spec, including native support for lambda expressions and concurrency.
Python has the high performance NumPy/SciPy/Pandas data analysis library combination, which has gained widespread acceptance for algorithmic trading research. Further, high-performance plugins exist for access to the main relational databases, such as MySQL++ (MySQL/C++), JDBC (Java/MatLab), MySQLdb (MySQL/Python) and psychopg2 (PostgreSQL/Python). Python can even communicate with R via the RPy plugin!
An often overlooked aspect of a trading system while in the initial research and design stage is the connectivity to a broker API. Most APIs natively support C++ and Java, but some also support C# and Python, either directly or with community-provided wrapper code to the C++ APIs. In particular, Interactive Brokers can be connected to via the IBPy plugin. If high-performance is required, brokerages will support the FIX protocol.
Conclusão.
As is now evident, the choice of programming language(s) for an algorithmic trading system is not straightforward and requires deep thought. The main considerations are performance, ease of development, resiliency and testing, separation of concerns, familiarity, maintenance, source code availability, licensing costs and maturity of libraries.
The benefit of a separated architecture is that it allows languages to be "plugged in" for different aspects of a trading stack, as and when requirements change. A trading system is an evolving tool and it is likely that any language choices will evolve along with it.
Apenas iniciando o comércio quantitativo?
3 razões para se inscrever para a lista de e-mails QuantStart:
1. Quant Trading Lessons.
Você terá acesso instantâneo a um curso de e-mail gratuito de 10 partes, repleto de sugestões e dicas para ajudá-lo a começar a negociação quantitativa!
2. Todo o conteúdo mais recente.
Todas as semanas, vou enviar-lhe um envoltório de todas as atividades no QuantStart para que você nunca mais perca uma postagem novamente.
Real, dicas de negociação viáveis, sem tonturas.
algotrading.
83 пользователя находятся здесь.
МОДЕРАТОРЫ.
Bem-vindo ao Reddit,
a primeira página da internet.
e inscreva-se em uma das milhares de comunidades.
Это архивированный пост. Você está interessado em иолосовать или комментировать.
отправлено & # 32; 3 года назад , изменено * автор ryph.
Quer adicionar à discussão?
помощь правила сайта центр поддержки вики реддикет mod guidelines связаться с нами.
приложенияи инструменты Reddit para iPhone Reddit para o site móvel Android кнопки.
Использование данного сайта означает, что вы принимаете & # 32; пользовательского соглашения & # 32; и & # 32; Политика конфиденциальности. &cópia de; 2018 reddit инкорпорейтед. Все права защищены.
REDDIT e o logotipo ALIEN são marcas registradas da reddit inc.
& pi; Rendered by PID 84164 on app-514 at 2018-01-18 02:20:48.246113+00:00 running f3462a7 country code: UA.
Construindo Sistemas Automatizados de Negociação.
1ª edição.
Com uma Introdução ao Visual C ++ 2005.
Acesso institucional.
Secure Checkout.
Frete grátis.
Nenhuma ordem mínima.
Índice.
Capítulo 1 Introdução.
Seção I: Introdução ao Visual C ++ 2005.
Capítulo 2 O quadro.
Capítulo 3 Referências de rastreamento.
Capítulo 4 Classes e Objetos.
Capítulo 5 Tipos de referência.
Capítulo 6 Tipos de valor.
Capítulo 7 Objetos não gerenciados.
Capítulo 8 Composição.
Capítulo 9 Propriedades.
Capítulo 10 Estruturas e enumerações.
Capítulo 11 Herança.
Capítulo 12 Conversão e fundição.
Capítulo 13 Sobrecarga do operador.
Capítulo 14 Delegados e Eventos.
Capítulo 15 Arrays.
Capítulo 16 Gerando números aleatórios.
Capítulo 17 Tempo e Temporizadores.
Capítulo 18 Fluxos de entrada e saída.
Capítulo 19 Manipulação de Exceções.
Capítulo 20 Coleções.
Capítulo 21 STL / STL.
Capítulo 22 DataSets.
Capítulo 23 Conexão a bancos de dados.
Capítulo 24 Linguagem de consulta estruturada.
Capítulo 26 Protocolo de troca de informações financeiras.
Capítulo 27 Serialização.
Capítulo 28 Serviços do Windows.
Capítulo 29 Configuração e Pacotes de Instalação.
Seção II: Concorrência.
Capítulo 30 Threading.
Capítulo 31 Classes de Sincronização.
Capítulo 32 Sockets.
Seção III: interoperabilidade e conectividade.
Capítulo 33 Marshaling.
Capítulo 34 Interiores e Pinning Pointers.
Capítulo 35 Conexão a DLLs gerenciadas.
Capítulo 36 Conectando às DLLs do Componenet Object Model (COM) com Interoperabilidade COM.
Capítulo 37 Conexão a DLLs C ++ com Serviços de Invocação de Plataforma.
Capítulo 38 Conexão ao Excel.
Capítulo 39 Conexão ao TraderAPI.
Capítulo 40 Conexão ao XTAPIConnection_Example.
Seção IV: Sistemas de Negociação Automatizada.
Capítulo 41 Building Trading Systems.
Capítulo 42 K "V Metodologia de Desenvolvimento do Sistema de Negociação.
Chapter 43 Automated Trading System Classes.
Capítulo 44 Sistema de Análise Técnica de Rosca Única.
Capítulo 45 Padrão de Design do Produtor / Consumidor.
Capítulo 46 Multithreaded, Statistical Arbitrage System.
Descrição.
Nos próximos anos, as indústrias proprietárias de hedge funds e de negociação migrarão em grande parte para sistemas de seleção e execução de comércio automatizado. Na verdade, isso já está acontecendo. Enquanto vários livros de finanças fornecem código C ++ para preços de derivados e realizando cálculos numéricos, nenhum aborda o tópico a partir de uma perspectiva de projeto de sistema. Este livro será dividido em duas seções: técnicas de programação e tecnologia de sistema de negociação automatizada (ATS) e ensinar o design e o desenvolvimento de sistemas financeiros de forma absoluta usando o Microsoft Visual C ++ 2005. O MS Visual C ++ 2005 foi escolhido como o idioma de implementação principalmente porque a maioria das empresas comerciais e grandes bancos desenvolveram e continuam a desenvolver seus algoritmos proprietários no ISO C ++ e o Visual C ++ oferece a maior flexibilidade para incorporar esses algoritmos legados em sistemas operacionais. Além disso, o Framework e o ambiente de desenvolvimento fornecem as melhores bibliotecas e ferramentas para o rápido desenvolvimento dos sistemas de negociação. A primeira seção do livro explica o Visual C ++ 2005 em detalhes e concentra-se no conhecimento de programação requerido para o desenvolvimento automatizado do sistema de negociação, incluindo design orientado a objetos, delegados e eventos, enumerações, geração aleatória de números, temporização e temporizadores e gerenciamento de dados com STL e coleções. Além disso, uma vez que o código do legado e o código de modelagem nos mercados financeiros são feitos em ISO C ++, este livro analisa em vários tópicos avançados relacionados ao gerenciamento de memória gerenciado / não gerido / COM e à interoperabilidade. Além disso, este livro fornece dezenas de exemplos que ilustram o uso da conectividade de banco de dados com ADO e um tratamento extensivo de SQL e FIX e XML / FIXML. Tópicos avançados de programação, como encadeamento, soquetes, bem como o uso de C ++ para se conectar ao Excel também são discutidos extensivamente e são suportados por exemplos. A segunda seção do livro explica preocupações tecnológicas e conceitos de design para sistemas de negociação automatizados. Especificamente, os capítulos são dedicados a lidar com feeds de dados em tempo real, gerenciando pedidos no livro de pedidos de câmbio, seleção de posição e gerenciamento de riscos. Um. dll está incluído no livro que irá emular a conexão com uma API industrial amplamente utilizada (XTAPI da Trading Technologies, Inc.) e fornecer maneiras de testar algoritmos de gerenciamento de posição e ordem. Os padrões de design são apresentados para sistemas de tomada de mercado baseados em análises técnicas, bem como em sistemas de produção de mercado que utilizam spreads intermarket. À medida que todos os capítulos giram em torno de programação de computadores para engenharia financeira e desenvolvimento de sistemas de negociação, este livro educará comerciantes, engenheiros financeiros, analistas quantitativos, estudantes de finanças quantitativas e até programadores experientes em questões tecnológicas que giram em torno do desenvolvimento de aplicações financeiras em uma Microsoft ambiente e construção e implementação de sistemas e ferramentas de negociação em tempo real.
Características principais.
Ensina concepção e desenvolvimento de sistemas financeiros desde o início usando o Microsoft Visual C ++ 2005.
Fornece dezenas de exemplos que ilustram as abordagens de programação no livro.
Leitores.
Audiência primária: engenheiros financeiros, analistas quantitativos, programadores em empresas comerciais; estudantes de pós-graduação em cursos e programas de engenharia financeira e mercados financeiros.
Rever.
"Construir sistemas automatizados de negociação é uma leitura obrigatória para qualquer pessoa que esteja desenvolvendo sistemas de negociação algorítmica profissional. Ele traz todos os aspectos do design, funcionalidade e implementação do sistema em tempo real em um foco passo a passo claro. Este livro será um manual de referência de primeira escolha para o programador profissional sério no desenvolvimento do sistema de comércio ". - Russell Wojcik, Membro da CME e CBOT, Chefe da Concentração de Estratégia de Negociação, Illinois Institute of Technology "Este livro é um excelente guia para quem está interessado no desenvolvimento de aplicativos comerciais automáticos ou semi-automáticos. Ben cobre o conhecimento de programação necessário para desenvolver o sucesso aplicativos de negociação. Um deve ter para os comerciantes entrar na programação e os programadores entrarem em negociação. Ele também servirá como uma referência útil para o desenvolvimento de ferramentas comerciais mais sofisticadas ". - Sagy P. Mintz, Vice-Presidente, Trading Technologies, Inc.
Avaliações e avaliações.
Sobre os autores.
Benjamin Van Vliet Autor.
Ben Van Vliet é professor do Illinois Institute of Technology (IIT), onde também atua como diretor associado do M. S. Programa de Mercados Financeiros. No IIT, ele ensina cursos de finanças quantitativas, C ++ e programação e design e desenvolvimento de sistemas de negociação automatizada. Ele é vice-presidente do Instituto de Tecnologia de Mercado, onde preside o conselho consultivo do programa do Certificado de Sistema de Negociação (CTSD). Ele também atua como editor de série da série Financial Markets Technology da Elsevier / Academic Press e consulta extensivamente na indústria de mercados financeiros.
O Sr. Van Vliet é também o autor de "Modeling Financial Markets" com Robert Hendry (2003, McGraw Hill) e "Building Automated Trading Systems" (2007, Academic Press. Além disso, ele publicou vários artigos nas áreas de finanças e tecnologia , e apresentou sua pesquisa em várias conferências acadêmicas e profissionais.
Afiliações e especialidades.
Professor Titular e Diretor Associado do Programa de Mestrado em Mercados Financeiros, Stuart School of Business, Instituto de Tecnologia de Illinois, EUA.
Solicitar cotação.
Isenção de imposto.
Produtos & amp; Soluções R & D Soluções Clínicas Plataformas de Pesquisa Pesquisa Inteligência Serviços de Educação Autores Editores Revisores Bibliotecários Shop & amp; Descubra Livros e revistas Autor Webshop Sobre a Elsevier Sobre nós Elsevier Connect Carreiras Como podemos ajudar? Centro de Apoio.
Como podemos ajudar?
Como podemos ajudar?
Direitos autorais e cópia; 2017 Elsevier, exceto determinado conteúdo fornecido por terceiros.
Os cookies são usados por este site. Para recusar ou aprender mais, visite nossa página Cookies.
Pesquisa de visitantes de Elsevier.
Estamos sempre procurando maneiras de melhorar a experiência do cliente no Elsevier.
Gostaríamos de pedir-lhe um momento do seu tempo para preencher um breve questionário, no final da sua visita.
1 Part I – Background.
Traditionally, trading is done by manual operation, which requires a trader to open or close position by hand, or at least calling a broker to do so. Benjamin Graham once mentioned that many great investors with outstanding investment records always repeat that investor’s largest enemy is himself. Warren Buffett also said that a successful investor is one that has the right temperament and the right psychology. As we all know, manual trading is not only vulnerable to traders’ psychological and emotional fluctuation, but also very inefficient in terms of trading speed and convenience.
Due to the advance of computing technology, now almost all financial assets can be electronically traded. Automated trading system takes advantage of computers to develop and test strategies and to trade financial assets automatically. It can help novice traders to avoid emotional trading and also help experienced traders to make trading more efficient and systematic. It has been widely used in financial industry and become indispensable for many investors. On the other hand, automatic trading makes market more liquid and reduces trading cost accordingly.
In recent years, online trading platform also becomes a hot spot of financial engineering innovation. Many financial Technology companies, such as Quantopian, Quantconnect, Motif Investing, have raised considerable funds from Wall Street. Hedge funds like WorldQuant also provide online simulation and trading environment for individual traders. Some of these platforms are beautifully designed and very user friendly. But when you backtest your strategies, they are actually running on the servers, hence totally transparent to the company. To avoid the risk of exposing the strategies, it is safer to do research in local machine and trade through reliable brokers or DMA. In addition, in the online platforms, data are transferred in Internet with HTTP protocol, which may be OK for low frequency trading but not efficient or feasible for high frequency trading.
Sentosa is named after the most popular island resort in Singapore. The languages I used to write Sentosa includes C++, Python, R, Go and Javascript. The project is hosted at Quant365, where you can download source code and follow all the updates.
There are three subprojects in Sentosa:
Sentosa trading system is a multithread, message driven, highly scalable, high frequency automatic trading system. The latency can be as low as 100 milliseconds, dependent on the distance between you and trading venue servers. Currently, the trading venue is IB , so an IB account is required. With modular design, it can be extended easily to support other trading venues. The algorithm module can be written with any language supporting either nanomsg or websocket protocol. I have implemented language binding for Python, R for an illustration purpose. It is very easy to add other language support like Java, MATLAB, Haskell, Go, C# etc. The market data module subscribes to trade and quote(TAQ) data, so in some literature or book, Sentosa trading system should be categorized as technical automatic trading system, as a contrast with fundamental automatic trading system, where the system mainly uses fundamentals as trading signal. I don’t think this categorization makes much sense because signal is just a result of algorithm module and anything can be a signal: technical indicator, fundamental ratio, macroeconomic index, social media news, Google trends etc.
Sentosa research platform is essentially an interactive computing environment based on Jupyter. I will demonstrate how to use R and Python to do volatility research in the platform later.
In addition, I also developed a web platform for Sentosa with Django and Tornado, by which you can monitor Sentosa and send orders using web interface.
I used Sentosa to do research and trading for myself. Although it can be used for real trading, here I disclaim all the responsibilities of any loss of any trade through Sentosa. But if it had helped you make money, I don’t mind to be treated a cup of coffee. Sentosa is an ongoing project and more features will be added in the future. I will also discuss the future direction of each subproject.
2 Part II – Sentosa Trading System.
2.1 Design Overview.
When designing Sentosa trading system, my emphasis is on its configurability, modularity and scalability. In folder.
/.sentosa, there is a YAML-format configuration file named sentosa. yml , which you can use to customize the system. The only requirement is you need to set your own IB account in the global section for paper or real trading.
Sentosa trading system is mainly composed of five modules: market data module, OMS module, algorithm module, record module and simulation module. These modules are purposely decoupled and communications are all through messaging system. The trading system also has four running modes: record, trade, simulation and merlion, which represent different combination of the five modules.
Figure 1 is the program workflow graph of Sentosa trading system.
Workflow of Sentosa Trading System.
2.1.1 Running Mode.
Sentosa can be running at four modes which is define as follows:
Do not trade, just to record all the market information into a simulation file for future usage.
Launch all Sentosa modules and trade.
Replay historical scenario. This is to backtest your algorithm in a simulation environment.
merlion mode is the same as trade mode except that it does not generate simulation file. You cannot replay you current trading session as you have no simulation file generated.
The running mode can be configured in global section in sentosa. yml .
2.1.2 Multithreads and Messaging System.
Sentosa is a multithread application implemented with C++14 threads. All the threads are created in heap and the pointers are stored in a vector. Initially I developed Sentosa in Windows platform and used ZMQ as internal messaging protocol. But when I was trying to port it to Linux, ZMQ did not work well with threads in Linux. ZMQ created more than ten threads automatically and it messed up with IB’s threads somehow. I filed ZMQ bug report and so far it has yet been solved.
Nanomsg is created as a better alternative to ZMQ by the same author. It is simpler to use and has no such issue in multithread environment. I replaced all ZMQ code with nanomsg and chose nanomsg as my internal messaging protocol.
2.1.3 Modules.
With nanomsg as the internal messaging protocol, I decouple the system into five basic modules: market data module, order management system module, algorithm module, record module and simulation module. These modules coexist in one process but in different threads. They communicate with messaging system and can be turned off and on according to the four running modes described above. Modular design makes the system scalable and easier for future development.
The first three modules represent the three most basic components of an automatic trading system. In the following sections, I will describe these three modules one by one.
2.2 Market Data Module.
2.2.1 Introduction of Market Data.
Market data module is one of the most important components of a trading system. Generally, market data include tick level information about prices and size of bid, ask, completed trades. Different data vendors sometimes provide extra information like tag, exchange name. There are two levels of market data according to the information it provides.
Level 1 market data provide the most basic information, which includes bid/ask price and size, and the last traded price and size. From the order book point of view, these information are from the top of the book, so level 1 market data also known as top-of-book data.
Level 2 market data, also called order book or market depth , provide extra information of partial or whole order book. The order book has two long queues of bid and ask orders respectively. The queues cancel each other at the top and grow when new limit order comes in. The length of the queue is called the depth of order book. The order book changes very fast for liquid stocks so the information can be overwhelmingly huge.
Most individual traders use Level 1 market data. Level 2 market data are crucial for day traders, especially low latency high frequency traders. There are many academic researches on level 2 market data in recent years.
IB has its own way to deliver market data. Loosely speaking, IB provides both level 1 and level 2 market data. reqMktData is to request level 1 market data. reqMktDepth is to request level 2 market data. In addition to the raw data, IB also provides real time bar data via function reqRealTimeBars . The real time bar data, like the historical bar data, also provide open, high, close, low(OHCL) prices, volume weighted average price(VWAP) and trade count information.
Please be noted that IB doesn’t provide true tick level data . The market data are actually consolidated every 300 milliseconds or so and sent back to client upon request. As we are not doing ultra-low latency trading and not considering the tick level dynamics, a combination of level 1 data and 5 seconds real time bar data should be enough.
2.2.2 Threads.
In Sentosa trading system, market data module involves the following threads:
2.2.2.1 Thread_MKDataTick.
Thread_MKDataTick connects to IB to request two kinds of data:
IB’s tick level real time market data (by reqMktData) IB’s 5 seconds real time TRADE bar data (by reqRealTimeBars)
Upon data sent back from IB, data are sent to thread Thread_UpdateSboard to update scoreboard, a global data structure implemented as a singleton in scoreboard. h/cpp .
2.2.2.2 Thread_MKDepth.
Get level 2 market data by calling IB API ReqMkDepth() . TWS currently limits users to a maximum of 3 distinct market depth requests. This same restriction applies to API clients, however API clients may make multiple market depth requests for the same security. Due to this limitation, many algorithms involving order book dynamics cannot be used.
2.2.2.3 Thread_UpdateSboard.
This thread is to update scoreboard upon the market data message.
When Sentosa trading system is running at simulation mode, the market data can be from a simulation file, aka replay file.
2.3 Algorithm Module.
Sentosa trading system provides a framework for traders to write their strategies. This framework is called algorithm module. This module communicates with OMS module through messaging system. Not many traders are programming experts, but in order to implement their strategies, they know how to use programming languages to write trading algorithms. The most frequently used languages by traders include R, Matlab, Python and VBA(Excel). Sentosa trading system is a message driven system and designed with multiple languages support in mind. As long as one language supports nanomsg or websocket , it can be used to write trading algorithm.
Currently Senotsa supports algorithm module written in three languages, including C++, Python and R. These three languages represent three ways how algorithm module works in Sentosa.
Traders using C++ mostly have strong programming skills and higher requirement with trading system’s performance and speed. In Sentosa trading system, algorithm module is built into a static library and then used to generate the final executable binary.
All algorithms in Sentosa trading system inherit from an abstract base class AlgoEngine . Factory pattern is used to create algorithm objects:
In Sentosa configuration file sentosa. yml , there is a strategy section to specify you strategy name and trading universe. Take the following as an example:
It means there is a strategy called ta_indicator_raffles and the trading universe includes 10 stocks/ETFs(SINA, ATHM…FXI).
I name the strategy ta_indicator_raffles for an illustration purpose so that you can see this is a strategy using Technical Analysis . In real trading, traders normally give their strategies totally irrelevant names.
Technical analysis(TA) indicators are extremely popular with individual traders. They normally use it in low frequency trading. There are many rules of thumb for TA indicators, which are only applicable in low frequency trading environment. For high frequency trading, you may need to do some adjustment. Take RSI(Relative Strength Index), an extremely popular indicator developed by J. Welles Wilder Jr., as an example:
RSI is defined as.
\[ RSI = 100 - 100/(1 + RS)\] where \[ RS = Average Gain / Average Loss \]
According to Wilder, RSI is considered overbought when above 70 and oversold when below 30. If using 15 seconds bar data, for stocks trading not so frequently, RSI can become very high or low because there are many periods without price change. There are two solutions. The first one is to use more time periods so that Average Gain or Average Loss is not equal to 0. Another solution is to set RSI equal to 50 if the price changes are too few. In other words, the momentum is not obvious when there is no price change information, so we just give it a value of 50. The following is a C++ implementation of the second idea - if number of price changes is less than 10, just set RSI to 50.
Some TA indicators working well in low frequency trading do not work at all in high frequency trading. One reason is the market data, like TAQ, is not enough in high frequency, especially for assets with low liquidity. Another reason is that market noise is significant, sometimes dominant, in high frequency trading. Too much unpredicted factors will make the real price trend unclear. In this case, more research and backtesting are needed to find out what the real value of the trading asset is and after how long the noise will disappear.
There is a TA library called ta-lib written in C++ and also available in other languages like Python, Go. Sentosa includes a development version of ta-lib version 0.6.0dev. You can also download ta-lib version 0.4 from ta-lib, which is more stable but with less TA indicators.
2.3.2 Python.
Traders using Python do not have very high requirement on the execution speed and system performance. I developed a Python package called Pysentosa which uses nanomsg protocol to connect to market data module and websocket protocol to connect to OMS. A demo code is like the following:
This code demonstrates a simple algorithm:
Set a price range with lower bound equal to 220 and upper bound equal to 250. If SPY’s ask price is lower than 220, try to buy 50 shares. If the BUY order get filled, decrease the lower bound by 20, and wait to buy 50 shares until the ask price hit below 200. But if the bid price is greater than the upper bound value, send a SELL order of 100 shares SPY. If get filled, increase the upper bound by 20 and wait to sell until the bid price hit beyond the new upper bound value 270. This algorithm can be used to split big order for institutional traders.
Not only is Pysentosa a message interface of Sentosa, it includes a Sentosa trading system runtime. I use boost. python to wrap Sentosa trading system into a dynamic library and it will be run as a daemon when you create a Merlion object. In another words, Pysentosa is a complete full featured trading system.
In contrast with Pysentosa , I also developed rsentosa with R language, which is to demonstrate another way to use Sentosa. rsentosa is for traders using R language, who normally have strong statistics background. rsentosa use nanomsg protocol to communicate with both OMS and market data module. The demo code is as follows:
The algorithm is almost the same as the python version except it does not sell SPY no matter what bid price is.
2.4 Order Management System.
OMS(order management systems) is a software system to facilitate and manage the order execution, typically through the FIX protocol. In Sentosa, OMS module gets orders from Algorithm Module and send them to IB. IB gets order from Sentosa OMS and executes it using its smart routing technology. IB API supports two basic type of orders: Limit Order and Market Order .
Limit order has a price limit which guarantees the execution price cannot be worse than it. For every stock, exchange maintains a limit order book including all the bid/ask prices, volumes and timestamp information. Please be noted the trade price can be favorable than limit order price. For example, if you send a limit order of selling Google stock for 1 dollar per share, system will fill it with the bid price at the top of the book, which will be higher than 1 dollar.
A Market order itself has no price information. When a market order is sent out to an exchange, the order matching engine will find the currently available best price to execute it. Market order will normally be filled immediately by matching another limit order at the top of order book. You cannot match two market orders because there is no price information in market orders.
2.4.1 OMS Design and Messaging Protocol.
OMS accepts two type of protocols: nanomsg and websocket .
Thread Thread_API_NN will monitor and handle any incoming nanomsg message at port specified as NN_MON_PORT in sentosa. yml .
Thread Thread_API_WS will monitor and handle any incoming websocket message at port specified as WS_MON_PORT in sentosa. yml .
OMS handles two different protocols but with the same logic. I use C++ function overloading to handle the difference. The interface definition is at api_core. cpp and implementation is at api_nn. cpp for nanomsg and api_ws. cpp for websocket respectively.
Sentosa is a multithread application where there are four threads in OMS module:
In Sentosa, for performance consideration, system will preallocate a static array of orders with length of 283 for each instrument. In another words, one instrument can send at most 283 orders with different order id(order replacement is not counted in as the order id is the same). This number should be enough for individual traders. Sentosa OMS uses nanomsg as the communication protocol and receives nanomsg text as the instruction.
Sentosa OMS opened a NN_PAIR socket at the following endpoint:
You can customize the port by changing ALGO_TO_OMS_PORT at sentosa. yml .
The protocol specification is also customizable through sentosa. yml . Take the default ‘sentosa. yml’ configuration as an example:
To close all your current position with market order when a nanomsg text starting with “e” is received.
To close one instrument’s position as soon as possible. The nanomsg format is f|SYMBOL . For instance, “f|IBM” means to close your current IBM holding position with a market order .
To cancel all your current outstanding orders of one instrument. The nanomsg format is g|SYMOBL .
To send a limit order .
The format is l|SYMBOL|Quantity|Price|AllowedMove|OID , where:
Quantity is a signed integer. Positive sign means BUY and negative means SELL.
Price is the limit price.
AllowedMove is the price range in which the order is still considered valid. In Sentosa OMS, if the market price moves too far from the limit price, the order will be cancelled by OMS. The logic can be expressed with the following pseudo-code:
OID is the order id.
To send a market order . The format is m|SYMBOL|Quantity|OID .
To check the status of an order by order id. The message format is i|OID . For instance, “i|1634223” means a request to OMS to return the status of the order with id equal to 1634223. OMS will send one of the following order’s status to client with the format of “i|OID|ORDERSTATUS”. In case the order doesn’t exist at all, OMS will send back -1. If OMS send “i|1634223|4” back, it means the order with id equal to 1634223 has a status of SUBMITTED .
Order status are defined like the following:
You can refer to IB document for the details of order status:
2.5 Future Direction.
Sentosa trading system can be extended in several ways:
From multithread to multiprocess.
From single machine to cluster.
From IB to other trading venues, or direct market access(DMA) if possible.
More languages support.
More modules support - risk management module, portfolio management module.
3 Part III – Sentosa Research Platform.
3.1 Introduction.
Search Research Platform is a web-based interactive computing platform based on Jupyter with Python and R support. You can set it up in your local machine and do research with your data. The following is a screenshot:
Sentosa Research Platform.
In the following sections, I will discuss financial data selection, collection and management. Then I will showcase two research tasks using R and Python respectively. The first is GARCH-family volatility comparative study with low frequency data and the second is true volatility calculation with high frequency data.
3.2 Data Selection, Collection and Management.
In the first place, successful trading starts with good quality data. With good quality data, particularly quantitative data, trader can do meaningful research. For equity trading, some commonly used data types include trade data , quote data , fundamental data , macroeconomic data , risk factor data , news data , social media data , and option data . Daily OHLC trade data and some macroeconomic data are normally available for free. Others are mostly not free, some of which are expensive because of the information edge traders can get from them.
For the paid data services, you need to choose to pay for processed data or raw data, or both. Processed data(eg. PE/PB ratio) are more convenient and ready to be used directly. As for raw data(eg. tick and quote data), you need to write program to clean them, calculate indicator or risk factors with your own algorithm. Some may need heavily intense computation. But good thing for raw data is its flexibility and potential to provide a trader with more information edge.
Data can be stored in file system in plain text format. Many time series data are just some csv files, which can be very conveniently used by many languages. For big data series, database like MSSQL, MySQL and MongoDB can be used. Data are stored in tables or documents and indexes are created for faster query speed. For higher performance time series data processing, you can choose commercial database like KDB+, One Tick or eXtremeDB.
There are many commercial data vendors out there like Thomson Reuters, Bloomberg, but most of them are prohibitive for individuals. In this project, using MySQL as data storage and IB as data source, I developed a historical data collection tool called histData which I will describe as below.
3.2.1 Historical Data Collection Tool - histData.
In this project, I use four tables to store four time series data:
The table structure is the same for each table. For example, the following is the structure of table bar1d :
The following are three rows in table bar15s :
The first row means during 2018-Dec-06 09:30:00 to 2018-Dec-06 09:30:15, there are 8 trades occurred for BITA with WAP equal to 30.21, trading volume equal to 25K, open price equal to 30.27, highest price equal to 30.27, lowest price equal to 30.16 and close price equal to 30.25.
For stocks, historical data requests that use a bar size of “30 secs” or less can only go back six months. IB also has limitation in request rate, which requires no more than 60 historical data requests in any 10-minute period. Considering this limitation, I think IB should have used traffic control algorithm like token bucket in the server side. In client side, to avoid causing pacing violations, our data collector sleeps for 1 minute after sending 6 requests. This is customizable in configuration file sentosa. yml . The following is what I used in my configuration file:
If histDataSleepT is equal to 30000, histDataReqNum should be equal to 3, which means sleep 30 seconds per 3 requests. histDataBackMN means how many months from now backward you want to collect data. In the above example, if today is 2018-Dec-31, it means we want to collect data in period of 2018-Jul-01 to 2018-Dec-31.
As follows, I will showcase how to use Sentosa Research Platform to do quantitative research on volatility. Case 1 is about parametric models of volatility using low frequency data. Case 2 is about nonparametric models using high frequency data with market microstructure noise.
3.3 Case 1: Volatility Forecasting Comparative Study (R)
Volatility is so important that it is widely used in trading, pricing and risk management. Christian Brownlees, Rob Engle and Bryan Kelly published a paper called A Practical Guide to Volatility Forecasting Through Calm and Storm which concludes that model rankings are insensitive to forecast horizon .
To verify the conclusion of this paper, I plan to use Quandl library to get S&P 500 index data from 1950-Jan-03 to 2018-Mar-18 and use R program to compare 5 GARCH models: GARCH, NGARCH, TGARCH, APARCH, eGARCH.
In the 5 models, GARCH model fails to explain the asymmetry of the distribution of errors and the leverage effect. eGARCH and TGARCH are able to handle leverage effect where return has negative skewness. NGARCH and APARCH are able to handle leverage effect for both negative and positive skewness.
The code is written in R language as follows:
The code above defines a quasi-likelihood (QL) loss function proposed by the original paper, by which we can compare model’s predictability. Then it gets data from Quandl, defines model specifications, fits models and predicts with each model, and finally draws a graph with quasi-likelihood (QL) loss value. The out sample length is 50 days. The forecast horizons I have chosen are 1, 10, 20, 30, 40, 50 days. I will compare the five models’ predictability in these forecast horizons.
Assuming that the return distribution is normal, run the code above and I find when forecast horizon is equal to or less than 30:
When forecast horizon is greater than 30, no ranking pattern is observed.
The result is at Figure 3.
GARCH Family Models with Normal Distribution.
As we know, stock price return distribution is more aligned with student t distribution than normal. Now assuming the return distribution is student t distribution, in the code, we need to change the model specification from norm to std :
Run the code above and I find when forecast horizon is equal to or less than 30:
When forecast horizon is greater than 30, no ranking pattern is observed.
The result can be seen from figure 4:
GARCH Family Models with Student Distribution.
The result verifies the model ranking doesn’t change as the forecast horizon changes as long as the horizon is not too large. It can be explained by the characteristics of each model. For example, both TARCH and eGARCH consider positive skew leverage effect, so they have almost the same loss function value. NGARCH and APARCH can explain both positive and negative skewness, which is why it has a higher loss function value than TARCH and eGARCH.
The result also verifies another empirical knowledge that, compared with other GARCH-family models, GARCH model is good enough. When we use student distribution as the model distribution, GARCH model ranks number 1. When using normal distribution, GARCH ranks number 2. This is another example that the simplest model is the most powerful model.
3.4 Case 2: Volatility with High Frequency Data (Python)
3.4.1 Theory and Concept.
Assume stock price follows geometric Brownian motion: \[ S_t = S_0 \cdot exp(\sigma W_t + (\mu - \frac )\cdot t) \]
Then stock return \(R_i = log(S_ ) - log(S_ )\) is a normal distribution. In one unit of time \(0=t_0<t_1<t_2. <t_i=1\) , the sum of squared return \(R_i\) (aka. quadratic variation of \(R_i\) ) is:
So the definition of volatility in mathematical form is: \[\begin \sigma = \sqrt ^\infty [log(S_ / S_ >)] ^2 > \label \end \]
This volatility \(\sigma\) is called true volatility . \(\sigma^2\) is called true variance .
3.4.2 Market Microstructure Effects.
High-frequency data have some unique characteristics that do not appear in lower frequencies. There are several well known phenomenon like asynchronous trading, bid-ask bounce and minimum tick rules, which are called Market Microstructure Effects in finance literatures.
Figure is generated from BITA` compounded return time series with different sampling intervals: 1 minute, 1 hour and 1 day. In the distribution subplots, the red dashed line is the corresponding normal distribution. When interval length is 1 day, the distribution is a right skewed, leptokurtic bell curve. However, as the sampling frequency increases, the skewness decreases and kurtosis increases. When interval length is 1 minute, skewness becomes negative and kurtosis reaches as high as 45.5.
Market Microstructure Effects on Log Return.
This means the data statistic property has been changed when the sampling frequency increases. In high frequency data, the observed price is not the stock’s intrinsic price any more, but a trade price heavily distorted by market microstructure effects . Suppose the logarithm of a stock intrinsic/true price is a stochastic process \(P_t\) and observed trade price is \(Q_t\) .
I use \(P_t\) to represent a stochastic process which is unknown and equal to the logarithm of a stock intrinsic or true price, and \(Q_t\) is another stochastic process which equals to the logarithm of a stock’s trade price.
Where \(\epsilon_ \) is an i. i.d. noise process with \[ \begin E[\epsilon_ ] &= 0 \\ Var[\epsilon_ ] &= E[\epsilon_ ^2] = c\\ \end \]
Noise variance \(c\) is a constant in this model. It is not necessarily normal, but should be symmetric and weak stationary. Also, \(\epsilon_ \) is independent with \(P_t\) and \(Q_t\) .
3.4.3 Realized Volatility and Volatility Proxies.
Although we have a math formula for true volatility, we can never get its precise value. First, it is a continuous calculus form equation, but in the real world, the price is always discrete. Second, market microstructure effects, as described in previous section, also distort the price, making trade price not exactly the same as stock’s intrinsic price as defined in our model. In order to make the return data close to normal distribution, which is a basic assumption in many financial models, one has to sample the trade price at sufficiently wide interval to avoid market microstructure effects, and in turn this will make the price more discrete.
So we have to introduce another concept called realized volatility . It is essentially a discrete version of true volatility defined at equation \(\eqref \) . If we split the time unit \(T\) equally into \(N\) smaller time intervals \(t\) with equal length, we have the sampling frequency \(N\) :
and realized volatility is defined as:
and the realized variance is accordingly defined as:
Please be noted here \(Q\) is observed price, not true price \(S\) .
Realized volatility (aka integrated volatility ) is a bias estimator of true volatility due to market microstructure effects. I will prove this theoretically and empirically later. Correspondingly, the square of realized volatility is called realized variance , or integrated variance , or sometimes realized quadratic variation .
Please be noted, in some literatures, realized volatility and realized variance sometimes are used interchangeably. In addition, there are two other volatilities often seen in literatures. (1.) Implied volatility is just a numeric calculated from the option price according to Black-Scholes formula, assuming all the assumptions of Black-Scholes model are correct. (2.) Historical volatility normally means the past daily volatility calculated with historical data according to parametric conditional volatility models like GARCH, EWMA, or stochastic volatility models.
Because true volatility is not known, one can use volatility proxies when specifying and evaluating volatility models. We can consider proxy as a mapping of original variable in another space through a proxy function. In statistics, proxy is used for a variable not of prime interest itself, but is closely connected to an object of interest. One uses proxy to replace latent variables of interest, so the absolute correlation of proxy variable and original variable should be close to 1. Please be noted that one can use estimator, either biased or unbiased, as a proxy, but it is probably wrong to use a proxy as an estimator.
3.4.4 Market Microstructure Effects and Volatility Proxies.
Realized variance is often used as a volatility proxy when high frequency data are available. But surprisingly, due to market microstructure effects, we may get worse result when we have higher frequency data.
For the noise process, we have \[ E[\epsilon_ ]E[\epsilon_ ] = 0 \] because \(\epsilon_ \) and \(\epsilon_ \) are independent. And then.
The expectation is: \[\begin \begin E[\hat\sigma^2] &= E[\sum\limits_ ^N [ R_ > + ( \epsilon_ > - \epsilon_ >)] ^2 ] \\ &= E[\sum\limits_ ^N [ R_ > ^2 + 2R_ >( \epsilon_ > - \epsilon_ >) +( \epsilon_ > - \epsilon_ >)^2] ] \\ &= E[\sigma^2] + 2Nc \label \end \end \] The variance is: \[\begin \begin Var[\hat\sigma^2] &= 4 N E[\epsilon ^4] + O_p(1) \label \end \end \] This proves realized variance is a biased estimator of true volatility . The higher the sampling frequency is, the bigger N is, and the bigger the bias is. When N goes to infinity, the bias and realized variance go to infinity too. Zhang proposed that, when \(N\) is large enough, \(\sigma\) will become negligible, we can get the value of c, the variance of noise process with this formula: \[\begin c = \frac \label \end \]
Once we get the value of \(c\) , we can use the same equation to get \(E[\sigma^2]\) .
But how to decide if N is large enough? I am proposing another method. Resample the raw data with two steps \(N_1\) and \(N_2\) , and get two expectation of realized variance \(\hat E_1[\hat\sigma^2]\) and \(\hat E_2[\hat\sigma^2]\) . We have: \[ \hat E_1[\hat\sigma^2] = E[\sigma^2] + 2N_1c \\ \] \[ \hat E_2[\hat\sigma^2] = E[\sigma^2] + 2N_2c \]
3.4.5 Other Volatility Proxies.
Price range is a good volatility proxy which is free from the market microstructure effects. One definition is as simple as \(PR = Q_h - Q_l\) , where \(Q_h\) is the highest trade price in one time unit, \(Q_l\) is the lowest price accordingly.
The expectation of price range is: \[ \begin E[PR] &= E[Q_h - Q_l] \\ &= E[P_h - P_l + ( \epsilon_ - \epsilon_l)]\\ &= E[P_h - P_l] \end \]
We can see it is related to spread of true price in one time unit, but has nothing to do with \(\epsilon_t\) .
Another method to construct price range using high frequency data is to sum all subinterval price spreads in one time unit. To avoid confusion, if necessary, I will use price range(H-L) for the first definition and price range(sum of H-L) for the second one. By default, price range means the first definition.
In addition, people sometimes also use absolute return as volatility proxy. It is very similar to price range, but because the log return only consider the last close price and current close prices, it will miss information between the two time points, so it has a downward bias.
3.4.6 Realized Variance and Other Volatility Proxies.
Realized variance is a biased estimator, also a proxy, of real variance. First, let’s compare it with another well known volatility proxy price range. The raw data is 15 seconds OHLC bar data of BITA from IB. I choose 5 minutes as the time unit, so according to equation \(\eqref \) , with sampling interval number \(N\) equal to 20, we can get the value of realized variance. It is noteworthy that, for price range, I use the highest price in 5 minutes minus the lowest price, not sum of high minus low in 20 15-seconds-OHLC bars.
I randomly choose one day and compare these two variance proxies. The result is figure .
Realized Variance VS. Price Range(H-L) in one day.
The upper graph is the absolute value comparison. Because the value of realized variance is so small that it becomes a straight line closely above x axis. After multiplying a scale-up factor 180.6 to every number in realized variance series, I get the lower graph. It looks much better than the upper one. It is easy to see the two time series have the same trend. There is only very minor difference between them.
Figure verifies that price range is a good proxy for stock variance and volatility. The proxy function in this case is just a multiplication to a constant 180.6.
Now, let’s add two more proxies absolute return and price range(sum of H-L) . As described in previous section, absolute return is calculated as log return of the time unit. price range(sum of H-L) is calculated by adding all high low difference in 15-seconds-OHLC bars in one time unit. In my program and graphs, I use rvar for realized variance , prange for price range (H-L) , srange for price range(sum of H-L) and absr for absolute return .
Then I choose 13 time units from 2 minutes to 1 day:
Still using 15-seconds-OHLC bar data of BITA , I calculate volatility proxy for every time unit above. After getting the results, I check the statistics characteristics to verify the model \(\eqref \) .
From and , we can get the variation coefficient \(k\) :
Suppose N is large enough, if the time unit increases by m times ( \(m>1\) ), according to volatility time square root rule , we have:
This means, if the sampling interval is fixed and N is large enough, variation coefficient \(k\) of realized variance will decrease exponentially \(O(m^ )\) as length of time unit increases.
To verify this conclusion, I check the relation of variation coefficient and time units and get figure \(\ref \) :
Market Microstructure Effects on Volatility Proxies.
We can see market microstructure effects has a big impact on realized variance . When length of time unit decreases, the variation coefficient increases dramatically. Robin and Marcel proved that smaller variance corresponds to better volatility proxy. We can see the realized variance becomes stable and close to the other proxies when the time unit increases to 1.5 Hours.
For the other three proxies, there is no obvious change of variation coefficient, which means they do not suffer from market microstructure effects. Also it is well known that measurements that are log-normally distributed exhibit stationary variation coefficient , which is \(exp(\sigma^2 -1)\) , figure \(\ref \) also implies true variance is log-normally distributed.
A good proxy should have a close correlation with the original and other good proxies too. Figure displays the correlation coefficient changes with the time units. We can see the correlation of realized variance and price range increases dramatically as length of time unit increases. This means realized variance becomes a better proxy when the unit time is large enough, say 1.5 hours.
Bias and Consistency of Volatility Proxies.
3.4.7 Daily Realized Variance and Noise Process.
In previous section, we fix the length of time interval \(t\) , increase the time unit \(T\) and find that market microstructure effects has an exponential impact on realized variance . In this section, I am going to fix the time unit \(T\) as 1 day and change the length of time interval \(t\) . I will show how market microstructure noise process affects daily realized volatility when changing sampling time interval and investigate two ways to get the variance of noise process.
Still using BITA 15 seconds OHLC bar data and equation \(\eqref \) but choosing three different time intervals 15 seconds, 10 minutes and 2 hours, I get three daily realized variance time series and display them in figure .
Daily Realized Variance at Different Sampling Intervals.
In figure , rvar_1 means sampling interval is 15 seconds, rvar_40 means 10 minutes, and rvar_480 means 2 hours. We can see the trend is almost the same, but red dots(rvar_480) are distributed closer to x axis, blue dots(rvar_1) are the farthest, and green dots(rvar_40) are in between. This means when sampling interval increases, or when sampling frequency \(N\) decrease, expectation of daily realized variance decreases accordingly. This is an expected result according to equation .
Now let’s try more different sampling intervals. I choose 7 intervals as follows:
Correspondingly, the time intervals are 15 seconds, 1 minutes, 2 minutes, 5 minutes, 10 minutes, 20 minutes and 40 minutes.
Expectation of Daily Realized Variance at Different Sampling Intervals.
The x axis represents the sampling intervals and y axis represents expectation of daily realized variance, which is asymptotically equal to sample mean. We can see as sampling interval increases, which corresponds to a smaller N, the expectation of daily realized variance decreases. This is in line with equation .
When the interval is 15 seconds, N is equal to 1560 because the trading hour is 6 hours and a half. This is the highest frequency data I can get. Assume N is large enough (1.) to ignore \(E[\sigma^2]\) in and (2.) to get population expectation \(E[\sigma^2]\) , using the method proposed by Zhang , we can get that the noise process variance \(c\) equals to 7.5347758757e-07.
Alternatively, I tried to use equation too. Assuming the first two intervals \(N_1\) (1560) and \(N_2\) (390) are large enough for population expectation \(E[\sigma^2]\) , using equation , I get the noise process variance \(c\) equal to 1.30248047255e-07.
The reason why the two results are different is 15 seconds time interval is too long.
In another words, the data frequency \(N\) is not high enough to ignore \(E[\sigma^2]\) . According to the formula:
when true variance is not negligible, if one uses , one will overestimate the denominator and then overestimate the noise process variance \(c\) .
Fortunately, equation doesn’t require N is large enough to ignore \(E[\sigma ^2]\) . Assuming equation is correct applied here, \(c\) equals to 1.30248047255e-07 when \(N = 1560\) , in turn we can get expectation of true variance : \[ \begin E[\sigma ^2] &= E[\hat \sigma ^2] - 2Nc \\ &= 0.0023508500732184 - 2* 1560 * 1.30248047255e-07 \\ &= 0.00194447616578 \end \]
Both equations and require higher frequency data. But the latter only affected by accuracy of expectation calculation. With the same frequency data, equation is better because it doesn’t require \(N\) is large enough to ignore \(E[\sigma ^2]\) .
3.4.8 Three Schemes for Realized Variance Calculation.
In previous section, although we always use equation \(\eqref \) to calculate daily realized variance, we have actually used two schemes.
Scheme 1 calculates squared return for every adjacent pair of prices sequentially in one unit of time \(T\) , and then sum all squared returns. Figure illustrates how the calculation goes on. I call it classical scheme as it is exactly from equation \(\eqref \) . In previous section, I verified classical scheme is most seriously affected by market microstructure effects because high frequency data are contaminated by the noise process. When sampling frequency is high, it demonstrates a strong upward bias, making the result totally useless. In realized variance time series calculated from this scheme, you can see many spikes, which corresponds to high variation coefficient.
Classical Scheme to Calculate Realized Variance.
Scheme 2 splits one time unit into multiple grids. Grid is a new sample interval in between \(t\) and \(T\) . Scheme 2 uses only one point of data in one grid, ignoring all other data, so I call it sparse sampling scheme . In my program to generate figure and figure , I use the first price to represent price of the new sampling time interval, and calculate rvar_40 and rvar_80 . Figure illustrates how the calculation goes on.
Sparse Sampling Scheme to Calculate Realized Variance.
According to theoretical and empirical analysis in previous section, we see that sparse sampling scheme has a better performance than classical scheme . This is very surprising as it uses much less data. In figure , if one cell represents a 15-seconds-OHLC bar, we have 1560 cells for one day. If the new sampling time interval is 1 minute, according to sparse sampling , we need to throw away 1170 = 1560/4*3 price data. But when we use the remaining 390 price data to calculate, we get a even better result. This sounds counterintuitive but can be perfectly explained by model \(\eqref \) . Please be noted there are two intervals in sparse sampling , the original interval is 15 seconds, and the new interval after sparse sampling becomes 1 minutes. To avoid confusion, I will use word grid for the latter in the future, which is how Zhang names it in the original paper.
Can we take advantage of all data and throw away only the noise part in trade price?
Here scheme 3 comes into play. It is a natural expansion of scheme 2. It uses all data but also robust to market microstructure effects. As displayed in figure , we apply the same calculation of return, like sparse sampling , for not only the first cell in that grid, but all the other data. In figure , there are four cells in one grid. So we will get four results, the final result will be the average of them. This method is proposed by Lan Zhang(2003). I call it averaging scheme because it is improved by averaging based on sparse sampling scheme .
Averaging Scheme to Calculate Realized Variance.
In theory, averaging scheme should be better than the other two. I am going to verify this as below.
Averaging Scheme vs Classical Scheme.
Still using BITA 15-seconds-OHLC data, I get a comparison of classical scheme and averaging scheme in figure :
Classical Scheme VS Averaging Scheme.
The purple dots are realized variance result from classical scheme and the green ones from averaging scheme with grid length equal to 1 hour(240*15 seconds). We can see the green dots are distributed at the bottom, closer to x axis, which corresponds to the overestimation issue of classical scheme . This proved averaging scheme is better than classical scheme .
Averaging Scheme vs Sparse Sampling Scheme.
Now let’s compare sparse sampling scheme and averaging scheme . I choose 8 grid lengths as follows.
Using two schemes to calculate daily realized variance, and then the expectation \(E[\hat \sigma^2]\) under each grid.
Display it as figure below:
Sparse Sampling Scheme VS Averaging Scheme.
We can see averaging scheme has a lower \(E[\hat \sigma^2]\) than sparse sampling scheme . This means the former suffers less from market microstructure noise, so it is better. Please be noted if grid length becomes the same as sampling time interval, sparse sampling scheme and averaging scheme are degraded to classical scheme . This is why when grid length equals to 15 seconds, the purple dot and green dot becomes the same.
We have seen averaging scheme is the best of the three schemes. We also see the grid length affects the results of averaging scheme . Let me increase grid from 15 seconds to 40 minutes and draw the realized variance time series at figure .
Averaging Scheme and Different Grid Length.
We can see the best result is the one with grid length equal to 40 minutes. We can display \(E[\hat \sigma^2]\) with grid length in figure .
Expectation of Realized Variance with Averaging Scheme and Different Grid Length.
We can see the expectation curve is a smooth convex hull. It decreases exponentially as grid Length increases. But after 20 minutes, \(E[\hat \sigma^2]\) doesn’t decrease any more. This is because if grid length is too long, we cannot use all the data any more, averaging scheme becomes more like sparse sampling scheme . For instance, when grid length is the same as time unit \(T\) , which is 1 day in our case, averaging scheme is degraded to sparse sampling scheme .
To verify this, I choose 13 grid lengths ‘30seconds’, ‘1min’, ‘2min’, ‘5min’, ‘10min’, ‘20min’, ‘40min’, ‘1H’, ‘1.25H’, ‘1.5H’, ‘1.75H’, ‘2H’, ‘2.25H’, and draw \(E[\hat \sigma^2]\) in figure .
Averaging Scheme and Different Grid Length.
Green curve is sparse sampling scheme and blue curve is averaging scheme . x axis is grid length and y axis is \(E[\hat \sigma^2]\) .
We can see, for averaging scheme , after 40mins, \(E[\hat \sigma^2]\) keep increasing in very slow speed. Also, because averaging scheme is actually an average of many equally reasonable results, it is smoother than sparse sampling scheme . After 40mins, sparse sampling scheme curve jumps up and down around averaging scheme curve. This means there is an optimal value for grid length between sampling time interval \(t\) and time unit \(T\) . In this case, it is around 40 minutes. When grid length equals to \(t\) , averaging scheme becomes classical scheme ; when it equals to \(T\) , averaging scheme becomes sparse sampling scheme .
3.4.9 True Variance and Volatility.
In previous sections, I got the variance \(c\) of noise process \(\epsilon_t\) . I also found that averaging scheme is the best way to calculate realized variance with grid length equal to 40 minutes in this case. I have reached my goal. I am ready to calculate true variance and true volatility now!
See figure for true volatility series I created using the information above.
I can also get the statistics of true variance time series. Take Logarithm of true variance and we can get the distribution at figure .
Logarithmic True Variance Distribution.
The dashed blue line is the normal distribution curve fitted with the same mean and standard deviation as above. We can see the distribution is close to normal. We know variance has properties like clustering and mean reversion, and now we know logarithm of variance is Gaussian distribution, or variance is lognormal distribution. This also supports the conclusion I get from figure that stationary variation coefficient of volatility proxies implies they are log-normally distributed.
True volatility is the square root of true variance . I checked the distribution and it is also lognormal.
Previously we use price range as a proxy of true variance . Now we can check the distribution of price range and see if it has the same distribution as true variance . Figure is the daily price range series and distribution I get from our BITA dataset.
Logarithmic Price Range Distribution.
The red dashed line is normal distribution curve fitted with corresponding mean and standard deviation. The distribution is very similar with figure . This is in line with our knowledge that price range is a good proxy for true variance .
3.4.10 Data Selection and Conclusion Generality.
To take a new nonparametric approach to calculate volatility, I need high frequency data. The data I use in this case study is BITA 15 seconds OHLC bar data from 2018-12-06 9:30AM to 2018-12-31 16:00PM . I got the data with the histData tool which I have described in section Historical Data Collection Tool - histData . There are 806,880 bars in the dataset, stored as a CSV format file named BITA_2018-12-06_2018-12-31.csv . You can download it from quant365/post/99/.
I also want to emphasize that the BITA data are picked from the database randomly. It has no special importance itself. The conclusion drawn from previous sections should also apply to other stocks.
It is noteworthy that, for two adjacent OHLC bars, close price of the first bar is not necessarily equal to open price of the second bar. When we calculate return, we have to use two bars to calculate close-to-close return. But when we calculate price range, we can use high price minus low price in the same bar.
3.5 Future Direction.
Consider relation between noise process and trading frequency in the noise process model More programming languages support Cluster for faster computing (Spark - Lightning-fast cluster computing) for Monte Carlo simulation and big matrix calculation Integration with Sentosa trading system and web platform.
4 Part IV – Sentosa Web Platform.
Initially, Sentosa web platform is a Django blog website called qblog that I developed to write trading diary, which features markdown and mathematical formula support. Later I added a sentosaapp module to monitor and debug Sentosa trading system. Finally I extended it to be able to interact with Sentosa trading system completely. It uses javascript websocket to communicate with Sentosa trading system and displays internal status at webpage using jQuery. It can also be used to send orders to Sentosa trading system.
Although this is a very important part of Sentosa, it is not directly related to any Finance knowledge so I just introduce it very briefly in one page. For more details, please check Sentosa website.
The following is the screenshot of Sentosa web platform:
Sentosa Web Platform in Backtesting Mode with Real Historical Data.
As for future development, this web platform can be extended to do online trading.
5 Reference.
Christian Brownlees, Robert Engle and Bryan Kelly, (2018), A Practical Guide to Volatility Forecasting through Calm and Storm.
Zhang, Lan, Per A. Mykland and Yacine Ait-Sahalia. “A Tale Of Two Time Scales: Determining Integrated Volatility With Noisy High-Frequency Data,” Journal of the American Statistical Association, 2005, v100(472,Dec), 1394-1411.
Alizadeh, S., Brandt, M., and Diebold, F. X. (2002). Range-based estimation of stochastic volatility models. Journal of Finance 57: 1047–1092.
Andre Christoer Andersen, Stian Mikelsen, (2018), A Novel Algorithmic Trading Framework Applying Evolution and Machine Learning for Portfolio Optimization.
Stoll, H. and Whaley, R. (1990). Stock market structure and volatility. Review of Financial Studies 3: 37–71.
Andersen, T. G. and Bollerslev, T. (1998). Answering the skeptics: Yes, standard volatility models do provide accurate forecasts. International Economic Review 39: 885–905.
Andersen, T. G., Bollerslev, T., Diebold, F. X., and Labys, P. (2001b). The distribution of realized stock return volatility. Journal of Financial Economics 61: 43–76.
Bai, X., Russell, J. R., and Tiao, G. C. (2003). Kurtosis of GARCH and stochastic volatility models with non-normal innovations. Journal of Econometrics 114: 349–360.
Barndorff-Nielsen, O. E. and Shephard, N. (2004). Power and bi-power variations with stochastic volatility and jumps (with discussion).Journal of Financial Econometrics 2: 1–48.
Bollerslev, T. (1986). Generalized autoregressive conditional heteroskedasticity. Journal of Econometrics 31: 307–327.
Bollerslev, T. and Jubinski, D. (1999). Equality trading volume and volatility: Latent information arrivals and common long-run dependencies. Journal of Business & Economic Statistics 17: 9–21.
Bollerslev, T., Chou, R. Y., and Kroner, K. F. (1992). ARCH modeling in finance. Journal of Econometrics 52: 5–59.
Cao, C. and Tsay, R. S. (1992). Nonlinear time series analysis of stock volatilities. Journal of Applied Econometrics 7: s165–s185.
Visser, Marcel P., 2008. “Forecasting S&P 500 Daily Volatility using a Proxy for Downward Price Pressure,” MPRA Paper 11100, University Library of Munich, Germany.
Robin De Vilder & Marcel P. Visser, 2007. “Proxies for daily volatility,” PSE Working Papers halshs-00588307, HAL.
John C. Hull (2018). Options, Futures, and Other Derivatives, 8th Edition.
Ruey S. Tsay (2018). Análise de séries temporárias financeiras, 2ª edição.
David Ruppert (2018). Statistics and Data Analysis for Financial Engineering, 1st Edition.
Alexios Ghalanos (2018). rugarch: Univariate GARCH models. R package version 1.3-6.
Começando: Construindo um Sistema de Negociação Totalmente Automatizado.
Nos últimos 6 meses, fiquei focado no processo de construção da pilha de tecnologia completa de um sistema de negociação automatizado. Eu encontrei muitos desafios e aprendi muito sobre os dois métodos diferentes de backtesting (Vectorizado e Evento conduzido). Na minha jornada de construção de um backtester dirigido por um evento, surpreendi que o que você acabasse fosse perto da pilha de tecnologia completa necessária para construir uma estratégia, testá-la e executar a execução ao vivo.
O meu maior problema ao abordar o problema foi a falta de conhecimento. Olhei em muitos lugares para uma introdução à construção da tecnologia ou um blog que me guiaria. Encontrei alguns recursos que vou compartilhar com você hoje.
Para iniciantes:
Para os leitores novos para negociação quantitativa, eu recomendaria o livro de Ernie P. Chan intitulado: Negociação Quantitativa: como construir seu próprio negócio de negociação algorítmica. Este livro é o básico. Na verdade, é o primeiro livro que eu li em negociação quantitativa e, mesmo assim, achei muito básico, mas há algumas notas que você deveria tomar.
Da página 81-84 Ernie escreve sobre como no nível de varejo uma arquitetura de sistema pode ser dividida em estratégias semi-automáticas e totalmente automatizadas.
Um sistema semi-automatizado é adequado se você deseja fazer alguns negócios por semana. Ernie recomenda o uso de Matlab, R ou mesmo do Excel. Utilizei todas as 3 plataformas e este é o meu conselho:
Saltei Matlab, custou muito dinheiro e eu só consegui acesso aos laboratórios universitários. Não há muito material de treinamento como blogs ou livros que irão ensinar-lhe como codificar uma estratégia usando o Matlab. R tem toneladas de recursos que você pode usar para aprender a construir uma estratégia. Meu blog favorito abordando o tópico é: QuantStratTradeR executado por Ilya Kipnis. O Microsoft Excel é provavelmente o local onde você iniciará se você não tiver experiência de programação. Você pode usar o Excel para negociação semi-automatizada, mas não vai fazer o truque quando se trata de construir a pilha de tecnologia completa.
Quadro semi-automático pg 81.
Sistemas de negociação totalmente automatizados são para quando você deseja colocar negócios automaticamente com base em um feed de dados ao vivo. Eu codifiquei o meu em C #, QuantConnect também usa C #, QuantStart anda pelo leitor através da construção dele em Python, Quantopian usa Python, HFT provavelmente usará C ++. Java também é popular.
Estrutura de negociação totalmente automatizada pg 84.
Passo 1: Obter uma vantagem.
Faça o Programa Executivo em Negociação Algorítmica oferecido pela QuantInsti. Acabei de começar o curso e o primeiro conjunto de palestras foi na arquitetura do sistema. Isso me salvaria cerca de 3 meses de pesquisa se eu tivesse começado aqui. As palestras me acompanharam por cada componente que eu precisaria, bem como uma descrição detalhada do que cada componente precisa fazer. Abaixo está uma captura de tela de uma das suas lâminas utilizadas na apresentação:
Você também pode usar esse quadro geral ao avaliar outros sistemas de negociação automática.
No momento da escrita, estou apenas na terceira semana de palestras, mas estou confiante de que um profissional poderá construir uma estratégia de negociação totalmente automatizada que, com um pouco de polonês, possa ser transformada em um hedge fund quantitativo .
Nota: o curso não está focado na construção da pilha de tecnologia.
Etapa 2: codifique um backtester baseado em eventos básicos.
O blog de Michael Hallsmore e o quantstart & amp; livro "Negociação Algorítmica de Sucesso"
Este livro possui seções dedicadas à construção de um backtester dirigido por eventos robustos. Ele dirige o leitor através de uma série de capítulos que irão explicar sua escolha de linguagem, os diferentes tipos de backtesting, a importância do backtesting dirigido a eventos e como codificar o backtester.
Michael apresenta o leitor às diferentes classes necessárias em um design orientado a objetos. Ele também ensina o leitor a construir um banco de dados mestre de valores mobiliários. É aqui que você verá como a arquitetura do sistema da QuantInsti se encaixa.
Nota: Você precisará comprar seu livro: "Successful Algorithmic Trading", seu blog deixa para fora muita informação.
Passo 3: Vire a TuringFinance.
O programa EPAT Leitura "Successful Algorithmic Trading" & amp; codificando um backtester em um idioma diferente da sua escolha.
Você deve se mudar para um blog chamado TuringFinance e ler o artigo intitulado "Algorithmic Trading System Architecture" Por: Stuart Gordon Reid. Em sua publicação, ele descreve a arquitetura seguindo as diretrizes dos padrões ISO / IEC / IEEE 42018 e padrão de descrição de arquitetura de engenharia de software.
Eu achei esta publicação muito técnica e tem algumas ótimas idéias que você deve incorporar na sua própria arquitetura.
Uma captura de tela de sua postagem.
Passo 4: Estudar sistemas de comércio aberto.
4.1) Quantopian.
Escusado será dizer que Quantopian deve ser adicionado a esta lista e estou com vergonha de dizer que não passei muito tempo usando sua plataforma (devido à minha escolha de linguagem). Quantopian tem muitas vantagens, mas as que melhoram para mim são as seguintes:
Fácil de aprender Python Acesso gratuito a muitos conjuntos de dados Uma grande comunidade e competições Eu adoro como eles hospedam QuantCon!
Quantopian é líder de mercado neste campo e é amado por quants por toda parte! Seu projeto de código aberto está sob o nome de código Zipline e isso é um pouco sobre isso:
"Zipline é o nosso motor de código aberto que alimenta o backtester no IDE. Você pode ver o repositório de códigos no Github e contribuir com solicitações de envio para o projeto. Existe um grupo do Google disponível para procurar ajuda e facilitar discussões ".
Aqui está um link para sua documentação:
4.2) QuantConnect.
Para aqueles que não estão familiarizados com a QuantConnect, eles fornecem um mecanismo de troca algorítmica de código aberto completo. Aqui está um link.
Você deve dar uma olhada em seu código, estudá-lo, & amp; dar-lhes elogios. Eles são competição de Quantopians.
Gostaria de aproveitar esta oportunidade para agradecer a equipe da QuantConnect por me deixar escolher seu cérebro e pelo brilhante serviço que eles fornecem.
Aqui está um link para sua documentação:
Observações finais:
Espero que este guia ajude os membros da comunidade. Eu queria ter essa visão 6 meses atrás, quando comecei a codificar nosso sistema.
Gostaria de chegar à comunidade e perguntar: "Quais bons cursos de negociação algorítmica você conhece?" Eu gostaria de escrever uma publicação que analisa o tópico e fornece uma classificação. Existem recomendações para a construção de um sistema de negociação totalmente automatizado que você gostaria de adicionar a esta publicação?
Compartilhar isso:
Compartilhe essa entrada.
Você pode gostar também.
Bom artigo. Eu gostaria de ter tido cerca de 6 meses atrás. Eu uso QuantConnect porque sou um programador C #. Achei muito conveniente poder fazer o download do teste Lean e back test localmente. Rummaging através do seu código também é valioso. Além disso, eles cortaram um acordo com a Trader por negócios de US $ 1. Isso ajuda muito. Não sou tão saliente sobre spreads e execução da Trader. O IB pode ser melhor para isso.
Vou dar uma olhada no curso que você mencionou.
Você não mencionou a Quantocracy ou RBloggers. Ambos são recursos muito valiosos.
O que você usa para traçar resultados de testes de volta? Eu logro os valores do OHLC e do indicador para csv do evento OnData e estou realmente cansado de usar o Excel para traçar os resultados. Gostaria de apontar um pacote de gráficos para um arquivo de dados e simplesmente ir.
Você ainda possui um fornecedor de caixas de seleção?
Tenho um pensamento sobre os sistemas dirigidos a eventos. O problema com os eventos é que eles são assíncronos e latentes. Parece que eles são inevitáveis assim que você obtém uma corretora envolvida, então eu tenho sonhado com um sistema de streaming mais seguindo os princípios da programação funcional.
& # 8211; Injeste um fluxo de tiquetaque ou barra.
& # 8211; Execute-o através de um processo de cálculo de indicadores, execução de análise ou ML, e assim por diante.
& # 8211; Retornar um sinal.
& # 8211; Envie-o para o corretor para executar.
Em seguida, em um fluxo separado.
& # 8211; Receba uma resposta do corretor.
O problema, é claro, é o estado. Tenho margem suficiente para fazer o comércio? O que está no meu portfólio? Como está funcionando? Normalmente, o corretor api pode ser consultado para descobrir essas coisas, mas leva tempo e é assíncrono. Eu também estou olhando extensões Rx. Dessa forma, o sistema pode reagir às mudanças no sistema através do padrão observável.
Os eventos são ótimos para cliques no mouse. Não é tão bom para processamento transacional de alto volume.
Esta é exatamente a abordagem que tomei com minhas próprias coisas. Essencialmente, eu tenho um & # 8216; normal & # 8217; programa que envolve uma pequena parte que é conduzida a eventos para falar com o corretor (IB API). Agora, para o problema do estado. Você tem duas escolhas; obter o estado do corretor, ou armazená-lo internamente, atualizando-o quando você receber um preenchimento. Isso significa que há momentos em que você não conhece seu estado ou quando as duas fontes de estado estão potencialmente em conflito (dados ruins ou atrasos). Parte disso depende da rapidez com que você troca. A menos que você esteja negociando com muita rapidez, então, pausando se você tiver um conflito de estado, ou você está incerto de estado, é melhor do que prosseguir sem saber o seu estado. Eu uso um banco de dados & # 8216; lock & # 8217; paradigma para lidar com isso.
Quanto a quase tudo o que você pediu, você está perto da resposta em Reactive Extension (Rx).
Com Rx indo de tiques para velas é trivial.
Passar de Velas para Indicadores é trivial.
Indicadores de composição de outros indicadores é trivial.
Escrever Posições de Indicadores é trivial.
Composição de Portfolios (como realizada ao longo do tempo) das Posições é trivial.
Simular o modelo de risco é trivial.
Back testing ou trading live é simplesmente decidir entre uma transmissão ao vivo de dados ou uma repetição simulada de dados do banco de dados.
Executar é trivial.
A implementação é possível em tudo, desde C # até F # para JavaScript para C ++ em código quase idêntico.
A otimização é feita rapidamente porque o Rx puramente funcional é massivamente paralisável ao GPU.
É certo que a otimização e a alimentação do efeito da otimização contínua de volta ao teste de back-back não é trivial, mas dado que não é trivial de qualquer maneira, eu irei deixar esse slide 😉
Puramente funcional (ou perto dela) A Rx é, na minha opinião, a única maneira de abordar a infraestrutura desse problema.
Conheço o sistema que quero negociar. Eu não quero programar ou aprender algo que alguém já conhece. Então, quem posso contratar para levar o sistema que eu quero usar e automatizá-lo. Por automatizar isso, quero dizer, eu não quero olhar para ele. Eu vou olhar os resultados uma vez por semana e os negócios serão executados sem a minha atenção. Parece estranho para mim que, em 2018, tanto esforço precisa tomar um conjunto de regras e ter essas regras executadas no meu corretor.
Eu sugeriria inscrever-se com o Quantopian e depois encontrar alguém dentro da comunidade lá para construir a estratégia para você. Eles serão capazes de construí-lo para você dentro da plataforma IB Brokers e ser totalmente automatizado.
Deixe-me dizer, porém, que acho que você deve monitorá-lo de perto, e não apenas "esqueça-o para" # 8221 ;.
Комментариев нет:
Отправить комментарий